AI teksts uz runu
Konvertējiet tekstu uz dabīgi skaņu runu ar atvērta avota AI modeļiem. Var izmantot, kontam nav nepieciešams.
Aplauzt savu tekstu SSML tagus precīzai kontrolei:
<speak><prosody rate="slow">Slow speech</prosody></speak>
Pievienot emociju marķierus, lai ietekmētu piegādi (modelis atbalsts atšķiras):
Definēt pielāgotu izrunas (vārds = izruna):
Modela detaļas
Spark TTS
Spark TTS by SparkAudio is a text-to-speech model that combines voice cloning with controllable emotion and speaking style. Using just 5 seconds of reference audio, it can clone a voice and then generate speech with different emotions, speeds, and styles while maintaining the cloned voice identity. Spark TTS uses a prompt-based control system.
| Izstrādātājs: | SparkAudio |
| Licence: | CC BY-NC-SA 4.0 |
| Ātrums | Medium |
| Kvalitāte: | |
| valodas | 2 valodas |
| VRAM | 4GB |
| Balss klonēšana | Atbalstīts |
Ieteikumi, kā gūt labākus rezultātus
- Izmantojiet pareizu punktuation dabas pauzes un intonācija
- Parakstīt numurus un saīsinājumus skaidrākai izrunai
- Pievienot komatus, lai izveidotu īsus pauzes starp frāzēm
- Izmantojiet elipsi (...) ilgākiem dramatiskiem pārtraukumiem
- Izmēģiniet Kokoro vai CosyVoice 2 par visdabīgākajiem rezultātiem
- Lietot Dia vairāku skaļruņu dialogam un podcast saturam
Rakstzīmju lietošana
| Līmeņrādis | Izmaksas par 1K rakstzīmēm |
|---|---|
| Bezmaksas | 0 kredīti (neierobežoti) |
| Standarta | 2 kredīti / 1K rakstzīmes |
| Prēmija | 4 kredīti / 1K rakstzīmes |
Kā darbojas AI teksts uz runu
Radīt profesionālās kvalitātes balsis trīs vienkāršos soļos. Tehnikas zināšanas nav nepieciešamas.
Ievadiet savu tekstu
Ierakstīt, ielīmēt vai augšupielādēt tekstu, kuru vēlaties pārvērst runā. Atbalsta līdz 5000 rakstzīmju katrai paaudzei pieslēdzoties lietotājiem. Izmantojiet vienkāršu tekstu vai pievienojiet SSML tagus izrunas, pauzes un uzsvara uzlabotai kontrolei.
Izvēlieties modeļu un balss
Izvēlieties no 20+ AI modeļiem trīs līmeņos. Izvēlieties balsi, kas atbilst jūsu saturam, izvēlieties mērķa valodu, pielāgojiet atskaņošanas ātrumu no 0,5x līdz 2,0x un izvēlieties vēlamo izvades formātu (MP3, WAV, OGG vai FLAC).
Ģenerēt & lejupielādi
Noklikšķiniet Ģenerēt un jūsu audio ir gatavs sekundēs. Priekšskatījums ar iebūvēto atskaņotāju, lejupielādēt savā izvēlētajā formātā, vai kopēt kopīgojamu saiti. Izmantojiet API partijas apstrādei un integrācijai savā darbplūsmā.
Teksts runāšanai
AI-motorā tekstu-to-speech pārveido to, kā cilvēki rada, patērē un mijiedarbojas ar audio saturu daudzās nozarēs.
Viss teksts uz runas modeļiem
Katra TTS.ai pieejamā AI modeļa detalizētas specifikācijas. Salīdziniet kvalitāti, ātrumu, valodas atbalstu un funkcijas, lai atrastu perfektu modeli jūsu projektam.
Kokoro
Free
Kokoro ir 82 miljoni parametru tekstu-to-speech modelis, kas perforē krietni virs tā svara klases. Neskatoties uz tā sīko izmēru, tas rada ārkārtīgi dabas un izteiksmīgu runu. Kokoro atbalsta vairākas valodas, tostarp angļu, japāņu, ķīniešu un korejiešu ar dažādu izteiksmīgu balsi. Tas darbojas neticami ātri — radot audio gandrīz 100x ātrāk nekā reālā laikā GPU.
Hexgrad
Apache 2.0
Fast
en, ja, zh, ko, fr, de, it, pt, es, hi, ru
1.5GB
Nē
Bezmaksas
Piper
Free
Piper ir viegla teksta-to-speech motors, kas izstrādāts Rhasspy kas izmanto VITS un balsenes arhitektūras. Tas darbojas pilnīgi uz CPU, padarot to ideāli piemērots malas ierīcēm, mājas automatizācijas, un lietojumprogrammas, kas prasa bezsaistes TTS. Ar vairāk nekā 100 balsis 30+ valodās, Piper piedāvā dabas skaņas runu reāllaikā pat uz Aveņu Pi 4.
Rhasspy
MIT
Fast
en, de, fr, es, it, pt, nl, pl, ru, zh, ja, ko, ar, cs, da, fi, el, hu, is, ka, kk, ne, no, ro, sk, sr, sv, sw, tr, uk, vi
0 (CPU only)
Nē
Bezmaksas
VITS
Free
VITS (Variational Induction with conversarial learning for end-to-end Text-to-Speech) ir paralēla visdažādākā TTS metode, kas rada vairāk dabas skaņas nekā pašreizējie divpakāpju modeļi. Tā pieņem dažādus secinājumus, kas papildināti ar normalizēšanu plūsmas un sacīkstes apmācību procesu, panākot ievērojamu dabas uzlabojumu.
Jaehyeon Kim et al.
MIT
Fast
en, zh, ja, ko
1GB
Nē
Bezmaksas
MeloTTS
Free
MeloTTS by MyShell.ai ir daudzvalodu TTS bibliotēka, kas atbalsta angļu (Amerikāņu, Britu, Indijas, Austrālijas), spāņu, franču, ķīniešu, japāņu, un korejiešu. Tas ir ļoti ātri, apstrādājot tekstu gandrīz reālā laikā ātrumu CPU vien. MeloTTS ir paredzēta ražošanas izmantošanu un atbalsta gan CPU un GPU inference.
MyShell.ai
MIT
Fast
en, es, fr, zh, ja, ko
0.5GB (GPU optional)
Nē
Bezmaksas
Bark
Standard
Bark by Suno ir transformatoru balstīta teksta-to-audio modelis, kas var radīt ļoti reālistisku, daudzvalodu runu, kā arī citas audio, piemēram, mūzika, fona troksnis, un skaņas efekti. Tas var ražot nonverbal komunikāciju, piemēram, smieties, dusmīgs, un raudāt. Barks atbalsta vairāk nekā 100 skaļrunis presets un 13+ valodas.
Suno
MIT
Slow
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
5GB
Nē
2x
Bark Small
Standard
Bark Small ir destilēta versija no Bark modeļa, kas tirgo dažas audio kvalitāti ievērojami ātrāka inferences ātrumu un zemākas atmiņas prasības. Tas saglabā Bark spēju radīt runu ar emocijām, smiekliem un vairākām valodām.
Suno
MIT
Medium
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
2GB
Nē
2x
CosyVoice 2
Standard
Mājīgs Voice 2 — Alibaba's Tongyi Lab — sasniedz cilvēka pielīdzināmu runas kvalitāti ar ļoti zemu latenci, padarot to ideāli piemērotu reālā laika lietojumiem. Tā izmanto galēju zvīņveida kvantitatīvās noteikšanas pieeju straumēšanai un atbalsta nulles staru balss klonēšanu, multilingvālu sintēzi un smalku emociju kontroli. Tā pārsniedz daudzas komerciālas TTS sistēmas subjektīvos novērtējumos.
Alibaba (Tongyi Lab)
Apache 2.0
Medium
en, zh, ja, ko, fr, de, it, es
4GB
Jā
2x
Dia TTS
Standard
Dia by Nari Labs ir 1.6B parametrs teksta-to-speech modelis, kas īpaši paredzēts daudzsarunātāju dialoga radīšanai. Tas var radīt dabiskas sarunas starp diviem runātājiem ar atbilstošu pagrieziena, prozodi un emocionālo izteiksmi. Dia ir ideāli piemērots podcast stila satura, audiogrāmatu dialogu un interaktīvu sarunu AI radīšanai.
Nari Labs
Apache 2.0
Medium
en
4GB
Nē
2x
Parler TTS
Standard
Parler TTS ir teksta-to-speech modelis, kas izmanto dabas valodas balss aprakstus, lai kontrolētu ģenerēto runu. Tā vietā, lai izvēlētos no iepriekš iestatītām balsīm, jūs aprakstāt, kādu balsi vēlaties (piemēram, "silta sieviešu balss ar nelielu britu akcentu, runājot lēni un skaidri"), un Parler ģenerē runas, kas atbilst šim aprakstam. Tas padara to unikāli elastīgu radošajiem lietojumiem.
Hugging Face
Apache 2.0
Medium
en
4GB
Nē
2x
GLM-TTS
Standard
GLM-TTS by Zhipu AI ir teksta-to-speech sistēma, kas veidota uz Llama arhitektūras ar plūsmu saskaņošanas. Tā sasniedz zemāko rakstzīmju kļūdu līmeni starp atvērtā avota TTS modeļiem, kas nozīmē, ka tā ražo visprecīzāko izrunu. GLM-TTS atbalsta angļu un ķīniešu valodu ar balss klonēšanu no 3-10 sekundēm audio paraugiem.
Zhipu AI
GLM-4 License
Medium
en, zh
4GB
Jā
2x
IndexTTS-2
Standard
IndexTTS-2 ir uzlabota tekstu-to-speech sistēma, kas exceling pie nulles-shot balss sintēzi ar smalki graudainu emociju kontroli. Tā var radīt runu ar konkrētiem emocionāliem toņiem, piemēram, laimīgu, skumju, dusmīgu vai baiļu, nepieprasot emocionālus mācību datus. Modelis izmanto emociju vektorus, lai precīzi kontrolētu emocionālo izteiksmi ģenerētās runas.
Index Team
Bilibili Model License
Medium
en, zh
4GB
Jā
2x
Spark TTS
Standard
SparkAudio Spark TTS ir teksta-to-speech modelis, kas apvieno balss klonēšanu ar kontrolējamu emociju un runas stilu. Izmantojot tikai 5 sekundes atsauces audio, tas var klonēt balsi un pēc tam radīt runu ar dažādām emocijām, ātrumu un stilu, vienlaikus saglabājot klonēto balss identitāti. Spark TTS izmanto ātru vadības sistēmu.
SparkAudio
CC BY-NC-SA 4.0
Medium
en, zh
4GB
Jā
2x
GPT-SoVITS
Standard
GPT-SoVITS apvieno GPT stila valodas modelēšanu ar SoVITS (Singing Voice Induction through Translation and Sinthesis) jaudīgai mazshot balss klonēšanai. Ar 5 sekunžu atsauces audio, tas var precīzi klonēt balsi un radīt jaunu runu, vienlaikus saglabājot runātāja unikālās īpašības. Tas ir izcils gan runājot, gan dziedot balss sintēzi.
RVC-Boss
MIT
Slow
en, zh, ja, ko
6GB
Jā
2x
Orpheus
Standard
Orpheus ir plaša mēroga tekstu-to-speech modelis, kas sasniedz cilvēka līmeņa emocionālo izteiksmi. Pārmācīts vairāk nekā 100,000 stundas dažādu runas datu, tas ir izcils, radot runu ar dabīgām emocijām, uzsvaru un runas stilu. Orpheus var radīt runu, kas ir praktiski neatšķirami no cilvēka ierakstu.
Canopy Labs
Llama 3.2 Community
Medium
en
4GB
Nē
2x
Chatterbox
Premium
Šautkaste ar Resemble AI ir modernākais nulles-shot balss klonēšanas modelis. Tā var atdarināt jebkuru balsi no viena audio parauga ar ievērojamu precizitāti, fiksējot ne tikai timbre, bet arī runas stilu un emocionālās nianses. Šautkastē ir arī smalki graudaina emociju kontrole, kas ļauj pielāgot ģenerētās runas emocionālo toni neatkarīgi no balss identitātes.
Resemble AI
MIT
Medium
en
4GB
Jā
4x
Tortoise TTS
Premium
Tortoise TTS ir autoregulējoša daudzbalsu sistēma, kas nosaka skaņas kvalitāti virs ātruma. Tā izmanto DALL-E-iedvesmo arhitektūru, lai radītu ļoti dabīgu runu ar lielisku prozodi un skaļruņu līdzību. Lai gan lēnāka nekā daudzas alternatīvas, Tortoise rada dažas no reālākajām sintētiskajām runām, kas pieejamas atvērtā avota ekosistēmā.
James Betker
Apache 2.0
Slow
en
8GB
Jā
4x
StyleTTS 2
Premium
StyleTTS 2 nodrošina cilvēka līmeņa TTS sintēzi, apvienojot stila difūziju ar sacīkstēm, izmantojot lielus runas valodas modeļus. Tas rada visdabiskāko skaņu runa starp viensarunātāja modeļiem, konkurējot ar cilvēka ierakstiem. StyleTTS 2 izmanto difūzijas stila modelēšanu, lai attēlotu pilnu cilvēka runas variāciju.
Columbia University
MIT
Medium
en
4GB
Nē
4x
OpenVoice
Premium
OpenVoice by MyShell.ai ļauj uzreiz veikt balss klonēšanu ar granulu kontroli pār balss stilu, emocijām, akcentu, ritmu, pauzes un intonāciju. Tā var klonēt balsi no īsa audio klipa un radīt runu vairākās valodās, vienlaikus saglabājot skaļruni. OpenVoice arī darbojas kā balss pārveidotājs, kas ļauj reāllaikā pārveidot balsi.
MyShell.ai / MIT
MIT
Medium
en, zh, ja, ko, fr, de, es, it
4GB
Jā
4x
Qwen3 TTS
Standard
Qwen3-TTS ir 1,7 miljardi parametru teksta-no-speech modeļa no Alibaba Qwen komandas. Tas atbalsta trīs režīmus: iepriekš iestatītas balsis ar emociju kontroli (9 skaļruņi), balss klonēšana no tikai 3 sekundēm audio un unikāls balss dizaina režīms, kurā Jūs raksturojat balss, kuru vēlaties dabīgā valodā. Tas aptver 10 valodas ar augstu izteiksmību un dabisku prozodiju.
Alibaba (Qwen)
Apache 2.0
Medium
en, zh, ja, ko, de, fr, ru, pt, es, it
7GB
Jā
2x
Sesame CSM
Premium
Sezama CSM (Sarunu CSM) ir 1 miljarda parametru modelis, kas īpaši paredzēts saruna runas ģenerēšanai. Tas modelē cilvēka saruna dabiskos modeļus, tostarp apgriezienu laiku, muguras kanāla atbildes, emocionālās reakcijas un saruna plūsmu. CSM rada audio, kas izklausās pēc dabiskas cilvēka saruna, nevis sintētiskas runas.
Sesame
Apache 2.0
Slow
en
8GB
Nē
4x
Chatterbox Turbo
Standard
Čatterbox Turbo by Resemble AI ir 350M parametru jauninājums uz čatterbox, kas nodrošina līdz pat 6x reālā laika ātrumu ar sub-200m latentumu. Tas atbalsta paralingustiskos tagus, piemēram, [smejas], [smejas] un [čuksts] tieši tekstā. Ietver Perth ūdensmarķēšanu uz visiem ģenerēto audio izcelsmes izsekošanas.
Resemble AI
MIT
Fast
en
2GB
Jā
2x
Zonos
Standard
Zonos v0.1 by Zyphra ir 1.6B parametra modelis, kas piedāvā smalku emociju kontroli ar slīdekļiem laimei, dusmām, skumjām, bailēm un pārsteigumam. Tas piedāvā gan Transformatoru, gan jaunu SSM (state-space model) variantu. Apmācīts 200K+ stundas daudzvalodu runas ar nulles-shot balss klonēšanu no 10-30 sekundēm atsauces audio.
Zyphra
Apache 2.0
Medium
en, ja, zh, fr, de
6GB
Jā
2x
Dia 2
Standard
Dia2 by Nari Labs ir straumējoša pirmā Dia jauninājums, kas pieejams 1B un 2B parametru variantos. Tas sāk sintezēt audio no pirmajiem žetoniem, padarot to ideāli piemērotu reāllaika balss aģentiem un runas cauruļvadiem. Atbalsts vairāku skaļruņu dialogam ar [S1]/[S2] tagiem un paralingvistiskām cues, piemēram (smejas), (coughs).
Nari Labs
Apache 2.0
Fast
en
4GB
Nē
2x
VoxCPM
Standard
OpenBMB VoxCPM 1.5 ir bezatbildīgs TTS modelis, kas darbojas vienlaidu telpā, nevis diskrētos žetonos. Tas rada augstas uzticamības 44,1kHz audio, atbalsta nulles attēla balss klonēšanu no 3-10 sekundēm un uztur konsekvenci visos punktos. Kross-language klonēšana ļauj piemērot angļu balsi ķīniešu runai un otrādi.
OpenBMB
Apache 2.0
Fast
en, zh
4GB
Jā
2x
OuteTTS
Free
OuteTTS paplašina lielu valodu modeļus ar teksta-to-speech iespējām, vienlaikus saglabājot sākotnējo arhitektūru. Tā atbalsta vairākas aizmugures, tostarp lama.cpp (CPU/GPU), Hagging Face Transformers, ExLlamaV2, VLLM, un pat pārlūkprogrammas ievadi, izmantojot Transformers.js. Funkcijas nulles-shot balss klonēšana caur skaļruņu profiliem saglabāts kā JSON.
OuteAI
Apache 2.0
Fast
en
2GB
Jā
Bezmaksas
TADA
Standard
TADA (Tekst-Akustiskā dubultā izlīdzināšana) ar Hume AI ir novatorisks TTS modelis, kas novērš halucinācijas, izmantojot jaunu dubultās pielīdzināšanas arhitektūru, kas veidota uz Llamas 3.2. Pieejama 1B (angļu) un 3B (daudzvalodīga) modeļos, TADA sasniedz RTF no 0,09 — 5x ātrāk nekā uz LLM balstītus TTS modeļus. Tā atbalsta līdz pat 700 sekunžu audio kontekstu un rada emocionālu izteiksmīgu runu ar nulli halucinācijām par standarta etaloniem.
Hume AI
MIT
Fast
en
5GB
Nē
2x
VibeVoice
Standard
VibeVoice by Microsoft nāk divos variantos: 1.5B modelis garo formu saturu (līdz 90 minūtēm, 4 skaļruņi) un Realtime 0.5B modelis straumēšanai ar ~200ms pirmo audio latency. 1.5B variants excels pie podcasts un audiobooks ar skaļruni konsekvence garo eju. Piezīme: Microsoft izņemts TTS kods no repozitorija un ģenerēts audio ietver dzirdamu AI atrunas.
Microsoft
MIT
Fast
en, zh
4GB
Nē
2x
Pocket TTS
Free
Pocket TTS by Kyutai (Moshi veidotāji) ir kompakts 100M parametra teksta-to-speech modelis, kas perforē krietni virs sava svara. Tas darbojas efektīvi ar CPU, atbalsta nulles staru balss klonēšanu no viena audio parauga un rada dabisku runu. Mazā modeļa izmērs padara to ideālu malu izvietošanai un zema avota vidē.
Kyutai
MIT
Fast
en, fr
1GB
Jā
Bezmaksas
Kitten TTS
Free
Kitten TTS by KittenML is an ultra-lightweight text-to-speech model built on ONNX. With variants from 15M to 80M parameters (25-80 MB on disk), it delivers high-quality voice synthesis on CPU without requiring a GPU. Features 8 built-in voices, adjustable speech speed, and built-in text preprocessing for numbers, currencies, and units. Ideal for edge deployment and low-latency applications.
KittenML
Apache 2.0
Fast
en
0GB
Nē
Bezmaksas
CosyVoice3
Standard
CosyVoice3 is the latest evolution from Alibaba's FunAudioLLM team. It features bi-streaming inference with ~150ms latency, instruction-based control for emotion/speed/volume, and improved speaker similarity for zero-shot cloning. Supports 9 languages plus 18 Chinese dialects. RL-tuned variant delivers state-of-the-art prosody.
Alibaba (FunAudioLLM)
Apache 2.0
Fast
en, zh, ja, ko, de, es, fr, it, ru
4GB
Jā
2x
MOSS-TTS
Premium
MOSS-TTS from OpenMOSS supports generation of up to 1 hour of continuous speech across 20 languages. Features token-level duration control, phoneme-level pronunciation control via IPA/Pinyin, and code-switching between languages. The 8B production model delivers state-of-the-art quality with zero-shot voice cloning from reference audio.
OpenMOSS
Apache 2.0
Medium
en, zh, de, es, fr, ja, it, hu, ko, ru, fa, ar, pl, pt, cs, da, sv, el, tr
16GB
Jā
4x
MegaTTS3
Premium
MegaTTS3 from ByteDance uses a novel sparse alignment mechanism combined with a latent diffusion transformer. Features adjustable trade-off between speech intelligibility and speaker similarity for zero-shot voice cloning.
ByteDance
Apache 2.0
Slow
en, zh
8GB
Jā
4x
Kokoro
Bezmaksas
Kokoro is an 82 million parameter text-to-speech model that punches well above its weight class. Despite its tiny size, it produces remarkably natural and expressive speech. Kokoro supports multiple languages including English, Japanese, Chinese, and Korean with a variety of expressive voices. It runs incredibly fast — generating audio nearly 100x faster than real-time on a GPU.
Hexgrad
Apache 2.0
Fast
Piper
Bezmaksas
Piper is a lightweight text-to-speech engine developed by Rhasspy that uses VITS and larynx architectures. It runs entirely on CPU, making it ideal for edge devices, home automation, and applications requiring offline TTS. With over 100 voices across 30+ languages, Piper delivers natural-sounding speech at real-time speeds even on a Raspberry Pi 4.
Rhasspy
MIT
Fast
VITS
Bezmaksas
VITS (Variational Inference with adversarial learning for end-to-end Text-to-Speech) is a parallel end-to-end TTS method that generates more natural sounding audio than current two-stage models. It adopts variational inference augmented with normalizing flows and an adversarial training process, achieving a significant improvement in naturalness.
Jaehyeon Kim et al.
MIT
Fast
MeloTTS
Bezmaksas
MeloTTS by MyShell.ai is a multilingual TTS library supporting English (American, British, Indian, Australian), Spanish, French, Chinese, Japanese, and Korean. It is extremely fast, processing text at near real-time speed on CPU alone. MeloTTS is designed for production use and supports both CPU and GPU inference.
MyShell.ai
MIT
Fast
OuteTTS
Bezmaksas
OuteTTS extends large language models with text-to-speech capabilities while preserving the original architecture. It supports multiple backends including llama.cpp (CPU/GPU), Hugging Face Transformers, ExLlamaV2, VLLM, and even browser inference via Transformers.js. Features zero-shot voice cloning through speaker profiles saved as JSON.
OuteAI
Apache 2.0
Fast
Pocket TTS
Bezmaksas
Pocket TTS by Kyutai (creators of Moshi) is a compact 100M parameter text-to-speech model that punches well above its weight. It runs efficiently on CPU, supports zero-shot voice cloning from a single audio sample, and produces natural-sounding speech. The small model size makes it ideal for edge deployment and low-resource environments.
Kyutai
MIT
Fast
Kitten TTS
Bezmaksas
Kitten TTS by KittenML is an ultra-lightweight text-to-speech model built on ONNX. With variants from 15M to 80M parameters (25-80 MB on disk), it delivers high-quality voice synthesis on CPU without requiring a GPU. Features 8 built-in voices, adjustable speech speed, and built-in text preprocessing for numbers, currencies, and units. Ideal for edge deployment and low-latency applications.
KittenML
Apache 2.0
Fast
Bark
Standarta
Bark by Suno is a transformer-based text-to-audio model that can generate highly realistic, multilingual speech as well as other audio like music, background noise, and sound effects. It can produce nonverbal communications like laughing, sighing, and crying. Bark supports over 100 speaker presets and 13+ languages.
Suno
MIT
Slow
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
Nē
Bark Small
Standarta
Bark Small is a distilled version of the Bark model that trades some audio quality for significantly faster inference speeds and lower memory requirements. It retains Bark's ability to generate speech with emotions, laughter, and multiple languages.
Suno
MIT
Medium
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
Nē
CosyVoice 2
Standarta
CosyVoice 2 by Alibaba's Tongyi Lab achieves human-comparable speech quality with extremely low latency, making it ideal for real-time applications. It uses a finite scalar quantization approach for streaming synthesis and supports zero-shot voice cloning, cross-lingual synthesis, and fine-grained emotion control. It outperforms many commercial TTS systems in subjective evaluations.
Alibaba (Tongyi Lab)
Apache 2.0
Medium
en, zh, ja, ko, fr, de, it, es
Jā
Dia TTS
Standarta
Dia by Nari Labs is a 1.6B parameter text-to-speech model designed specifically for generating multi-speaker dialogue. It can produce natural-sounding conversations between two speakers with appropriate turn-taking, prosody, and emotional expression. Dia is perfect for creating podcast-style content, audiobook dialogues, and interactive conversational AI.
Nari Labs
Apache 2.0
Medium
en
Nē
Parler TTS
Standarta
Parler TTS is a text-to-speech model that uses natural language voice descriptions to control the generated speech. Instead of selecting from preset voices, you describe the voice you want (e.g., "a warm female voice with a slight British accent, speaking slowly and clearly") and Parler generates speech matching that description. This makes it uniquely flexible for creative applications.
Hugging Face
Apache 2.0
Medium
en
Nē
GLM-TTS
Standarta
GLM-TTS by Zhipu AI is a text-to-speech system built on the Llama architecture with flow matching. It achieves the lowest character error rate among open-source TTS models, meaning it produces the most accurate pronunciation. GLM-TTS supports English and Chinese with voice cloning from 3-10 second audio samples.
Zhipu AI
GLM-4 License
Medium
en, zh
Jā
IndexTTS-2
Standarta
IndexTTS-2 is an advanced text-to-speech system that excels at zero-shot voice synthesis with fine-grained emotion control. It can generate speech with specific emotional tones like happy, sad, angry, or fearful without requiring emotion-specific training data. The model uses emotion vectors to precisely control the emotional expression of generated speech.
Index Team
Bilibili Model License
Medium
en, zh
Jā
Spark TTS
Standarta
Spark TTS by SparkAudio is a text-to-speech model that combines voice cloning with controllable emotion and speaking style. Using just 5 seconds of reference audio, it can clone a voice and then generate speech with different emotions, speeds, and styles while maintaining the cloned voice identity. Spark TTS uses a prompt-based control system.
SparkAudio
CC BY-NC-SA 4.0
Medium
en, zh
Jā
GPT-SoVITS
Standarta
GPT-SoVITS combines GPT-style language modeling with SoVITS (Singing Voice Inference via Translation and Synthesis) for powerful few-shot voice cloning. With as little as 5 seconds of reference audio, it can accurately clone a voice and generate new speech while preserving the speaker's unique characteristics. It excels at both speaking and singing voice synthesis.
RVC-Boss
MIT
Slow
en, zh, ja, ko
Jā
Orpheus
Standarta
Orpheus is a large-scale text-to-speech model that achieves human-level emotional expression. Trained on over 100,000 hours of diverse speech data, it excels at generating speech with natural emotions, emphasis, and speaking styles. Orpheus can produce speech that is virtually indistinguishable from human recordings.
Canopy Labs
Llama 3.2 Community
Medium
en
Nē
Qwen3 TTS
Standarta
Qwen3-TTS is a 1.7 billion parameter text-to-speech model from Alibaba's Qwen team. It supports three modes: preset voices with emotion control (9 speakers), voice cloning from just 3 seconds of audio, and a unique voice design mode where you describe the voice you want in natural language. It covers 10 languages with high expressiveness and natural prosody.
Alibaba (Qwen)
Apache 2.0
Medium
en, zh, ja, ko, de, fr, ru, pt, es, it
Jā
Chatterbox Turbo
Standarta
Chatterbox Turbo by Resemble AI is a 350M parameter upgrade to Chatterbox, delivering up to 6x real-time speed with sub-200ms latency. It supports paralinguistic tags like [laugh], [cough], and [chuckle] directly in text. Includes Perth watermarking on all generated audio for provenance tracking.
Resemble AI
MIT
Fast
en
Jā
Zonos
Standarta
Zonos v0.1 by Zyphra is a 1.6B parameter model featuring fine-grained emotion control with sliders for happiness, anger, sadness, fear, and surprise. It offers both a Transformer and a novel SSM (state-space model) variant. Trained on 200K+ hours of multilingual speech with zero-shot voice cloning from 10-30 seconds of reference audio.
Zyphra
Apache 2.0
Medium
en, ja, zh, fr, de
Jā
Dia 2
Standarta
Dia2 by Nari Labs is a streaming-first upgrade to Dia, available in 1B and 2B parameter variants. It begins synthesizing audio from the first few tokens, making it ideal for real-time voice agents and speech-to-speech pipelines. Supports multi-speaker dialogue with [S1]/[S2] tags and paralinguistic cues like (laughs), (coughs).
Nari Labs
Apache 2.0
Fast
en
Nē
VoxCPM
Standarta
VoxCPM 1.5 by OpenBMB is a novel tokenizer-free TTS model that operates in continuous space rather than discrete tokens. It produces high-fidelity 44.1kHz audio, supports zero-shot voice cloning from 3-10 seconds, and maintains consistency across paragraphs. Cross-language cloning lets you apply an English voice to Chinese speech and vice versa.
OpenBMB
Apache 2.0
Fast
en, zh
Jā
TADA
Standarta
TADA (Text-Acoustic Dual Alignment) by Hume AI is a groundbreaking TTS model that eliminates hallucinations through a novel dual alignment architecture built on Llama 3.2. Available in 1B (English) and 3B (multilingual) variants, TADA achieves an RTF of 0.09 — 5x faster than comparable LLM-based TTS models. It supports up to 700 seconds of audio context and produces emotionally expressive speech with zero hallucinations on standard benchmarks.
Hume AI
MIT
Fast
en
Nē
VibeVoice
Standarta
VibeVoice from Microsoft generates long-form speech up to 90 minutes with support for 4 simultaneous speakers, making it ideal for podcasts and dialogues. The Realtime 0.5B variant achieves ~300ms latency for interactive use. Supports speaker tags for multi-turn dialogue generation.
Microsoft
MIT
Fast
en, zh
Nē
CosyVoice3
Standarta
CosyVoice3 is the latest evolution from Alibaba's FunAudioLLM team. It features bi-streaming inference with ~150ms latency, instruction-based control for emotion/speed/volume, and improved speaker similarity for zero-shot cloning. Supports 9 languages plus 18 Chinese dialects. RL-tuned variant delivers state-of-the-art prosody.
Alibaba (FunAudioLLM)
Apache 2.0
Fast
en, zh, ja, ko, de, es, fr, it, ru
Jā
Paraugu salīdzināšanas tabula
| Paraugs | Izstrādātājs: | Līmeņrādis | Kvalitāte: | Ātrums | valodas | Balss klonēšana | VRAM | Licence: | kredīti | |
|---|---|---|---|---|---|---|---|---|---|---|
| Kokoro | Hexgrad | Free | Fast | 11 | 1.5GB | Apache 2.0 | Bezmaksas | Lietot | ||
| Piper | Rhasspy | Free | Fast | 31 | 0 (CPU only) | MIT | Bezmaksas | Lietot | ||
| VITS | Jaehyeon Kim et al. | Free | Fast | 4 | 1GB | MIT | Bezmaksas | Lietot | ||
| MeloTTS | MyShell.ai | Free | Fast | 6 | 0.5GB (GPU optional) | MIT | Bezmaksas | Lietot | ||
| Bark | Suno | Standard | Slow | 13 | 5GB | MIT | 2 | Lietot | ||
| Bark Small | Suno | Standard | Medium | 13 | 2GB | MIT | 2 | Lietot | ||
| CosyVoice 2 | Alibaba (Tongyi Lab) | Standard | Medium | 8 | 4GB | Apache 2.0 | 2 | Lietot | ||
| Dia TTS | Nari Labs | Standard | Medium | 1 | 4GB | Apache 2.0 | 2 | Lietot | ||
| Parler TTS | Hugging Face | Standard | Medium | 1 | 4GB | Apache 2.0 | 2 | Lietot | ||
| GLM-TTS | Zhipu AI | Standard | Medium | 2 | 4GB | GLM-4 License | 2 | Lietot | ||
| IndexTTS-2 | Index Team | Standard | Medium | 2 | 4GB | Bilibili Model License | 2 | Lietot | ||
| Spark TTS | SparkAudio | Standard | Medium | 2 | 4GB | CC BY-NC-SA 4.0 | 2 | Lietot | ||
| GPT-SoVITS | RVC-Boss | Standard | Slow | 4 | 6GB | MIT | 2 | Lietot | ||
| Orpheus | Canopy Labs | Standard | Medium | 1 | 4GB | Llama 3.2 Community | 2 | Lietot | ||
| Chatterbox | Resemble AI | Premium | Medium | 1 | 4GB | MIT | 4 | Lietot | ||
| Tortoise TTS | James Betker | Premium | Slow | 1 | 8GB | Apache 2.0 | 4 | Lietot | ||
| StyleTTS 2 | Columbia University | Premium | Medium | 1 | 4GB | MIT | 4 | Lietot | ||
| OpenVoice | MyShell.ai / MIT | Premium | Medium | 8 | 4GB | MIT | 4 | Lietot | ||
| Qwen3 TTS | Alibaba (Qwen) | Standard | Medium | 10 | 7GB | Apache 2.0 | 2 | Lietot | ||
| Sesame CSM | Sesame | Premium | Slow | 1 | 8GB | Apache 2.0 | 4 | Lietot | ||
| Chatterbox Turbo | Resemble AI | Standard | Fast | 1 | 2GB | MIT | 2 | Lietot | ||
| Zonos | Zyphra | Standard | Medium | 5 | 6GB | Apache 2.0 | 2 | Lietot | ||
| Dia 2 | Nari Labs | Standard | Fast | 1 | 4GB | Apache 2.0 | 2 | Lietot | ||
| VoxCPM | OpenBMB | Standard | Fast | 2 | 4GB | Apache 2.0 | 2 | Lietot | ||
| OuteTTS | OuteAI | Free | Fast | 1 | 2GB | Apache 2.0 | Bezmaksas | Lietot | ||
| TADA | Hume AI | Standard | Fast | 1 | 5GB | MIT | 2 | Lietot | ||
| VibeVoice | Microsoft | Standard | Fast | 2 | 4GB | MIT | 2 | Lietot | ||
| Pocket TTS | Kyutai | Free | Fast | 2 | 1GB | MIT | Bezmaksas | Lietot | ||
| Kitten TTS | KittenML | Free | Fast | 1 | 0GB | Apache 2.0 | Bezmaksas | Lietot | ||
| CosyVoice3 | Alibaba (FunAudioLLM) | Standard | Fast | 9 | 4GB | Apache 2.0 | 2 | Lietot | ||
| MOSS-TTS | OpenMOSS | Premium | Medium | 19 | 16GB | Apache 2.0 | 4 | Lietot | ||
| MegaTTS3 | ByteDance | Premium | Slow | 2 | 8GB | Apache 2.0 | 4 | Lietot |
Visaptverošākais AI teksts uz runas platformu
Kāpēc lietot TTS.ai vārdu, lai runātu?
TTS.ai apvieno pasaules labāko atvērtā avota tekstu-to-speech modeļus vienā, viegli lietojamā platformā. Atšķirībā no patentētiem pakalpojumiem, kas bloķē jums vienā balss dzinējs, TTS.ai dod jums piekļuvi 20+ modeļiem no vadošajām pētniecības laboratorijām, tostarp Coqui, Myshell, Amphion, NVIDIA, Suno, HuggingFace, Tsinghua University, un vairāk.
Katrs modelis ir atvērts avots saskaņā ar MIT, Apache 2.0 vai līdzīgām atļautām licencēm, nodrošinot jums visas komerciālās tiesības izmantot radīto audio jūsu projektos. Neatkarīgi no tā, vai jums ir nepieciešama ātra, viegla sintēze reālā laika lietojumprogrammām vai premium studijas-kvalitātes izlaide audiogrāmatām un podcasts, TTS.ai ir pareizais modelis katram izmantošanas gadījumam.
Bezmaksas modeļi, Konts nav nepieciešams
Uzsākt nekavējoties ar trim bezmaksas TTS modeļiem: Piper (ultra-fast, viegls), VITS (augstas kvalitātes neironu sintēze) un MeloTTS (daudzvalodu atbalsts). Bez pierakstīšanās, bez kredītkartes, bez ierobežojumiem paaudzēm. Bezmaksas modeļi atbalsta angļu un vairākas citas valodas ar dabīgu izlaidi, kas piemērota lielākajai daļai lietojumprogrammu.
GPU paātrināta pārstrāde
Visi TTS modeļi darbojas ar specializētiem NVIDIA GPU ātrās un konsekventās paaudzes laikiem. Bezmaksas modeļi parasti rada audio mazāk nekā 2 sekunžu laikā. Standarta modeļi, piemēram, Kokoro, CosyVoice 2, un bārks vidēji 3-5 sekundes. Premium modeļi ar visaugstāko kvalitāti, piemēram, Tortoise un Chatterbox, process 5-15 sekunžu laikā atkarībā no teksta garuma.
30+ Valodas atbalstītas
Ģenerēt runu vairāk nekā 30 valodās, tostarp angļu, spāņu, franču, vācu, itāļu, portugāļu, ķīniešu, japāņu, korejiešu, arābu, hindi, krievu, un daudz vairāk. Vairāki modeļi atbalsta daudzvalodu sintēzi, kas nozīmē, jūs varat radīt runu valodā oriģināls balss nekad netika apmācīts. CosyVoice 2 un GPT-SoVITS excel pie cross-lingvistic balss klonēšana.
Izstrādātājs- lasītājs API
Integrējiet TTS.ai jūsu lietotnēs ar mūsu OpenAI saderīgu REST API. Viens mērķa kritērijs visiem 20+ modeļiem. Python, JavaScript, cURL, un Go SDKs. Streaming atbalsts reālā laika lietojumprogrammām. Partijas apstrāde liela mēroga satura ģenerēšanai. Webhookers async paziņojumiem. Pieejams Pro un Enterprise plānos.
Bieži uzdoti jautājumi
Ko mēs varam uzlabot? Jūsu atgriezeniskā saite palīdz mums atrisināt problēmas.
Sākt konvertējot tekstu uz runu tagad
Pievienojies tūkstošiem radītāji, izmantojot TTS.ai. Get 15,000 bezmaksas rakstzīmes ar jaunu kontu. Bezmaksas modeļi pieejami bez pierakstīšanās.