AI tekstas į kalbą
Konvertuoti tekstą į natūralų garsų kalbą su atviro kodo AI modeliais. Nemokama naudoti, nereikia paskyros.
Apvynioti savo tekstą BSML žymės tiksliam valdymui:
<speak><prosody rate="slow">Slow speech</prosody></speak>
Pridėti emocijų žymeklius įtakos pristatymas (modelis parama skiriasi):
Apibrėžti užsakymą tarimas (žodžio = tarimas):
Modelio duomenys
TADA
TADA (Text-Acoustic Dual Alignment) by Hume AI is a groundbreaking TTS model that eliminates hallucinations through a novel dual alignment architecture built on Llama 3.2. Available in 1B (English) and 3B (multilingual) variants, TADA achieves an RTF of 0.09 — 5x faster than comparable LLM-based TTS models. It supports up to 700 seconds of audio context and produces emotionally expressive speech with zero hallucinations on standard benchmarks.
| Programuotojas: | Hume AI |
| Licencija: | MIT |
| Greitis | Fast |
| Kokybė: | |
| kalbos | 1 kalba |
| VRAM | 5GB |
| Balso klonavimas | Nepalaikoma |
Patarimai geresniems rezultatams
- Naudokite tinkamą skyrybos natūralių pauzių ir intonacijos
- Ištrinti numerius ir santrumpas aiškesniam tarimui
- Pridėti komatus trumpoms pauzėms tarp frazių sukurti
- Naudoti elipsis (...) ilgesniems dramatiškiems pauzėms
- Išbandykite Kokoro arba cosyVoice 2 už labiausiai natūralių rezultatų
- Naudoti Dia kelių garsiakalbių dialogui ir podcast turiniui
Simbolių naudojimas
| Pakopa | 1K chars kaina |
|---|---|
| Neapmuitinama | 0 kreditai (neriboti) |
| Standartinis | 2 kreditai / 1K užrašai |
| Priemoka | 4 kreditai / 1K užrašai |
Kaip AI tekstas kalba
Generuoti profesinės kokybės skambesius trimis paprastais etapais. Techninių žinių nereikia.
Įveskite savo tekstą
Įveskite, įklijuokite arba įkelkite tekstą, kurį norite konvertuoti į kalbą. Palaiko iki 5000 simbolių vienai kartai prisijungusiems vartotojams. Naudokite paprastą tekstą arba pridėkite SSML žymes, kad galėtume iš anksto kontroliuoti tarimą, pauzes ir akcentą.
Pasirinkite modelį ir balsą
Pasirinkite iš 20+ AI modelius trijose pakopose. Pasirinkite balsą, atitinkantį jūsų turinį, pasirinkite tikslinę kalbą, koreguokite grojimo greitį nuo 0,5x iki 2,0x ir pasirinkite pageidaujamą išvesties formatą (MP3, WAV, OGG arba FLAC).
Generuoti & atsiuntimą
Spustelėkite Generuoti ir jūsų garso yra paruošta sekundėmis. Peržiūra su įmontuotu grotuvu, atsisiųsti savo pasirinktu formatu, arba nukopijuoti bendrą nuorodą. Naudokite API partijos apdorojimo ir integravimo į savo darbo srautą.
Tekstas kalbai
AI varomas tekstas į garsą transformuoja, kaip žmonės kuria, vartoja ir sąveikauja su garso turiniu daugelyje pramonės šakų.
Visas tekstas kalbos modeliams
Išsamios kiekvieno TTS.ai modelio specifikacijos. Palyginkite kokybę, greitį, kalbos palaikymą ir funkcijas, kad rastų geriausią modelį jūsų projektui.
Kokoro
Free
Kokoro yra 82 milijonų parametrų teksto-į-speech modelis, kuris perforuoja gerokai virš savo svorio klasės. Nepaisant jo mažyčių dydis, jis gamina nepaprastai natūralus ir išraiškingas kalba. Kokoro palaiko kelias kalbas, įskaitant anglų, japonų, kinų ir korėjiečių išraiškingų balsų įvairovė. Jis veikia neįtikėtinai greitai – generuoti garso beveik 100x greičiau nei realiu laiku GPU.
Hexgrad
Apache 2.0
Fast
en, ja, zh, ko, fr, de, it, pt, es, hi, ru
1.5GB
Nr.
Neapmuitinama
Piper
Free
Piper yra lengvas tekstas-į-speech variklis, sukurtas Rhasspy, kuris naudoja VITS ir gerklx architektūrų. Jis veikia visiškai CPU, todėl idealiai tinka kraštutinių įrenginių, namų automatizavimo, ir taikomosios programos reikalauja belaidis TTS. Su daugiau nei 100 balsų 30+ kalbomis, Piper pristato natūralų garsą kalba realiu laiku net Aviečių Pi 4.
Rhasspy
MIT
Fast
en, de, fr, es, it, pt, nl, pl, ru, zh, ja, ko, ar, cs, da, fi, el, hu, is, ka, kk, ne, no, ro, sk, sr, sv, sw, tr, uk, vi
0 (CPU only)
Nr.
Neapmuitinama
VITS
Free
VITS (Variational Inclusion with conversarial learning for end-to-end Text-to-Speech) yra lygiagretus „nuo galo iki galo“ TTS metodas, kuris generuoja daugiau natūralių garso skambesių nei dabartiniai dviejų pakopų modeliai. Jis priima įvairų interferenciją, sustiprintą normalizuojant srautus ir atliekant priešpriešinio mokymo procesą, užtikrinantį reikšmingą natūralios aplinkos pagerėjimą.
Jaehyeon Kim et al.
MIT
Fast
en, zh, ja, ko
1GB
Nr.
Neapmuitinama
MeloTTS
Free
MeloTTS by MyShell.ai yra daugiakalbė TTS biblioteka, remianti anglų (American, British, Indian, Australia), ispanų, prancūzų, kinų, japonų, ir korėjiečių. Tai yra labai greitai, apdoroti tekstą beveik realiu laiku vien procesoriaus. MeloTTS yra skirtas gamybos naudojimui ir palaiko tiek procesoriaus ir GPU inferencija.
MyShell.ai
MIT
Fast
en, es, fr, zh, ja, ko
0.5GB (GPU optional)
Nr.
Neapmuitinama
Bark
Standard
Bark by Suno yra transformatorius grindžiamas tekstas-į-audio modelis, kuris gali generuoti labai realų, daugiakalbę kalbą, taip pat kitų garso kaip muzika, fono triukšmas, ir garso efektai. Jis gali gaminti neverbalinius ryšius, pavyzdžiui, juoktis, dygčioti, ir verkti. Barkas palaiko daugiau nei 100 garsiakalbis iš anksto nustatyti ir 13+ kalbų.
Suno
MIT
Slow
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
5GB
Nr.
2x
Bark Small
Standard
Bark Small yra distiliuota versija Bark modelis, kuris prekiauja tam tikra garso kokybė žymiai greičiau trukdžių greičio ir mažesnius atminties reikalavimus. Jis išlaiko Bark gebėjimą generuoti kalbą su emocijomis, juokas, ir keliomis kalbomis.
Suno
MIT
Medium
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
2GB
Nr.
2x
CosyVoice 2
Standard
"CosyVoice 2" iš Alibaba's Tongyi Lab pasiekia žmogaus palyginamą kalbos kokybę su labai žemu latentiškumu, todėl idealiai tinka realiu laiku taikomosioms programoms. Ji naudoja baigtinį skalūninio kvantifikavimo metodą srautinei sintezei ir palaiko nulinės fotografijos balso klonavimą, tarpkalbinę sintezę ir ploną emocijų kontrolę. Ji viršija daug komercinių TTS sistemų subjektyvius vertinimus.
Alibaba (Tongyi Lab)
Apache 2.0
Medium
en, zh, ja, ko, fr, de, it, es
4GB
Taip
2x
Dia TTS
Standard
Dia by Nari Labs yra 1.6B parametro teksto į garsiakalbį modelis, sukurtas specialiai generuoti daugiakalbį dialogą. Jis gali sukurti natūralius pokalbius tarp dviejų garsiakalbių su atitinkamu posūkio, prozodija, ir emocinė išraiška. Dia puikiai tinka sukurti podcast stiliaus turinį, garso knygų dialogus ir interaktyvų pokalbio AI.
Nari Labs
Apache 2.0
Medium
en
4GB
Nr.
2x
Parler TTS
Standard
Parler TTS yra tekstas-į-speech modelis, kuris naudoja natūralios kalbos balso aprašymus, kad būtų galima kontroliuoti sukurtą kalbą. Vietoj to, kad pasirinktumėte iš anksto nustatytų balsų, Jūs apibūdinate norimą balsą (pvz., "šiltas moteriškas balsas su nedideliu britų akcentu, kalbant lėtai ir aiškiai"), ir Parler generuoja kalbą, atitinkančią šį apibūdinimą. Dėl to jis yra unikaliai lankstus kūrybiniams pritaikymams.
Hugging Face
Apache 2.0
Medium
en
4GB
Nr.
2x
GLM-TTS
Standard
GLM-TTS by Zhipu AI yra teksto-į-speech sistema, pastatyta ant Llama architektūra su srauto derinimu. Ji pasiekia žemiausią simbolių klaidų dažnis tarp atvirojo šaltinio TTS modelių, tai reiškia, ji gamina tiksliausias tarimo. GLM-TTS palaiko anglų ir kinų su balso klonavimo iš 3-10 sekundžių garso mėginių.
Zhipu AI
GLM-4 License
Medium
en, zh
4GB
Taip
2x
IndexTTS-2
Standard
IndexTTS-2 yra pažangi teksto-į-speech sistema, kuri pranoksta nulinės akimirkos balso sintezės metu su plonu emocijų reguliavimu. Ji gali generuoti kalbą su konkrečiais emociniais tonais, pavyzdžiui, laiminga, liūdna, pikta, ar baimės nereikalaujant emocijų specifinių mokymo duomenų. Modelyje naudojami emocijų vektoriai tiksliai kontroliuoti emocinę išraišką generuojamos kalbos.
Index Team
Bilibili Model License
Medium
en, zh
4GB
Taip
2x
Spark TTS
Standard
SparkAudio "SparkAudio" "Spark-to-speech" modelis, kuris sujungia balso klonavimą su reguliuojamu emocijų ir kalbėjimo stiliumi. Naudodamas tik 5 sekundžių referencinį garsą, jis gali klonuoti balsą ir generuoti kalbą su skirtingomis emocijomis, greičiais ir stiliais, tuo pat metu išlaikydamas klonuotą balso tapatybę. "Spark TTS" naudoja greitojo valdymo sistemą.
SparkAudio
CC BY-NC-SA 4.0
Medium
en, zh
4GB
Taip
2x
GPT-SoVITS
Standard
GPT-SoVITS kombinuoja GPT stiliaus kalbos modeliavimą su SoVITS (Singing Voice Induction by Translation and Sinteze) galingam vos 5 sekundių referencinio garso klonavimui. Ji gali tiksliai klonuoti balsą ir generuoti naują kalbą, išsaugant kalbėtojo unikalias savybes. Ji pranoksta tiek kalbėjimo, tiek dainavimo balso sinteze.
RVC-Boss
MIT
Slow
en, zh, ja, ko
6GB
Taip
2x
Orpheus
Standard
Orpheus yra didelio masto tekstas-į-speech modelis, kuris pasiekia žmogiškojo lygio emocinę išraišką. Apmokytas daugiau nei 100,000 valandų įvairių kalbos duomenų, jis pranoksta generuoti kalbą su natūraliomis emocijomis, akcentas, ir kalbėjimo stilius. Orpheus gali sukelti kalbą, kuri yra iš esmės neatskiriama nuo žmogaus įrašų.
Canopy Labs
Llama 3.2 Community
Medium
en
4GB
Nr.
2x
Chatterbox
Premium
Pokalbio dėžutė, kurią sudaro „Remble AI“, yra moderniausias nulinis balso klonavimo modelis. Ji gali atkartoti bet kokį balsą iš vieno garso mėginio su nepaprastu tikslumu, fiksuodama ne tik tembrą, bet ir kalbėjimo stilių bei emocinius niuansus. Pokalbis taip pat turi smulkiai grubų emocijų valdymą, leidžiantį reguliuoti sukurtos kalbos emocinį toną nepriklausomai nuo balso tapatybės.
Resemble AI
MIT
Medium
en
4GB
Taip
4x
Tortoise TTS
Premium
Tortoise TTS yra autoregesyvi daugiabalsė teksto į garsą sistema, kuri pirmenybę teikia garso kokybei per greitį. Ji naudoja DALL-E-įkvėptą architektūrą, kad generuoti labai natūralų kalbą su puikiu prozodija ir garsiakalbio panašumu. Nors lėčiau nei daugelis alternatyvų, Tortoise sukuria kai kurie iš realistiškų sintetinių kalbos atvirojo šaltinio ekosistemoje.
James Betker
Apache 2.0
Slow
en
8GB
Taip
4x
StyleTTS 2
Premium
StyleTTS 2 pasiekia žmogaus lygio TTS sintezę, sujungiant stilių difuzijos ir antiversarialinius mokymus naudojant didžiosios kalbos kalbos modelius. Ji generuoja natūraliausias skambesį tarp vieno garsiakalbio modelių, konkuruojanti žmogaus įrašus. StyleTTS 2 naudoja difuzijos pagrindu stiliaus modeliavimą, kad užfiksuotų visą žmogaus kalbos variantų spektrą.
Columbia University
MIT
Medium
en
4GB
Nr.
4x
OpenVoice
Premium
MyShell.ai leidžia akimirkinį balso klonavimą su granuliuotu balso stiliaus, emocijų, akcento, ritmo, pauzės ir intonacijos valdymu. Jis gali klonuoti balsą iš trumpo garso klipo ir generuoti kalbą keliomis kalbomis, tuo pat metu išlaikydamas garsiakalbio tapatybę. OpenVoice taip pat veikia kaip balso keitiklis, leidžiantis realiu laiku transformuoti balsą.
MyShell.ai / MIT
MIT
Medium
en, zh, ja, ko, fr, de, es, it
4GB
Taip
4x
Qwen3 TTS
Standard
Qwen3-TTS yra 1,7 milijardo parametro tekstas į garsiakalbį iš Alibaba Qwen komandos. Ji palaiko tris režimus: iš anksto su emocijų kontrole (9 garsiakalbiai), balso klonavimu nuo vos 3 sekundžių garso ir unikaliu balso dizaino režimu, kuriame Jūs apibūdinate norimą balsą natūralia kalba. Ji apima 10 kalbų su dideliu išraiškingumu ir natūralia prozodija.
Alibaba (Qwen)
Apache 2.0
Medium
en, zh, ja, ko, de, fr, ru, pt, es, it
7GB
Taip
2x
Sesame CSM
Premium
Sezamo CSM (konversijos kalbos modelis) yra 1 mlrd. parametrų modelis, sukurtas specialiai generuoti pokalbinę kalbą. Jis modeliuoja natūralius žmogaus pokalbio modelius, įskaitant posūkio laiką, nugaros kanalų atsaką, emocines reakcijas ir pokalbio srautą. CSM generuoja garsą, kuris skamba kaip natūralus žmogaus pokalbis, o ne sintetinis pokalbis.
Sesame
Apache 2.0
Slow
en
8GB
Nr.
4x
Chatterbox Turbo
Standard
Chatterbox Turbo by Resemble AI yra 350M parametro atnaujinimas į Chatterbox, užtikrinantis iki 6x realaus laiko greitį su sub-200ms latency. Ji palaiko paralingustic žymės, pavyzdžiui [juoka], [sukti] ir [chuckle] tiesiogiai į tekstą. Įtraukia Perth vandens žymėjimas visų sugeneruotų garso provenencijos sekimo.
Resemble AI
MIT
Fast
en
2GB
Taip
2x
Zonos
Standard
Zonos v0.1 pagal Zyphra yra 1.6B parametro modelis, apimantis ploną emocijų kontrolę su slankmačiais laimės, pykčio, liūdesio, baimės ir nuostabos. Jis siūlo ir Transformer, ir romaninį BPM (state-space Model) variantą. Mokytas 200K+ valandų daugiakalbės kalbos su nulinio smogtuvo balso klonavimo nuo 10-30 sekundžių referencinio garso.
Zyphra
Apache 2.0
Medium
en, ja, zh, fr, de
6GB
Taip
2x
Dia 2
Standard
Dia2 by Nari Labs yra srautinis pirmasis Dia atnaujinimas, prieinamas 1B ir 2B parametrų variantuose. Jis pradeda sintezuoti garsą iš pirmųjų kelių žetonų, todėl idealiai tinka realaus laiko balso agentams ir kalbėjimo kanalams. Palaiko daugiakalbio dialogo su [S1]/[S2] žymomis ir paralingvistiniais kučiais, panašiais į [smegs].
Nari Labs
Apache 2.0
Fast
en
4GB
Nr.
2x
VoxCPM
Standard
OpenBMB VoxCPM 1.5 yra naujas be tokenizatoriaus TTS modelis, kuris veikia ištisinėje erdvėje, o ne diskrečiuosiuose žetonuose. Jis gamina aukštos kokybės 44.1kHz garsą, palaiko nulinės fotografijos balso klonavimą nuo 3-10 sekundžių ir palaiko nuoseklumą visuose punktuose. Kryžminės kalbos klonavimas leidžia taikyti anglų kalbą kinų kalbai ir atvirkščiai.
OpenBMB
Apache 2.0
Fast
en, zh
4GB
Taip
2x
OuteTTS
Free
OuteTTS palaiko didelius kalbų modelius su teksto-įspėjimu išlaikant originalią architektūrą. Ji palaiko kelias programines sąsajas, įskaitant llama.cpp (CPU/GPU), Hagging Face Transformers, ExLlamaV2, VLLM, ir net naršyklę, trukdančią per Transformers.js. Funkcijos nulinės fotografijos balso klonavimas per garsiakalbio profilius, išsaugotus kaip JSON.
OuteAI
Apache 2.0
Fast
en
2GB
Taip
Neapmuitinama
TADA
Standard
„Hume AI“ TADA (teksto-akustikos dvigubas lygiavimas) yra novatoriškas TTS modelis, kuris pašalina haliucinacijas per naują dvejopo derinimo architektūrą, sukurtą „Llama 3.2“. Pasinaudojus 1B (anglų) ir 3B (daugiakalbių) variantais, „TADA“ pasiekia RTF nuo 0,09 iki 5 kartų greitesnį už palyginamus LLM paremtus TTS modelius. Jis palaiko iki 700 sekundžių garso kontekstą ir sukelia emociškai išraiškingą kalbą su nulinėmis haliucinacijomis standartiniuose standartuose.
Hume AI
MIT
Fast
en
5GB
Nr.
2x
VibeVoice
Standard
VibeVoice by Microsoft yra dviejų variantų: 1.5B modelis ilgaformis turinys (iki 90 minučių, 4 garsiakalbiai) ir Realtime 0.5B modelis srautui su ~200ms pirmasis garso latency. 1.5B variantas pranoksta podcasts ir garso knygų su garsiakalbio konsistencija per ilgas ištraukas. Pastaba: Microsoft pašalintas TTS kodas iš saugyklos ir generuojami garso apima garsinės AI disclaiders.
Microsoft
MIT
Fast
en, zh
4GB
Nr.
2x
Pocket TTS
Free
Pocket TTS by Kyutai (Moshi kūrėjai) yra kompaktiškas 100M parametro teksto-į-speech modelis, kuris perforuoja daug daugiau nei jo svoris. Jis veikia efektyviai naudojant CPU, palaiko nulinio smogtuvo balso klonavimą iš vieno garso mėginio ir gamina natūralų garsą. Dėl mažo modelio dydžio jis yra idealus briaunos ir mažo šaltinio aplinkai.
Kyutai
MIT
Fast
en, fr
1GB
Taip
Neapmuitinama
Kitten TTS
Free
Kitten TTS by KittenML is an ultra-lightweight text-to-speech model built on ONNX. With variants from 15M to 80M parameters (25-80 MB on disk), it delivers high-quality voice synthesis on CPU without requiring a GPU. Features 8 built-in voices, adjustable speech speed, and built-in text preprocessing for numbers, currencies, and units. Ideal for edge deployment and low-latency applications.
KittenML
Apache 2.0
Fast
en
0GB
Nr.
Neapmuitinama
CosyVoice3
Standard
CosyVoice3 is the latest evolution from Alibaba's FunAudioLLM team. It features bi-streaming inference with ~150ms latency, instruction-based control for emotion/speed/volume, and improved speaker similarity for zero-shot cloning. Supports 9 languages plus 18 Chinese dialects. RL-tuned variant delivers state-of-the-art prosody.
Alibaba (FunAudioLLM)
Apache 2.0
Fast
en, zh, ja, ko, de, es, fr, it, ru
4GB
Taip
2x
MOSS-TTS
Premium
MOSS-TTS from OpenMOSS supports generation of up to 1 hour of continuous speech across 20 languages. Features token-level duration control, phoneme-level pronunciation control via IPA/Pinyin, and code-switching between languages. The 8B production model delivers state-of-the-art quality with zero-shot voice cloning from reference audio.
OpenMOSS
Apache 2.0
Medium
en, zh, de, es, fr, ja, it, hu, ko, ru, fa, ar, pl, pt, cs, da, sv, el, tr
16GB
Taip
4x
MegaTTS3
Premium
MegaTTS3 from ByteDance uses a novel sparse alignment mechanism combined with a latent diffusion transformer. Features adjustable trade-off between speech intelligibility and speaker similarity for zero-shot voice cloning.
ByteDance
Apache 2.0
Slow
en, zh
8GB
Taip
4x
Kokoro
Neapmuitinama
Kokoro is an 82 million parameter text-to-speech model that punches well above its weight class. Despite its tiny size, it produces remarkably natural and expressive speech. Kokoro supports multiple languages including English, Japanese, Chinese, and Korean with a variety of expressive voices. It runs incredibly fast — generating audio nearly 100x faster than real-time on a GPU.
Hexgrad
Apache 2.0
Fast
Piper
Neapmuitinama
Piper is a lightweight text-to-speech engine developed by Rhasspy that uses VITS and larynx architectures. It runs entirely on CPU, making it ideal for edge devices, home automation, and applications requiring offline TTS. With over 100 voices across 30+ languages, Piper delivers natural-sounding speech at real-time speeds even on a Raspberry Pi 4.
Rhasspy
MIT
Fast
VITS
Neapmuitinama
VITS (Variational Inference with adversarial learning for end-to-end Text-to-Speech) is a parallel end-to-end TTS method that generates more natural sounding audio than current two-stage models. It adopts variational inference augmented with normalizing flows and an adversarial training process, achieving a significant improvement in naturalness.
Jaehyeon Kim et al.
MIT
Fast
MeloTTS
Neapmuitinama
MeloTTS by MyShell.ai is a multilingual TTS library supporting English (American, British, Indian, Australian), Spanish, French, Chinese, Japanese, and Korean. It is extremely fast, processing text at near real-time speed on CPU alone. MeloTTS is designed for production use and supports both CPU and GPU inference.
MyShell.ai
MIT
Fast
OuteTTS
Neapmuitinama
OuteTTS extends large language models with text-to-speech capabilities while preserving the original architecture. It supports multiple backends including llama.cpp (CPU/GPU), Hugging Face Transformers, ExLlamaV2, VLLM, and even browser inference via Transformers.js. Features zero-shot voice cloning through speaker profiles saved as JSON.
OuteAI
Apache 2.0
Fast
Pocket TTS
Neapmuitinama
Pocket TTS by Kyutai (creators of Moshi) is a compact 100M parameter text-to-speech model that punches well above its weight. It runs efficiently on CPU, supports zero-shot voice cloning from a single audio sample, and produces natural-sounding speech. The small model size makes it ideal for edge deployment and low-resource environments.
Kyutai
MIT
Fast
Kitten TTS
Neapmuitinama
Kitten TTS by KittenML is an ultra-lightweight text-to-speech model built on ONNX. With variants from 15M to 80M parameters (25-80 MB on disk), it delivers high-quality voice synthesis on CPU without requiring a GPU. Features 8 built-in voices, adjustable speech speed, and built-in text preprocessing for numbers, currencies, and units. Ideal for edge deployment and low-latency applications.
KittenML
Apache 2.0
Fast
Bark
Standartinis
Bark by Suno is a transformer-based text-to-audio model that can generate highly realistic, multilingual speech as well as other audio like music, background noise, and sound effects. It can produce nonverbal communications like laughing, sighing, and crying. Bark supports over 100 speaker presets and 13+ languages.
Suno
MIT
Slow
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
Nr.
Bark Small
Standartinis
Bark Small is a distilled version of the Bark model that trades some audio quality for significantly faster inference speeds and lower memory requirements. It retains Bark's ability to generate speech with emotions, laughter, and multiple languages.
Suno
MIT
Medium
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
Nr.
CosyVoice 2
Standartinis
CosyVoice 2 by Alibaba's Tongyi Lab achieves human-comparable speech quality with extremely low latency, making it ideal for real-time applications. It uses a finite scalar quantization approach for streaming synthesis and supports zero-shot voice cloning, cross-lingual synthesis, and fine-grained emotion control. It outperforms many commercial TTS systems in subjective evaluations.
Alibaba (Tongyi Lab)
Apache 2.0
Medium
en, zh, ja, ko, fr, de, it, es
Taip
Dia TTS
Standartinis
Dia by Nari Labs is a 1.6B parameter text-to-speech model designed specifically for generating multi-speaker dialogue. It can produce natural-sounding conversations between two speakers with appropriate turn-taking, prosody, and emotional expression. Dia is perfect for creating podcast-style content, audiobook dialogues, and interactive conversational AI.
Nari Labs
Apache 2.0
Medium
en
Nr.
Parler TTS
Standartinis
Parler TTS is a text-to-speech model that uses natural language voice descriptions to control the generated speech. Instead of selecting from preset voices, you describe the voice you want (e.g., "a warm female voice with a slight British accent, speaking slowly and clearly") and Parler generates speech matching that description. This makes it uniquely flexible for creative applications.
Hugging Face
Apache 2.0
Medium
en
Nr.
GLM-TTS
Standartinis
GLM-TTS by Zhipu AI is a text-to-speech system built on the Llama architecture with flow matching. It achieves the lowest character error rate among open-source TTS models, meaning it produces the most accurate pronunciation. GLM-TTS supports English and Chinese with voice cloning from 3-10 second audio samples.
Zhipu AI
GLM-4 License
Medium
en, zh
Taip
IndexTTS-2
Standartinis
IndexTTS-2 is an advanced text-to-speech system that excels at zero-shot voice synthesis with fine-grained emotion control. It can generate speech with specific emotional tones like happy, sad, angry, or fearful without requiring emotion-specific training data. The model uses emotion vectors to precisely control the emotional expression of generated speech.
Index Team
Bilibili Model License
Medium
en, zh
Taip
Spark TTS
Standartinis
Spark TTS by SparkAudio is a text-to-speech model that combines voice cloning with controllable emotion and speaking style. Using just 5 seconds of reference audio, it can clone a voice and then generate speech with different emotions, speeds, and styles while maintaining the cloned voice identity. Spark TTS uses a prompt-based control system.
SparkAudio
CC BY-NC-SA 4.0
Medium
en, zh
Taip
GPT-SoVITS
Standartinis
GPT-SoVITS combines GPT-style language modeling with SoVITS (Singing Voice Inference via Translation and Synthesis) for powerful few-shot voice cloning. With as little as 5 seconds of reference audio, it can accurately clone a voice and generate new speech while preserving the speaker's unique characteristics. It excels at both speaking and singing voice synthesis.
RVC-Boss
MIT
Slow
en, zh, ja, ko
Taip
Orpheus
Standartinis
Orpheus is a large-scale text-to-speech model that achieves human-level emotional expression. Trained on over 100,000 hours of diverse speech data, it excels at generating speech with natural emotions, emphasis, and speaking styles. Orpheus can produce speech that is virtually indistinguishable from human recordings.
Canopy Labs
Llama 3.2 Community
Medium
en
Nr.
Qwen3 TTS
Standartinis
Qwen3-TTS is a 1.7 billion parameter text-to-speech model from Alibaba's Qwen team. It supports three modes: preset voices with emotion control (9 speakers), voice cloning from just 3 seconds of audio, and a unique voice design mode where you describe the voice you want in natural language. It covers 10 languages with high expressiveness and natural prosody.
Alibaba (Qwen)
Apache 2.0
Medium
en, zh, ja, ko, de, fr, ru, pt, es, it
Taip
Chatterbox Turbo
Standartinis
Chatterbox Turbo by Resemble AI is a 350M parameter upgrade to Chatterbox, delivering up to 6x real-time speed with sub-200ms latency. It supports paralinguistic tags like [laugh], [cough], and [chuckle] directly in text. Includes Perth watermarking on all generated audio for provenance tracking.
Resemble AI
MIT
Fast
en
Taip
Zonos
Standartinis
Zonos v0.1 by Zyphra is a 1.6B parameter model featuring fine-grained emotion control with sliders for happiness, anger, sadness, fear, and surprise. It offers both a Transformer and a novel SSM (state-space model) variant. Trained on 200K+ hours of multilingual speech with zero-shot voice cloning from 10-30 seconds of reference audio.
Zyphra
Apache 2.0
Medium
en, ja, zh, fr, de
Taip
Dia 2
Standartinis
Dia2 by Nari Labs is a streaming-first upgrade to Dia, available in 1B and 2B parameter variants. It begins synthesizing audio from the first few tokens, making it ideal for real-time voice agents and speech-to-speech pipelines. Supports multi-speaker dialogue with [S1]/[S2] tags and paralinguistic cues like (laughs), (coughs).
Nari Labs
Apache 2.0
Fast
en
Nr.
VoxCPM
Standartinis
VoxCPM 1.5 by OpenBMB is a novel tokenizer-free TTS model that operates in continuous space rather than discrete tokens. It produces high-fidelity 44.1kHz audio, supports zero-shot voice cloning from 3-10 seconds, and maintains consistency across paragraphs. Cross-language cloning lets you apply an English voice to Chinese speech and vice versa.
OpenBMB
Apache 2.0
Fast
en, zh
Taip
TADA
Standartinis
TADA (Text-Acoustic Dual Alignment) by Hume AI is a groundbreaking TTS model that eliminates hallucinations through a novel dual alignment architecture built on Llama 3.2. Available in 1B (English) and 3B (multilingual) variants, TADA achieves an RTF of 0.09 — 5x faster than comparable LLM-based TTS models. It supports up to 700 seconds of audio context and produces emotionally expressive speech with zero hallucinations on standard benchmarks.
Hume AI
MIT
Fast
en
Nr.
VibeVoice
Standartinis
VibeVoice from Microsoft generates long-form speech up to 90 minutes with support for 4 simultaneous speakers, making it ideal for podcasts and dialogues. The Realtime 0.5B variant achieves ~300ms latency for interactive use. Supports speaker tags for multi-turn dialogue generation.
Microsoft
MIT
Fast
en, zh
Nr.
CosyVoice3
Standartinis
CosyVoice3 is the latest evolution from Alibaba's FunAudioLLM team. It features bi-streaming inference with ~150ms latency, instruction-based control for emotion/speed/volume, and improved speaker similarity for zero-shot cloning. Supports 9 languages plus 18 Chinese dialects. RL-tuned variant delivers state-of-the-art prosody.
Alibaba (FunAudioLLM)
Apache 2.0
Fast
en, zh, ja, ko, de, es, fr, it, ru
Taip
Pavyzdys Palyginimo lentelė
| Pavyzdys | Programuotojas: | Pakopa | Kokybė: | Greitis | kalbos | Balso klonavimas | VRAM | Licencija: | kreditai | |
|---|---|---|---|---|---|---|---|---|---|---|
| Kokoro | Hexgrad | Free | Fast | 11 | 1.5GB | Apache 2.0 | Neapmuitinama | Naudojimas | ||
| Piper | Rhasspy | Free | Fast | 31 | 0 (CPU only) | MIT | Neapmuitinama | Naudojimas | ||
| VITS | Jaehyeon Kim et al. | Free | Fast | 4 | 1GB | MIT | Neapmuitinama | Naudojimas | ||
| MeloTTS | MyShell.ai | Free | Fast | 6 | 0.5GB (GPU optional) | MIT | Neapmuitinama | Naudojimas | ||
| Bark | Suno | Standard | Slow | 13 | 5GB | MIT | 2 | Naudojimas | ||
| Bark Small | Suno | Standard | Medium | 13 | 2GB | MIT | 2 | Naudojimas | ||
| CosyVoice 2 | Alibaba (Tongyi Lab) | Standard | Medium | 8 | 4GB | Apache 2.0 | 2 | Naudojimas | ||
| Dia TTS | Nari Labs | Standard | Medium | 1 | 4GB | Apache 2.0 | 2 | Naudojimas | ||
| Parler TTS | Hugging Face | Standard | Medium | 1 | 4GB | Apache 2.0 | 2 | Naudojimas | ||
| GLM-TTS | Zhipu AI | Standard | Medium | 2 | 4GB | GLM-4 License | 2 | Naudojimas | ||
| IndexTTS-2 | Index Team | Standard | Medium | 2 | 4GB | Bilibili Model License | 2 | Naudojimas | ||
| Spark TTS | SparkAudio | Standard | Medium | 2 | 4GB | CC BY-NC-SA 4.0 | 2 | Naudojimas | ||
| GPT-SoVITS | RVC-Boss | Standard | Slow | 4 | 6GB | MIT | 2 | Naudojimas | ||
| Orpheus | Canopy Labs | Standard | Medium | 1 | 4GB | Llama 3.2 Community | 2 | Naudojimas | ||
| Chatterbox | Resemble AI | Premium | Medium | 1 | 4GB | MIT | 4 | Naudojimas | ||
| Tortoise TTS | James Betker | Premium | Slow | 1 | 8GB | Apache 2.0 | 4 | Naudojimas | ||
| StyleTTS 2 | Columbia University | Premium | Medium | 1 | 4GB | MIT | 4 | Naudojimas | ||
| OpenVoice | MyShell.ai / MIT | Premium | Medium | 8 | 4GB | MIT | 4 | Naudojimas | ||
| Qwen3 TTS | Alibaba (Qwen) | Standard | Medium | 10 | 7GB | Apache 2.0 | 2 | Naudojimas | ||
| Sesame CSM | Sesame | Premium | Slow | 1 | 8GB | Apache 2.0 | 4 | Naudojimas | ||
| Chatterbox Turbo | Resemble AI | Standard | Fast | 1 | 2GB | MIT | 2 | Naudojimas | ||
| Zonos | Zyphra | Standard | Medium | 5 | 6GB | Apache 2.0 | 2 | Naudojimas | ||
| Dia 2 | Nari Labs | Standard | Fast | 1 | 4GB | Apache 2.0 | 2 | Naudojimas | ||
| VoxCPM | OpenBMB | Standard | Fast | 2 | 4GB | Apache 2.0 | 2 | Naudojimas | ||
| OuteTTS | OuteAI | Free | Fast | 1 | 2GB | Apache 2.0 | Neapmuitinama | Naudojimas | ||
| TADA | Hume AI | Standard | Fast | 1 | 5GB | MIT | 2 | Naudojimas | ||
| VibeVoice | Microsoft | Standard | Fast | 2 | 4GB | MIT | 2 | Naudojimas | ||
| Pocket TTS | Kyutai | Free | Fast | 2 | 1GB | MIT | Neapmuitinama | Naudojimas | ||
| Kitten TTS | KittenML | Free | Fast | 1 | 0GB | Apache 2.0 | Neapmuitinama | Naudojimas | ||
| CosyVoice3 | Alibaba (FunAudioLLM) | Standard | Fast | 9 | 4GB | Apache 2.0 | 2 | Naudojimas | ||
| MOSS-TTS | OpenMOSS | Premium | Medium | 19 | 16GB | Apache 2.0 | 4 | Naudojimas | ||
| MegaTTS3 | ByteDance | Premium | Slow | 2 | 8GB | Apache 2.0 | 4 | Naudojimas |
Išsamiausias AI tekstas kalbos platformai
Kodėl reikia pasirinkti TTS.ai tekstą į kalbą?
TTS.ai sujungia geriausius atviro kodo tekstus-į-speech modelius į vieną, lengvai naudoti platformą. Skirtingai nuo patentuotų paslaugų, kad užrakinti jus į vieną balso variklio, TTS.ai suteikia jums prieigą prie 20+ modelių iš pirmaujančių mokslinių laboratorijų, įskaitant Coqui, MyShell, Amphion, NVIDIA, Suno, HugggingFace, Tsinghua universitetas, ir daugiau.
Kiekvienas modelis yra atviras šaltinis pagal MIT, Apache 2.0, ar panašios leidžiamosios licencijos, užtikrinant, kad jūs turite visas komercines teises naudoti sukurtą garsą savo projektuose. Nesvarbu, ar jums reikia greito, lengvo sintezės realiu laiku programų arba aukščiausios studijos kokybės išeigą garso knygų ir podcasts, TTS.ai turi tinkamą modelį kiekvienam naudojimo atvejui.
Nemokami modeliai, nereikia paskyros
Pradėti iš karto su trimis nemokamais TTS modeliais: Piper (ultra-greitas, lengvas), VITS (aukštos kokybės nervų sintezė) ir MeloTTTS (daugiakalbis palaikymas). Nėra registracijos, kredito kortelės, nėra apribojimų kartoms. Nemokami modeliai palaiko anglų ir kelias kitas kalbas su natūralu išeiga tinka daugumai taikomųjų programų.
GPU pagreitintas perdirbimas
Visi TTS modeliai veikia pagal specialius NVIDIA GPU greitos ir nuoseklios kartos laikus. Nemokami modeliai paprastai generuoja garsą per 2 sekundes. Standartiniai modeliai, tokie kaip Kokoro, CosyVoice 2, ir Bark, vidutiniškai 3-5 sekundės. Premium aukščiausios kokybės modeliai, tokie kaip Tortoise ir Chatterbox, procesas per 5-15 sekundžių, priklausomai nuo teksto ilgio.
30+ Kalbų palaikymas
Generuoti kalbą daugiau nei 30 kalbomis, įskaitant anglų, ispanų, prancūzų, vokiečių, italų, portugalų, kinų, japonų, korėjiečių, arabų, hindi, rusų, ir daug daugiau. Keletas modelių remti tarpkalbinę sintezę, tai reiškia, jūs galite generuoti kalbą kalba, originalus balsas niekada nebuvo mokomas. CosyVoice 2 ir GPT-SoVITS puikus tarpkalbinio balso klonavimo.
Programuotojas-ready API
Į jūsų programas integruoti TTS.ai mūsų OpenAI suderinama REST API. Vienas tikslas visiems 20+ modelių. Python, JavaScript, cURL, ir Go SDKs. Streaming palaikymas realiu laiku programų. Partijos tvarkymas didelio masto turinio turinio generavimas. Webhookers async pranešimus. Galima Pro ir Enterprise planus.
Dažnai užduodami klausimai
Ką mes galėtume pagerinti? Jūsų atsiliepimai padeda mums išspręsti problemas.
Pradėti konvertavimo tekstą į kalbą dabar
Prisijunkite prie tūkstančių kūrėjų, naudojant TTS.ai. Gauti 15,000 nemokamai simbolių su nauja sąskaita. Nemokama modeliai prieinami be registracijos.