AI tekstas į kalbą
Konvertuoti tekstą į natūralų garsų kalbą su atviro kodo AI modeliais. Nemokama naudoti, nereikia paskyros.
Apvynioti savo tekstą BSML žymės tiksliam valdymui:
<speak><prosody rate="slow">Slow speech</prosody></speak>
Pridėti emocijų žymeklius įtakos pristatymas (modelis parama skiriasi):
Apibrėžti užsakymą tarimas (žodžio = tarimas):
Modelio duomenys
Darwin TTS
Darwin-TTS-1.7B-Cross by FINAL-Bench is a research variant of Qwen3-TTS-1.7B where 84 talker-FFN tensors (8.6%) are blended at α=3% with the matching tensors from Qwen3-1.7B-Base. The blend is built without retraining and produces noticeably crisper cross-lingual voice cloning across Korean, English, Japanese, and Chinese. Operates in zero-shot voice-clone mode (3 seconds reference audio).
| Programuotojas: | FINAL-Bench |
| Licencija: | Apache 2.0 |
| Greitis | Medium |
| Kokybė: | |
| kalbos | 10 kalbos |
| VRAM | 7GB |
| Balso klonavimas | Palaikoma |
Patarimai geresniems rezultatams
- Naudokite tinkamą skyrybos natūralių pauzių ir intonacijos
- Ištrinti numerius ir santrumpas aiškesniam tarimui
- Pridėti komatus trumpoms pauzėms tarp frazių sukurti
- Naudoti elipsis (...) ilgesniems dramatiškiems pauzėms
- Išbandykite Kokoro arba cosyVoice 2 už labiausiai natūralių rezultatų
- Naudoti Dia kelių garsiakalbių dialogui ir podcast turiniui
Simbolių naudojimas
| Pakopa | 1K chars kaina |
|---|---|
| Neapmuitinama | 0 kreditai (neriboti) |
| Standartinis | 2 kreditai / 1K užrašai |
| Priemoka | 4 kreditai / 1K užrašai |
Kaip AI tekstas kalba
Generuoti profesinės kokybės skambesius trimis paprastais etapais. Techninių žinių nereikia.
Įveskite savo tekstą
Įveskite, įklijuokite arba įkelkite tekstą, kurį norite konvertuoti į kalbą. Palaiko iki 5000 simbolių vienai kartai prisijungusiems vartotojams. Naudokite paprastą tekstą arba pridėkite SSML žymes, kad galėtume iš anksto kontroliuoti tarimą, pauzes ir akcentą.
Pasirinkite modelį ir balsą
Pasirinkite iš 20+ AI modelius trijose pakopose. Pasirinkite balsą, atitinkantį jūsų turinį, pasirinkite tikslinę kalbą, koreguokite grojimo greitį nuo 0,5x iki 2,0x ir pasirinkite pageidaujamą išvesties formatą (MP3, WAV, OGG arba FLAC).
Generuoti & atsiuntimą
Spustelėkite Generuoti ir jūsų garso yra paruošta sekundėmis. Peržiūra su įmontuotu grotuvu, atsisiųsti savo pasirinktu formatu, arba nukopijuoti bendrą nuorodą. Naudokite API partijos apdorojimo ir integravimo į savo darbo srautą.
Tekstas kalbai
AI varomas tekstas į garsą transformuoja, kaip žmonės kuria, vartoja ir sąveikauja su garso turiniu daugelyje pramonės šakų.
Visas tekstas kalbos modeliams
Išsamios kiekvieno TTS.ai modelio specifikacijos. Palyginkite kokybę, greitį, kalbos palaikymą ir funkcijas, kad rastų geriausią modelį jūsų projektui.
Kokoro
Free
Kokoro yra 82 milijonų parametrų teksto-į-speech modelis, kuris perforuoja gerokai virš savo svorio klasės. Nepaisant jo mažyčių dydis, jis gamina nepaprastai natūralus ir išraiškingas kalba. Kokoro palaiko kelias kalbas, įskaitant anglų, japonų, kinų ir korėjiečių išraiškingų balsų įvairovė. Jis veikia neįtikėtinai greitai – generuoti garso beveik 100x greičiau nei realiu laiku GPU.
Hexgrad
Apache 2.0
Fast
en, ja, zh, fr, it, pt, es
1.5GB
Nr.
Neapmuitinama
Piper
Free
Piper yra lengvas tekstas-į-speech variklis, sukurtas Rhasspy, kuris naudoja VITS ir gerklx architektūrų. Jis veikia visiškai CPU, todėl idealiai tinka kraštutinių įrenginių, namų automatizavimo, ir taikomosios programos reikalauja belaidis TTS. Su daugiau nei 100 balsų 30+ kalbomis, Piper pristato natūralų garsą kalba realiu laiku net Aviečių Pi 4.
Rhasspy
MIT
Fast
en, de, fr, es, it, pt, nl, pl, ru, zh, ja, ko, ar, cs, da, fi, el, hu, is, ka, kk, ne, no, ro, sk, sr, sv, sw, tr, uk, vi
0 (CPU only)
Nr.
Neapmuitinama
VITS
Free
VITS (Variational Inclusion with conversarial learning for end-to-end Text-to-Speech) yra lygiagretus „nuo galo iki galo“ TTS metodas, kuris generuoja daugiau natūralių garso skambesių nei dabartiniai dviejų pakopų modeliai. Jis priima įvairų interferenciją, sustiprintą normalizuojant srautus ir atliekant priešpriešinio mokymo procesą, užtikrinantį reikšmingą natūralios aplinkos pagerėjimą.
Jaehyeon Kim et al.
MIT
Fast
en, de, es, fr, pt, nl, fi, hu, bg, uk, pl
1GB
Nr.
Neapmuitinama
MeloTTS
Free
MeloTTS by MyShell.ai yra daugiakalbė TTS biblioteka, remianti anglų (American, British, Indian, Australia), ispanų, prancūzų, kinų, japonų, ir korėjiečių. Tai yra labai greitai, apdoroti tekstą beveik realiu laiku vien procesoriaus. MeloTTS yra skirtas gamybos naudojimui ir palaiko tiek procesoriaus ir GPU inferencija.
MyShell.ai
MIT
Fast
en, es, fr, zh, ja, ko
0.5GB (GPU optional)
Nr.
Neapmuitinama
Bark
Standard
Bark by Suno yra transformatorius grindžiamas tekstas-į-audio modelis, kuris gali generuoti labai realų, daugiakalbę kalbą, taip pat kitų garso kaip muzika, fono triukšmas, ir garso efektai. Jis gali gaminti neverbalinius ryšius, pavyzdžiui, juoktis, dygčioti, ir verkti. Barkas palaiko daugiau nei 100 garsiakalbis iš anksto nustatyti ir 13+ kalbų.
Suno
MIT
Slow
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
5GB
Nr.
2x
Bark Small
Standard
Bark Small yra distiliuota versija Bark modelis, kuris prekiauja tam tikra garso kokybė žymiai greičiau trukdžių greičio ir mažesnius atminties reikalavimus. Jis išlaiko Bark gebėjimą generuoti kalbą su emocijomis, juokas, ir keliomis kalbomis.
Suno
MIT
Medium
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
2GB
Nr.
2x
CosyVoice 2
Standard
"CosyVoice 2" iš Alibaba's Tongyi Lab pasiekia žmogaus palyginamą kalbos kokybę su labai žemu latentiškumu, todėl idealiai tinka realiu laiku taikomosioms programoms. Ji naudoja baigtinį skalūninio kvantifikavimo metodą srautinei sintezei ir palaiko nulinės fotografijos balso klonavimą, tarpkalbinę sintezę ir ploną emocijų kontrolę. Ji viršija daug komercinių TTS sistemų subjektyvius vertinimus.
Alibaba (Tongyi Lab)
Apache 2.0
Medium
en, zh, ja, ko, fr, de, it, es
4GB
Taip
2x
Dia TTS
Standard
Dia by Nari Labs yra 1.6B parametro teksto į garsiakalbį modelis, sukurtas specialiai generuoti daugiakalbį dialogą. Jis gali sukurti natūralius pokalbius tarp dviejų garsiakalbių su atitinkamu posūkio, prozodija, ir emocinė išraiška. Dia puikiai tinka sukurti podcast stiliaus turinį, garso knygų dialogus ir interaktyvų pokalbio AI.
Nari Labs
Apache 2.0
Medium
en
4GB
Nr.
2x
Parler TTS
Standard
Parler TTS yra tekstas-į-speech modelis, kuris naudoja natūralios kalbos balso aprašymus, kad būtų galima kontroliuoti sukurtą kalbą. Vietoj to, kad pasirinktumėte iš anksto nustatytų balsų, Jūs apibūdinate norimą balsą (pvz., "šiltas moteriškas balsas su nedideliu britų akcentu, kalbant lėtai ir aiškiai"), ir Parler generuoja kalbą, atitinkančią šį apibūdinimą. Dėl to jis yra unikaliai lankstus kūrybiniams pritaikymams.
Hugging Face
Apache 2.0
Medium
en
4GB
Nr.
2x
GLM-TTS
Standard
GLM-TTS by Zhipu AI yra teksto-į-speech sistema, pastatyta ant Llama architektūra su srauto derinimu. Ji pasiekia žemiausią simbolių klaidų dažnis tarp atvirojo šaltinio TTS modelių, tai reiškia, ji gamina tiksliausias tarimo. GLM-TTS palaiko anglų ir kinų su balso klonavimo iš 3-10 sekundžių garso mėginių.
Zhipu AI
GLM-4 License
Medium
en, zh
4GB
Taip
2x
IndexTTS-2
Standard
IndexTTS-2 yra pažangi teksto-į-speech sistema, kuri pranoksta nulinės akimirkos balso sintezės metu su plonu emocijų reguliavimu. Ji gali generuoti kalbą su konkrečiais emociniais tonais, pavyzdžiui, laiminga, liūdna, pikta, ar baimės nereikalaujant emocijų specifinių mokymo duomenų. Modelyje naudojami emocijų vektoriai tiksliai kontroliuoti emocinę išraišką generuojamos kalbos.
Index Team
Bilibili Model License
Medium
en, zh
4GB
Taip
2x
Spark TTS
Standard
SparkAudio "SparkAudio" "Spark-to-speech" modelis, kuris sujungia balso klonavimą su reguliuojamu emocijų ir kalbėjimo stiliumi. Naudodamas tik 5 sekundžių referencinį garsą, jis gali klonuoti balsą ir generuoti kalbą su skirtingomis emocijomis, greičiais ir stiliais, tuo pat metu išlaikydamas klonuotą balso tapatybę. "Spark TTS" naudoja greitojo valdymo sistemą.
SparkAudio
CC BY-NC-SA 4.0
Medium
en, zh
4GB
Taip
2x
GPT-SoVITS
Standard
GPT-SoVITS kombinuoja GPT stiliaus kalbos modeliavimą su SoVITS (Singing Voice Induction by Translation and Sinteze) galingam vos 5 sekundių referencinio garso klonavimui. Ji gali tiksliai klonuoti balsą ir generuoti naują kalbą, išsaugant kalbėtojo unikalias savybes. Ji pranoksta tiek kalbėjimo, tiek dainavimo balso sinteze.
RVC-Boss
MIT
Slow
en, zh, ja, ko
6GB
Taip
2x
Orpheus
Standard
Orpheus yra didelio masto tekstas-į-speech modelis, kuris pasiekia žmogiškojo lygio emocinę išraišką. Apmokytas daugiau nei 100,000 valandų įvairių kalbos duomenų, jis pranoksta generuoti kalbą su natūraliomis emocijomis, akcentas, ir kalbėjimo stilius. Orpheus gali sukelti kalbą, kuri yra iš esmės neatskiriama nuo žmogaus įrašų.
Canopy Labs
Llama 3.2 Community
Medium
en
4GB
Nr.
2x
Chatterbox
Premium
Pokalbio dėžutė, kurią sudaro „Remble AI“, yra moderniausias nulinis balso klonavimo modelis. Ji gali atkartoti bet kokį balsą iš vieno garso mėginio su nepaprastu tikslumu, fiksuodama ne tik tembrą, bet ir kalbėjimo stilių bei emocinius niuansus. Pokalbis taip pat turi smulkiai grubų emocijų valdymą, leidžiantį reguliuoti sukurtos kalbos emocinį toną nepriklausomai nuo balso tapatybės.
Resemble AI
MIT
Medium
en
4GB
Taip
4x
Tortoise TTS
Premium
Tortoise TTS yra autoregesyvi daugiabalsė teksto į garsą sistema, kuri pirmenybę teikia garso kokybei per greitį. Ji naudoja DALL-E-įkvėptą architektūrą, kad generuoti labai natūralų kalbą su puikiu prozodija ir garsiakalbio panašumu. Nors lėčiau nei daugelis alternatyvų, Tortoise sukuria kai kurie iš realistiškų sintetinių kalbos atvirojo šaltinio ekosistemoje.
James Betker
Apache 2.0
Slow
en
8GB
Taip
4x
StyleTTS 2
Premium
StyleTTS 2 pasiekia žmogaus lygio TTS sintezę, sujungiant stilių difuzijos ir antiversarialinius mokymus naudojant didžiosios kalbos kalbos modelius. Ji generuoja natūraliausias skambesį tarp vieno garsiakalbio modelių, konkuruojanti žmogaus įrašus. StyleTTS 2 naudoja difuzijos pagrindu stiliaus modeliavimą, kad užfiksuotų visą žmogaus kalbos variantų spektrą.
Columbia University
MIT
Medium
en
4GB
Nr.
4x
OpenVoice
Premium
MyShell.ai leidžia akimirkinį balso klonavimą su granuliuotu balso stiliaus, emocijų, akcento, ritmo, pauzės ir intonacijos valdymu. Jis gali klonuoti balsą iš trumpo garso klipo ir generuoti kalbą keliomis kalbomis, tuo pat metu išlaikydamas garsiakalbio tapatybę. OpenVoice taip pat veikia kaip balso keitiklis, leidžiantis realiu laiku transformuoti balsą.
MyShell.ai / MIT
MIT
Medium
en, zh, ja, ko, fr, de, es, it
4GB
Taip
4x
Qwen3 TTS
Standard
Qwen3-TTS yra 1,7 milijardo parametro tekstas į garsiakalbį iš Alibaba Qwen komandos. Ji palaiko tris režimus: iš anksto su emocijų kontrole (9 garsiakalbiai), balso klonavimu nuo vos 3 sekundžių garso ir unikaliu balso dizaino režimu, kuriame Jūs apibūdinate norimą balsą natūralia kalba. Ji apima 10 kalbų su dideliu išraiškingumu ir natūralia prozodija.
Alibaba (Qwen)
Apache 2.0
Medium
en, zh, ja, ko, de, fr, ru, pt, es, it
7GB
Taip
2x
Sesame CSM
Premium
Sezamo CSM (konversijos kalbos modelis) yra 1 mlrd. parametrų modelis, sukurtas specialiai generuoti pokalbinę kalbą. Jis modeliuoja natūralius žmogaus pokalbio modelius, įskaitant posūkio laiką, nugaros kanalų atsaką, emocines reakcijas ir pokalbio srautą. CSM generuoja garsą, kuris skamba kaip natūralus žmogaus pokalbis, o ne sintetinis pokalbis.
Sesame
Apache 2.0
Slow
en
8GB
Nr.
4x
Chatterbox Turbo
Standard
Chatterbox Turbo by Resemble AI yra 350M parametro atnaujinimas į Chatterbox, užtikrinantis iki 6x realaus laiko greitį su sub-200ms latency. Ji palaiko paralingustic žymės, pavyzdžiui [juoka], [sukti] ir [chuckle] tiesiogiai į tekstą. Įtraukia Perth vandens žymėjimas visų sugeneruotų garso provenencijos sekimo.
Resemble AI
MIT
Fast
en
2GB
Taip
2x
VoxCPM
Standard
OpenBMB VoxCPM 1.5 yra naujas be tokenizatoriaus TTS modelis, kuris veikia ištisinėje erdvėje, o ne diskrečiuosiuose žetonuose. Jis gamina aukštos kokybės 44.1kHz garsą, palaiko nulinės fotografijos balso klonavimą nuo 3-10 sekundžių ir palaiko nuoseklumą visuose punktuose. Kryžminės kalbos klonavimas leidžia taikyti anglų kalbą kinų kalbai ir atvirkščiai.
OpenBMB
Apache 2.0
Fast
en, zh
4GB
Taip
2x
Kani TTS 2
Free
Kani-TTS-2 by NineNineSix yra itin lengvas 400M parametro modelis, sudarytas iš Skystyai LFM2 stuburo su Nvidia NanoCodec. Jis veikia tik 3GB VRAM ir pasiekia 10 sekundžių kalbos per ~2 sekundes (RTF 0.2).
NineNineSix
Apache 2.0
Fast
en, pt, es
3GB
Taip
Neapmuitinama
OuteTTS
Free
OuteTTS palaiko didelius kalbų modelius su teksto-įspėjimu išlaikant originalią architektūrą. Ji palaiko kelias programines sąsajas, įskaitant llama.cpp (CPU/GPU), Hagging Face Transformers, ExLlamaV2, VLLM, ir net naršyklę, trukdančią per Transformers.js. Funkcijos nulinės fotografijos balso klonavimas per garsiakalbio profilius, išsaugotus kaip JSON.
OuteAI
Apache 2.0
Fast
en
2GB
Taip
Neapmuitinama
VibeVoice
Standard
VibeVoice by Microsoft yra dviejų variantų: 1.5B modelis ilgaformis turinys (iki 90 minučių, 4 garsiakalbiai) ir Realtime 0.5B modelis srautui su ~200ms pirmasis garso latency. 1.5B variantas pranoksta podcasts ir garso knygų su garsiakalbio konsistencija per ilgas ištraukas. Pastaba: Microsoft pašalintas TTS kodas iš saugyklos ir generuojami garso apima garsinės AI disclaiders.
Microsoft
MIT
Fast
en, zh
4GB
Nr.
2x
Pocket TTS
Free
Pocket TTS by Kyutai (Moshi kūrėjai) yra kompaktiškas 100M parametro teksto-į-speech modelis, kuris perforuoja daug daugiau nei jo svoris. Jis veikia efektyviai naudojant CPU, palaiko nulinio smogtuvo balso klonavimą iš vieno garso mėginio ir gamina natūralų garsą. Dėl mažo modelio dydžio jis yra idealus briaunos ir mažo šaltinio aplinkai.
Kyutai
MIT
Fast
en, fr
1GB
Taip
Neapmuitinama
Kitten TTS
Free
Kitten TTS by KittenML is an ultra-lightweight text-to-speech model built on ONNX. With variants from 15M to 80M parameters (25-80 MB on disk), it delivers high-quality voice synthesis on CPU without requiring a GPU. Features 8 built-in voices, adjustable speech speed, and built-in text preprocessing for numbers, currencies, and units. Ideal for edge deployment and low-latency applications.
KittenML
Apache 2.0
Fast
en
0GB
Nr.
Neapmuitinama
CosyVoice3
Standard
CosyVoice3 is the latest evolution from Alibaba's FunAudioLLM team. It features bi-streaming inference with ~150ms latency, instruction-based control for emotion/speed/volume, and improved speaker similarity for zero-shot cloning. Supports 9 languages plus 18 Chinese dialects. RL-tuned variant delivers state-of-the-art prosody.
Alibaba (FunAudioLLM)
Apache 2.0
Fast
en, zh, ja, ko, de, es, fr, it, ru
4GB
Taip
2x
NAMAA Saudi TTS
Standard
NAMAA Saudi TTS is a Saudi Arabic fine-tune of Resemble AI's ChatterboxMultilingual. Trained by NAMAA Space on authentic Saudi-dialect speech, it produces natural Modern Standard Arabic and Saudi colloquial pronunciation that generic multilingual models cannot match. Inherits Chatterbox's zero-shot voice cloning and emotion control via reference audio prompts. The first open-weights Arabic TTS deployed on TTS.ai.
NAMAA Space
MIT
Medium
ar
6GB
Taip
2x
Darwin TTS
Standard
Darwin-TTS-1.7B-Cross by FINAL-Bench is a research variant of Qwen3-TTS-1.7B where 84 talker-FFN tensors (8.6%) are blended at α=3% with the matching tensors from Qwen3-1.7B-Base. The blend is built without retraining and produces noticeably crisper cross-lingual voice cloning across Korean, English, Japanese, and Chinese. Operates in zero-shot voice-clone mode (3 seconds reference audio).
FINAL-Bench
Apache 2.0
Medium
en, ko, ja, zh, de, fr, ru, pt, es, it
7GB
Taip
2x
MOSS-TTSD
Standard
MOSS-TTSD v1.0 from OpenMOSS is a 7B dialogue text-to-speech model that continues conversations from a short audio prompt. Supports up to 5 simultaneous speakers via [S1]/[S2] tags, zero-shot voice cloning from 3-10s reference audio, and up to 60 minutes of coherent multi-turn dialogue across 20 languages. Distinct from MOSS-TTS — TTSD is specialized for podcast/audiobook/dubbing workflows.
OpenMOSS
Apache 2.0
Medium
en, zh, de, es, fr, ja, it, ko, ru, ar, pl, pt, cs, da, sv, el, tr, hu, fa, he
12GB
Taip
2x
Ming-Omni TTS
Free
Ming-omni-tts-0.5B by inclusionAI is a compact omni-modal speech model built on the BailingMM dense backbone with a Patch-by-Patch flow-matching audio decoder. Delivers 44.1kHz output (near CD quality), supports zero-shot voice cloning from a 3+ second reference, and includes built-in emotion / dialect / BGM control via JSON instructions. Excellent stability — 0.83% WER on Chinese benchmarks.
inclusionAI
Apache 2.0
Medium
en, zh
3GB
Taip
Neapmuitinama
Kokoro
Neapmuitinama
Kokoro is an 82 million parameter text-to-speech model that punches well above its weight class. Despite its tiny size, it produces remarkably natural and expressive speech. Kokoro supports multiple languages including English, Japanese, Chinese, and Korean with a variety of expressive voices. It runs incredibly fast — generating audio nearly 100x faster than real-time on a GPU.
Hexgrad
Apache 2.0
Fast
Piper
Neapmuitinama
Piper is a lightweight text-to-speech engine developed by Rhasspy that uses VITS and larynx architectures. It runs entirely on CPU, making it ideal for edge devices, home automation, and applications requiring offline TTS. With over 100 voices across 30+ languages, Piper delivers natural-sounding speech at real-time speeds even on a Raspberry Pi 4.
Rhasspy
MIT
Fast
VITS
Neapmuitinama
VITS (Variational Inference with adversarial learning for end-to-end Text-to-Speech) is a parallel end-to-end TTS method that generates more natural sounding audio than current two-stage models. It adopts variational inference augmented with normalizing flows and an adversarial training process, achieving a significant improvement in naturalness.
Jaehyeon Kim et al.
MIT
Fast
MeloTTS
Neapmuitinama
MeloTTS by MyShell.ai is a multilingual TTS library supporting English (American, British, Indian, Australian), Spanish, French, Chinese, Japanese, and Korean. It is extremely fast, processing text at near real-time speed on CPU alone. MeloTTS is designed for production use and supports both CPU and GPU inference.
MyShell.ai
MIT
Fast
Kani TTS 2
Neapmuitinama
Kani-TTS-2 by NineNineSix is an ultra-lightweight 400M parameter model built on LiquidAI LFM2 backbone with Nvidia NanoCodec. It runs in just 3GB VRAM and achieves 10 seconds of speech in ~2 seconds (RTF 0.2). Supports zero-shot voice cloning via speaker embeddings.
NineNineSix
Apache 2.0
Fast
OuteTTS
Neapmuitinama
OuteTTS extends large language models with text-to-speech capabilities while preserving the original architecture. It supports multiple backends including llama.cpp (CPU/GPU), Hugging Face Transformers, ExLlamaV2, VLLM, and even browser inference via Transformers.js. Features zero-shot voice cloning through speaker profiles saved as JSON.
OuteAI
Apache 2.0
Fast
Pocket TTS
Neapmuitinama
Pocket TTS by Kyutai (creators of Moshi) is a compact 100M parameter text-to-speech model that punches well above its weight. It runs efficiently on CPU, supports zero-shot voice cloning from a single audio sample, and produces natural-sounding speech. The small model size makes it ideal for edge deployment and low-resource environments.
Kyutai
MIT
Fast
Kitten TTS
Neapmuitinama
Kitten TTS by KittenML is an ultra-lightweight text-to-speech model built on ONNX. With variants from 15M to 80M parameters (25-80 MB on disk), it delivers high-quality voice synthesis on CPU without requiring a GPU. Features 8 built-in voices, adjustable speech speed, and built-in text preprocessing for numbers, currencies, and units. Ideal for edge deployment and low-latency applications.
KittenML
Apache 2.0
Fast
Ming-Omni TTS
Neapmuitinama
Ming-omni-tts-0.5B by inclusionAI is a compact omni-modal speech model built on the BailingMM dense backbone with a Patch-by-Patch flow-matching audio decoder. Delivers 44.1kHz output (near CD quality), supports zero-shot voice cloning from a 3+ second reference, and includes built-in emotion / dialect / BGM control via JSON instructions. Excellent stability — 0.83% WER on Chinese benchmarks.
inclusionAI
Apache 2.0
Medium
Bark
Standartinis
Bark by Suno is a transformer-based text-to-audio model that can generate highly realistic, multilingual speech as well as other audio like music, background noise, and sound effects. It can produce nonverbal communications like laughing, sighing, and crying. Bark supports over 100 speaker presets and 13+ languages.
Suno
MIT
Slow
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
Nr.
Bark Small
Standartinis
Bark Small is a distilled version of the Bark model that trades some audio quality for significantly faster inference speeds and lower memory requirements. It retains Bark's ability to generate speech with emotions, laughter, and multiple languages.
Suno
MIT
Medium
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
Nr.
CosyVoice 2
Standartinis
CosyVoice 2 by Alibaba's Tongyi Lab achieves human-comparable speech quality with extremely low latency, making it ideal for real-time applications. It uses a finite scalar quantization approach for streaming synthesis and supports zero-shot voice cloning, cross-lingual synthesis, and fine-grained emotion control. It outperforms many commercial TTS systems in subjective evaluations.
Alibaba (Tongyi Lab)
Apache 2.0
Medium
en, zh, ja, ko, fr, de, it, es
Taip
Dia TTS
Standartinis
Dia by Nari Labs is a 1.6B parameter text-to-speech model designed specifically for generating multi-speaker dialogue. It can produce natural-sounding conversations between two speakers with appropriate turn-taking, prosody, and emotional expression. Dia is perfect for creating podcast-style content, audiobook dialogues, and interactive conversational AI.
Nari Labs
Apache 2.0
Medium
en
Nr.
Parler TTS
Standartinis
Parler TTS is a text-to-speech model that uses natural language voice descriptions to control the generated speech. Instead of selecting from preset voices, you describe the voice you want (e.g., "a warm female voice with a slight British accent, speaking slowly and clearly") and Parler generates speech matching that description. This makes it uniquely flexible for creative applications.
Hugging Face
Apache 2.0
Medium
en
Nr.
GLM-TTS
Standartinis
GLM-TTS by Zhipu AI is a text-to-speech system built on the Llama architecture with flow matching. It achieves the lowest character error rate among open-source TTS models, meaning it produces the most accurate pronunciation. GLM-TTS supports English and Chinese with voice cloning from 3-10 second audio samples.
Zhipu AI
GLM-4 License
Medium
en, zh
Taip
IndexTTS-2
Standartinis
IndexTTS-2 is an advanced text-to-speech system that excels at zero-shot voice synthesis with fine-grained emotion control. It can generate speech with specific emotional tones like happy, sad, angry, or fearful without requiring emotion-specific training data. The model uses emotion vectors to precisely control the emotional expression of generated speech.
Index Team
Bilibili Model License
Medium
en, zh
Taip
Spark TTS
Standartinis
Spark TTS by SparkAudio is a text-to-speech model that combines voice cloning with controllable emotion and speaking style. Using just 5 seconds of reference audio, it can clone a voice and then generate speech with different emotions, speeds, and styles while maintaining the cloned voice identity. Spark TTS uses a prompt-based control system.
SparkAudio
CC BY-NC-SA 4.0
Medium
en, zh
Taip
GPT-SoVITS
Standartinis
GPT-SoVITS combines GPT-style language modeling with SoVITS (Singing Voice Inference via Translation and Synthesis) for powerful few-shot voice cloning. With as little as 5 seconds of reference audio, it can accurately clone a voice and generate new speech while preserving the speaker's unique characteristics. It excels at both speaking and singing voice synthesis.
RVC-Boss
MIT
Slow
en, zh, ja, ko
Taip
Orpheus
Standartinis
Orpheus is a large-scale text-to-speech model that achieves human-level emotional expression. Trained on over 100,000 hours of diverse speech data, it excels at generating speech with natural emotions, emphasis, and speaking styles. Orpheus can produce speech that is virtually indistinguishable from human recordings.
Canopy Labs
Llama 3.2 Community
Medium
en
Nr.
Qwen3 TTS
Standartinis
Qwen3-TTS is a 1.7 billion parameter text-to-speech model from Alibaba's Qwen team. It supports three modes: preset voices with emotion control (9 speakers), voice cloning from just 3 seconds of audio, and a unique voice design mode where you describe the voice you want in natural language. It covers 10 languages with high expressiveness and natural prosody.
Alibaba (Qwen)
Apache 2.0
Medium
en, zh, ja, ko, de, fr, ru, pt, es, it
Taip
Chatterbox Turbo
Standartinis
Chatterbox Turbo by Resemble AI is a 350M parameter upgrade to Chatterbox, delivering up to 6x real-time speed with sub-200ms latency. It supports paralinguistic tags like [laugh], [cough], and [chuckle] directly in text. Includes Perth watermarking on all generated audio for provenance tracking.
Resemble AI
MIT
Fast
en
Taip
VoxCPM
Standartinis
VoxCPM 1.5 by OpenBMB is a novel tokenizer-free TTS model that operates in continuous space rather than discrete tokens. It produces high-fidelity 44.1kHz audio, supports zero-shot voice cloning from 3-10 seconds, and maintains consistency across paragraphs. Cross-language cloning lets you apply an English voice to Chinese speech and vice versa.
OpenBMB
Apache 2.0
Fast
en, zh
Taip
VibeVoice
Standartinis
VibeVoice from Microsoft generates long-form speech up to 90 minutes with support for 4 simultaneous speakers, making it ideal for podcasts and dialogues. The Realtime 0.5B variant achieves ~300ms latency for interactive use. Supports speaker tags for multi-turn dialogue generation.
Microsoft
MIT
Fast
en, zh
Nr.
CosyVoice3
Standartinis
CosyVoice3 is the latest evolution from Alibaba's FunAudioLLM team. It features bi-streaming inference with ~150ms latency, instruction-based control for emotion/speed/volume, and improved speaker similarity for zero-shot cloning. Supports 9 languages plus 18 Chinese dialects. RL-tuned variant delivers state-of-the-art prosody.
Alibaba (FunAudioLLM)
Apache 2.0
Fast
en, zh, ja, ko, de, es, fr, it, ru
Taip
NAMAA Saudi TTS
Standartinis
NAMAA Saudi TTS is a Saudi Arabic fine-tune of Resemble AI's ChatterboxMultilingual. Trained by NAMAA Space on authentic Saudi-dialect speech, it produces natural Modern Standard Arabic and Saudi colloquial pronunciation that generic multilingual models cannot match. Inherits Chatterbox's zero-shot voice cloning and emotion control via reference audio prompts. The first open-weights Arabic TTS deployed on TTS.ai.
NAMAA Space
MIT
Medium
ar
Taip
Darwin TTS
Standartinis
Darwin-TTS-1.7B-Cross by FINAL-Bench is a research variant of Qwen3-TTS-1.7B where 84 talker-FFN tensors (8.6%) are blended at α=3% with the matching tensors from Qwen3-1.7B-Base. The blend is built without retraining and produces noticeably crisper cross-lingual voice cloning across Korean, English, Japanese, and Chinese. Operates in zero-shot voice-clone mode (3 seconds reference audio).
FINAL-Bench
Apache 2.0
Medium
en, ko, ja, zh, de, fr, ru, pt, es, it
Taip
MOSS-TTSD
Standartinis
MOSS-TTSD v1.0 from OpenMOSS is a 7B dialogue text-to-speech model that continues conversations from a short audio prompt. Supports up to 5 simultaneous speakers via [S1]/[S2] tags, zero-shot voice cloning from 3-10s reference audio, and up to 60 minutes of coherent multi-turn dialogue across 20 languages. Distinct from MOSS-TTS — TTSD is specialized for podcast/audiobook/dubbing workflows.
OpenMOSS
Apache 2.0
Medium
en, zh, de, es, fr, ja, it, ko, ru, ar, pl, pt, cs, da, sv, el, tr, hu, fa, he
Taip
Pavyzdys Palyginimo lentelė
| Pavyzdys | Programuotojas: | Pakopa | Kokybė: | Greitis | kalbos | Balso klonavimas | VRAM | Licencija: | kreditai | |
|---|---|---|---|---|---|---|---|---|---|---|
| Kokoro | Hexgrad | Free | Fast | 7 | 1.5GB | Apache 2.0 | Neapmuitinama | Naudojimas | ||
| Piper | Rhasspy | Free | Fast | 31 | 0 (CPU only) | MIT | Neapmuitinama | Naudojimas | ||
| VITS | Jaehyeon Kim et al. | Free | Fast | 11 | 1GB | MIT | Neapmuitinama | Naudojimas | ||
| MeloTTS | MyShell.ai | Free | Fast | 6 | 0.5GB (GPU optional) | MIT | Neapmuitinama | Naudojimas | ||
| Bark | Suno | Standard | Slow | 13 | 5GB | MIT | 2 | Naudojimas | ||
| Bark Small | Suno | Standard | Medium | 13 | 2GB | MIT | 2 | Naudojimas | ||
| CosyVoice 2 | Alibaba (Tongyi Lab) | Standard | Medium | 8 | 4GB | Apache 2.0 | 2 | Naudojimas | ||
| Dia TTS | Nari Labs | Standard | Medium | 1 | 4GB | Apache 2.0 | 2 | Naudojimas | ||
| Parler TTS | Hugging Face | Standard | Medium | 1 | 4GB | Apache 2.0 | 2 | Naudojimas | ||
| GLM-TTS | Zhipu AI | Standard | Medium | 2 | 4GB | GLM-4 License | 2 | Naudojimas | ||
| IndexTTS-2 | Index Team | Standard | Medium | 2 | 4GB | Bilibili Model License | 2 | Naudojimas | ||
| Spark TTS | SparkAudio | Standard | Medium | 2 | 4GB | CC BY-NC-SA 4.0 | 2 | Naudojimas | ||
| GPT-SoVITS | RVC-Boss | Standard | Slow | 4 | 6GB | MIT | 2 | Naudojimas | ||
| Orpheus | Canopy Labs | Standard | Medium | 1 | 4GB | Llama 3.2 Community | 2 | Naudojimas | ||
| Chatterbox | Resemble AI | Premium | Medium | 1 | 4GB | MIT | 4 | Naudojimas | ||
| Tortoise TTS | James Betker | Premium | Slow | 1 | 8GB | Apache 2.0 | 4 | Naudojimas | ||
| StyleTTS 2 | Columbia University | Premium | Medium | 1 | 4GB | MIT | 4 | Naudojimas | ||
| OpenVoice | MyShell.ai / MIT | Premium | Medium | 8 | 4GB | MIT | 4 | Naudojimas | ||
| Qwen3 TTS | Alibaba (Qwen) | Standard | Medium | 10 | 7GB | Apache 2.0 | 2 | Naudojimas | ||
| Sesame CSM | Sesame | Premium | Slow | 1 | 8GB | Apache 2.0 | 4 | Naudojimas | ||
| Chatterbox Turbo | Resemble AI | Standard | Fast | 1 | 2GB | MIT | 2 | Naudojimas | ||
| VoxCPM | OpenBMB | Standard | Fast | 2 | 4GB | Apache 2.0 | 2 | Naudojimas | ||
| Kani TTS 2 | NineNineSix | Free | Fast | 3 | 3GB | Apache 2.0 | Neapmuitinama | Naudojimas | ||
| OuteTTS | OuteAI | Free | Fast | 1 | 2GB | Apache 2.0 | Neapmuitinama | Naudojimas | ||
| VibeVoice | Microsoft | Standard | Fast | 2 | 4GB | MIT | 2 | Naudojimas | ||
| Pocket TTS | Kyutai | Free | Fast | 2 | 1GB | MIT | Neapmuitinama | Naudojimas | ||
| Kitten TTS | KittenML | Free | Fast | 1 | 0GB | Apache 2.0 | Neapmuitinama | Naudojimas | ||
| CosyVoice3 | Alibaba (FunAudioLLM) | Standard | Fast | 9 | 4GB | Apache 2.0 | 2 | Naudojimas | ||
| NAMAA Saudi TTS | NAMAA Space | Standard | Medium | 1 | 6GB | MIT | 2 | Naudojimas | ||
| Darwin TTS | FINAL-Bench | Standard | Medium | 10 | 7GB | Apache 2.0 | 2 | Naudojimas | ||
| MOSS-TTSD | OpenMOSS | Standard | Medium | 20 | 12GB | Apache 2.0 | 2 | Naudojimas | ||
| Ming-Omni TTS | inclusionAI | Free | Medium | 2 | 3GB | Apache 2.0 | Neapmuitinama | Naudojimas |
Išsamiausias AI tekstas kalbos platformai
Kodėl reikia pasirinkti TTS.ai tekstą į kalbą?
TTS.ai sujungia geriausius atviro kodo tekstus-į-speech modelius į vieną, lengvai naudoti platformą. Skirtingai nuo patentuotų paslaugų, kad užrakinti jus į vieną balso variklio, TTS.ai suteikia jums prieigą prie 20+ modelių iš pirmaujančių mokslinių laboratorijų, įskaitant Coqui, MyShell, Amphion, NVIDIA, Suno, HugggingFace, Tsinghua universitetas, ir daugiau.
Kiekvienas modelis yra atviras šaltinis pagal MIT, Apache 2.0, ar panašios leidžiamosios licencijos, užtikrinant, kad jūs turite visas komercines teises naudoti sukurtą garsą savo projektuose. Nesvarbu, ar jums reikia greito, lengvo sintezės realiu laiku programų arba aukščiausios studijos kokybės išeigą garso knygų ir podcasts, TTS.ai turi tinkamą modelį kiekvienam naudojimo atvejui.
Nemokami modeliai, nereikia paskyros
Pradėti iš karto su trimis nemokamais TTS modeliais: Piper (ultra-greitas, lengvas), VITS (aukštos kokybės nervų sintezė) ir MeloTTTS (daugiakalbis palaikymas). Nėra registracijos, kredito kortelės, nėra apribojimų kartoms. Nemokami modeliai palaiko anglų ir kelias kitas kalbas su natūralu išeiga tinka daugumai taikomųjų programų.
GPU pagreitintas perdirbimas
Visi TTS modeliai veikia pagal specialius NVIDIA GPU greitos ir nuoseklios kartos laikus. Nemokami modeliai paprastai generuoja garsą per 2 sekundes. Standartiniai modeliai, tokie kaip Kokoro, CosyVoice 2, ir Bark, vidutiniškai 3-5 sekundės. Premium aukščiausios kokybės modeliai, tokie kaip Tortoise ir Chatterbox, procesas per 5-15 sekundžių, priklausomai nuo teksto ilgio.
30+ Kalbų palaikymas
Generuoti kalbą daugiau nei 30 kalbomis, įskaitant anglų, ispanų, prancūzų, vokiečių, italų, portugalų, kinų, japonų, korėjiečių, arabų, hindi, rusų, ir daug daugiau. Keletas modelių remti tarpkalbinę sintezę, tai reiškia, jūs galite generuoti kalbą kalba, originalus balsas niekada nebuvo mokomas. CosyVoice 2 ir GPT-SoVITS puikus tarpkalbinio balso klonavimo.
Programuotojas-ready API
Į jūsų programas integruoti TTS.ai mūsų OpenAI suderinama REST API. Vienas tikslas visiems 20+ modelių. Python, JavaScript, cURL, ir Go SDKs. Streaming palaikymas realiu laiku programų. Partijos tvarkymas didelio masto turinio turinio generavimas. Webhookers async pranešimus. Galima Pro ir Enterprise planus.
Dažnai užduodami klausimai
Ką mes galėtume pagerinti? Jūsų atsiliepimai padeda mums išspręsti problemas.
Pradėti konvertavimo tekstą į kalbą dabar
Prisijunkite prie tūkstančių kūrėjų, naudojant TTS.ai. Gauti 15,000 nemokamai simbolių su nauja sąskaita. Nemokama modeliai prieinami be registracijos.