Soratra mankany amin'ny feo
Manova ny lahabolana ho teny mivoaka toy ny tena izy amin'ny alalan'ny modely AI loharano misokatra. Afaka ampiasaina maimaimpoana, tsy mila kaonty.
Ampidiro anatin'ny tag SSML ny lahabolana mba hahazoana fifehezana mazava tsara:
<speak><prosody rate="slow">Slow speech</prosody></speak>
Ampidiro ireo marika fihetseham-po mba hitondra fiantraikany amin'ny fandefasana (miovaova ny modely fanohanana):
Mamaritra ny fanononana safidy (teny = fanononana):
Antsipirian'ilay modely
Qwen3 TTS
Qwen3-TTS is a 1.7 billion parameter text-to-speech model from Alibaba's Qwen team. It supports three modes: preset voices with emotion control (9 speakers), voice cloning from just 3 seconds of audio, and a unique voice design mode where you describe the voice you want in natural language. It covers 10 languages with high expressiveness and natural prosody.
| Mpamorona: | Alibaba (Qwen) |
| Lisansa: | Apache 2.0 |
| _Hafainganana: | Medium |
| Kalitao: | |
| Teny | 10 Teny |
| VRAM | 7GB |
| Fandraisana an-tsoratra feo | Noraisina an-tànana |
Torohevitra ho an'ny vokatra tsara kokoa
- Ampiasao ny fanononana mety amin'ny fiatoana sy ny fiteny
- Soraty ny isa sy ny fanononana mba ho mazava kokoa ny fehezanteny
- Hampiditra virtoaly mba hamoronana fiatoana fohy eo anelanelan'ny fehezanteny
- Ampiasao ny ellipsis (...) raha mila fiatoana lava kokoa
- Andramo ny Kokoro na ny CosyVoice 2 ho an'ny vokatra tena voajanahary indrindra
- Ny Dia no ampiasaina amin'ny takila misy mpiteny maro sy ny votoaty podcast
Fampiasàna marika
| Taona | Ny vidin'ny marika 1K |
|---|---|
| Free | 1:1 (tsy voafetra) |
| Stock label | Marika 2x |
| Premium | Marika 4x |
Ahoana ny fomba fiasan'ny AI Text to Speech
Mamorona feo avo lenta amin'ny dingana telo tsotra. Tsy mila fahalalana ara-teknika.
Soraty ny lahabolana
Manorata, apetaho na alefa ny lahabolana tianao ovaina ho teny mivaky. Mandray an-tànana hatramin'ny marika 5000 isan-karazany ho an'ireo mpampiasa efa niditra. Ampiasao ny lahabolana tsotra na ampio tag SSML mba hifehezana ny fehezanteny, ny fiatoana, ary ny fanasongadinana.
Safidio ny modely sy ny feo
Misafidiana modely AI mihoatra ny 20 amin'ny ambaratonga telo. Misafidiana feo mifanaraka amin'ny votoatiny, misafidiana ny teny tianao ampiasaina, manova ny hafainganan'ny famakiana eo anelanelan'ny 0.5x ka hatramin'ny 2.0x, ary misafidy ny endrika famoahana tianao (MP3, WAV, OGG, na FLAC).
Hamorona sy hisintona
Tsindrio ny "Mamorona" dia ho vonona ao anatin'ny segondra vitsy ny feonao. Jereo aloha amin'ny alalan'ny mpilalao mipetaka ao anatiny, vakio amin'ny lamina safidinao, na adikao amin'ny alalan'ny rohy azo zaraina. Ampiasao ny API ho an'ny fiasan'ny batch sy ny fampidirana amin'ny fizotranao.
Soratra mankany amin'ny fiteny
Manova ny fomba famoronan'ny olona, fanjifana, ary fifandraisan'izy ireo amin'ny votoaty am-peo manerana ny indostria am-polony ny lahatsoratra-ho-teny mifototra amin'ny AI.
Ireo modelin'ny fandikana lahabolana rehetra
Famaritana amin'ny antsipiriany ho an'ny modely AI rehetra hita ao amin'ny TTS.ai. Ampitahao ny kalitao, ny hafainganam-pandeha, ny fanohanana ny teny, ary ny endri-javatra mba hahitana ny modely mety indrindra ho an'ny tetikasao.
Kokoro
Free
Kokoro dia modely 82 tapitrisa amin'ny famaritana ny soratra ho teny izay misongadina tsara noho ny lanjany. Na dia kely aza ny habeny, dia mamorona teny tena natiora sy maneho hevitra izy. Manohana fiteny marobe ny Kokoro, anisan'izany ny teny Anglisy, Japoney, Shinoa, ary Koreana miaraka amin'ny feo marobe maneho hevitra. Mandroso haingana dia haingana izy — mamorona feo haingana 100 heny noho ny fotoana tena izy amin'ny GPU.
Hexgrad
Apache 2.0
Fast
en, ja, zh, ko, fr, de, it, pt, es, hi, ru
1.5GB
Tsia
Free
Piper
Free
Ny Piper dia milina madinika iray hanova ny soratra ho teny namboarin'ny Rhasspy izay mampiasa ny VITS sy ny larynx architecture. Miasa tanteraka amin'ny CPU izy, ka mahatonga azy ho tsara indrindra ho an'ny fitaovana eny amin'ny sisiny, ny fanaraha-maso ny trano, ary ny rindran'asa mila TTS tsy misy fifandraisana. Miaraka amin'ny feo maherin'ny 100 amin'ny teny 30+ ny Piper, manome feo voajanahary amin'ny fiteny amin'ny hafainganam-pandeha tena izy na dia amin'ny Raspberry Pi 4 aza.
Rhasspy
MIT
Fast
en, de, fr, es, it, pt, nl, pl, ru, zh, ja, ko, ar, cs, da, fi, el, hu, is, ka, kk, ne, no, ro, sk, sr, sv, sw, tr, uk, vi
0 (CPU only)
Tsia
Free
VITS
Free
Ny VITS (Variational Inference with adversarial learning for end-to-end Text-to-Speech) dia fomba TTS mifamatotra miainga avy amin'ny farany ka hatrany amin'ny farany izay mamorona feo miafina miavaka kokoa noho ny modely roa dingana ankehitriny. Mandray ny fiheverana miovaova ampitomboina amin'ny fikorianan'ny normalization sy ny fizotry ny fanazaran-tena mifanohitra izy, ary mahazo fanatsarana goavana amin'ny natiora.
Jaehyeon Kim et al.
MIT
Fast
en, zh, ja, ko
1GB
Tsia
Free
MeloTTS
Free
Ny MeloTTS avy amin'ny MyShell.ai dia tranomboky TTS maro teny izay manohana ny teny Anglisy (Amerikana, Britanika, Indiana, Aostraliana), Espaniola, Frantsay, Shinoa, Japoney, ary Koreana. Tena haingana dia haingana izy io, mandray andraikitra amin'ny teny amin'ny hafainganam-pandeha mitovy amin'ny fotoana tena izy amin'ny CPU ihany. Ny MeloTTS dia natao ho an'ny fampiasana amin'ny famokarana ary manohana ny CPU sy ny GPU.
MyShell.ai
MIT
Fast
en, es, fr, zh, ja, ko
0.5GB (GPU optional)
Tsia
Free
Bark
Standard
Ny Bark avy amin'ny Suno dia modely fanovana lahatsoratra ho feo mifototra amin'ny mpanova izay afaka mamorona teny marobe tena marina sy feo hafa toy ny mozika, ny feo ambadiky ny feo, ary ny vokatry ny feo. Afaka mamorona fifandraisana tsy amin'ny teny toy ny hihomehezana, ny fikorontanana, ary ny mitomany izy io. Manohana mpiteny efa voafaritra mialoha mihoatra ny 100 sy fiteny mihoatra ny 13 ny Bark.
Suno
MIT
Slow
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
5GB
Tsia
2x
Bark Small
Standard
Ny Bark Small dia endrika namboarina tamin'ny maodelin'ny Bark izay mivarotra ny kalitaon'ny feo ho an'ny hafainganam-pandehan'ny fiheverana haingana kokoa sy ny filàna arika ambany kokoa. Mitahiry ny fahaizan'ny Bark hamorona resaka miaraka amin'ny fihetseham-po, ny hihomehezana, ary ny fiteny maro izy.
Suno
MIT
Medium
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
2GB
Tsia
2x
CosyVoice 2
Standard
Ny CosyVoice 2 avy amin'ny Tongyi Lab ao Alibaba dia manana kalitaon'ny feo mitovy amin'ny an'ny olombelona nefa manana fotoana fiatoana ambany indrindra, ka mahatonga azy io ho tsara indrindra ho an'ny fampiharana amin'ny fotoana tena izy. mampiasa fomba fiasa finite scalar quantumization izy io ho an'ny fampifangaroana mivantana ary manohana ny famoronana feo tsy misy fipoahana, fampifangaroana teny maro, ary ny fifehezana ny fihetseham-po amin'ny fomba tsara. mahatratra ny fahaizany ny rafitra TTS marobe amin'ny tsena amin'ny fanadihadiana ny tena.
Alibaba (Tongyi Lab)
Apache 2.0
Medium
en, zh, ja, ko, fr, de, it, es
4GB
Eny
2x
Dia TTS
Standard
Ny Dia avy amin'ny Nari Labs dia modely 1.6B soratra-ho-teny natao manokana ho an'ny famoronana adihevitra maro mpiteny. Afaka mamorona resaka miafina eo amin'ny mpiteny roa miaraka amin'ny fihodinan'ny fotoana, ny fiteny, ary ny fiteny ara-pihetseham-po izy. Ny Dia dia mety tsara amin'ny famoronana votoaty tahaka ny podcast, adihevitra amin'ny boky audio, ary AI mifampiresaka.
Nari Labs
Apache 2.0
Medium
en
4GB
Tsia
2x
Parler TTS
Standard
Ny Parler TTS dia modely fandikana lahabolana ho teny izay mampiasa ny famaritana feo avy amin'ny teny natoraly mba hifehezana ny kabary azo. Raha tsy misafidy avy amin'ireo feo efa voafaritra mialoha ianao, dia mamaritra ny feo tianao (ohatra, "feo vehivavy mafana manana feo Britanika kely, miteny milamina sy mazava") ary ny Parler dia mamorona ny kabary mifanaraka amin'io famaritana io. Izany no mahatonga azy ho sarotra ampiasaina amin'ny rindranasa famoronana.
Hugging Face
Apache 2.0
Medium
en
4GB
Tsia
2x
GLM-TTS
Standard
Ny GLM-TTS avy amin'ny Zhipu AI dia rafitra fandikana teny ho teny mivantana, natsangana tamin'ny fomba fanamboarana Llama miaraka amin'ny fifandanjana miverimberina. Manana ny tahan'ny hadisoana amin'ny marika ambany indrindra amin'ireo maodely TTS misokatra izy, izay midika fa manome ny fehezanteny marina indrindra. Ny GLM-TTS dia manohana ny teny Anglisy sy ny teny Sinoa miaraka amin'ny fandikana feo avy amin'ny santionan-teny 3-10 segondra.
Zhipu AI
GLM-4 License
Medium
en, zh
4GB
Eny
2x
IndexTTS-2
Standard
IndexTTS-2 dia rafitra fanovana lahatsoratra ho teny mivantana izay miavaka amin'ny famoronana feo tsy misy fipoahana miaraka amin'ny fifehezana ny fihetseham-po tsara. Afaka mamorona teny amin'ny feo misy fihetseham-po manokana toy ny faly, malahelo, tezitra, na matahotra izy io, tsy mila angon-drakitra fanazarantena manokana momba ny fihetseham-po. Mampiasa ny vector fihetseham-po ny modely mba hifehezana amin'ny fomba mazava ny fisehoan'ny fihetseham-po amin'ny teny novokarina.
Index Team
Bilibili Model License
Medium
en, zh
4GB
Eny
2x
Spark TTS
Standard
Ny Spark TTS avy amin'ny SparkAudio dia maodelin'ny soratra mankany amin'ny fitenenana izay mampifangaro ny fandikana feo miaraka amin'ny fihetseham-po azo fehezina sy ny fomba fitenenana. Amin'ny fampiasana feon-kira 5 segondra monja, afaka manitatra feo iray izy ary avy eo mamorona fitenenana miaraka amin'ny fihetseham-po, hafainganam-pandeha ary fomba fiteny samihafa raha mbola mitazona ny maha-izy azy ny feon'ny fandikana. Mampiasa rafitra fifehezana mifototra amin'ny fanontaniana ny Spark TTS.
SparkAudio
CC BY-NC-SA 4.0
Medium
en, zh
4GB
Eny
2x
GPT-SoVITS
Standard
Mitambatra amin'ny modelin'ny teny GPT sy ny SoVITS (Singing Voice Inference via Translation and Synthesis) ny GPT-SoVITS mba hahazoana fanangonana feo mahomby. Amin'ny feon-kira 5 segondra monja, afaka mamorona feo sy mamorona kabary vaovao izy ary mitahiry ny toetra tokana an'ilay mpiteny. Tena tsara amin'ny fanangonana feo amin'ny fitenenana sy ny fihira izy.
RVC-Boss
MIT
Slow
en, zh, ja, ko
6GB
Eny
2x
Orpheus
Standard
Ny Orpheus dia maodelin'ny soratra mankany amin'ny fitenenana amin'ny ambaratonga lehibe izay mahatratra ny fanehoana fihetseham-po amin'ny ambaratongan'ny olombelona. Nahazo fiofanana tamin'ny angon-drakitra fitenenana isan-karazany maherin'ny 100.000 ora izy, ary misongadina amin'ny famoronana fitenenana miaraka amin'ny fihetseham-po voajanahary, ny fanamafisana, ary ny fomba fiteny. Afaka mamorona fitenenana izay tsy azo lazaina ho hafa noho ny fandraketana nataon'ny olona ny Orpheus.
Canopy Labs
Llama 3.2 Community
Medium
en
4GB
Tsia
2x
Chatterbox
Premium
Ny Chatterbox avy amin'ny Resemble AI dia fitaovana fanandramana fanandramana tsy misy fipoahana. Afaka mamorona feo avy amin'ny santionan-kira iray izy io, ary tsy ny feo ihany no azony, fa ny fomba fiteny sy ny fihetseham-po ihany koa. Manana ny fahaizana mifehy ny fihetseham-po tsara indrindra ihany koa ny Chatterbox, izay ahafahanao manova ny feo miteraka fihetseham-po tsy miankina amin'ny maha-izy ny feo.
Resemble AI
MIT
Medium
en
4GB
Eny
4x
Tortoise TTS
Premium
Ny Tortoise TTS dia rafitra fandikana teny ho feo marobe miverina amin'ny laoniny izay manome lanja ny kalitaon'ny feo fa tsy ny hafainganan'ny feo. Mampiasà rafitra nalaina avy amin'ny DALL-E izy mba hamoronana teny tena natioraly miaraka amin'ny fiteny tsara sy ny fitoviana amin'ny mpiteny. Raha mihazakazaka kokoa noho ny safidy maro hafa ny Tortoise, dia mamorona ny sasany amin'ireo teny nalaina avy amin'ny teny tena izy indrindra izay hita ao amin'ny tontolon'ny loharano misokatra.
James Betker
Apache 2.0
Slow
en
8GB
Eny
4x
StyleTTS 2
Premium
Ny StyleTTS 2 dia mahavita ny fitambarana TTS amin'ny ambaratongan'ny olombelona amin'ny alàlan'ny fampifangaroana ny fiparitahan'ny endrika amin'ny fanazarantena mifanohitra amin'ny fampiasana ny maodelin'ny fiteny be fiteny. Mamorona ny fitenenana izay miteny toy ny tena izy indrindra izy eo amin'ny maodelin'ny mpiteny iray, mifaninana amin'ny fandraketana ny olona. Mampiasa ny maodelin'ny endrika mifototra amin'ny fiparitahana ny StyleTTS 2 mba haka ny fiovan'ny fiteny rehetra.
Columbia University
MIT
Medium
en
4GB
Tsia
4x
OpenVoice
Premium
Ny OpenVoice avy amin'ny MyShell.ai dia mamela ny fandikana feo avy hatrany miaraka amin'ny fifehezana ny fomba fiteny, ny fihetseham-po, ny fiteny, ny fiteny, ny fiatoana, ary ny fiteny. Afaka manitatra feo avy amin'ny horonantsary fohy izy ary mamorona kabary amin'ny teny maro nefa tsy manala ny maha-izy ny mpiteny. Miasa toy ny mpanova feo ihany koa ny OpenVoice, izay mamela ny fanovana feo amin'ny fotoana tena izy.
MyShell.ai / MIT
MIT
Medium
en, zh, ja, ko, fr, de, es, it
4GB
Eny
4x
Qwen3 TTS
Standard
Qwen3-TTS dia maodely 1.7 miliara parameters text-to-speech avy amin'ny ekipa Qwen ao amin'ny Alibaba. Manaiky fomba telo izy: feo efa voafaritra mialoha miaraka amin'ny fifehezana ny fihetseham-po (mpiteny 9), fandikana feo avy amin'ny 3 segondra monja amin'ny feo, ary fomba iray manokana amin'ny famolavolana feo izay ahafahanao mamaritra ny feo tianao amin'ny teny natoraly.
Alibaba (Qwen)
Apache 2.0
Medium
en, zh, ja, ko, de, fr, ru, pt, es, it
7GB
Eny
2x
Sesame CSM
Premium
Ny Sesame CSM (Conversational Speech Model) dia maodely misy singa 1 miliara namboarina manokana ho an'ny famoronana resadresaka. Izy io dia mamolavola ny endrika natioran'ny resadresaka ataon'ny olombelona, anisan'izany ny fotoana fandraisana anjara, ny valin'ny backchannel, ny fihetseham-po, ary ny fivoahan'ny resadresaka. Ny CSM dia mamorona feo mitovy amin'ny resadresaka natioran'ny olombelona fa tsy ny resadresaka artifisialy.
Sesame
Apache 2.0
Slow
en
8GB
Tsia
4x
Chatterbox Turbo
Standard
Ny Chatterbox Turbo avy amin'ny Resemble AI dia fanatsarana ny Chatterbox amin'ny alalan'ny fanatsarana ny paramita 350M, izay manome hafainganam-pandeha 6x amin'ny fotoana tena izy miaraka amin'ny fotoana fiatoana latsaky ny 200ms. Manaiky ireo tag paralinguistic toy ny [riaka], [kohaka], ary [mihomehy] mivantana ao anatin'ny lahatsoratra izy io. Ahitana ny marika rano Perth amin'ny feo rehetra navoaka mba hanaraha-maso ny fiaviany.
Resemble AI
MIT
Fast
en
2GB
Eny
2x
Zonos
Standard
Zonos v0.1 avy amin'i Zyphra dia modely 1.6B manana famaritana izay mampiseho ny fifehezana ny fihetseham-po amin'ny alalan'ny sliders ho an'ny fahasambarana, hatezerana, alahelo, tahotra, ary ny fahatsapana mahagaga. Manolotra ny Transformer sy ny SSM (modely toetrandro-toerana) vaovao izy. Nahazo fiofanana tamin'ny 200K+ ora fitenenana amin'ny fiteny marobe miaraka amin'ny fanodinana feo tsy misy fipoahana avy amin'ny 10-30 segondra amin'ny feo iantsorohana.
Zyphra
Apache 2.0
Medium
en, ja, zh, fr, de
6GB
Eny
2x
Dia 2
Standard
Ny Dia2 avy amin'ny Nari Labs dia fanavaozana ny Dia amin'ny alalan'ny streaming-first, misy amin'ny endrika 1B sy 2B. Manomboka mamorona feo avy amin'ireo marika vitsy voalohany izy, ka mahatonga azy ho mety indrindra ho an'ny mpikirakira feo amin'ny fotoana tena izy sy ny fantsona fiteny-amin-teny. Mandray an-tànana ny fifanakalozan-kevitra amin'ny mpiteny maro miaraka amin'ny tag [S1]/[S2] sy ny teny fanalahidy toy ny (mihomehy), (mifoha).
Nari Labs
Apache 2.0
Fast
en
4GB
Tsia
2x
VoxCPM
Standard
VoxCPM 1.5 avy amin'ny OpenBMB dia maodely TTS vaovao tsy misy tokenizer izay miasa amin'ny toerana mitohy fa tsy amin'ny tokens miavaka. Mamorona feo 44.1kHz tena marina izy, mandray an-tànana ny fandikana feo tsy misy fipoahana mandritra ny 3-10 segondra, ary mitazona ny fitoviana amin'ny andininy. Ny fandikana teny mifamatotra dia mamela anao hampiasa feo Anglisy amin'ny fitenenana Shinoa ary ny mifamatotra amin'izany.
OpenBMB
Apache 2.0
Fast
en, zh
4GB
Eny
2x
OuteTTS
Free
Manatsara ny modelin'ny teny lehibe miaraka amin'ny fahaizana manova lahatsoratra ho feo ny OuteTTS, nefa mitahiry ny endrika voalohany. Manaiky backend maro izy, anisan'izany ny llama.cpp (CPU/GPU), Hugging Face Transformers, ExLlamaV2, VLLM, ary na ny fidirana amin'ny alalan'ny mpitety tranonkala amin'ny alalan'ny Transformers.js aza. Manana ny fahaizana manaisotra feo tsy misy fipoahana amin'ny alalan'ny profil'ny mpiteny voatahiry amin'ny JSON.
OuteAI
Apache 2.0
Fast
en
2GB
Eny
Free
TADA
Standard
TADA (Text-Acoustic Dual Alignment) avy amin'ny Hume AI dia maodely TTS vaovao izay manafoana ny fihetseham-po tsy mety amin'ny alalan'ny rafitra vaovao fihetseham-po tsy mety natsangana tamin'ny Llama 3.2. Azo ampiasaina amin'ny 1B (Anglisy) sy 3B (teny maro), TADA dia mahazo RTF 0.09 — 5x haingana kokoa noho ny maodely TTS mitovy amin'ny LLM. Manohana hatramin'ny 700 segondra amin'ny tontolon'ny feo izy ary mamorona kabary maneho fihetseham-po tsy misy fihetseham-po tsy mety amin'ny fenitra mahazatra.
Hume AI
MIT
Fast
en
5GB
Tsia
2x
VibeVoice
Standard
Ny VibeVoice avy amin'ny Microsoft dia misy karazana roa: ny 1.5B ho an'ny votoaty lava (hatramin'ny 90 minitra, mpiteny 4) ary ny Realtime 0.5B ho an'ny streaming miaraka amin'ny fotoana fiatoana amin'ny feo voalohany ~200ms. Ny 1.5B dia tsara amin'ny podcasts sy ny boky amin'ny feo miaraka amin'ny fitoniana amin'ny mpiteny mandritra ny fehezanteny lava. Fanamarihana: Naesorin'ny Microsoft ny kaody TTS avy ao amin'ny tahiry ary ny feo navoaka dia ahitana ny fanehoan-kevitra avy amin'ny AI.
Microsoft
MIT
Fast
en, zh
4GB
Tsia
2x
Pocket TTS
Free
Ny Pocket TTS avy amin'i Kyutai (mpamorona ny Moshi) dia maodely soratra-ho-teny 100M manana paramètre kely izay mahatratra mihoatra ny lanjany. Miasa tsara amin'ny CPU izy, manohana ny fanitarana feo tsy misy fipoahana avy amin'ny santionan-teny tokana, ary mamorona feo voajanahary. Ny haben'ny maodely kely dia mahatonga azy ho mety amin'ny fampidirana eny amin'ny sisiny sy ny tontolo iainana tsy dia manana loharanom-pahalalana be loatra.
Kyutai
MIT
Fast
en, fr
1GB
Eny
Free
Kitten TTS
Free
Kitten TTS by KittenML is an ultra-lightweight text-to-speech model built on ONNX. With variants from 15M to 80M parameters (25-80 MB on disk), it delivers high-quality voice synthesis on CPU without requiring a GPU. Features 8 built-in voices, adjustable speech speed, and built-in text preprocessing for numbers, currencies, and units. Ideal for edge deployment and low-latency applications.
KittenML
Apache 2.0
Fast
en
0GB
Tsia
Free
CosyVoice3
Standard
CosyVoice3 is the latest evolution from Alibaba's FunAudioLLM team. It features bi-streaming inference with ~150ms latency, instruction-based control for emotion/speed/volume, and improved speaker similarity for zero-shot cloning. Supports 9 languages plus 18 Chinese dialects. RL-tuned variant delivers state-of-the-art prosody.
Alibaba (FunAudioLLM)
Apache 2.0
Fast
en, zh, ja, ko, de, es, fr, it, ru
4GB
Eny
2x
MOSS-TTS
Premium
MOSS-TTS from OpenMOSS supports generation of up to 1 hour of continuous speech across 20 languages. Features token-level duration control, phoneme-level pronunciation control via IPA/Pinyin, and code-switching between languages. The 8B production model delivers state-of-the-art quality with zero-shot voice cloning from reference audio.
OpenMOSS
Apache 2.0
Medium
en, zh, de, es, fr, ja, it, hu, ko, ru, fa, ar, pl, pt, cs, da, sv, el, tr
16GB
Eny
4x
MegaTTS3
Premium
MegaTTS3 from ByteDance uses a novel sparse alignment mechanism combined with a latent diffusion transformer. Features adjustable trade-off between speech intelligibility and speaker similarity for zero-shot voice cloning.
ByteDance
Apache 2.0
Slow
en, zh
8GB
Eny
4x
Kokoro
Free
Kokoro is an 82 million parameter text-to-speech model that punches well above its weight class. Despite its tiny size, it produces remarkably natural and expressive speech. Kokoro supports multiple languages including English, Japanese, Chinese, and Korean with a variety of expressive voices. It runs incredibly fast — generating audio nearly 100x faster than real-time on a GPU.
Hexgrad
Apache 2.0
Fast
Piper
Free
Piper is a lightweight text-to-speech engine developed by Rhasspy that uses VITS and larynx architectures. It runs entirely on CPU, making it ideal for edge devices, home automation, and applications requiring offline TTS. With over 100 voices across 30+ languages, Piper delivers natural-sounding speech at real-time speeds even on a Raspberry Pi 4.
Rhasspy
MIT
Fast
VITS
Free
VITS (Variational Inference with adversarial learning for end-to-end Text-to-Speech) is a parallel end-to-end TTS method that generates more natural sounding audio than current two-stage models. It adopts variational inference augmented with normalizing flows and an adversarial training process, achieving a significant improvement in naturalness.
Jaehyeon Kim et al.
MIT
Fast
MeloTTS
Free
MeloTTS by MyShell.ai is a multilingual TTS library supporting English (American, British, Indian, Australian), Spanish, French, Chinese, Japanese, and Korean. It is extremely fast, processing text at near real-time speed on CPU alone. MeloTTS is designed for production use and supports both CPU and GPU inference.
MyShell.ai
MIT
Fast
OuteTTS
Free
OuteTTS extends large language models with text-to-speech capabilities while preserving the original architecture. It supports multiple backends including llama.cpp (CPU/GPU), Hugging Face Transformers, ExLlamaV2, VLLM, and even browser inference via Transformers.js. Features zero-shot voice cloning through speaker profiles saved as JSON.
OuteAI
Apache 2.0
Fast
Pocket TTS
Free
Pocket TTS by Kyutai (creators of Moshi) is a compact 100M parameter text-to-speech model that punches well above its weight. It runs efficiently on CPU, supports zero-shot voice cloning from a single audio sample, and produces natural-sounding speech. The small model size makes it ideal for edge deployment and low-resource environments.
Kyutai
MIT
Fast
Kitten TTS
Free
Kitten TTS by KittenML is an ultra-lightweight text-to-speech model built on ONNX. With variants from 15M to 80M parameters (25-80 MB on disk), it delivers high-quality voice synthesis on CPU without requiring a GPU. Features 8 built-in voices, adjustable speech speed, and built-in text preprocessing for numbers, currencies, and units. Ideal for edge deployment and low-latency applications.
KittenML
Apache 2.0
Fast
Bark
Stock label
Bark by Suno is a transformer-based text-to-audio model that can generate highly realistic, multilingual speech as well as other audio like music, background noise, and sound effects. It can produce nonverbal communications like laughing, sighing, and crying. Bark supports over 100 speaker presets and 13+ languages.
Suno
MIT
Slow
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
Tsia
Bark Small
Stock label
Bark Small is a distilled version of the Bark model that trades some audio quality for significantly faster inference speeds and lower memory requirements. It retains Bark's ability to generate speech with emotions, laughter, and multiple languages.
Suno
MIT
Medium
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
Tsia
CosyVoice 2
Stock label
CosyVoice 2 by Alibaba's Tongyi Lab achieves human-comparable speech quality with extremely low latency, making it ideal for real-time applications. It uses a finite scalar quantization approach for streaming synthesis and supports zero-shot voice cloning, cross-lingual synthesis, and fine-grained emotion control. It outperforms many commercial TTS systems in subjective evaluations.
Alibaba (Tongyi Lab)
Apache 2.0
Medium
en, zh, ja, ko, fr, de, it, es
Eny
Dia TTS
Stock label
Dia by Nari Labs is a 1.6B parameter text-to-speech model designed specifically for generating multi-speaker dialogue. It can produce natural-sounding conversations between two speakers with appropriate turn-taking, prosody, and emotional expression. Dia is perfect for creating podcast-style content, audiobook dialogues, and interactive conversational AI.
Nari Labs
Apache 2.0
Medium
en
Tsia
Parler TTS
Stock label
Parler TTS is a text-to-speech model that uses natural language voice descriptions to control the generated speech. Instead of selecting from preset voices, you describe the voice you want (e.g., "a warm female voice with a slight British accent, speaking slowly and clearly") and Parler generates speech matching that description. This makes it uniquely flexible for creative applications.
Hugging Face
Apache 2.0
Medium
en
Tsia
GLM-TTS
Stock label
GLM-TTS by Zhipu AI is a text-to-speech system built on the Llama architecture with flow matching. It achieves the lowest character error rate among open-source TTS models, meaning it produces the most accurate pronunciation. GLM-TTS supports English and Chinese with voice cloning from 3-10 second audio samples.
Zhipu AI
GLM-4 License
Medium
en, zh
Eny
IndexTTS-2
Stock label
IndexTTS-2 is an advanced text-to-speech system that excels at zero-shot voice synthesis with fine-grained emotion control. It can generate speech with specific emotional tones like happy, sad, angry, or fearful without requiring emotion-specific training data. The model uses emotion vectors to precisely control the emotional expression of generated speech.
Index Team
Bilibili Model License
Medium
en, zh
Eny
Spark TTS
Stock label
Spark TTS by SparkAudio is a text-to-speech model that combines voice cloning with controllable emotion and speaking style. Using just 5 seconds of reference audio, it can clone a voice and then generate speech with different emotions, speeds, and styles while maintaining the cloned voice identity. Spark TTS uses a prompt-based control system.
SparkAudio
CC BY-NC-SA 4.0
Medium
en, zh
Eny
GPT-SoVITS
Stock label
GPT-SoVITS combines GPT-style language modeling with SoVITS (Singing Voice Inference via Translation and Synthesis) for powerful few-shot voice cloning. With as little as 5 seconds of reference audio, it can accurately clone a voice and generate new speech while preserving the speaker's unique characteristics. It excels at both speaking and singing voice synthesis.
RVC-Boss
MIT
Slow
en, zh, ja, ko
Eny
Orpheus
Stock label
Orpheus is a large-scale text-to-speech model that achieves human-level emotional expression. Trained on over 100,000 hours of diverse speech data, it excels at generating speech with natural emotions, emphasis, and speaking styles. Orpheus can produce speech that is virtually indistinguishable from human recordings.
Canopy Labs
Llama 3.2 Community
Medium
en
Tsia
Qwen3 TTS
Stock label
Qwen3-TTS is a 1.7 billion parameter text-to-speech model from Alibaba's Qwen team. It supports three modes: preset voices with emotion control (9 speakers), voice cloning from just 3 seconds of audio, and a unique voice design mode where you describe the voice you want in natural language. It covers 10 languages with high expressiveness and natural prosody.
Alibaba (Qwen)
Apache 2.0
Medium
en, zh, ja, ko, de, fr, ru, pt, es, it
Eny
Chatterbox Turbo
Stock label
Chatterbox Turbo by Resemble AI is a 350M parameter upgrade to Chatterbox, delivering up to 6x real-time speed with sub-200ms latency. It supports paralinguistic tags like [laugh], [cough], and [chuckle] directly in text. Includes Perth watermarking on all generated audio for provenance tracking.
Resemble AI
MIT
Fast
en
Eny
Zonos
Stock label
Zonos v0.1 by Zyphra is a 1.6B parameter model featuring fine-grained emotion control with sliders for happiness, anger, sadness, fear, and surprise. It offers both a Transformer and a novel SSM (state-space model) variant. Trained on 200K+ hours of multilingual speech with zero-shot voice cloning from 10-30 seconds of reference audio.
Zyphra
Apache 2.0
Medium
en, ja, zh, fr, de
Eny
Dia 2
Stock label
Dia2 by Nari Labs is a streaming-first upgrade to Dia, available in 1B and 2B parameter variants. It begins synthesizing audio from the first few tokens, making it ideal for real-time voice agents and speech-to-speech pipelines. Supports multi-speaker dialogue with [S1]/[S2] tags and paralinguistic cues like (laughs), (coughs).
Nari Labs
Apache 2.0
Fast
en
Tsia
VoxCPM
Stock label
VoxCPM 1.5 by OpenBMB is a novel tokenizer-free TTS model that operates in continuous space rather than discrete tokens. It produces high-fidelity 44.1kHz audio, supports zero-shot voice cloning from 3-10 seconds, and maintains consistency across paragraphs. Cross-language cloning lets you apply an English voice to Chinese speech and vice versa.
OpenBMB
Apache 2.0
Fast
en, zh
Eny
TADA
Stock label
TADA (Text-Acoustic Dual Alignment) by Hume AI is a groundbreaking TTS model that eliminates hallucinations through a novel dual alignment architecture built on Llama 3.2. Available in 1B (English) and 3B (multilingual) variants, TADA achieves an RTF of 0.09 — 5x faster than comparable LLM-based TTS models. It supports up to 700 seconds of audio context and produces emotionally expressive speech with zero hallucinations on standard benchmarks.
Hume AI
MIT
Fast
en
Tsia
VibeVoice
Stock label
VibeVoice from Microsoft generates long-form speech up to 90 minutes with support for 4 simultaneous speakers, making it ideal for podcasts and dialogues. The Realtime 0.5B variant achieves ~300ms latency for interactive use. Supports speaker tags for multi-turn dialogue generation.
Microsoft
MIT
Fast
en, zh
Tsia
CosyVoice3
Stock label
CosyVoice3 is the latest evolution from Alibaba's FunAudioLLM team. It features bi-streaming inference with ~150ms latency, instruction-based control for emotion/speed/volume, and improved speaker similarity for zero-shot cloning. Supports 9 languages plus 18 Chinese dialects. RL-tuned variant delivers state-of-the-art prosody.
Alibaba (FunAudioLLM)
Apache 2.0
Fast
en, zh, ja, ko, de, es, fr, it, ru
Eny
Tabilao fampitahana modely
| Modely | Mpamorona: | Taona | Kalitao: | _Hafainganana: | Teny | Fandraisana an-tsoratra feo | VRAM | Lisansa: | Ny vidin'ny | |
|---|---|---|---|---|---|---|---|---|---|---|
| Kokoro | Hexgrad | Free | Fast | 11 | 1.5GB | Apache 2.0 | Free | Ampiasao | ||
| Piper | Rhasspy | Free | Fast | 31 | 0 (CPU only) | MIT | Free | Ampiasao | ||
| VITS | Jaehyeon Kim et al. | Free | Fast | 4 | 1GB | MIT | Free | Ampiasao | ||
| MeloTTS | MyShell.ai | Free | Fast | 6 | 0.5GB (GPU optional) | MIT | Free | Ampiasao | ||
| Bark | Suno | Standard | Slow | 13 | 5GB | MIT | 2 | Ampiasao | ||
| Bark Small | Suno | Standard | Medium | 13 | 2GB | MIT | 2 | Ampiasao | ||
| CosyVoice 2 | Alibaba (Tongyi Lab) | Standard | Medium | 8 | 4GB | Apache 2.0 | 2 | Ampiasao | ||
| Dia TTS | Nari Labs | Standard | Medium | 1 | 4GB | Apache 2.0 | 2 | Ampiasao | ||
| Parler TTS | Hugging Face | Standard | Medium | 1 | 4GB | Apache 2.0 | 2 | Ampiasao | ||
| GLM-TTS | Zhipu AI | Standard | Medium | 2 | 4GB | GLM-4 License | 2 | Ampiasao | ||
| IndexTTS-2 | Index Team | Standard | Medium | 2 | 4GB | Bilibili Model License | 2 | Ampiasao | ||
| Spark TTS | SparkAudio | Standard | Medium | 2 | 4GB | CC BY-NC-SA 4.0 | 2 | Ampiasao | ||
| GPT-SoVITS | RVC-Boss | Standard | Slow | 4 | 6GB | MIT | 2 | Ampiasao | ||
| Orpheus | Canopy Labs | Standard | Medium | 1 | 4GB | Llama 3.2 Community | 2 | Ampiasao | ||
| Chatterbox | Resemble AI | Premium | Medium | 1 | 4GB | MIT | 4 | Ampiasao | ||
| Tortoise TTS | James Betker | Premium | Slow | 1 | 8GB | Apache 2.0 | 4 | Ampiasao | ||
| StyleTTS 2 | Columbia University | Premium | Medium | 1 | 4GB | MIT | 4 | Ampiasao | ||
| OpenVoice | MyShell.ai / MIT | Premium | Medium | 8 | 4GB | MIT | 4 | Ampiasao | ||
| Qwen3 TTS | Alibaba (Qwen) | Standard | Medium | 10 | 7GB | Apache 2.0 | 2 | Ampiasao | ||
| Sesame CSM | Sesame | Premium | Slow | 1 | 8GB | Apache 2.0 | 4 | Ampiasao | ||
| Chatterbox Turbo | Resemble AI | Standard | Fast | 1 | 2GB | MIT | 2 | Ampiasao | ||
| Zonos | Zyphra | Standard | Medium | 5 | 6GB | Apache 2.0 | 2 | Ampiasao | ||
| Dia 2 | Nari Labs | Standard | Fast | 1 | 4GB | Apache 2.0 | 2 | Ampiasao | ||
| VoxCPM | OpenBMB | Standard | Fast | 2 | 4GB | Apache 2.0 | 2 | Ampiasao | ||
| OuteTTS | OuteAI | Free | Fast | 1 | 2GB | Apache 2.0 | Free | Ampiasao | ||
| TADA | Hume AI | Standard | Fast | 1 | 5GB | MIT | 2 | Ampiasao | ||
| VibeVoice | Microsoft | Standard | Fast | 2 | 4GB | MIT | 2 | Ampiasao | ||
| Pocket TTS | Kyutai | Free | Fast | 2 | 1GB | MIT | Free | Ampiasao | ||
| Kitten TTS | KittenML | Free | Fast | 1 | 0GB | Apache 2.0 | Free | Ampiasao | ||
| CosyVoice3 | Alibaba (FunAudioLLM) | Standard | Fast | 9 | 4GB | Apache 2.0 | 2 | Ampiasao | ||
| MOSS-TTS | OpenMOSS | Premium | Medium | 19 | 16GB | Apache 2.0 | 4 | Ampiasao | ||
| MegaTTS3 | ByteDance | Premium | Slow | 2 | 8GB | Apache 2.0 | 4 | Ampiasao |
Ny sehatra AI Text to Speech feno indrindra
Nahoana no Safidy ny TTS.ai ho an'ny Soratra ho Fitenenana?
Mitambatra ao anatin'ny sehatra iray, mora ampiasaina, ny maodely tsara indrindra manerantany amin'ny fanehoana lahatsoratra ho amin'ny resaka, ny TTS.ai. tsy toy ny tolotra manokana izay manakana anao amin'ny milina feo tokana, manome anao fidirana amin'ny maodely mihoatra ny 20 avy amin'ireo laboratoara fikarohana lehibe, anisan'izany ny Coqui, MyShell, Amphion, NVIDIA, Suno, HuggingFace, ny Anjerimanontolon'i Tsinghua, ary maro hafa.
Ny modely tsirairay dia loharano misokatra eo ambanin'ny MIT, Apache 2.0, na lisansa mitovy amin'izany, izay manome antoka fa manana zo ara-barotra feno ianao hampiasa ny feo navoaka ao amin'ny tetikasao. Na mila famoronana haingana sy maivana ho an'ny rindran'asa amin'ny fotoana tena izy ianao na vokatra avo lenta ho an'ny boky audio sy podcast, manana ny modely mety amin'ny tranga rehetra ny TTS.ai.
Modely maimaimpoana, tsy mila kaonty
Manomboka avy hatrany amin'ny maodely telo maimaimpoana TTS: Piper (tena haingana, maivana), VITS (fanamboarana neural avo lenta), ary MeloTTS (fanampiana fiteny marobe). Tsy mila misoratra anarana, tsy mila karatra fandoavam-bola, tsy misy fetra amin'ny taranaka. Manohana ny teny Anglisy sy ny fiteny hafa marobe miaraka amin'ny feo voajanahary mifanaraka amin'ny ankamaroan'ny rindrambaiko ny maodely maimaimpoana.
Fandraisana an-tànana alefa amin'ny GPU
Ireo modely TTS rehetra dia mandeha amin'ny GPU NVIDIA manokana mba hahazoana fotoana famoronana haingana sy tsy miova. Ny modely maimaimpoana dia matetika mamorona feo ao anatin'ny 2 segondra. Ny modely mahazatra toy ny Kokoro, CosyVoice 2, ary Bark dia eo amin'ny 3-5 segondra eo ho eo. Ny modely premium manana kalitao avo indrindra, toy ny Tortoise sy Chatterbox, dia miasa ao anatin'ny 5-15 segondra arakaraka ny halavan'ny lahabolana.
Teny 30+ raisina an-tànana
Mamorona kabary amin'ny teny maherin'ny 30, anisan'izany ny teny Anglisy, Espaniola, Frantsay, Alemàna, Italiana, Portiogey, Sinoa, Japoney, Koreana, Arabo, Hindi, Rosiana, ary maro hafa. Maro ny modely manohana ny famoronana kabary amin'ny teny maro, izay midika fa afaka mamorona kabary amin'ny teny iray izay tsy mbola notrehin'ny feo voalohany ianao. Ny CosyVoice 2 sy ny GPT-SoVITS dia tena tsara amin'ny famoronana kabary amin'ny teny maro.
API vonona ho an'ny mpamorona
Ampidiro ao anatin'ny rindranasanao ny TTS.ai miaraka amin'ny API REST mifanaraka amin'ny OpenAI. Endpoint iray ho an'ny maodely 20+ rehetra. Python, JavaScript, cURL, ary Go SDKs. Fanohanana ny streaming ho an'ny rindranasa amin'ny fotoana tena izy. Fandraisana anjara amin'ny famoronana votoaty marobe. Webhooks ho an'ny fampahafantarana async. Azo ampiasaina amin'ny drafitra Pro sy Enterprise.
Fanontaniana mipetraka matetika
Inona no azonay atao mba hanatsarana? Manampy anay hamahana ny olana ny fihetseham-ponao.
Manomboka mamadika lahabolana ho feo izao
Miara-miasa amin'ireo mpamorona an'arivony mampiasa ny TTS.ai. Mahazo marika 15000 maimaimpoana amin'ny alalan'ny kaonty vaovao. Misy ireo modely maimaimpoana azo ampiasaina tsy mila misoratra anarana.