AI Texti til ræðu
Umbreyta texta í náttúrulega hljóðandi ræðu með opnum AI módelum. Frjáls til notkunar, engin reikningur krafist.
Wrap texta í SSML tags fyrir nákvæma stjórn:
<speak><prosody rate="slow">Slow speech</prosody></speak>
Bæta við tilfinningum merkjum til að hafa áhrif á afhendingu (líkan stuðningur er breytilegt):
Skilgreindu sérsniðna framburð (orð = framburð):
Upplýsingar um líkan
VoxCPM
VoxCPM 1.5 by OpenBMB is a novel tokenizer-free TTS model that operates in continuous space rather than discrete tokens. It produces high-fidelity 44.1kHz audio, supports zero-shot voice cloning from 3-10 seconds, and maintains consistency across paragraphs. Cross-language cloning lets you apply an English voice to Chinese speech and vice versa.
| Forritari: | OpenBMB |
| Leyfi: | Apache 2.0 |
| Hraði | Fast |
| Gæði: | |
| tungumál | 2 tungumál |
| VRAM | 4GB |
| Raddklónun | Stuðningur |
Ábendingar fyrir betri árangur
- Notaðu rétta greinarmerki fyrir náttúruleg hlé og innslátt
- Stafsetja út tölur og skammstafanir fyrir skýrari framburð
- Bæta við kommum til að búa til stutt hlé milli setninga
- Notaðu ellipsu (...) fyrir lengri dramatískar hlé
- Prófaðu Kokoro eða CosyVoice 2 fyrir mest náttúrulega niðurstöður
- Nota Dia fyrir multi-hátalara samtal og podcast efni
Stafsetning
| Tími | Kostnaður á 1K stafi |
|---|---|
| Frjáls | 0 einingar (ótakmarkað) |
| Sjálfgefið | 2 einingar / 1K stafir |
| Premium | 4 einingar / 1K stafir |
Hvernig AI Texti til ræðu virkar
Búa til faglega gæði voiceovers í þremur einföldum skrefum. Engin tæknileg þekking krafist.
Sláðu inn textann þinn
Sláðu inn, límdu eða sendu textann sem þú vilt breyta í tal. Styður allt að 5. 000 stafi á hverja kynslóð fyrir innskráða notendur. Notaðu venjulegt texta eða bættu við SSML merkjum til að fá háþróaða stjórn á framburði, hléum og áherslu.
Veldu líkan og rödd
Veldu úr 20+ AI módelum á þremur stigum.Veldu rödd sem passar við efnið þitt, veldu tungumálið þitt, stilltu spilunarhraða frá 0,5x til 2,0x og veldu ákjósanlegt framleiðsla snið (MP3, WAV, OGG eða FLAC).
Búa til og sækja
Smelltu á Búa til og hljóðið þitt er tilbúið á nokkrum sekúndum. Forskoða með innbyggða spilaranum, hlaða niður á því sniði sem þú velur, eða afrita tengil sem hægt er að deila. Notaðu API fyrir lotuvinnslu og samþættingu við vinnuflæði þitt.
Texti í talnotkunartilfelli
AI-knúin texti-til-tal er að umbreyta því hvernig fólk býr til, neytir og hefur samskipti við hljóðefni í heilmikið af atvinnugreinum.
Öll texta til tals módel
Ítarlegar upplýsingar fyrir hvert AI líkan í boði á TTS.ai Bera saman gæði, hraða, tungumálastuðning og eiginleika til að finna hið fullkomna líkan fyrir verkefnið þitt.
Kokoro
Free
Kokoro er 82 milljón breyta texta-til-tal líkan sem kýlir vel yfir þyngdarflokki sínum. Þrátt fyrir litla stærð sína, framleiðir það ótrúlega náttúrulega og tjáningarmikla ræðu. Kokoro styður mörg tungumál, þar á meðal ensku, japönsku, kínversku og kóresku með ýmsum tjáningarmiklum raddir. Það keyrir ótrúlega hratt - framleiðir hljóð næstum 100x hraðar en rauntíma á GPU.
Hexgrad
Apache 2.0
Fast
en, ja, zh, ko, fr, de, it, pt, es, hi, ru
1.5GB
Nei.
Frjáls
Piper
Free
Piper er léttur texti-til-tal vél þróað af Rhasspy sem notar VITS og barkakýli arkitektúr.Það keyrir algerlega á CPU, sem gerir það tilvalið fyrir brún tæki, heimili sjálfvirkni, og forrit sem krefjast offline TTS.Með yfir 100 raddir yfir 30 + tungumálum, Piper skilar náttúrulega hljóðandi ræðu á rauntíma hraða jafnvel á Raspberry Pi 4.
Rhasspy
MIT
Fast
en, de, fr, es, it, pt, nl, pl, ru, zh, ja, ko, ar, cs, da, fi, el, hu, is, ka, kk, ne, no, ro, sk, sr, sv, sw, tr, uk, vi
0 (CPU only)
Nei.
Frjáls
VITS
Free
VITS (Variation Inference with adversarial learning for end-to-end Text-to-Speech) er samsíða enda-til-enda TTS aðferð sem býr til meira náttúrulegt hljóma hljóð en núverandi tveggja stigs módel.Það samþykkir breytilegt ályktun aukið með eðlilegum flæði og andstæða þjálfunarferli, sem skilar verulegum framförum í náttúruleika.
Jaehyeon Kim et al.
MIT
Fast
en, zh, ja, ko
1GB
Nei.
Frjáls
MeloTTS
Free
MeloTTS eftir MyShell.ai er fjöltyngd TTS bókasafn sem styður ensku (Ameríku, Bretlandi, Indlandi, Ástralíu), spænsku, frönsku, kínversku, japönsku og kóresku. Það er mjög hratt, vinnsla texta á nánast rauntíma hraða á CPU eingöngu. MeloTTS er hannað til framleiðslunotkunar og styður bæði CPU og GPU ályktun.
MyShell.ai
MIT
Fast
en, es, fr, zh, ja, ko
0.5GB (GPU optional)
Nei.
Frjáls
Bark
Standard
Bark eftir Suno er spenni-undirstaða texta-til-hljóð líkan sem getur búið til mjög raunhæf, fjöltyngd ræðu auk annarra hljóð eins og tónlist, bakgrunns hávaða og hljóð.Það getur framleitt nonverbal samskipti eins og hlæja, andvarpa og gráta.Bark styður yfir 100 hátalara forstillingar og 13 + tungumálum.
Suno
MIT
Slow
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
5GB
Nei.
2x
Bark Small
Standard
Bark Small er eimuð útgáfa af Bark líkaninu sem skiptir um hljóðgæði fyrir verulega hraðari niðurstöðuhraða og lægri minniskröfur.Það heldur hæfni Barks til að búa til tal með tilfinningum, hlátri og mörgum tungumálum.
Suno
MIT
Medium
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
2GB
Nei.
2x
CosyVoice 2
Standard
CosyVoice 2 frá Tongyi Lab Alibaba nær mannlegum talgæðum með mjög lágum leynd, sem gerir það tilvalið fyrir rauntímaforrit. Það notar endanlega skalarmagns nálgun fyrir straumspilun og styður núll-skot raddklónun, kross-tungumálsmyndun og fínkorna tilfinningastjórnun.
Alibaba (Tongyi Lab)
Apache 2.0
Medium
en, zh, ja, ko, fr, de, it, es
4GB
Já
2x
Dia TTS
Standard
Dia eftir Nari Labs er 1.6B breyta texta-til-tal líkan hannað sérstaklega til að búa til multi-hátalara samtal. Það getur framleitt náttúrulega hljóðandi samtöl milli tveggja hátalara með viðeigandi beygju, prosody og tilfinningalega tjáningu.Dia er fullkomið til að búa til podcast-stíl efni, hljóðbók samræður, og gagnvirk samtal AI.
Nari Labs
Apache 2.0
Medium
en
4GB
Nei.
2x
Parler TTS
Standard
Parler TTS er texta- í- tal líkan sem notar náttúruleg tungumál raddlýsingar til að stjórna framleidda ræðu. Í stað þess að velja úr forstilltum raddir, lýsir þú rödd sem þú vilt (td, "hlýtt kvenkyns rödd með smá breskum hreim, talar hægt og skýrt") og Parler býr til ræðu sem passar við þá lýsingu. Þetta gerir það einstaklega sveigjanlegt fyrir skapandi forrit.
Hugging Face
Apache 2.0
Medium
en
4GB
Nei.
2x
GLM-TTS
Standard
GLM-TTS eftir Zhipu AI er texta-til-tal kerfi byggt á Llama arkitektúr með flæði samsvörun.Það nær lægsta staf villa hlutfall meðal opnum uppspretta TTS módel, sem þýðir að það framleiðir nákvæmasta framburð.GLM-TTS styður ensku og kínversku með rödd klónun frá 3-10 sekúndna hljóð sýni.
Zhipu AI
GLM-4 License
Medium
en, zh
4GB
Já
2x
IndexTTS-2
Standard
IndexTTS-2 er háþróað texta-til-tal kerfi sem er frábært í núll-skot raddmyndun með fíngrun tilfinninga stjórna. Það getur búið til ræðu með tilteknum tilfinningalegum tónum eins og hamingjusamur, sorglegur, reiður eða hræddur án þess að þurfa tilfinninga-sérstakar þjálfunargögn.
Index Team
Bilibili Model License
Medium
en, zh
4GB
Já
2x
Spark TTS
Standard
Spark TTS eftir SparkAudio er texta-til-tal líkan sem sameinar rödd klónun með stjórnanlegum tilfinningum og talstíl. Með því að nota aðeins 5 sekúndur af tilvísun hljóð, getur það klóna rödd og síðan búa til ræðu með mismunandi tilfinningar, hraða og stíl en viðhalda klónuð rödd sjálfsmynd.
SparkAudio
CC BY-NC-SA 4.0
Medium
en, zh
4GB
Já
2x
GPT-SoVITS
Standard
GPT-SoVITS sameinar GPT-stíl tungumál líkan með SoVITS (Singing Voice Inference með þýðingu og myndun) fyrir öfluga fáum skot rödd klónun. Með eins lítið og 5 sekúndur af tilvísun hljóð, það getur nákvæmlega klón rödd og búa til nýja ræðu en varðveita einstaka eiginleika hátalara.
RVC-Boss
MIT
Slow
en, zh, ja, ko
6GB
Já
2x
Orpheus
Standard
Orpheus er stórt texta-til-tal líkan sem nær tilfinningalegri tjáningu á mannlegum stigum.Þjálfað á yfir 100.000 klukkustundum af fjölbreyttum talgögnum, það er framúrskarandi í að búa til tal með náttúrulegum tilfinningum, áherslu og talstíl. Orpheus getur framleitt tal sem er nánast ógreinanlegt frá mannlegum upptökum.
Canopy Labs
Llama 3.2 Community
Medium
en
4GB
Nei.
2x
Chatterbox
Premium
Chatterbox by Resemble AI er háþróaður núll-skot rödd klónun líkan. Það getur endurskapa hvaða rödd úr einu hljóð sýni með ótrúlega nákvæmni, handtaka ekki aðeins timbre en einnig tala stíl og tilfinningalega blæbrigði.Chatterbox hefur einnig fínkorna tilfinningu stjórna, sem gerir þér kleift að stilla tilfinningalega tón af myndast ræðu óháð radd auðkenni.
Resemble AI
MIT
Medium
en
4GB
Já
4x
Tortoise TTS
Premium
Tortoise TTS er sjálfvirkt endurtekningarkerfi fyrir texta í tal sem forgangsraðar hljóðgæðum fram yfir hraða. Það notar DALL-E-innblásna arkitektúr til að búa til mjög náttúrulegan tal með framúrskarandi orðaforða og hátalaralíkleika.Þó hægari en margir valkostir, framleiðir Tortoise nokkrar af raunsæjustu tilbúnum ræðum sem eru í boði í opnu vistkerfi.
James Betker
Apache 2.0
Slow
en
8GB
Já
4x
StyleTTS 2
Premium
StyleTTS 2 nær TTS-myndun á mannlegum stigum með því að sameina stílblæstri með andstæða þjálfun með því að nota stór talmálslíkön. Það býr til náttúrulegasta hljómflutnings-tal meðal einstakra hátalaralíkana, sem keppa við mannlegar upptökur.
Columbia University
MIT
Medium
en
4GB
Nei.
4x
OpenVoice
Premium
OpenVoice frá MyShell.ai gerir þér kleift að klóna rödd með kornuðu stjórn á röddstíl, tilfinningum, hreim, takti, hléum og innsæi. Það getur klónað rödd úr stuttu hljóðmyndbandi og búið til ræðu á mörgum tungumálum en viðhalda hátalara.
MyShell.ai / MIT
MIT
Medium
en, zh, ja, ko, fr, de, es, it
4GB
Já
4x
Qwen3 TTS
Standard
Qwen3-TTS er 1,7 milljarða breyta texta-til-tal líkan frá Qwen lið Alibaba.Það styður þrjár stillingar: forstilltar raddir með tilfinningastjórnun (9 hátalara), raddklónun frá aðeins 3 sekúndum af hljóði og einstakt raddhönnun þar sem þú lýsir rödd sem þú vilt í náttúrulegu tungumáli.Það nær yfir 10 tungumál með mikla tjáningu og náttúrulega prosody.
Alibaba (Qwen)
Apache 2.0
Medium
en, zh, ja, ko, de, fr, ru, pt, es, it
7GB
Já
2x
Sesame CSM
Premium
Sesame CSM (Conversational Speech Model) er 1 milljarð breytu líkan hannað sérstaklega til að búa til samtalsmál.Það líkir eftir náttúrulegum mynstri mannlegs samtals, þ.mt snúningstíma, baksviðsviðbrögðum, tilfinningalegum viðbrögðum og samtalsflæði.CSM býr til hljóð sem hljómar eins og náttúrulegt mannlegt samtal frekar en tilbúið tal.
Sesame
Apache 2.0
Slow
en
8GB
Nei.
4x
Chatterbox Turbo
Standard
Chatterbox Turbo eftir Resemble AI er 350M breytu uppfærsla á Chatterbox, sem skilar allt að 6x rauntíma hraða með undir-200ms leynd. Það styður paralinguistic merki eins og [hlátur], [hósti] og [hlægja] beint í texta.
Resemble AI
MIT
Fast
en
2GB
Já
2x
Zonos
Standard
Zonos v0.1 eftir Zyphra er 1.6B breytu líkan með fínkorna tilfinningastjórnun með rennibrautum fyrir hamingju, reiði, sorg, ótta og óvart.Það býður upp á bæði Transformer og nýstárlegt SSM (ríkisrýmislíkan) afbrigði.Þjálfað á 200K + klukkustundum fjöltyngds tals með núll-skot raddklónun frá 10-30 sekúndum af tilvísunarhljóði.
Zyphra
Apache 2.0
Medium
en, ja, zh, fr, de
6GB
Já
2x
Dia 2
Standard
Dia2 frá Nari Labs er straumspilunar- fyrsti uppfærsla á Dia, fáanleg í 1B og 2B breytuafbrigðum. Það byrjar að búa til hljóð frá fyrstu fáum táknum, sem gerir það tilvalið fyrir rauntíma raddmiðla og tal- til- tal leiðslur. Styður fjölhátalara samtal með [S1] / [S2] merkjum og paralinguistic vísum eins og (hlær), (hóstar).
Nari Labs
Apache 2.0
Fast
en
4GB
Nei.
2x
VoxCPM
Standard
VoxCPM 1.5 frá OpenBMB er nýstárlegt TTS líkan sem er óháð táknum og virkar í samfelldu rými frekar en í öðru. Það framleiðir hágæða 44.1kHz hljóð, styður núll-skot klónun frá 3-10 sekúndum og viðheldur samræmi yfir málsgreinar.
OpenBMB
Apache 2.0
Fast
en, zh
4GB
Já
2x
OuteTTS
Free
OuteTTS stækkar stór tungumál líkan með texta-til-tal getu en varðveita upprunalega arkitektúr. Það styður margar bakenda þar á meðal llama.cpp (CPU / GPU), Hugging Face Transformers, ExLlamaV2, VLLM, og jafnvel vafra ályktun í gegnum Transformers.js.
OuteAI
Apache 2.0
Fast
en
2GB
Já
Frjáls
TADA
Standard
TADA (Text-Acoustic Dual Alignment) með Hume AI er byltingarkennd TTS líkan sem útrýma ofskynjanir með nýrri tvískiptur samræming arkitektúr byggt á Llama 3.2.Fæst í 1B (enska) og 3B (fjöltyng) afbrigði, TADA nær RTF 0,09 - 5x hraðar en sambærileg LLM-undirstaða TTS módel.Það styður allt að 700 sekúndur af hljóð samhengi og framleiðir tilfinningalega tjáningarfullt ræðu með núll ofskynjanir á venjulegum viðmiðum.
Hume AI
MIT
Fast
en
5GB
Nei.
2x
VibeVoice
Standard
VibeVoice frá Microsoft kemur í tveimur afbrigðum: 1.5B líkan fyrir langtíma efni (allt að 90 mínútur, 4 hátalara) og Realtime 0.5B líkan fyrir straumspilun með ~ 200ms fyrstu hljóð leynd.1.5B afbrigði excels á podcast og hljóðbækur með hátalara samræmi yfir langar leiðir.Athugið: Microsoft fjarlægt TTS kóða úr geymslu og myndast hljóð inniheldur heyranlegur AI fyrirvarar.
Microsoft
MIT
Fast
en, zh
4GB
Nei.
2x
Pocket TTS
Free
Pocket TTS eftir Kyutai (hönnuðir Moshi) er samþætt 100M breytu texta-til-tal líkan sem kýlir vel yfir þyngd þess. Það keyrir á skilvirkan hátt á CPU, styður núll-skot rödd klónun frá einum hljóð sýni, og framleiðir náttúrulega hljóma ræðu.
Kyutai
MIT
Fast
en, fr
1GB
Já
Frjáls
Kitten TTS
Free
Kitten TTS by KittenML is an ultra-lightweight text-to-speech model built on ONNX. With variants from 15M to 80M parameters (25-80 MB on disk), it delivers high-quality voice synthesis on CPU without requiring a GPU. Features 8 built-in voices, adjustable speech speed, and built-in text preprocessing for numbers, currencies, and units. Ideal for edge deployment and low-latency applications.
KittenML
Apache 2.0
Fast
en
0GB
Nei.
Frjáls
CosyVoice3
Standard
CosyVoice3 is the latest evolution from Alibaba's FunAudioLLM team. It features bi-streaming inference with ~150ms latency, instruction-based control for emotion/speed/volume, and improved speaker similarity for zero-shot cloning. Supports 9 languages plus 18 Chinese dialects. RL-tuned variant delivers state-of-the-art prosody.
Alibaba (FunAudioLLM)
Apache 2.0
Fast
en, zh, ja, ko, de, es, fr, it, ru
4GB
Já
2x
MOSS-TTS
Premium
MOSS-TTS from OpenMOSS supports generation of up to 1 hour of continuous speech across 20 languages. Features token-level duration control, phoneme-level pronunciation control via IPA/Pinyin, and code-switching between languages. The 8B production model delivers state-of-the-art quality with zero-shot voice cloning from reference audio.
OpenMOSS
Apache 2.0
Medium
en, zh, de, es, fr, ja, it, hu, ko, ru, fa, ar, pl, pt, cs, da, sv, el, tr
16GB
Já
4x
MegaTTS3
Premium
MegaTTS3 from ByteDance uses a novel sparse alignment mechanism combined with a latent diffusion transformer. Features adjustable trade-off between speech intelligibility and speaker similarity for zero-shot voice cloning.
ByteDance
Apache 2.0
Slow
en, zh
8GB
Já
4x
Kokoro
Frjáls
Kokoro is an 82 million parameter text-to-speech model that punches well above its weight class. Despite its tiny size, it produces remarkably natural and expressive speech. Kokoro supports multiple languages including English, Japanese, Chinese, and Korean with a variety of expressive voices. It runs incredibly fast — generating audio nearly 100x faster than real-time on a GPU.
Hexgrad
Apache 2.0
Fast
Piper
Frjáls
Piper is a lightweight text-to-speech engine developed by Rhasspy that uses VITS and larynx architectures. It runs entirely on CPU, making it ideal for edge devices, home automation, and applications requiring offline TTS. With over 100 voices across 30+ languages, Piper delivers natural-sounding speech at real-time speeds even on a Raspberry Pi 4.
Rhasspy
MIT
Fast
VITS
Frjáls
VITS (Variational Inference with adversarial learning for end-to-end Text-to-Speech) is a parallel end-to-end TTS method that generates more natural sounding audio than current two-stage models. It adopts variational inference augmented with normalizing flows and an adversarial training process, achieving a significant improvement in naturalness.
Jaehyeon Kim et al.
MIT
Fast
MeloTTS
Frjáls
MeloTTS by MyShell.ai is a multilingual TTS library supporting English (American, British, Indian, Australian), Spanish, French, Chinese, Japanese, and Korean. It is extremely fast, processing text at near real-time speed on CPU alone. MeloTTS is designed for production use and supports both CPU and GPU inference.
MyShell.ai
MIT
Fast
OuteTTS
Frjáls
OuteTTS extends large language models with text-to-speech capabilities while preserving the original architecture. It supports multiple backends including llama.cpp (CPU/GPU), Hugging Face Transformers, ExLlamaV2, VLLM, and even browser inference via Transformers.js. Features zero-shot voice cloning through speaker profiles saved as JSON.
OuteAI
Apache 2.0
Fast
Pocket TTS
Frjáls
Pocket TTS by Kyutai (creators of Moshi) is a compact 100M parameter text-to-speech model that punches well above its weight. It runs efficiently on CPU, supports zero-shot voice cloning from a single audio sample, and produces natural-sounding speech. The small model size makes it ideal for edge deployment and low-resource environments.
Kyutai
MIT
Fast
Kitten TTS
Frjáls
Kitten TTS by KittenML is an ultra-lightweight text-to-speech model built on ONNX. With variants from 15M to 80M parameters (25-80 MB on disk), it delivers high-quality voice synthesis on CPU without requiring a GPU. Features 8 built-in voices, adjustable speech speed, and built-in text preprocessing for numbers, currencies, and units. Ideal for edge deployment and low-latency applications.
KittenML
Apache 2.0
Fast
Bark
Sjálfgefið
Bark by Suno is a transformer-based text-to-audio model that can generate highly realistic, multilingual speech as well as other audio like music, background noise, and sound effects. It can produce nonverbal communications like laughing, sighing, and crying. Bark supports over 100 speaker presets and 13+ languages.
Suno
MIT
Slow
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
Nei.
Bark Small
Sjálfgefið
Bark Small is a distilled version of the Bark model that trades some audio quality for significantly faster inference speeds and lower memory requirements. It retains Bark's ability to generate speech with emotions, laughter, and multiple languages.
Suno
MIT
Medium
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
Nei.
CosyVoice 2
Sjálfgefið
CosyVoice 2 by Alibaba's Tongyi Lab achieves human-comparable speech quality with extremely low latency, making it ideal for real-time applications. It uses a finite scalar quantization approach for streaming synthesis and supports zero-shot voice cloning, cross-lingual synthesis, and fine-grained emotion control. It outperforms many commercial TTS systems in subjective evaluations.
Alibaba (Tongyi Lab)
Apache 2.0
Medium
en, zh, ja, ko, fr, de, it, es
Já
Dia TTS
Sjálfgefið
Dia by Nari Labs is a 1.6B parameter text-to-speech model designed specifically for generating multi-speaker dialogue. It can produce natural-sounding conversations between two speakers with appropriate turn-taking, prosody, and emotional expression. Dia is perfect for creating podcast-style content, audiobook dialogues, and interactive conversational AI.
Nari Labs
Apache 2.0
Medium
en
Nei.
Parler TTS
Sjálfgefið
Parler TTS is a text-to-speech model that uses natural language voice descriptions to control the generated speech. Instead of selecting from preset voices, you describe the voice you want (e.g., "a warm female voice with a slight British accent, speaking slowly and clearly") and Parler generates speech matching that description. This makes it uniquely flexible for creative applications.
Hugging Face
Apache 2.0
Medium
en
Nei.
GLM-TTS
Sjálfgefið
GLM-TTS by Zhipu AI is a text-to-speech system built on the Llama architecture with flow matching. It achieves the lowest character error rate among open-source TTS models, meaning it produces the most accurate pronunciation. GLM-TTS supports English and Chinese with voice cloning from 3-10 second audio samples.
Zhipu AI
GLM-4 License
Medium
en, zh
Já
IndexTTS-2
Sjálfgefið
IndexTTS-2 is an advanced text-to-speech system that excels at zero-shot voice synthesis with fine-grained emotion control. It can generate speech with specific emotional tones like happy, sad, angry, or fearful without requiring emotion-specific training data. The model uses emotion vectors to precisely control the emotional expression of generated speech.
Index Team
Bilibili Model License
Medium
en, zh
Já
Spark TTS
Sjálfgefið
Spark TTS by SparkAudio is a text-to-speech model that combines voice cloning with controllable emotion and speaking style. Using just 5 seconds of reference audio, it can clone a voice and then generate speech with different emotions, speeds, and styles while maintaining the cloned voice identity. Spark TTS uses a prompt-based control system.
SparkAudio
CC BY-NC-SA 4.0
Medium
en, zh
Já
GPT-SoVITS
Sjálfgefið
GPT-SoVITS combines GPT-style language modeling with SoVITS (Singing Voice Inference via Translation and Synthesis) for powerful few-shot voice cloning. With as little as 5 seconds of reference audio, it can accurately clone a voice and generate new speech while preserving the speaker's unique characteristics. It excels at both speaking and singing voice synthesis.
RVC-Boss
MIT
Slow
en, zh, ja, ko
Já
Orpheus
Sjálfgefið
Orpheus is a large-scale text-to-speech model that achieves human-level emotional expression. Trained on over 100,000 hours of diverse speech data, it excels at generating speech with natural emotions, emphasis, and speaking styles. Orpheus can produce speech that is virtually indistinguishable from human recordings.
Canopy Labs
Llama 3.2 Community
Medium
en
Nei.
Qwen3 TTS
Sjálfgefið
Qwen3-TTS is a 1.7 billion parameter text-to-speech model from Alibaba's Qwen team. It supports three modes: preset voices with emotion control (9 speakers), voice cloning from just 3 seconds of audio, and a unique voice design mode where you describe the voice you want in natural language. It covers 10 languages with high expressiveness and natural prosody.
Alibaba (Qwen)
Apache 2.0
Medium
en, zh, ja, ko, de, fr, ru, pt, es, it
Já
Chatterbox Turbo
Sjálfgefið
Chatterbox Turbo by Resemble AI is a 350M parameter upgrade to Chatterbox, delivering up to 6x real-time speed with sub-200ms latency. It supports paralinguistic tags like [laugh], [cough], and [chuckle] directly in text. Includes Perth watermarking on all generated audio for provenance tracking.
Resemble AI
MIT
Fast
en
Já
Zonos
Sjálfgefið
Zonos v0.1 by Zyphra is a 1.6B parameter model featuring fine-grained emotion control with sliders for happiness, anger, sadness, fear, and surprise. It offers both a Transformer and a novel SSM (state-space model) variant. Trained on 200K+ hours of multilingual speech with zero-shot voice cloning from 10-30 seconds of reference audio.
Zyphra
Apache 2.0
Medium
en, ja, zh, fr, de
Já
Dia 2
Sjálfgefið
Dia2 by Nari Labs is a streaming-first upgrade to Dia, available in 1B and 2B parameter variants. It begins synthesizing audio from the first few tokens, making it ideal for real-time voice agents and speech-to-speech pipelines. Supports multi-speaker dialogue with [S1]/[S2] tags and paralinguistic cues like (laughs), (coughs).
Nari Labs
Apache 2.0
Fast
en
Nei.
VoxCPM
Sjálfgefið
VoxCPM 1.5 by OpenBMB is a novel tokenizer-free TTS model that operates in continuous space rather than discrete tokens. It produces high-fidelity 44.1kHz audio, supports zero-shot voice cloning from 3-10 seconds, and maintains consistency across paragraphs. Cross-language cloning lets you apply an English voice to Chinese speech and vice versa.
OpenBMB
Apache 2.0
Fast
en, zh
Já
TADA
Sjálfgefið
TADA (Text-Acoustic Dual Alignment) by Hume AI is a groundbreaking TTS model that eliminates hallucinations through a novel dual alignment architecture built on Llama 3.2. Available in 1B (English) and 3B (multilingual) variants, TADA achieves an RTF of 0.09 — 5x faster than comparable LLM-based TTS models. It supports up to 700 seconds of audio context and produces emotionally expressive speech with zero hallucinations on standard benchmarks.
Hume AI
MIT
Fast
en
Nei.
VibeVoice
Sjálfgefið
VibeVoice from Microsoft generates long-form speech up to 90 minutes with support for 4 simultaneous speakers, making it ideal for podcasts and dialogues. The Realtime 0.5B variant achieves ~300ms latency for interactive use. Supports speaker tags for multi-turn dialogue generation.
Microsoft
MIT
Fast
en, zh
Nei.
CosyVoice3
Sjálfgefið
CosyVoice3 is the latest evolution from Alibaba's FunAudioLLM team. It features bi-streaming inference with ~150ms latency, instruction-based control for emotion/speed/volume, and improved speaker similarity for zero-shot cloning. Supports 9 languages plus 18 Chinese dialects. RL-tuned variant delivers state-of-the-art prosody.
Alibaba (FunAudioLLM)
Apache 2.0
Fast
en, zh, ja, ko, de, es, fr, it, ru
Já
Model samanburður Tafla
| Tegund | Forritari: | Tími | Gæði: | Hraði | tungumál | Raddklónun | VRAM | Leyfi: | Kostnaður | |
|---|---|---|---|---|---|---|---|---|---|---|
| Kokoro | Hexgrad | Free | Fast | 11 | 1.5GB | Apache 2.0 | Frjáls | Nota | ||
| Piper | Rhasspy | Free | Fast | 31 | 0 (CPU only) | MIT | Frjáls | Nota | ||
| VITS | Jaehyeon Kim et al. | Free | Fast | 4 | 1GB | MIT | Frjáls | Nota | ||
| MeloTTS | MyShell.ai | Free | Fast | 6 | 0.5GB (GPU optional) | MIT | Frjáls | Nota | ||
| Bark | Suno | Standard | Slow | 13 | 5GB | MIT | 2 | Nota | ||
| Bark Small | Suno | Standard | Medium | 13 | 2GB | MIT | 2 | Nota | ||
| CosyVoice 2 | Alibaba (Tongyi Lab) | Standard | Medium | 8 | 4GB | Apache 2.0 | 2 | Nota | ||
| Dia TTS | Nari Labs | Standard | Medium | 1 | 4GB | Apache 2.0 | 2 | Nota | ||
| Parler TTS | Hugging Face | Standard | Medium | 1 | 4GB | Apache 2.0 | 2 | Nota | ||
| GLM-TTS | Zhipu AI | Standard | Medium | 2 | 4GB | GLM-4 License | 2 | Nota | ||
| IndexTTS-2 | Index Team | Standard | Medium | 2 | 4GB | Bilibili Model License | 2 | Nota | ||
| Spark TTS | SparkAudio | Standard | Medium | 2 | 4GB | CC BY-NC-SA 4.0 | 2 | Nota | ||
| GPT-SoVITS | RVC-Boss | Standard | Slow | 4 | 6GB | MIT | 2 | Nota | ||
| Orpheus | Canopy Labs | Standard | Medium | 1 | 4GB | Llama 3.2 Community | 2 | Nota | ||
| Chatterbox | Resemble AI | Premium | Medium | 1 | 4GB | MIT | 4 | Nota | ||
| Tortoise TTS | James Betker | Premium | Slow | 1 | 8GB | Apache 2.0 | 4 | Nota | ||
| StyleTTS 2 | Columbia University | Premium | Medium | 1 | 4GB | MIT | 4 | Nota | ||
| OpenVoice | MyShell.ai / MIT | Premium | Medium | 8 | 4GB | MIT | 4 | Nota | ||
| Qwen3 TTS | Alibaba (Qwen) | Standard | Medium | 10 | 7GB | Apache 2.0 | 2 | Nota | ||
| Sesame CSM | Sesame | Premium | Slow | 1 | 8GB | Apache 2.0 | 4 | Nota | ||
| Chatterbox Turbo | Resemble AI | Standard | Fast | 1 | 2GB | MIT | 2 | Nota | ||
| Zonos | Zyphra | Standard | Medium | 5 | 6GB | Apache 2.0 | 2 | Nota | ||
| Dia 2 | Nari Labs | Standard | Fast | 1 | 4GB | Apache 2.0 | 2 | Nota | ||
| VoxCPM | OpenBMB | Standard | Fast | 2 | 4GB | Apache 2.0 | 2 | Nota | ||
| OuteTTS | OuteAI | Free | Fast | 1 | 2GB | Apache 2.0 | Frjáls | Nota | ||
| TADA | Hume AI | Standard | Fast | 1 | 5GB | MIT | 2 | Nota | ||
| VibeVoice | Microsoft | Standard | Fast | 2 | 4GB | MIT | 2 | Nota | ||
| Pocket TTS | Kyutai | Free | Fast | 2 | 1GB | MIT | Frjáls | Nota | ||
| Kitten TTS | KittenML | Free | Fast | 1 | 0GB | Apache 2.0 | Frjáls | Nota | ||
| CosyVoice3 | Alibaba (FunAudioLLM) | Standard | Fast | 9 | 4GB | Apache 2.0 | 2 | Nota | ||
| MOSS-TTS | OpenMOSS | Premium | Medium | 19 | 16GB | Apache 2.0 | 4 | Nota | ||
| MegaTTS3 | ByteDance | Premium | Slow | 2 | 8GB | Apache 2.0 | 4 | Nota |
Alhliða AI Texti til tals Platform
Af hverju að velja TTS.ai fyrir texta til tals?
TTS.ai sameinar bestu opna texta-til-tal módel heimsins í einum, auðvelt að nota vettvang.Ólíkt einkaleyfi sem læsir þér í einni raddvél, TTS.ai gefur þér aðgang að 20+ módelum frá leiðandi rannsóknarstofum, þar á meðal Coqui, MyShell, Amphion, NVIDIA, Suno, HuggingFace, Tsinghua University og fleira.
Hver líkan er opinn uppspretta undir MIT, Apache 2.0, eða svipuð leyfisveitandi leyfi, sem tryggir að þú hafir fullan viðskiptalegan rétt til að nota myndað hljóð í verkefnum þínum. Hvort sem þú þarft hratt, létt myndun fyrir rauntímaforrit eða hágæða stúdíógæði fyrir hljóðbækur og podcast, hefur TTS.ai rétta líkanið fyrir hvert notkunartilfelli.
Ókeypis módel, enginn reikningur krafist
Byrjaðu strax með þremur ókeypis TTS módelum: Piper (ótrúlega hratt, létt), VITS (hágæða taugamyndun) og MeloTTS (fjöltyngstuðningur).Engin skráning, ekkert kreditkort, engin takmörk á kynslóðum.Frjáls módel styðja ensku og mörg önnur tungumál með náttúrulega hljómandi framleiðsla sem hentar flestum forritum.
GPU- hröðuð vinnsla
Öll TTS módel keyra á hollur NVIDIA GPUs fyrir fljótur, stöðugt kynslóð sinnum. Free módel venjulega búa til hljóð í innan við 2 sekúndur. Standard módel eins Kokoro, CosyVoice 2, og Bark meðaltali 3-5 sekúndur. Premium módel með hæstu gæðum, svo sem Tortoise og Chatterbox, vinna í 5-15 sekúndur eftir lengd texta.
30+ tungumál studd
Búa til ræðu á yfir 30 tungumálum, þar á meðal ensku, spænsku, frönsku, þýsku, ítölsku, portúgölsku, kínversku, japönsku, kóresku, arabísku, hindí, rússnesku og mörgum fleiri. Nokkrar gerðir styðja við tungumálasamsetningu, sem þýðir að þú getur búið til ræðu á tungumáli sem upprunalega röddin var aldrei þjálfuð á. CosyVoice 2 og GPT-SoVITS standa sig vel á kross-tungumáli rödd klónun.
Forritari- Ready API
Samþætta TTS.ai í forritum þínum með OpenAI-samhæfum REST API. Einn endapunktur fyrir allar 20+ gerðir. Python, JavaScript, cURL og Go SDK. Streaming stuðning fyrir rauntíma forrit. Hópur vinnslu fyrir stórfellda efni kynslóð. Webhooks fyrir async tilkynningar.
Algengar spurningar (FAQ)
Hvað gætum við bætt? Viðbrögð þín hjálpa okkur að laga vandamál.
Byrjaðu að umbreyta texta í tal núna
Skráðu þig í þúsundir höfunda með TTS.ai. Fáðu 15.000 ókeypis stafi með nýjum reikningi. Ókeypis módel í boði án skráningar.