AI Texti til ræðu
Umbreyta texta í náttúrulega hljóðandi ræðu með opnum AI módelum. Frjáls til notkunar, engin reikningur krafist.
Wrap texta í SSML tags fyrir nákvæma stjórn:
<speak><prosody rate="slow">Slow speech</prosody></speak>
Bættu við tilfinningamerkjum til að hafa áhrif á afhendingu (stuðningur við líkan er mismunandi):
Skilgreindu sérsniðna framburð (orð = framburð):
Upplýsingar um líkan
Kitten TTS
Kitten TTS by KittenML is an ultra-lightweight text-to-speech model built on ONNX. With variants from 15M to 80M parameters (25-80 MB on disk), it delivers high-quality voice synthesis on CPU without requiring a GPU. Features 8 built-in voices, adjustable speech speed, and built-in text preprocessing for numbers, currencies, and units. Ideal for edge deployment and low-latency applications.
| Forritari: | KittenML |
| Leyfi: | Apache 2.0 |
| Hraði | Fast |
| Gæði: | |
| tungumál | 1 tungumál |
| VRAM | 0GB |
| Raddklónun | Ekki studd |
Ábendingar fyrir betri árangur
- Notaðu rétta greinarmerki fyrir náttúruleg hlé og innslátt
- Stafsetja út tölur og skammstafanir fyrir skýrari framburð
- Bæta við kommum til að búa til stutt hlé milli setninga
- Notaðu ellipsu (...) fyrir lengri dramatískar hlé
- Prófaðu Kokoro eða CosyVoice 2 fyrir mest náttúrulega niðurstöður
- Nota Dia fyrir multi-hátalara samtal og podcast efni
Stafsetning
| Tími | Kostnaður á 1K stafi |
|---|---|
| Frjáls | 0 einingar (ótakmarkað) |
| Sjálfgefið | 2 einingar / 1K stafir |
| Premium | 4 einingar / 1K stafir |
Hvernig AI Texti til ræðu virkar
Búa til faglega gæði voiceovers í þremur einföldum skrefum. Engin tæknileg þekking krafist.
Sláðu inn textann þinn
Sláðu inn, límdu eða sendu textann sem þú vilt breyta í tal. Styður allt að 5. 000 stafi á hverja kynslóð fyrir innskráða notendur. Notaðu venjulegt texta eða bættu við SSML merkjum til að fá háþróaða stjórn á framburði, hléum og áherslu.
Veldu líkan og rödd
Veldu úr 20+ AI módelum á þremur stigum.Veldu rödd sem passar við efnið þitt, veldu tungumálið þitt, stilltu spilunarhraða frá 0,5x til 2,0x og veldu ákjósanlegt framleiðsla snið (MP3, WAV, OGG eða FLAC).
Búa til og sækja
Smelltu á Búa til og hljóðið þitt er tilbúið á nokkrum sekúndum. Forskoða með innbyggða spilaranum, hlaða niður á því sniði sem þú velur, eða afrita tengil sem hægt er að deila. Notaðu API fyrir lotuvinnslu og samþættingu við vinnuflæði þitt.
Texti í talnotkunartilfelli
AI-knúin texti-til-tal er að umbreyta því hvernig fólk býr til, neytir og hefur samskipti við hljóðefni í heilmikið af atvinnugreinum.
Öll texta til tals módel
Ítarlegar upplýsingar fyrir hvert AI líkan í boði á TTS.ai Bera saman gæði, hraða, tungumálastuðning og eiginleika til að finna hið fullkomna líkan fyrir verkefnið þitt.
Kokoro
Free
Kokoro er 82 milljón breyta texta-til-tal líkan sem kýlir vel yfir þyngdarflokki sínum. Þrátt fyrir litla stærð sína, framleiðir það ótrúlega náttúrulega og tjáningarmikla ræðu. Kokoro styður mörg tungumál, þar á meðal ensku, japönsku, kínversku og kóresku með ýmsum tjáningarmiklum raddir. Það keyrir ótrúlega hratt - framleiðir hljóð næstum 100x hraðar en rauntíma á GPU.
Hexgrad
Apache 2.0
Fast
en, ja, zh, ko, fr, de, it, pt, es, hi, ru
1.5GB
Nei.
Frjáls
Piper
Free
Piper er léttur texti-til-tal vél þróað af Rhasspy sem notar VITS og barkakýli arkitektúr.Það keyrir algerlega á CPU, sem gerir það tilvalið fyrir brún tæki, heimili sjálfvirkni, og forrit sem krefjast offline TTS.Með yfir 100 raddir yfir 30 + tungumálum, Piper skilar náttúrulega hljóðandi ræðu á rauntíma hraða jafnvel á Raspberry Pi 4.
Rhasspy
MIT
Fast
en, de, fr, es, it, pt, nl, pl, ru, zh, ja, ko, ar, cs, da, fi, el, hu, is, ka, kk, ne, no, ro, sk, sr, sv, sw, tr, uk, vi
0 (CPU only)
Nei.
Frjáls
VITS
Free
VITS (Variation Inference with adversarial learning for end-to-end Text-to-Speech) er samsíða enda-til-enda TTS aðferð sem býr til meira náttúrulegt hljóma hljóð en núverandi tveggja stigs módel.Það samþykkir breytilegt ályktun aukið með eðlilegum flæði og andstæða þjálfunarferli, sem skilar verulegum framförum í náttúruleika.
Jaehyeon Kim et al.
MIT
Fast
en, zh, ja, ko
1GB
Nei.
Frjáls
MeloTTS
Free
MeloTTS eftir MyShell.ai er fjöltyngd TTS bókasafn sem styður ensku (Ameríku, Bretlandi, Indlandi, Ástralíu), spænsku, frönsku, kínversku, japönsku og kóresku. Það er mjög hratt, vinnsla texta á nánast rauntíma hraða á CPU eingöngu. MeloTTS er hannað til framleiðslunotkunar og styður bæði CPU og GPU ályktun.
MyShell.ai
MIT
Fast
en, es, fr, zh, ja, ko
0.5GB (GPU optional)
Nei.
Frjáls
Bark
Standard
Bark eftir Suno er spenni-undirstaða texta-til-hljóð líkan sem getur búið til mjög raunhæf, fjöltyngd ræðu auk annarra hljóð eins og tónlist, bakgrunns hávaða og hljóð.Það getur framleitt nonverbal samskipti eins og hlæja, andvarpa og gráta.Bark styður yfir 100 hátalara forstillingar og 13 + tungumálum.
Suno
MIT
Slow
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
5GB
Nei.
2x
Bark Small
Standard
Bark Small er eimuð útgáfa af Bark líkaninu sem skiptir um hljóðgæði fyrir verulega hraðari niðurstöðuhraða og lægri minniskröfur.Það heldur hæfni Barks til að búa til tal með tilfinningum, hlátri og mörgum tungumálum.
Suno
MIT
Medium
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
2GB
Nei.
2x
CosyVoice 2
Standard
CosyVoice 2 frá Tongyi Lab Alibaba nær mannlegum talgæðum með mjög lágum leynd, sem gerir það tilvalið fyrir rauntímaforrit. Það notar endanlega skalarmagns nálgun fyrir straumspilun og styður núll-skot raddklónun, kross-tungumálsmyndun og fínkorna tilfinningastjórnun.
Alibaba (Tongyi Lab)
Apache 2.0
Medium
en, zh, ja, ko, fr, de, it, es
4GB
Já
2x
Dia TTS
Standard
Dia eftir Nari Labs er 1.6B breyta texta-til-tal líkan hannað sérstaklega til að búa til multi-hátalara samtal. Það getur framleitt náttúrulega hljóðandi samtöl milli tveggja hátalara með viðeigandi beygju, prosody og tilfinningalega tjáningu.Dia er fullkomið til að búa til podcast-stíl efni, hljóðbók samræður, og gagnvirk samtal AI.
Nari Labs
Apache 2.0
Medium
en
4GB
Nei.
2x
Parler TTS
Standard
Parler TTS er texta- í- tal líkan sem notar náttúruleg tungumál raddlýsingar til að stjórna framleidda ræðu. Í stað þess að velja úr forstilltum raddir, lýsir þú rödd sem þú vilt (td, "hlýtt kvenkyns rödd með smá breskum hreim, talar hægt og skýrt") og Parler býr til ræðu sem passar við þá lýsingu. Þetta gerir það einstaklega sveigjanlegt fyrir skapandi forrit.
Hugging Face
Apache 2.0
Medium
en
4GB
Nei.
2x
GLM-TTS
Standard
GLM-TTS eftir Zhipu AI er texta-til-tal kerfi byggt á Llama arkitektúr með flæði samsvörun.Það nær lægsta staf villa hlutfall meðal opnum uppspretta TTS módel, sem þýðir að það framleiðir nákvæmasta framburð.GLM-TTS styður ensku og kínversku með rödd klónun frá 3-10 sekúndna hljóð sýni.
Zhipu AI
GLM-4 License
Medium
en, zh
4GB
Já
2x
IndexTTS-2
Standard
IndexTTS-2 er háþróað texta-til-tal kerfi sem er frábært í núll-skot raddmyndun með fíngrun tilfinninga stjórna. Það getur búið til ræðu með tilteknum tilfinningalegum tónum eins og hamingjusamur, sorglegur, reiður eða hræddur án þess að þurfa tilfinninga-sérstakar þjálfunargögn.
Index Team
Bilibili Model License
Medium
en, zh
4GB
Já
2x
Spark TTS
Standard
Spark TTS eftir SparkAudio er texta-til-tal líkan sem sameinar rödd klónun með stjórnanlegum tilfinningum og talstíl. Með því að nota aðeins 5 sekúndur af tilvísun hljóð, getur það klóna rödd og síðan búa til ræðu með mismunandi tilfinningar, hraða og stíl en viðhalda klónuð rödd sjálfsmynd.
SparkAudio
CC BY-NC-SA 4.0
Medium
en, zh
4GB
Já
2x
GPT-SoVITS
Standard
GPT-SoVITS sameinar GPT-stíl tungumál líkan með SoVITS (Singing Voice Inference með þýðingu og myndun) fyrir öfluga fáum skot rödd klónun. Með eins lítið og 5 sekúndur af tilvísun hljóð, það getur nákvæmlega klón rödd og búa til nýja ræðu en varðveita einstaka eiginleika hátalara.
RVC-Boss
MIT
Slow
en, zh, ja, ko
6GB
Já
2x
Orpheus
Standard
Orpheus er stórt texta-til-tal líkan sem nær tilfinningalegri tjáningu á mannlegum stigum.Þjálfað á yfir 100.000 klukkustundum af fjölbreyttum talgögnum, það er framúrskarandi í að búa til tal með náttúrulegum tilfinningum, áherslu og talstíl. Orpheus getur framleitt tal sem er nánast ógreinanlegt frá mannlegum upptökum.
Canopy Labs
Llama 3.2 Community
Medium
en
4GB
Nei.
2x
Chatterbox
Premium
Chatterbox by Resemble AI er háþróaður núll-skot rödd klónun líkan. Það getur endurskapa hvaða rödd úr einu hljóð sýnishorn með ótrúlega nákvæmni, handtaka ekki aðeins timbre en einnig tala stíl og tilfinningalega blæbrigði.Chatterbox hefur einnig fínkorna tilfinningu stjórna, sem gerir þér kleift að stilla tilfinningalega tón af myndast ræðu óháð rödd auðkenni.
Resemble AI
MIT
Medium
en
4GB
Já
4x
Tortoise TTS
Premium
Skjaldbaka TTS er autoregressive multi-rödd texta-til-tal kerfi sem forgangsraðar hljóð gæði yfir hraða. Það notar DALL-E-innblásin arkitektúr til að búa til mjög eðlilegt tal með framúrskarandi prosody og ræðumaður líkt.Þó hægari en margir valkostir, Tortoise framleiðir nokkrar af raunsæjustu tilbúið tal í boði í opnum uppspretta vistkerfi.
James Betker
Apache 2.0
Slow
en
8GB
Já
4x
StyleTTS 2
Premium
StyleTTS 2 nær TTS-myndun á mannlegum stigum með því að sameina stílblæstri með andstæða þjálfun með því að nota stór talmálslíkön. Það býr til náttúrulegasta hljómflutnings-tal meðal einstakra hátalaralíkana, sem keppa við mannlegar upptökur.
Columbia University
MIT
Medium
en
4GB
Nei.
4x
OpenVoice
Premium
OpenVoice frá MyShell.ai gerir þér kleift að klóna rödd með kornuðu stjórn á röddstíl, tilfinningum, hreim, takti, hléum og innsæi. Það getur klónað rödd úr stuttu hljóðmyndbandi og búið til ræðu á mörgum tungumálum en viðhalda hátalara.
MyShell.ai / MIT
MIT
Medium
en, zh, ja, ko, fr, de, es, it
4GB
Já
4x
Qwen3 TTS
Standard
Qwen3-TTS er 1,7 milljarða breyta texta-til-tal líkan frá Qwen lið Alibaba.Það styður þrjár stillingar: forstilltar raddir með tilfinningastjórnun (9 hátalara), raddklónun frá aðeins 3 sekúndum af hljóði og einstakt raddhönnun þar sem þú lýsir rödd sem þú vilt í náttúrulegu tungumáli.Það nær yfir 10 tungumál með mikla tjáningu og náttúrulega prosody.
Alibaba (Qwen)
Apache 2.0
Medium
en, zh, ja, ko, de, fr, ru, pt, es, it
7GB
Já
2x
Sesame CSM
Premium
Sesame CSM (Conversational Speech Model) er 1 milljarð breytu líkan hannað sérstaklega til að búa til samtalsmál.Það líkir eftir náttúrulegum mynstri mannlegs samtals, þ.mt snúningstíma, baksviðsviðbrögðum, tilfinningalegum viðbrögðum og samtalsflæði.CSM býr til hljóð sem hljómar eins og náttúrulegt mannlegt samtal frekar en tilbúið tal.
Sesame
Apache 2.0
Slow
en
8GB
Nei.
4x
Kitten TTS
Free
Kitten TTS by KittenML is an ultra-lightweight text-to-speech model built on ONNX. With variants from 15M to 80M parameters (25-80 MB on disk), it delivers high-quality voice synthesis on CPU without requiring a GPU. Features 8 built-in voices, adjustable speech speed, and built-in text preprocessing for numbers, currencies, and units. Ideal for edge deployment and low-latency applications.
KittenML
Apache 2.0
Fast
en
0GB
Nei.
Frjáls
Kokoro
Frjáls
Kokoro is an 82 million parameter text-to-speech model that punches well above its weight class. Despite its tiny size, it produces remarkably natural and expressive speech. Kokoro supports multiple languages including English, Japanese, Chinese, and Korean with a variety of expressive voices. It runs incredibly fast — generating audio nearly 100x faster than real-time on a GPU.
Hexgrad
Apache 2.0
Fast
Piper
Frjáls
Piper is a lightweight text-to-speech engine developed by Rhasspy that uses VITS and larynx architectures. It runs entirely on CPU, making it ideal for edge devices, home automation, and applications requiring offline TTS. With over 100 voices across 30+ languages, Piper delivers natural-sounding speech at real-time speeds even on a Raspberry Pi 4.
Rhasspy
MIT
Fast
VITS
Frjáls
VITS (Variational Inference with adversarial learning for end-to-end Text-to-Speech) is a parallel end-to-end TTS method that generates more natural sounding audio than current two-stage models. It adopts variational inference augmented with normalizing flows and an adversarial training process, achieving a significant improvement in naturalness.
Jaehyeon Kim et al.
MIT
Fast
MeloTTS
Frjáls
MeloTTS by MyShell.ai is a multilingual TTS library supporting English (American, British, Indian, Australian), Spanish, French, Chinese, Japanese, and Korean. It is extremely fast, processing text at near real-time speed on CPU alone. MeloTTS is designed for production use and supports both CPU and GPU inference.
MyShell.ai
MIT
Fast
Kitten TTS
Frjáls
Kitten TTS by KittenML is an ultra-lightweight text-to-speech model built on ONNX. With variants from 15M to 80M parameters (25-80 MB on disk), it delivers high-quality voice synthesis on CPU without requiring a GPU. Features 8 built-in voices, adjustable speech speed, and built-in text preprocessing for numbers, currencies, and units. Ideal for edge deployment and low-latency applications.
KittenML
Apache 2.0
Fast
Bark
Sjálfgefið
Bark by Suno is a transformer-based text-to-audio model that can generate highly realistic, multilingual speech as well as other audio like music, background noise, and sound effects. It can produce nonverbal communications like laughing, sighing, and crying. Bark supports over 100 speaker presets and 13+ languages.
Suno
MIT
Slow
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
Nei.
Bark Small
Sjálfgefið
Bark Small is a distilled version of the Bark model that trades some audio quality for significantly faster inference speeds and lower memory requirements. It retains Bark's ability to generate speech with emotions, laughter, and multiple languages.
Suno
MIT
Medium
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
Nei.
CosyVoice 2
Sjálfgefið
CosyVoice 2 by Alibaba's Tongyi Lab achieves human-comparable speech quality with extremely low latency, making it ideal for real-time applications. It uses a finite scalar quantization approach for streaming synthesis and supports zero-shot voice cloning, cross-lingual synthesis, and fine-grained emotion control. It outperforms many commercial TTS systems in subjective evaluations.
Alibaba (Tongyi Lab)
Apache 2.0
Medium
en, zh, ja, ko, fr, de, it, es
Já
Dia TTS
Sjálfgefið
Dia by Nari Labs is a 1.6B parameter text-to-speech model designed specifically for generating multi-speaker dialogue. It can produce natural-sounding conversations between two speakers with appropriate turn-taking, prosody, and emotional expression. Dia is perfect for creating podcast-style content, audiobook dialogues, and interactive conversational AI.
Nari Labs
Apache 2.0
Medium
en
Nei.
Parler TTS
Sjálfgefið
Parler TTS is a text-to-speech model that uses natural language voice descriptions to control the generated speech. Instead of selecting from preset voices, you describe the voice you want (e.g., "a warm female voice with a slight British accent, speaking slowly and clearly") and Parler generates speech matching that description. This makes it uniquely flexible for creative applications.
Hugging Face
Apache 2.0
Medium
en
Nei.
GLM-TTS
Sjálfgefið
GLM-TTS by Zhipu AI is a text-to-speech system built on the Llama architecture with flow matching. It achieves the lowest character error rate among open-source TTS models, meaning it produces the most accurate pronunciation. GLM-TTS supports English and Chinese with voice cloning from 3-10 second audio samples.
Zhipu AI
GLM-4 License
Medium
en, zh
Já
IndexTTS-2
Sjálfgefið
IndexTTS-2 is an advanced text-to-speech system that excels at zero-shot voice synthesis with fine-grained emotion control. It can generate speech with specific emotional tones like happy, sad, angry, or fearful without requiring emotion-specific training data. The model uses emotion vectors to precisely control the emotional expression of generated speech.
Index Team
Bilibili Model License
Medium
en, zh
Já
Spark TTS
Sjálfgefið
Spark TTS by SparkAudio is a text-to-speech model that combines voice cloning with controllable emotion and speaking style. Using just 5 seconds of reference audio, it can clone a voice and then generate speech with different emotions, speeds, and styles while maintaining the cloned voice identity. Spark TTS uses a prompt-based control system.
SparkAudio
CC BY-NC-SA 4.0
Medium
en, zh
Já
GPT-SoVITS
Sjálfgefið
GPT-SoVITS combines GPT-style language modeling with SoVITS (Singing Voice Inference via Translation and Synthesis) for powerful few-shot voice cloning. With as little as 5 seconds of reference audio, it can accurately clone a voice and generate new speech while preserving the speaker's unique characteristics. It excels at both speaking and singing voice synthesis.
RVC-Boss
MIT
Slow
en, zh, ja, ko
Já
Orpheus
Sjálfgefið
Orpheus is a large-scale text-to-speech model that achieves human-level emotional expression. Trained on over 100,000 hours of diverse speech data, it excels at generating speech with natural emotions, emphasis, and speaking styles. Orpheus can produce speech that is virtually indistinguishable from human recordings.
Canopy Labs
Llama 3.2 Community
Medium
en
Nei.
Qwen3 TTS
Sjálfgefið
Qwen3-TTS is a 1.7 billion parameter text-to-speech model from Alibaba's Qwen team. It supports three modes: preset voices with emotion control (9 speakers), voice cloning from just 3 seconds of audio, and a unique voice design mode where you describe the voice you want in natural language. It covers 10 languages with high expressiveness and natural prosody.
Alibaba (Qwen)
Apache 2.0
Medium
en, zh, ja, ko, de, fr, ru, pt, es, it
Já
Model samanburður Tafla
| Tegund | Forritari: | Tími | Gæði: | Hraði | tungumál | Raddklónun | VRAM | Leyfi: | Kostnaður | |
|---|---|---|---|---|---|---|---|---|---|---|
| Kokoro | Hexgrad | Free | Fast | 11 | 1.5GB | Apache 2.0 | Frjáls | Nota | ||
| Piper | Rhasspy | Free | Fast | 31 | 0 (CPU only) | MIT | Frjáls | Nota | ||
| VITS | Jaehyeon Kim et al. | Free | Fast | 4 | 1GB | MIT | Frjáls | Nota | ||
| MeloTTS | MyShell.ai | Free | Fast | 6 | 0.5GB (GPU optional) | MIT | Frjáls | Nota | ||
| Bark | Suno | Standard | Slow | 13 | 5GB | MIT | 2 | Nota | ||
| Bark Small | Suno | Standard | Medium | 13 | 2GB | MIT | 2 | Nota | ||
| CosyVoice 2 | Alibaba (Tongyi Lab) | Standard | Medium | 8 | 4GB | Apache 2.0 | 2 | Nota | ||
| Dia TTS | Nari Labs | Standard | Medium | 1 | 4GB | Apache 2.0 | 2 | Nota | ||
| Parler TTS | Hugging Face | Standard | Medium | 1 | 4GB | Apache 2.0 | 2 | Nota | ||
| GLM-TTS | Zhipu AI | Standard | Medium | 2 | 4GB | GLM-4 License | 2 | Nota | ||
| IndexTTS-2 | Index Team | Standard | Medium | 2 | 4GB | Bilibili Model License | 2 | Nota | ||
| Spark TTS | SparkAudio | Standard | Medium | 2 | 4GB | CC BY-NC-SA 4.0 | 2 | Nota | ||
| GPT-SoVITS | RVC-Boss | Standard | Slow | 4 | 6GB | MIT | 2 | Nota | ||
| Orpheus | Canopy Labs | Standard | Medium | 1 | 4GB | Llama 3.2 Community | 2 | Nota | ||
| Chatterbox | Resemble AI | Premium | Medium | 1 | 4GB | MIT | 4 | Nota | ||
| Tortoise TTS | James Betker | Premium | Slow | 1 | 8GB | Apache 2.0 | 4 | Nota | ||
| StyleTTS 2 | Columbia University | Premium | Medium | 1 | 4GB | MIT | 4 | Nota | ||
| OpenVoice | MyShell.ai / MIT | Premium | Medium | 8 | 4GB | MIT | 4 | Nota | ||
| Qwen3 TTS | Alibaba (Qwen) | Standard | Medium | 10 | 7GB | Apache 2.0 | 2 | Nota | ||
| Sesame CSM | Sesame | Premium | Slow | 1 | 8GB | Apache 2.0 | 4 | Nota | ||
| Kitten TTS | KittenML | Free | Fast | 1 | 0GB | Apache 2.0 | Frjáls | Nota |
Alhliða AI Texti til tals Platform
Af hverju að velja TTS.ai fyrir texta í tal?
TTS.ai sameinar bestu opna texta-til-tal módel heimsins í einum, auðvelt að nota vettvang.Ólíkt einkaleyfi sem læsir þér í einni raddvél, TTS.ai gefur þér aðgang að 20+ módelum frá leiðandi rannsóknarstofum, þar á meðal Coqui, MyShell, Amphion, NVIDIA, Suno, HuggingFace, Tsinghua University og fleira.
Hver líkan er opinn uppspretta undir MIT, Apache 2.0, eða svipuð leyfisveitandi leyfi, sem tryggir að þú hafir fullan viðskiptalegan rétt til að nota myndað hljóð í verkefnum þínum. Hvort sem þú þarft hratt, létt myndun fyrir rauntímaforrit eða hágæða stúdíógæði fyrir hljóðbækur og podcast, hefur TTS.ai rétta líkanið fyrir hvert notkunartilfelli.
Ókeypis módel, enginn reikningur krafist
Byrjaðu strax með þremur ókeypis TTS módelum: Piper (ótrúlega hratt, létt), VITS (hágæða taugamyndun) og MeloTTS (fjöltyngstuðningur).Engin skráning, ekkert kreditkort, engin takmörk á kynslóðum.Frjáls módel styðja ensku og mörg önnur tungumál með náttúrulega hljómandi framleiðsla sem hentar flestum forritum.
GPU- hröðuð vinnsla
Öll TTS módel keyra á hollur NVIDIA GPUs fyrir fljótur, stöðugt kynslóð sinnum. Free módel venjulega búa til hljóð í innan við 2 sekúndur. Standard módel eins Kokoro, CosyVoice 2, og Bark meðaltali 3-5 sekúndur. Premium módel með hæstu gæðum, svo sem Tortoise og Chatterbox, vinna í 5-15 sekúndur eftir lengd texta.
30+ tungumál studd
Búa til ræðu á yfir 30 tungumálum, þar á meðal ensku, spænsku, frönsku, þýsku, ítölsku, portúgölsku, kínversku, japönsku, kóresku, arabísku, hindí, rússnesku og mörgum fleiri. Nokkrar gerðir styðja við tungumálasamsetningu, sem þýðir að þú getur búið til ræðu á tungumáli sem upprunalega röddin var aldrei þjálfuð á. CosyVoice 2 og GPT-SoVITS standa sig vel á kross-tungumáli rödd klónun.
Forritari- Ready API
Samþætta TTS.ai í forritum þínum með OpenAI-samhæfum REST API. Einn endapunktur fyrir allar 20+ gerðir. Python, JavaScript, cURL og Go SDK. Streaming stuðning fyrir rauntíma forrit. Hópur vinnslu fyrir stórfellda efni kynslóð. Webhooks fyrir async tilkynningar.
Algengar spurningar (FAQ)
Hvað gætum við bætt? Viðbrögð þín hjálpa okkur að laga vandamál.
Byrjaðu að umbreyta texta í tal núna
Skráðu þig í þúsundir höfunda með TTS.ai. Fáðu 15.000 ókeypis stafi með nýjum reikningi. Ókeypis módel í boði án skráningar.