Prosti AI Besedilo v govor
33+ modeli odprtega izvora, 273+ glasovi, 33+ jeziki. Račun ni potreben.
Vse, kar potrebuješ za glasovno inteligenco
30+ orodja, ki jih poganjajo modeli AI z odprtim virom
33+ AI Glasovni modeli
Najobsežnejša zbirka modelov TTS na odprtem viru v eni platformi
Kokoro Prosto
Kokoro je 82 milijonov parametrov besedila do jezika modela, ki udarja veliko nad svojo težo razreda. Kljub svoji majhni velikosti, proizvaja izredno naravno in izrazito govor. Kokoro podpira več jezikov, vključno angleško, japonsko, kitajsko in korejsko z različnimi izrazitivne glasove. Teče neverjetno hitro – ustvarjanje avdio skoraj 100x hitreje kot v realnem času na GPU.
Najboljše za: visokokakovostni TTS z minimalno latenco, streaming aplikacije
Poskusite svobodno
Piper Prosto
Piper je lahek tekst-to-speech motor, ki ga je razvil Rhaspy, ki uporablja VITS in grla arhitekture. To deluje v celoti na CPU, kar je idealen za robne naprave, hišna avtomatizacija in aplikacije, ki zahtevajo offline TTS. Z več kot 100 glasov v 30+ jezikih, Piper zagotavlja naravno-zvočni govor pri hitrosti v realnem času tudi na Raspberry Pi 4.
Najboljše za: Hitri pregledi, dostopnost in vgrajeni programi
Poskusite svobodno
VITS Prosto
VITS (Variacionalni sklepi z nasprotnim učenjem za končni na koncu besedila v govor) je vzporedna metoda TTS od konca do konca, ki ustvarja bolj naravni zvočni zvok kot trenutni dvostopenjski modeli. Prevzema variacijski zaključek, ki se povečuje z normalizacijskimi tokovi in procesom vertikalnega usposabljanja, ki doseže znatno izboljšanje narave.
Najboljše za: Splošni namenski tekstilni govor z naravno prozodijo
Poskusite svobodno
MeloTTS Prosto
MeloTTS by MyShell.ai je večjezična knjižnica TTS, ki podpira angleščino (ameriški, britanski, indijski, avstralski), španski, francoski, kitajski, japonski in korejski. Je izjemno hitro, obdelava besedila z skoraj realno hitrostjo samo na CPU. MeloTTS je zasnovan za uporabo v proizvodnji in podpira tako CPU in GPU zaključek.
Najboljše za: Zahtevki za proizvodnjo, ki potrebujejo hitro, večjezično TTS
Poskusite svobodno
Kani TTS 2 Prosto
Kani-TTS-2 od NineNineSix je ultra lahek model parametra 400M, zgrajen na hrbtenici Liquid AI LFM2 z NVIDIA NanoCodec. Teče samo v 3GB VRAM in proizvaja ~10 sekund govora v ~2 sekundi na A100 (RTF 0.2). Trenutni javni sproščanje ladje samo angleško `kani-tts-2-en` kontrolno točko in ne razkriva zvočnika-vajanje kloniranja – uporabi Chatterbox / IndexTTS2 / F5-TTS za kloniranje, ali Kokoro / Melotts za ne-angleško.
Najboljše za: Hitra angleška generacija na nizko-VRAM strojnici, hiter pregled
Poskusite svobodno
OuteTTS Prosto
OutetTS razširja velike jezikovne modele z besedilnimi zmožnostmi pri ohranjanju izvirne arhitekture. Podpira več podstavkov, vključno z lama.cpp (CPU/GPU), Hugging Face Transformers, ExLlamaV2, VLLM in celo brskalnik zaključek preko Transformers.js. Značilnosti brez strelnega kloniranja glasu skozi zvočniške profile, shranjene kot JSON.
Najboljše za: Uporaba roba, TTS na podlagi brskalnika, okolja z nizkimi viri
Poskusite svobodno
Pocket TTS Prosto
Pocket TTS s strani Kyutai (kreatorji Moshi) je kompakten model 100M parametrov besedila-na-špeih, ki udarja veliko nad svojo težo. Teče učinkovito na CPU, podpira kloniranje glasu brez utripa iz enega zvočnega vzorca in ustvarja naravno-zvočni govor. Mala velikost modela ga naredi idealnega za uvajanje roba in okolja z nizkimi viri.
Najboljše za: Lahka uporaba, okolje samo za CPU, hitro kloniranje glasu
Poskusite svobodno
Kitten TTS Prosto
Kitten TTS by KittenML je ultra-lahek model besedila-na-špeih, zgrajen na ONNX. Z različicami od 15M do 80M parametrov (25-80 MB na disku), zagotavlja visokokakovostno sintezo glasu na CPU brez potrebe GPU. Značilnosti 8 vgrajenih glasov, nastavljivo hitrost govora, in vgrajeno besedilo vnaprej obdelava za številke, valute in enote. Idealno za uvajanje roba in nizko poznejše aplikacije.
Najboljše za: Hitro lahka TTS, uvajanje roba, nizko poznejše aplikacije
Poskusite svobodno
Ming-Omni TTS Prosto
Ming-omni-tts-0.5B z vključevanjemAI je kompakten vsemodalni govorni model, zgrajen na gosti hrbtenici BailingMM s preklopnim tokom, ki ustreza zvočni dekoder. Dovaja 44.1kHz izhod (približno kakovost CD), podpira kloniranje glasu brez utripa od 3+ sekunde, in vključuje vgrajeno čustvo / dialekt / BGM kontrola preko navodil JSON. Odlična stabilnost – 0,83% WER na kitajskih referenčnih vrednostih.
Najboljše za: Visoka zvestoba dvojezična naracija, čustveno nadzorovano glas igranje, kitajska audiobook vsebina
Poskusite svobodno
MOSS-TTS Nano Prosto
MOSS-TTS-Nano-100M je kompaktna različica OpenMOSS 100M-parameter družine MOSS-TTS, ki deli zamudo-transformersko arhitekturo. Trdi najvišjo kakovost modela 8B za ~80x manjše teže in dramatično nižje na zahtevo VRAM, zaradi česar je primeren za brezplačne in visokoprepustne namestitve. Enako 20 jezikovni doseg.
Najboljše za: Prostoročna TTS, proizvodnja visoke količine, interaktivna uporaba z nizkim časom
Poskusite svobodno
Bark Standardno
Transformer-na-audio model, ki ustvarja realen govor, glasbo in zvočne učinke.
Razvijalec: Suno · Licenca: MIT
Poskusi.
Bark Small Standardno
Lažja različica Barka z hitrejšim zaključkom in manjšim uporabo pomnilnika.
Razvijalec: Suno · Licenca: MIT
Poskusi.
CosyVoice 2 Standardno
Alibabov skalabilni TTS s človeško pariteto naravo in skoraj nula latencijo.
Razvijalec: Alibaba (Tongyi Lab) · Licenca: Apache 2.0
Poskusi.
Dia TTS Standardno
Večzvočniški dialogski model, ki ustvarja naravne pogovore med zvočniki.
Razvijalec: Nari Labs · Licenca: Apache 2.0
Poskusi.
Parler TTS Standardno
Opišite glas, ki ga želite v naravnem jeziku in Parler ustvarja enak govor.
Razvijalec: Hugging Face · Licenca: Apache 2.0
Poskusi.
IndexTTS-2 Standardno
Zero strelja TTS z dobro zrelim nadzorom čustev in visoko izrazitostjo.
Razvijalec: Index Team · Licenca: Bilibili Model License
Poskusi.
Spark TTS Standardno
Glasovno kloniranje TTS z nadzorovanimi čustvi in govorniški slog prek nasvetov.
Razvijalec: SparkAudio · Licenca: CC BY-NC-SA 4.0
Poskusi.
GPT-SoVITS Standardno
Nekajkratno kloniranje glasu TTS, ki replicira vsak glas iz samo 5 sekund zvoka.
Razvijalec: RVC-Boss · Licenca: MIT
Poskusi.
Orpheus Standardno
Emocionalni TTS model na človeški ravni je izurjen na 100K urah govora.
Razvijalec: Canopy Labs · Licenca: Llama 3.2 Community
Poskusi.
Qwen3 TTS Standardno
Alibabov večjezični TTS z nastavljenimi glasovi in oblikovanjem glasu iz besedila.
Razvijalec: Alibaba (Qwen) · Licenca: Apache 2.0
Poskusi.
VieNeu-TTS-v2 Standardno
Vietnamski + angleški kodni preklopnik TTS s 7 prednastavljenih glasov in kloniranje glasu brez utripa. CPU-samo, GPU ni potreben.
Razvijalec: Phạm Nguyễn Ngọc Bảo · Licenca: Apache 2.0
Poskusi.
Chatterbox Turbo Standardno
Hitreje Chatterbox z pod-200ms latency in paralinguistične oznake za smeh, kašelj in več.
Razvijalec: Resemble AI · Licenca: MIT
Poskusi.
VoxCPM Standardno
TTS brez tokenizerja, ki proizvaja zvok 44.1kHz z doslednostjo iz konteksta.
Razvijalec: OpenBMB · Licenca: Apache 2.0
Poskusi.
VibeVoice Standardno
Microsoft model za dolgoformne večzvočniške vsebine, kot so podcasti in zvočne knjige.
Razvijalec: Microsoft · Licenca: MIT
Poskusi.
CosyVoice3 Standardno
Naslednja generacija večjezični TTS z dvojnim streamingom, kontrolo čustev in ničelnim kloniranjem glasu.
Razvijalec: Alibaba (FunAudioLLM) · Licenca: Apache 2.0
Poskusi.
NAMAA Saudi TTS Standardno
Prvi odprt saudsko-arabski TTS. Naravni saudski dialekt s Chatterbox kakovost glas kloniranje.
Razvijalec: NAMAA Space · Licenca: MIT
Poskusi.
Darwin TTS Standardno
Medmodalna različica Qwen3-TTS z uteži FFN zmešana iz jezikovnega modela Qwen3-1,7B za ostrejšo večjezično kloniranje.
Razvijalec: FINAL-Bench · Licenca: Apache 2.0
Poskusi.
MOSS-TTSD Standardno
Model za nadaljevanje večzvočniškega dialoga – ustvari pogovore v stilu podcasta z do 5 zvočniki in 60 minutami skladnega zvoka.
Razvijalec: OpenMOSS · Licenca: Apache 2.0
Poskusi.
CosyVoice 2
Alibabov skalabilni TTS s človeško pariteto naravo in skoraj nula latencijo.
Jeziki: en, zh, ja, ko, fr, de, it, es
Klonov glas
IndexTTS-2
Zero strelja TTS z dobro zrelim nadzorom čustev in visoko izrazitostjo.
Jeziki: en, zh
Klonov glas
Spark TTS
Glasovno kloniranje TTS z nadzorovanimi čustvi in govorniški slog prek nasvetov.
Jeziki: en, zh
Klonov glas
GPT-SoVITS
Nekajkratno kloniranje glasu TTS, ki replicira vsak glas iz samo 5 sekund zvoka.
Jeziki: en, zh, ja, ko
Klonov glas
Chatterbox
Najmodernejši kloniranje glasu z obvladovanjem čustev iz Resemble AI.
Jeziki: en
Klonov glas
Tortoise TTS
Večglasno besedilo-to-speech osredotočen na kakovost z avtoregresivno arhitekturo.
Jeziki: en
Klonov glas
OpenVoice
Trenutno kloniranje glasu z granuliranim nadzorom nad slogom, čustvi in naglasom.
Jeziki: en, zh, ja, ko, fr, es
Klonov glas
VieNeu-TTS-v2
Vietnamski + angleški kodni preklopnik TTS s 7 prednastavljenih glasov in kloniranje glasu brez utripa. CPU-samo, GPU ni potreben.
Jeziki: vi, en
Klonov glas
Chatterbox Turbo
Hitreje Chatterbox z pod-200ms latency in paralinguistične oznake za smeh, kašelj in več.
Jeziki: en
Klonov glas
VoxCPM
TTS brez tokenizerja, ki proizvaja zvok 44.1kHz z doslednostjo iz konteksta.
Jeziki: en, zh
Klonov glas
OuteTTS
LLM-based TTS, ki deluje na CPU, GPU ali brskalnik preko lama.cpp in Transformers.js.
Jeziki: en
Klonov glas
Pocket TTS
Lahek model parametrov 100M s strani Kyutai z kloniranjem glasu iz enega vzorca.
Jeziki: en, fr
Klonov glas
CosyVoice3
Naslednja generacija večjezični TTS z dvojnim streamingom, kontrolo čustev in ničelnim kloniranjem glasu.
Jeziki: en, zh, ja, ko, de, es, fr, it, ru
Klonov glas
NAMAA Saudi TTS
Prvi odprt saudsko-arabski TTS. Naravni saudski dialekt s Chatterbox kakovost glas kloniranje.
Jeziki: ar
Klonov glas
Darwin TTS
Medmodalna različica Qwen3-TTS z uteži FFN zmešana iz jezikovnega modela Qwen3-1,7B za ostrejšo večjezično kloniranje.
Jeziki: en, ko, ja, zh
Klonov glas
MOSS-TTSD
Model za nadaljevanje večzvočniškega dialoga – ustvari pogovore v stilu podcasta z do 5 zvočniki in 60 minutami skladnega zvoka.
Jeziki: en, zh
Klonov glas
Ming-Omni TTS
Compact 0.5B vsemodalni govorni model iz vključevanjaAI z visoko vernostjo 44.1kHz izhoda in kloniranjem glasu brez utripa.
Jeziki: en, zh
Klonov glas
MOSS-TTS Nano
Različica 100M MOSS-TTS – ista arhitektura, 80x manjša, brezplačna latenca.
Jeziki: en, zh, de, es, fr, ja, it, ko, ru, ar, pt
Klonov glasRazvijalec-prva API
Združljiv z OpenAI REST API. En opazovani dogodek, 22+ modeli. Pogon podpore za aplikacije v realnem času.
- Združljiva z OpenAI formatom
- Streaming TTS za aplikacije v realnem času
- Serija obdelave za velika delovna mesta
- Spletna obvestila
pip install ttsai
npm install @ttsainpm/ttsai
from tts_ai import TTSClient
client = TTSClient(api_key="sk-tts-xxx")
audio = client.generate(
text="Hello from TTS.ai!",
model="kokoro",
voice="af_bella",
)
client.save(audio, "output.mp3")
Preprosta, pregledna cena
Začnite svobodno.
Prosto
15.000 znakov + 5000 na dan
- 7 brezplačnih modelov, vključno z Kokoro
- 5000 znakov na generacijo
- Vključen dostop API
Začetek
500 kreditov/mesec
- Vsi 22+ modeli
- 100.000 znakov na generacijo
- Kloniranje glasu
Prof.
2.000 kreditov mesečno
- Vse v zagonu
- Dostop API
- Prednostna obdelava
Podjetje
10.000 kreditov/mesec
- Vse v prof.
- Masovni API
- Prednostna vrstica
Pogosta vprašanja
Kaj bi lahko izboljšali? Vaša povratna informacija nam pomaga rešiti vprašanja.
Začnite uporabljati AI glas danes
Pridružite se ustvarjalcem, razvijalcem in podjetjem z uporabo TTS.ai