Slobodna AL Tekst za govor
33+ modeli otvorenog izvora, 273+ glasove, 33+ jezici. Nije potreban račun.
Sve što trebaš za glasovnu inteligenciju
30+ alata napajanih modelima AI-a otvorenog izvora
33+ AI Glasovni modeli
Najopsežnija kolekcija modela TTS otvorenog izvora u jednoj platformi
Kokoro Slobodno
Kokoro je 82 milijuna parametara text-to-speech model koji udara mnogo iznad svoje težine klase. Unatoč svojoj malenoj veličini, ona proizvodi izuzetno prirodan i ekspresivan govor. Kokoro podržava više jezika, uključujući engleski, japanski, kineski i korejski, s različitim izrazitivnim glasovima. To radi nevjerojatno brzo – stvaranje audio gotovo 100x brže od real-time na GPU.
Najbolje za: visokokvalitetni TTS s minimalnom latencijom, streaming aplikacije
Pokušaj slobodno
Piper Slobodno
Piper je lagani tekst-na-špeech motor razvijen od strane Rhaspy koji koristi VITS i grkljan arhitekture. To radi u cijelosti na CPU, što je idealan za rubne uređaje, kućna automatizacija, i aplikacije zahtijeva offline TTS. Sa preko 100 glasova preko 30+ jezika, Piper donosi prirodno-zvučni govor na realnom vremenu brzine čak i na Raspberry Pi 4.
Najbolje za: Brzi pregledi, pristupačnost i ugrađene aplikacije
Pokušaj slobodno
VITS Slobodno
VITS (Varicionalni zaključak s protivrečnim učenjem za kraj-na-kraj Tekst-na- govor) je paralelna metoda kraj-na-kraj TTS koja stvara više prirodnog zvučnog zvuka nego trenutni dvostupenjski modeli. Prihvaća varijacionalni zaključak pojačan s normalizacijskim tokovi i procesom protivrečnog treninga, što postiže značajno poboljšanje prirodnosti.
Najbolje za: Općenamenski tekst-na-speech s prirodnom prozodijom
Pokušaj slobodno
MeloTTS Slobodno
MeloTTS by MyShell.ai je višejezična TTS biblioteka koja podupire engleski (američki, britanski, indijanski, australijski), španjolski, francuski, kineski, japanski i korejski. To je izuzetno brzo, obrada teksta pri skoro realnom vremenu samo na CPU. MeloTTS je dizajniran za proizvodnju korištenja i podržava i CPU i GPU zaključak.
Najbolje za: Proizvodnja zahtjeva za brzim, višejezičnim TTS-om
Pokušaj slobodno
Kani TTS 2 Slobodno
Kani-TTS-2 od NineNineSix je ultra-lagani model parametra 400M izgrađen na tekućoj AI LFM2 kičmi s NVIDIA NanoCodec. Ona radi samo u 3GB VRAM i proizvodi ~10 sekundi govora u ~2 sekundi na A100 (RTF 0.2). Trenutno javno izdanje brodova samo engleski `kani-tts-2-en' kontrolni punkt i ne otkriva udicu za ulaganje zvučnika potrebnu za kloniranje glasa — koristiti Chatterbox / IndexTTS2 / F5-TTS za kloniranje, ili Kokoro / MelotTS za ne-engleski.
Najbolje za: Brzo engleska generacija na niskom VRAM hardveru, brzi pregledi
Pokušaj slobodno
OuteTTS Slobodno
OutetTS proširuje velike jezičke modele s tekst-u-peech mogućnosti pri očuvanju originalne arhitekture. Ona podržava više pozadina uključujući llama.cpp (CPU/GPU), Hugging Face Transformers, ExLlamaV2, VLLM, pa čak i zaključak preglednika preko Transformers.js. Mogućnosti nulto-shoot kloniranja glasa kroz zvučnike profile spremljene kao JSON.
Najbolje za: Raspoređivanje ruba, TTS na bazi preglednika, okruženja s niskim izvorima
Pokušaj slobodno
Pocket TTS Slobodno
Pocket TTS by Kyutai (kreatori Moshi) je kompaktan model 100M parametara tekst-to-speech koji udara mnogo iznad svoje težine. Ona radi učinkovito na CPU, podržava kloniranje glasa nula-shot iz jednog zvučnog uzorka, i proizvodi prirodno-zvučni govor. Mala veličina modela čini ga idealnim za raspoređivanje ruba i niske izvorne sredine.
Najbolje za: Lagano raspoređivanje, CPU-samo okruženja, brzo kloniranje glasa
Pokušaj slobodno
Kitten TTS Slobodno
Kitten TTS by KittenML je ultra-lagani tekst-to-speech model izgrađen na ONNX. Sa varijantama od 15M do 80M parametra (25-80 MB na disku), pruža visokokvalitetan sintezu glasa na CPU bez potrebe za GPU. Značajke 8 ugrađenih glasova, prilagodljiva brzina govora, i ugrađeni tekst preoblikovanje za brojeve, valute i jedinice. Idealno za raspoređivanje rubova i niske zalate aplikacije.
Najbolje za: Brzi lagani TTS, raspoređivanje rubova, niske kasnije aplikacije
Pokušaj slobodno
Ming-Omni TTS Slobodno
Ming-omni-tts-0.5B inclusionAI je kompaktan svemodalni model govora izgrađen na BailingMM gustoj kičmi s Patch-by-Patch tok-parting audio dekoder. Dostavlja 44.1kHz izlaz (približna kvaliteta CD-a), podržava kloniranje glasa iz 3+ sekunde referenci, te uključuje ugrađene emocije / dijalekt / BGM kontrola putem JSON upute. Odlična stabilnost — 0,83% WER na kineskim mjerilima.
Najbolje za: Visoka vjernost dvojezična naracija, emocionalno kontrolirani glas gluma, kineski audiobook sadržaj
Pokušaj slobodno
MOSS-TTS Nano Slobodno
MOSS-TTS-Nano-100M je kompaktna 100M-parametarska varijanta obitelji MOSS-TTS, dijeljenje kašnjenja-transformer arhitekture. Trgova vrhunsku kvalitetu modela 8B za ~80x manje težine i dramatično niže po zahtjevu VRAM, što ga prikladno za slobodnije i visoko-prekoputne raspoređivanja. Isti 20-jezični doseg.
Najbolje za: Slobodna TTS, proizvodnja visoke količine, interaktivna upotreba s niskim vremenskim razdobljem
Pokušaj slobodno
Bark Standardno
Transformer-based text-to-audio model koji generira realan govor, glazbu, i zvučne efekte.
Razvojnik: Suno · Dozvola: MIT
Probaj.
Bark Small Standardno
Lakša verzija Barka s bržim zaključkom i manjim korištenjem memorije.
Razvojnik: Suno · Dozvola: MIT
Probaj.
CosyVoice 2 Standardno
Alibaba je skalabilni TTS s ljudskim paritetom prirode i gotovo nula latencije.
Razvojnik: Alibaba (Tongyi Lab) · Dozvola: Apache 2.0
Probaj.
Dia TTS Standardno
Višezvučnički dijaloški model koji stvara prirodne razgovore između zvučnika.
Razvojnik: Nari Labs · Dozvola: Apache 2.0
Probaj.
Parler TTS Standardno
Opišite glas koji želite na prirodnom jeziku i Parler generira odgovarajući govor.
Razvojnik: Hugging Face · Dozvola: Apache 2.0
Probaj.
IndexTTS-2 Standardno
Nula-shot TTS s fino-zrele kontrole emocija i visokom ekspresivnosti.
Razvojnik: Index Team · Dozvola: Bilibili Model License
Probaj.
Spark TTS Standardno
Glasovno kloniranje TTS s kontroliranim emocijama i stilom govora putem upita.
Razvojnik: SparkAudio · Dozvola: CC BY-NC-SA 4.0
Probaj.
GPT-SoVITS Standardno
Nekoliko udaraca kloniranja glasa TTS koji replicira bilo koji glas iz samo 5 sekundi zvuka.
Razvojnik: RVC-Boss · Dozvola: MIT
Probaj.
Orpheus Standardno
Emocionalni TTS model na ljudskoj razini obučen na 100K sati govora podataka.
Razvojnik: Canopy Labs · Dozvola: Llama 3.2 Community
Probaj.
Qwen3 TTS Standardno
Alibabov višejezični TTS s predefiniranim glasovima i dizajnom glasa iz teksta.
Razvojnik: Alibaba (Qwen) · Dozvola: Apache 2.0
Probaj.
VieNeu-TTS-v2 Standardno
Vijetnamski + Engleski kod-switching TTS sa 7 predpostavljenih glasova i nula-shot kloniranje glasa. CPU-samo, nije potrebno GPU.
Razvojnik: Phạm Nguyễn Ngọc Bảo · Dozvola: Apache 2.0
Probaj.
Chatterbox Turbo Standardno
Brže Chatterbox s pod-200ms latency i paralinguističke oznake za smijeh, kašalj, i više.
Razvojnik: Resemble AI · Dozvola: MIT
Probaj.
VoxCPM Standardno
TTS bez tokenizera proizvodi zvuk 44.1kHz s konzistentnošću kontekst-svjesnog paragrafa.
Razvojnik: OpenBMB · Dozvola: Apache 2.0
Probaj.
VibeVoice Standardno
Microsoft model za dugoformni višezvučni sadržaj poput podcasta i audio knjiga.
Razvojnik: Microsoft · Dozvola: MIT
Probaj.
CosyVoice3 Standardno
Sljedeća generacija višejezični TTS s dvostrukim streamingom, kontrolom emocija, i nultim kloniranjem glasa.
Razvojnik: Alibaba (FunAudioLLM) · Dozvola: Apache 2.0
Probaj.
NAMAA Saudi TTS Standardno
Prvi otvoren saudijsko-arapski TTS. Native saudijski dijalekt s Chatterbox kvaliteta glasovnog kloniranja.
Razvojnik: NAMAA Space · Dozvola: MIT
Probaj.
Darwin TTS Standardno
Prekomodalna Qwen3-TTS varijanta s FFN težine umiješana iz Qwen3-1,7B jezikovnog modela za oštrije višejezično kloniranje.
Razvojnik: FINAL-Bench · Dozvola: Apache 2.0
Probaj.
MOSS-TTSD Standardno
Model višezvučničkog dijaloga — generirati razgovore u stilu podcasta s do 5 zvučnika i 60 minuta koherentnog audio.
Razvojnik: OpenMOSS · Dozvola: Apache 2.0
Probaj.
CosyVoice 2
Alibaba je skalabilni TTS s ljudskim paritetom prirode i gotovo nula latencije.
Jezici: en, zh, ja, ko, fr, de, it, es
Kloniranje glasa
IndexTTS-2
Nula-shot TTS s fino-zrele kontrole emocija i visokom ekspresivnosti.
Jezici: en, zh
Kloniranje glasa
Spark TTS
Glasovno kloniranje TTS s kontroliranim emocijama i stilom govora putem upita.
Jezici: en, zh
Kloniranje glasa
GPT-SoVITS
Nekoliko udaraca kloniranja glasa TTS koji replicira bilo koji glas iz samo 5 sekundi zvuka.
Jezici: en, zh, ja, ko
Kloniranje glasa
Chatterbox
Najmoderniji kloniranje glasa s kontrolom emocija iz Resemble AI-a.
Jezici: en
Kloniranje glasa
Tortoise TTS
Višeglasni tekst-na-speech fokusiran na kvalitetu s autoregresivnom arhitekturom.
Jezici: en
Kloniranje glasa
OpenVoice
Trenutno kloniranje glasa s granuliranom kontrolom nad stilom, emocijama i naglaskom.
Jezici: en, zh, ja, ko, fr, es
Kloniranje glasa
VieNeu-TTS-v2
Vijetnamski + Engleski kod-switching TTS sa 7 predpostavljenih glasova i nula-shot kloniranje glasa. CPU-samo, nije potrebno GPU.
Jezici: vi, en
Kloniranje glasa
Chatterbox Turbo
Brže Chatterbox s pod-200ms latency i paralinguističke oznake za smijeh, kašalj, i više.
Jezici: en
Kloniranje glasa
VoxCPM
TTS bez tokenizera proizvodi zvuk 44.1kHz s konzistentnošću kontekst-svjesnog paragrafa.
Jezici: en, zh
Kloniranje glasa
OuteTTS
LLM-based TTS koji radi na CPU, GPU, ili preglednik preko lama.cpp i Transformers.js.
Jezici: en
Kloniranje glasa
Pocket TTS
Lagani model parametra 100M od strane Kyutai s kloniranjem glasa iz jednog uzorka.
Jezici: en, fr
Kloniranje glasa
CosyVoice3
Sljedeća generacija višejezični TTS s dvostrukim streamingom, kontrolom emocija, i nultim kloniranjem glasa.
Jezici: en, zh, ja, ko, de, es, fr, it, ru
Kloniranje glasa
NAMAA Saudi TTS
Prvi otvoren saudijsko-arapski TTS. Native saudijski dijalekt s Chatterbox kvaliteta glasovnog kloniranja.
Jezici: ar
Kloniranje glasa
Darwin TTS
Prekomodalna Qwen3-TTS varijanta s FFN težine umiješana iz Qwen3-1,7B jezikovnog modela za oštrije višejezično kloniranje.
Jezici: en, ko, ja, zh
Kloniranje glasa
MOSS-TTSD
Model višezvučničkog dijaloga — generirati razgovore u stilu podcasta s do 5 zvučnika i 60 minuta koherentnog audio.
Jezici: en, zh
Kloniranje glasa
Ming-Omni TTS
Kompaktan model svemodalnog govora 0.5B iz inclusionAI s visoko vjernošću 44.1kHz izlaza i kloniranjem glasa nula.
Jezici: en, zh
Kloniranje glasa
MOSS-TTS Nano
Tiny 100M MOSS-TTS varijanta – ista arhitektura, 80x manja, slobodno-tier latency.
Jezici: en, zh, de, es, fr, ja, it, ko, ru, ar, pt
Kloniranje glasaProgramer- prvi API
OpenAI kompatibilan REST API. Jedan ishod, 22+ modeli. Streaming support for real-time applications.
- OpenAI kompatibilan format
- Streaming TTS za aplikacije u realnom vremenu
- Paketska obrada za velike poslove
- Webhook obavijesti
pip install ttsai
npm install @ttsainpm/ttsai
from tts_ai import TTSClient
client = TTSClient(api_key="sk-tts-xxx")
audio = client.generate(
text="Hello from TTS.ai!",
model="kokoro",
voice="af_bella",
)
client.save(audio, "output.mp3")
Jednostavna, prozirna cijena
Počnite slobodno.
Slobodno
15.000 znakova + 5000/dan
- 7 besplatnih modela uključujući Kokoro
- 5000 znakova po generaciji
- API pristup uključen
Pokretanje
500 kredita/mjesečno
- Svi 22+ modeli
- 100.000 znakova po generaciji
- Kloniranje glasa
Profesionalno
2.000 kredita/mjesečno
- Sve u Starteru
- API pristup
- Prioritetna obrada
Česta pitanja
Što možemo poboljšati? Vaša povratna informacija nam pomaže riješiti probleme.
Počnite koristiti AI glas danas
Pridružite se kreatorima, programerima i poduzećima koji koriste TTS.ai