AI tekst za govor
Pretvori tekst u prirodno-zvučni govor s open-source AI modeli. Besplatno koristiti, nije potreban račun.
Umotaj svoj tekst u SSML oznake za preciznu kontrolu:
<speak><prosody rate="slow">Slow speech</prosody></speak>
Dodavanje oznaka emocija u utjecaj isporuke (modelska podrška varira):
Definiši vlastite izgovore (riječ = izgovor):
Detalji modela
Kani TTS 2
Kani-TTS-2 by NineNineSix is an ultra-lightweight 400M parameter model built on LiquidAI LFM2 backbone with Nvidia NanoCodec. It runs in just 3GB VRAM and achieves 10 seconds of speech in ~2 seconds (RTF 0.2). Supports zero-shot voice cloning via speaker embeddings.
| Razvojnik: | NineNineSix |
| Dozvola: | Apache 2.0 |
| Brzina | Fast |
| Kvaliteta: | |
| jezici | 3 jezici |
| VRAM | 3GB |
| Kloniranje glasa | Podržano |
Savjeti za bolje rezultate
- Koristite odgovarajuću interpunkciju za prirodne pauze i intonaciju
- Izreci brojeve i skraćenice za jasniji izgovor
- Dodaj zarez za stvaranje kratkih pauza između fraza
- Koristite elipsu (...) za duže dramatične pauze
- Pokušajte Kokoro ili CosyVoice 2 za najprirodnije rezultate
- Dia za višezvučni dijalog i podcast sadržaj
Upotreba karaktera
| Nivo | Troškovi po 1K oznakama |
|---|---|
| Slobodno | 0 kredita (neograničeno) |
| Standardno | 2 kredita / 1K znakova |
| Premium | 4 kredita / 1K znakova |
Kako AI tekst radi govora
Generirati profesionalne kvalitete glasova u tri jednostavna koraka. Nije potrebno tehničko znanje.
Unesite vaš tekst
Upišite, umetnite ili ubacite tekst koji želite pretvoriti u govor. Podrška do 5.000 znakova po generaciji za prijavljene korisnike. Koristite običan tekst ili dodati SSML oznake za naprednu kontrolu nad izgovorom, pauzama, i naglasak.
Odaberite model i glas
Odaberite iz 20+ AI modela preko tri stupnja. Odaberite glas koji odgovara vašem sadržaju, odaberite svoj ciljni jezik, prilagodite brzinu reprodukcije od 0,5x do 2.0x, i odaberite vaš omiljeni izlazni format (MP3, WAV, OGG, ili FLAC).
Generiraj & preuzimanje
Kliknite Generirati i vaš zvuk je spreman u sekundama. Pregled s ugrađenim igračem, preuzimanje u odabranom obliku ili kopiranje dijeljenog linka. Koristite API za obradu serije i integraciju u vaš radni tok.
Slučaji korištenja teksta u govoru
AI-pojačan tekst-na-speech transformira način na koji ljudi stvaraju, konzumiraju, i interakciju sa audio sadržajem kroz desetine industrija.
Modeli cijelog teksta za govor
Detaljne specifikacije za svaki AI model dostupan na TTS.ai. Usporedite kvalitetu, brzinu, jezičnu podršku i značajke kako biste pronašli savršen model za vaš projekt.
Kokoro
Free
Kokoro je 82 milijuna parametara text-to-speech model koji udara mnogo iznad svoje težine klase. Unatoč svojoj malenoj veličini, ona proizvodi izuzetno prirodan i ekspresivan govor. Kokoro podržava više jezika, uključujući engleski, japanski, kineski i korejski, s različitim izrazitivnim glasovima. To radi nevjerojatno brzo – stvaranje audio gotovo 100x brže od real-time na GPU.
Hexgrad
Apache 2.0
Fast
en, ja, zh, fr, it, pt, es
1.5GB
Ne.
Slobodno
Piper
Free
Piper je lagani tekst-na-špeech motor razvijen od strane Rhaspy koji koristi VITS i grkljan arhitekture. To radi u cijelosti na CPU, što je idealan za rubne uređaje, kućna automatizacija, i aplikacije zahtijeva offline TTS. Sa preko 100 glasova preko 30+ jezika, Piper donosi prirodno-zvučni govor na realnom vremenu brzine čak i na Raspberry Pi 4.
Rhasspy
MIT
Fast
en, de, fr, es, it, pt, nl, pl, ru, zh, ja, ko, ar, cs, da, fi, el, hu, is, ka, kk, ne, no, ro, sk, sr, sv, sw, tr, uk, vi
0 (CPU only)
Ne.
Slobodno
VITS
Free
VITS (Varicionalni zaključak s protivrečnim učenjem za kraj-na-kraj Tekst-na- govor) je paralelna metoda kraj-na-kraj TTS koja stvara više prirodnog zvučnog zvuka nego trenutni dvostupenjski modeli. Prihvaća varijacionalni zaključak pojačan s normalizacijskim tokovi i procesom protivrečnog treninga, što postiže značajno poboljšanje prirodnosti.
Jaehyeon Kim et al.
MIT
Fast
en, de, es, fr, pt, nl, fi, hu, bg, uk, pl
1GB
Ne.
Slobodno
MeloTTS
Free
MeloTTS by MyShell.ai je višejezična TTS biblioteka koja podupire engleski (američki, britanski, indijanski, australijski), španjolski, francuski, kineski, japanski i korejski. To je izuzetno brzo, obrada teksta pri skoro realnom vremenu samo na CPU. MeloTTS je dizajniran za proizvodnju korištenja i podržava i CPU i GPU zaključak.
MyShell.ai
MIT
Fast
en, es, fr, zh, ja, ko
0.5GB (GPU optional)
Ne.
Slobodno
Bark
Standard
Bark by Suno je transformatorski tekst-to-audio model koji može generirati vrlo realan, višejezični govor, kao i drugi audio poput glazbe, pozadinske buke i zvučni efekti. To može proizvesti neverbalne komunikacije poput smijeha, uzdaha i plakanja. Bark podržava preko 100 zvučnika pretpostavljanja i 13+ jezika.
Suno
MIT
Slow
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
5GB
Ne.
2x
Bark Small
Standard
Bark Small je destilirana verzija Bark modela koji mijenja neku kvalitetu zvuka za znatno brže brze zaključke i manje zahtjeve memorije. Zadržava mogućnost Bark stvaranja govora emocijama, smijehom i više jezika.
Suno
MIT
Medium
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
2GB
Ne.
2x
CosyVoice 2
Standard
CosyVoice 2 od Alibaba Tongyi Lab postiže kvalitetu govora u usporedbi s ljudima s iznimno niskom latentnošću, što ga čini idealnim za aplikacije u realnom vremenu. Koristi konačni skalar kvantizacijski pristup za streaming sintezu i podržava kloniranje glasa nula-shot, unakrsno-jezičnu sintezu i fino-zrele kontrole emocija. Ona nadmašuje mnoge komercijalne TTS sustave u subjektivnim procjenama.
Alibaba (Tongyi Lab)
Apache 2.0
Medium
en, zh, ja, ko, fr, de, it, es
4GB
-Da. -Da.
2x
Dia TTS
Standard
Dia by Nari Labs je parametar 1.6B tekst-to-speech model dizajniran posebno za stvaranje multi-speeker dijaloga. Može proizvesti prirodno-zvučni razgovore između dva zvučnika s odgovarajućim okretanjem, prozodijom i emocionalnim izrazom. Dia je idealna za stvaranje sadržaja podcast-stila, audioknjiga dijaloga i interaktivnog razgovornog AL.
Nari Labs
Apache 2.0
Medium
en
4GB
Ne.
2x
Parler TTS
Standard
Parler TTS je tekst-to-speech model koji koristi prirodni jezik opisi glasova za kontrolu generiranog govora. Umjesto da birate iz predpostavljenih glasova, opisujete glas koji želite (npr. "topli ženski glas s blagim britanskim naglaskom, govori polako i jasno") i Parler generira govor koji odgovara tom opisu. To ga čini jedinstveno fleksibilnim za kreativne aplikacije.
Hugging Face
Apache 2.0
Medium
en
4GB
Ne.
2x
GLM-TTS
Standard
GLM-TTS od Zhipu AI je tekst-to-speech sustav izgrađen na Llama arhitekturi s tokom poklapanja. To postiže najnižu znakovnu pogrešku među modelima otvorenog izvora TTS, što znači da proizvodi najtočniji izgovor. GLM-TTS podržava engleski i kineski s kloniranjem glasa od 3-10 sekunde audio uzoraka.
Zhipu AI
GLM-4 License
Medium
en, zh
4GB
-Da. -Da.
2x
IndexTTS-2
Standard
IndexTTS-2 je napredni tekst-na-speech sustav koji nadmašuje na nula-shot sintezu glasa s fino-zrele kontrole emocija. To može generirati govor s specifičnim emocionalnim tonovima kao što su sretni, tužni, ljuti, ili strah ne zahtijevajući podatke o emocijama specifične za obuku. Model koristi emocionalne vektore za precizno kontrolu emocionalnog izražavanja generiranog govora.
Index Team
Bilibili Model License
Medium
en, zh
4GB
-Da. -Da.
2x
Spark TTS
Standard
Spark TTS by SparkAudio je tekstualni model koji kombinira kloniranje glasa s kontrolnim emocijama i stilom govora. Koristeći samo 5 sekundi referentnog zvuka, može klonirati glas i zatim generirati govor s različitim emocijama, brzinama i stilovima istovremeno održavajući klonirani glasovni identitet. Spark TTS koristi brzi sustav kontrole.
SparkAudio
CC BY-NC-SA 4.0
Medium
en, zh
4GB
-Da. -Da.
2x
GPT-SoVITS
Standard
GPT-SoviTS kombinira GPT-stil modeliranje jezika sa SoVITS-om (Pjevanje govora putem prijevoda i sintetiza) za kloniranje snažnih nekoliko snimljenih glasova. Sa samo 5 sekundi referentnog zvuka, može točno klonirati glas i generirati novi govor istovremeno očuvajući zvučnikove jedinstvene karakteristike. Izvrsno je i pri govoru i pjevanje sinteze glasa.
RVC-Boss
MIT
Slow
en, zh, ja, ko
6GB
-Da. -Da.
2x
Orpheus
Standard
Orfeus je obimni tekstualni model koji postiže emocionalni izraz na ljudskoj razini. Treniran na više od 100.000 sati različitih govornih podataka, izuzetan je u stvaranju govora s prirodnim emocijama, naglaskom i govornim stilovima. Orfeus može proizvesti govor koji je praktički nerazličit od ljudskih snimki.
Canopy Labs
Llama 3.2 Community
Medium
en
4GB
Ne.
2x
Chatterbox
Premium
Chatterbox od Resemble AI je vrhunski nulti-shot kloniranje glasa model. To može replicirati svaki glas iz jednog zvučnog uzorka s iznimnom preciznošću, hvatanje ne samo timbre, nego i govorni stil i emocionalne nijanse. Chatterbox također sadrži fino-zrele kontrole emocija, omogućuje vam da prilagodite emocionalni ton generiranog govora nezavisno od glasovnog identiteta.
Resemble AI
MIT
Medium
en
4GB
-Da. -Da.
4x
Tortoise TTS
Premium
Tortoise TTS je automatski regresivan višeglasni tekst-na-špik sustav koji prioriteti kvalitetu zvuka nad brzinom. Koristi DALL-E-inspiriranu arhitekturu za generiranje visoko prirodnog govora s izvrsnom prozodijom i zvučnikom sličnosti. Iako sporiji od mnogih alternativa, Tortoise proizvodi neke od najrealističnijih sintetičkih govora dostupnih u otvorenom ekosistemu.
James Betker
Apache 2.0
Slow
en
8GB
-Da. -Da.
4x
StyleTTS 2
Premium
StyleTTS 2 postiže sintezu ljudske razine TTS-a kombiniranjem stilske difuzije s adversarialnim treningom koristeći velike modele govornog jezika. Ona stvara najprirodniji zvučni govor među modelima jednogovornika, rivalirajući ljudske snimke. StyleTTS 2 koristi modeliranje stila na bazi difuzije kako bi uhvatila cijeli spektar ljudskih varijacija govora.
Columbia University
MIT
Medium
en
4GB
Ne.
4x
OpenVoice
Premium
OpenVoice by MyShell.ai omogućava instant kloniranje glasa s granularnom kontrolom nad glasovnim stilom, emocijama, naglaskom, ritmom, pauzama i intonacijom. To može klonirati glas iz kratkog audio klipa i generirati govor u više jezika istovremeno održavajući zvučnički identitet. OpenVoice također funkcionira kao konverter glasa, omogućavajući transformaciju glasa u realnom vremenu.
MyShell.ai / MIT
MIT
Medium
en, zh, ja, ko, fr, de, es, it
4GB
-Da. -Da.
4x
Qwen3 TTS
Standard
Qwen3-TTS je 1,7 milijardi parametara tekst-to-speech model iz Alibabovog tima Qwen. Podržava tri načina: predefinirani glasovi s kontrolom emocija (9 zvučnika), kloniranje glasa od samo 3 sekunde zvuka i jedinstven način dizajna glasa u kojem opisujete glas koji želite na prirodnom jeziku. Pokriva 10 jezika s visokom ekspresnošću i prirodnom prozodijom.
Alibaba (Qwen)
Apache 2.0
Medium
en, zh, ja, ko, de, fr, ru, pt, es, it
7GB
-Da. -Da.
2x
Sesame CSM
Premium
Sezam CSM (Conversational Speech Model) je 1 milijardu parametar model dizajniran posebno za stvaranje razgovornog govora. Ona modelira prirodne uzorke ljudskog razgovora uključujući okretanje vremena, reakcije pozadine, emocionalne reakcije i razgovorni protok. CSM stvara zvuk koji zvuči kao prirodni ljudski razgovor, a ne sintetički govor.
Sesame
Apache 2.0
Slow
en
8GB
Ne.
4x
Chatterbox Turbo
Standard
Chatterbox Turbo by Resemble AI je nadogradnja parametra 350M na Chatterbox, dostavljajući do 6x brzine u realnom vremenu s pod-200ms latency. Podržava paralinguistične oznake poput [smjeh], [kašlja] i [cuckle] izravno u tekstu. Uključuje Perth vodeno označavanje na svim generiranim zvukom za praćenje provencije.
Resemble AI
MIT
Fast
en
2GB
-Da. -Da.
2x
VoxCPM
Standard
VoxCPM 1.5 od OpenBMB je novi model bez žetonizera TTS koji radi u kontinuiranom prostoru umjesto diskretnih žetona. Proizvodi visoku vjernost 44.1kHz audio, podržava kloniranje glasa od 3-10 sekundi i održava konzistentnost među paragrafima. Prekriženi kloniranje omogućuje vam primjenu engleskog glasa na kineski govor i obrnuto.
OpenBMB
Apache 2.0
Fast
en, zh
4GB
-Da. -Da.
2x
Kani TTS 2
Free
Kani-TTS-2 od NineNineSix je ultra-lagani model parametara 400M izgrađen na LiquidaI LFM2 kičmi s Nvidia NanoCodec. Radi samo u 3GB VRAM i postiže 10 sekundi govora u ~2 sekundi (RTF 0.2). Podržava kloniranje glasa nultim udarcem putem ugradnje zvučnika.
NineNineSix
Apache 2.0
Fast
en, pt, es
3GB
-Da. -Da.
Slobodno
OuteTTS
Free
OutetTS proširuje velike jezičke modele s tekst-u-peech mogućnosti pri očuvanju originalne arhitekture. Ona podržava više pozadina uključujući llama.cpp (CPU/GPU), Hugging Face Transformers, ExLlamaV2, VLLM, pa čak i zaključak preglednika preko Transformers.js. Mogućnosti nulto-shoot kloniranja glasa kroz zvučnike profile spremljene kao JSON.
OuteAI
Apache 2.0
Fast
en
2GB
-Da. -Da.
Slobodno
VibeVoice
Standard
VibeVoice od Microsofta dolazi u dvije varijante: model 1.5B za dugoformni sadržaj (do 90 minuta, 4 zvučnika) i model Realtime 0.5B za streaming s ~200ms prvom audio latency. varijanta 1.5B nadmašuje na podcastima i audio knjigama s konzistencijom zvučnika preko dugih pasusa. Napomena: Microsoft uklonjen TTS kod iz repozitorija i generiran audio uključuje čujene AI izgovore.
Microsoft
MIT
Fast
en, zh
4GB
Ne.
2x
Pocket TTS
Free
Pocket TTS by Kyutai (kreatori Moshi) je kompaktan model 100M parametara tekst-to-speech koji udara mnogo iznad svoje težine. Ona radi učinkovito na CPU, podržava kloniranje glasa nula-shot iz jednog zvučnog uzorka, i proizvodi prirodno-zvučni govor. Mala veličina modela čini ga idealnim za raspoređivanje ruba i niske izvorne sredine.
Kyutai
MIT
Fast
en, fr
1GB
-Da. -Da.
Slobodno
Kitten TTS
Free
Kitten TTS by KittenML is an ultra-lightweight text-to-speech model built on ONNX. With variants from 15M to 80M parameters (25-80 MB on disk), it delivers high-quality voice synthesis on CPU without requiring a GPU. Features 8 built-in voices, adjustable speech speed, and built-in text preprocessing for numbers, currencies, and units. Ideal for edge deployment and low-latency applications.
KittenML
Apache 2.0
Fast
en
0GB
Ne.
Slobodno
CosyVoice3
Standard
CosyVoice3 is the latest evolution from Alibaba's FunAudioLLM team. It features bi-streaming inference with ~150ms latency, instruction-based control for emotion/speed/volume, and improved speaker similarity for zero-shot cloning. Supports 9 languages plus 18 Chinese dialects. RL-tuned variant delivers state-of-the-art prosody.
Alibaba (FunAudioLLM)
Apache 2.0
Fast
en, zh, ja, ko, de, es, fr, it, ru
4GB
-Da. -Da.
2x
NAMAA Saudi TTS
Standard
NAMAA Saudi TTS is a Saudi Arabic fine-tune of Resemble AI's ChatterboxMultilingual. Trained by NAMAA Space on authentic Saudi-dialect speech, it produces natural Modern Standard Arabic and Saudi colloquial pronunciation that generic multilingual models cannot match. Inherits Chatterbox's zero-shot voice cloning and emotion control via reference audio prompts. The first open-weights Arabic TTS deployed on TTS.ai.
NAMAA Space
MIT
Medium
ar
6GB
-Da. -Da.
2x
Darwin TTS
Standard
Darwin-TTS-1.7B-Cross by FINAL-Bench is a research variant of Qwen3-TTS-1.7B where 84 talker-FFN tensors (8.6%) are blended at α=3% with the matching tensors from Qwen3-1.7B-Base. The blend is built without retraining and produces noticeably crisper cross-lingual voice cloning across Korean, English, Japanese, and Chinese. Operates in zero-shot voice-clone mode (3 seconds reference audio).
FINAL-Bench
Apache 2.0
Medium
en, ko, ja, zh, de, fr, ru, pt, es, it
7GB
-Da. -Da.
2x
MOSS-TTSD
Standard
MOSS-TTSD v1.0 from OpenMOSS is a 7B dialogue text-to-speech model that continues conversations from a short audio prompt. Supports up to 5 simultaneous speakers via [S1]/[S2] tags, zero-shot voice cloning from 3-10s reference audio, and up to 60 minutes of coherent multi-turn dialogue across 20 languages. Distinct from MOSS-TTS — TTSD is specialized for podcast/audiobook/dubbing workflows.
OpenMOSS
Apache 2.0
Medium
en, zh, de, es, fr, ja, it, ko, ru, ar, pl, pt, cs, da, sv, el, tr, hu, fa, he
12GB
-Da. -Da.
2x
Ming-Omni TTS
Free
Ming-omni-tts-0.5B by inclusionAI is a compact omni-modal speech model built on the BailingMM dense backbone with a Patch-by-Patch flow-matching audio decoder. Delivers 44.1kHz output (near CD quality), supports zero-shot voice cloning from a 3+ second reference, and includes built-in emotion / dialect / BGM control via JSON instructions. Excellent stability — 0.83% WER on Chinese benchmarks.
inclusionAI
Apache 2.0
Medium
en, zh
3GB
-Da. -Da.
Slobodno
Kokoro
Slobodno
Kokoro is an 82 million parameter text-to-speech model that punches well above its weight class. Despite its tiny size, it produces remarkably natural and expressive speech. Kokoro supports multiple languages including English, Japanese, Chinese, and Korean with a variety of expressive voices. It runs incredibly fast — generating audio nearly 100x faster than real-time on a GPU.
Hexgrad
Apache 2.0
Fast
Piper
Slobodno
Piper is a lightweight text-to-speech engine developed by Rhasspy that uses VITS and larynx architectures. It runs entirely on CPU, making it ideal for edge devices, home automation, and applications requiring offline TTS. With over 100 voices across 30+ languages, Piper delivers natural-sounding speech at real-time speeds even on a Raspberry Pi 4.
Rhasspy
MIT
Fast
VITS
Slobodno
VITS (Variational Inference with adversarial learning for end-to-end Text-to-Speech) is a parallel end-to-end TTS method that generates more natural sounding audio than current two-stage models. It adopts variational inference augmented with normalizing flows and an adversarial training process, achieving a significant improvement in naturalness.
Jaehyeon Kim et al.
MIT
Fast
MeloTTS
Slobodno
MeloTTS by MyShell.ai is a multilingual TTS library supporting English (American, British, Indian, Australian), Spanish, French, Chinese, Japanese, and Korean. It is extremely fast, processing text at near real-time speed on CPU alone. MeloTTS is designed for production use and supports both CPU and GPU inference.
MyShell.ai
MIT
Fast
Kani TTS 2
Slobodno
Kani-TTS-2 by NineNineSix is an ultra-lightweight 400M parameter model built on LiquidAI LFM2 backbone with Nvidia NanoCodec. It runs in just 3GB VRAM and achieves 10 seconds of speech in ~2 seconds (RTF 0.2). Supports zero-shot voice cloning via speaker embeddings.
NineNineSix
Apache 2.0
Fast
OuteTTS
Slobodno
OuteTTS extends large language models with text-to-speech capabilities while preserving the original architecture. It supports multiple backends including llama.cpp (CPU/GPU), Hugging Face Transformers, ExLlamaV2, VLLM, and even browser inference via Transformers.js. Features zero-shot voice cloning through speaker profiles saved as JSON.
OuteAI
Apache 2.0
Fast
Pocket TTS
Slobodno
Pocket TTS by Kyutai (creators of Moshi) is a compact 100M parameter text-to-speech model that punches well above its weight. It runs efficiently on CPU, supports zero-shot voice cloning from a single audio sample, and produces natural-sounding speech. The small model size makes it ideal for edge deployment and low-resource environments.
Kyutai
MIT
Fast
Kitten TTS
Slobodno
Kitten TTS by KittenML is an ultra-lightweight text-to-speech model built on ONNX. With variants from 15M to 80M parameters (25-80 MB on disk), it delivers high-quality voice synthesis on CPU without requiring a GPU. Features 8 built-in voices, adjustable speech speed, and built-in text preprocessing for numbers, currencies, and units. Ideal for edge deployment and low-latency applications.
KittenML
Apache 2.0
Fast
Ming-Omni TTS
Slobodno
Ming-omni-tts-0.5B by inclusionAI is a compact omni-modal speech model built on the BailingMM dense backbone with a Patch-by-Patch flow-matching audio decoder. Delivers 44.1kHz output (near CD quality), supports zero-shot voice cloning from a 3+ second reference, and includes built-in emotion / dialect / BGM control via JSON instructions. Excellent stability — 0.83% WER on Chinese benchmarks.
inclusionAI
Apache 2.0
Medium
Bark
Standardno
Bark by Suno is a transformer-based text-to-audio model that can generate highly realistic, multilingual speech as well as other audio like music, background noise, and sound effects. It can produce nonverbal communications like laughing, sighing, and crying. Bark supports over 100 speaker presets and 13+ languages.
Suno
MIT
Slow
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
Ne.
Bark Small
Standardno
Bark Small is a distilled version of the Bark model that trades some audio quality for significantly faster inference speeds and lower memory requirements. It retains Bark's ability to generate speech with emotions, laughter, and multiple languages.
Suno
MIT
Medium
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
Ne.
CosyVoice 2
Standardno
CosyVoice 2 by Alibaba's Tongyi Lab achieves human-comparable speech quality with extremely low latency, making it ideal for real-time applications. It uses a finite scalar quantization approach for streaming synthesis and supports zero-shot voice cloning, cross-lingual synthesis, and fine-grained emotion control. It outperforms many commercial TTS systems in subjective evaluations.
Alibaba (Tongyi Lab)
Apache 2.0
Medium
en, zh, ja, ko, fr, de, it, es
-Da. -Da.
Dia TTS
Standardno
Dia by Nari Labs is a 1.6B parameter text-to-speech model designed specifically for generating multi-speaker dialogue. It can produce natural-sounding conversations between two speakers with appropriate turn-taking, prosody, and emotional expression. Dia is perfect for creating podcast-style content, audiobook dialogues, and interactive conversational AI.
Nari Labs
Apache 2.0
Medium
en
Ne.
Parler TTS
Standardno
Parler TTS is a text-to-speech model that uses natural language voice descriptions to control the generated speech. Instead of selecting from preset voices, you describe the voice you want (e.g., "a warm female voice with a slight British accent, speaking slowly and clearly") and Parler generates speech matching that description. This makes it uniquely flexible for creative applications.
Hugging Face
Apache 2.0
Medium
en
Ne.
GLM-TTS
Standardno
GLM-TTS by Zhipu AI is a text-to-speech system built on the Llama architecture with flow matching. It achieves the lowest character error rate among open-source TTS models, meaning it produces the most accurate pronunciation. GLM-TTS supports English and Chinese with voice cloning from 3-10 second audio samples.
Zhipu AI
GLM-4 License
Medium
en, zh
-Da. -Da.
IndexTTS-2
Standardno
IndexTTS-2 is an advanced text-to-speech system that excels at zero-shot voice synthesis with fine-grained emotion control. It can generate speech with specific emotional tones like happy, sad, angry, or fearful without requiring emotion-specific training data. The model uses emotion vectors to precisely control the emotional expression of generated speech.
Index Team
Bilibili Model License
Medium
en, zh
-Da. -Da.
Spark TTS
Standardno
Spark TTS by SparkAudio is a text-to-speech model that combines voice cloning with controllable emotion and speaking style. Using just 5 seconds of reference audio, it can clone a voice and then generate speech with different emotions, speeds, and styles while maintaining the cloned voice identity. Spark TTS uses a prompt-based control system.
SparkAudio
CC BY-NC-SA 4.0
Medium
en, zh
-Da. -Da.
GPT-SoVITS
Standardno
GPT-SoVITS combines GPT-style language modeling with SoVITS (Singing Voice Inference via Translation and Synthesis) for powerful few-shot voice cloning. With as little as 5 seconds of reference audio, it can accurately clone a voice and generate new speech while preserving the speaker's unique characteristics. It excels at both speaking and singing voice synthesis.
RVC-Boss
MIT
Slow
en, zh, ja, ko
-Da. -Da.
Orpheus
Standardno
Orpheus is a large-scale text-to-speech model that achieves human-level emotional expression. Trained on over 100,000 hours of diverse speech data, it excels at generating speech with natural emotions, emphasis, and speaking styles. Orpheus can produce speech that is virtually indistinguishable from human recordings.
Canopy Labs
Llama 3.2 Community
Medium
en
Ne.
Qwen3 TTS
Standardno
Qwen3-TTS is a 1.7 billion parameter text-to-speech model from Alibaba's Qwen team. It supports three modes: preset voices with emotion control (9 speakers), voice cloning from just 3 seconds of audio, and a unique voice design mode where you describe the voice you want in natural language. It covers 10 languages with high expressiveness and natural prosody.
Alibaba (Qwen)
Apache 2.0
Medium
en, zh, ja, ko, de, fr, ru, pt, es, it
-Da. -Da.
Chatterbox Turbo
Standardno
Chatterbox Turbo by Resemble AI is a 350M parameter upgrade to Chatterbox, delivering up to 6x real-time speed with sub-200ms latency. It supports paralinguistic tags like [laugh], [cough], and [chuckle] directly in text. Includes Perth watermarking on all generated audio for provenance tracking.
Resemble AI
MIT
Fast
en
-Da. -Da.
VoxCPM
Standardno
VoxCPM 1.5 by OpenBMB is a novel tokenizer-free TTS model that operates in continuous space rather than discrete tokens. It produces high-fidelity 44.1kHz audio, supports zero-shot voice cloning from 3-10 seconds, and maintains consistency across paragraphs. Cross-language cloning lets you apply an English voice to Chinese speech and vice versa.
OpenBMB
Apache 2.0
Fast
en, zh
-Da. -Da.
VibeVoice
Standardno
VibeVoice from Microsoft generates long-form speech up to 90 minutes with support for 4 simultaneous speakers, making it ideal for podcasts and dialogues. The Realtime 0.5B variant achieves ~300ms latency for interactive use. Supports speaker tags for multi-turn dialogue generation.
Microsoft
MIT
Fast
en, zh
Ne.
CosyVoice3
Standardno
CosyVoice3 is the latest evolution from Alibaba's FunAudioLLM team. It features bi-streaming inference with ~150ms latency, instruction-based control for emotion/speed/volume, and improved speaker similarity for zero-shot cloning. Supports 9 languages plus 18 Chinese dialects. RL-tuned variant delivers state-of-the-art prosody.
Alibaba (FunAudioLLM)
Apache 2.0
Fast
en, zh, ja, ko, de, es, fr, it, ru
-Da. -Da.
NAMAA Saudi TTS
Standardno
NAMAA Saudi TTS is a Saudi Arabic fine-tune of Resemble AI's ChatterboxMultilingual. Trained by NAMAA Space on authentic Saudi-dialect speech, it produces natural Modern Standard Arabic and Saudi colloquial pronunciation that generic multilingual models cannot match. Inherits Chatterbox's zero-shot voice cloning and emotion control via reference audio prompts. The first open-weights Arabic TTS deployed on TTS.ai.
NAMAA Space
MIT
Medium
ar
-Da. -Da.
Darwin TTS
Standardno
Darwin-TTS-1.7B-Cross by FINAL-Bench is a research variant of Qwen3-TTS-1.7B where 84 talker-FFN tensors (8.6%) are blended at α=3% with the matching tensors from Qwen3-1.7B-Base. The blend is built without retraining and produces noticeably crisper cross-lingual voice cloning across Korean, English, Japanese, and Chinese. Operates in zero-shot voice-clone mode (3 seconds reference audio).
FINAL-Bench
Apache 2.0
Medium
en, ko, ja, zh, de, fr, ru, pt, es, it
-Da. -Da.
MOSS-TTSD
Standardno
MOSS-TTSD v1.0 from OpenMOSS is a 7B dialogue text-to-speech model that continues conversations from a short audio prompt. Supports up to 5 simultaneous speakers via [S1]/[S2] tags, zero-shot voice cloning from 3-10s reference audio, and up to 60 minutes of coherent multi-turn dialogue across 20 languages. Distinct from MOSS-TTS — TTSD is specialized for podcast/audiobook/dubbing workflows.
OpenMOSS
Apache 2.0
Medium
en, zh, de, es, fr, ja, it, ko, ru, ar, pl, pt, cs, da, sv, el, tr, hu, fa, he
-Da. -Da.
Tablica usporedbe uzoraka
| Uzorak | Razvojnik: | Nivo | Kvaliteta: | Brzina | jezici | Kloniranje glasa | VRAM | Dozvola: | krediti | |
|---|---|---|---|---|---|---|---|---|---|---|
| Kokoro | Hexgrad | Free | Fast | 7 | 1.5GB | Apache 2.0 | Slobodno | Koristi | ||
| Piper | Rhasspy | Free | Fast | 31 | 0 (CPU only) | MIT | Slobodno | Koristi | ||
| VITS | Jaehyeon Kim et al. | Free | Fast | 11 | 1GB | MIT | Slobodno | Koristi | ||
| MeloTTS | MyShell.ai | Free | Fast | 6 | 0.5GB (GPU optional) | MIT | Slobodno | Koristi | ||
| Bark | Suno | Standard | Slow | 13 | 5GB | MIT | 2 | Koristi | ||
| Bark Small | Suno | Standard | Medium | 13 | 2GB | MIT | 2 | Koristi | ||
| CosyVoice 2 | Alibaba (Tongyi Lab) | Standard | Medium | 8 | 4GB | Apache 2.0 | 2 | Koristi | ||
| Dia TTS | Nari Labs | Standard | Medium | 1 | 4GB | Apache 2.0 | 2 | Koristi | ||
| Parler TTS | Hugging Face | Standard | Medium | 1 | 4GB | Apache 2.0 | 2 | Koristi | ||
| GLM-TTS | Zhipu AI | Standard | Medium | 2 | 4GB | GLM-4 License | 2 | Koristi | ||
| IndexTTS-2 | Index Team | Standard | Medium | 2 | 4GB | Bilibili Model License | 2 | Koristi | ||
| Spark TTS | SparkAudio | Standard | Medium | 2 | 4GB | CC BY-NC-SA 4.0 | 2 | Koristi | ||
| GPT-SoVITS | RVC-Boss | Standard | Slow | 4 | 6GB | MIT | 2 | Koristi | ||
| Orpheus | Canopy Labs | Standard | Medium | 1 | 4GB | Llama 3.2 Community | 2 | Koristi | ||
| Chatterbox | Resemble AI | Premium | Medium | 1 | 4GB | MIT | 4 | Koristi | ||
| Tortoise TTS | James Betker | Premium | Slow | 1 | 8GB | Apache 2.0 | 4 | Koristi | ||
| StyleTTS 2 | Columbia University | Premium | Medium | 1 | 4GB | MIT | 4 | Koristi | ||
| OpenVoice | MyShell.ai / MIT | Premium | Medium | 8 | 4GB | MIT | 4 | Koristi | ||
| Qwen3 TTS | Alibaba (Qwen) | Standard | Medium | 10 | 7GB | Apache 2.0 | 2 | Koristi | ||
| Sesame CSM | Sesame | Premium | Slow | 1 | 8GB | Apache 2.0 | 4 | Koristi | ||
| Chatterbox Turbo | Resemble AI | Standard | Fast | 1 | 2GB | MIT | 2 | Koristi | ||
| VoxCPM | OpenBMB | Standard | Fast | 2 | 4GB | Apache 2.0 | 2 | Koristi | ||
| Kani TTS 2 | NineNineSix | Free | Fast | 3 | 3GB | Apache 2.0 | Slobodno | Koristi | ||
| OuteTTS | OuteAI | Free | Fast | 1 | 2GB | Apache 2.0 | Slobodno | Koristi | ||
| VibeVoice | Microsoft | Standard | Fast | 2 | 4GB | MIT | 2 | Koristi | ||
| Pocket TTS | Kyutai | Free | Fast | 2 | 1GB | MIT | Slobodno | Koristi | ||
| Kitten TTS | KittenML | Free | Fast | 1 | 0GB | Apache 2.0 | Slobodno | Koristi | ||
| CosyVoice3 | Alibaba (FunAudioLLM) | Standard | Fast | 9 | 4GB | Apache 2.0 | 2 | Koristi | ||
| NAMAA Saudi TTS | NAMAA Space | Standard | Medium | 1 | 6GB | MIT | 2 | Koristi | ||
| Darwin TTS | FINAL-Bench | Standard | Medium | 10 | 7GB | Apache 2.0 | 2 | Koristi | ||
| MOSS-TTSD | OpenMOSS | Standard | Medium | 20 | 12GB | Apache 2.0 | 2 | Koristi | ||
| Ming-Omni TTS | inclusionAI | Free | Medium | 2 | 3GB | Apache 2.0 | Slobodno | Koristi |
Najsveobuhvatniji AI tekst govornoj platformi
Zašto odabrati TTS.ai za tekst za govor?
TTS.ai ujedinjuje najbolje svjetske modele otvorenog izvora tekst-na-špeech u jednoj, lako korištenoj platformi. Za razliku od vlasničkih usluga koje vas zaključavaju u jednoglasni motor, TTS.ai vam daje pristup 20+ modela iz vodećih istraživačkih laboratorija, uključujući Coqui, MyShell, Amphion, NVIDIA, Suno, HuggingFace, Tsinghua Sveučilište, i više.
Svaki model je otvoren izvor pod MIT-om, Apache 2.0 ili sličnim popustljivim licencama, osiguravajući da imate puna komercijalna prava da koristite generirani audio u svojim projektima. Bilo da vam je potrebna brza, lagana sinteza za aplikacije u realnom vremenu ili vrhunski studio kvalitetni izlaz za audiobooke i podcaste, TTS.ai ima pravi model za svaku upotrebu.
Besplatni modeli, Nema potrebe za računom
Započnite odmah s tri besplatna TTS modela: Piper (ultra-brza, lagana), VITS (visoka kvaliteta neuronske sinteze) i Melotts (višejezična podrška). Nema prijavljivanja, bez kreditne kartice, bez ograničenja na generacije. Besplatni modeli podržavaju engleski i više drugih jezika s prirodnim zvukom izlaza pogodan za većinu aplikacija.
GPU-približena obrada
Svi modeli TTS pokrenuti na posvećene NVIDIA GPUs za brze, dosljedne generacije puta. Besplatni modeli obično generirati audio u manje od 2 sekunde. Standardni modeli kao Kokoro, CosyVoice 2, i Bark prosječno 3-5 sekundi. Premium modeli s najvišom kvalitetom, kao što su Tortoise i Chatterbox, proces u 5-15 sekundi ovisno o dužini teksta.
30+ Jezici podržani
Generirati govor na više od 30 jezika, uključujući engleski, španjolski, francuski, njemački, talijanski, portugalski, kineski, japanski, korejski, arapski, hindi, ruski, i mnogi drugi. Nekoliko modela podržavaju međujezičnu sintezu, što znači da možete generirati govor na jeziku na kojem originalni glas nikada nije obučen. CosyVoice 2 i GPT-SoviTS excelira na križ-jezično kloniranje glasa.
Programer-Ready API
Iнтегрirajte TTS.ai u vaše aplikacije s našim OpenAI kompatibilnim REST API. Jedan ishod za sve 20+ modela. Python, JavaScript, cURL i Go SDKs. Streaming support for real-time aplikacije. Stacijske obrade za generiranje velikog sadržaja. Webhooks za asinhic obavijesti. Dostupno na Pro i Enterprise planovima.
Česta pitanja
Što možemo poboljšati? Vaša povratna informacija nam pomaže riješiti probleme.
Započni pretvaranje teksta u govor sada
Pridružite se tisućama tvoraca koji koriste TTS.ai. Dobiti 15.000 besplatnih znakova s novim računom. Besplatni modeli dostupni bez prijave.