Slobodna AL Tekst za govor

82M parametra Ultra-brzo Ekspresivni glasovi Višejezični Podrška za streamiranje

Lagani model 82M parametara koji dostavlja studio-kvalitetni govor s brzom paljenjem.

Brzo · 1.5GB VRAM Probaj.

Piper

CPU-prijateljski Odspojen sposoban 100+ glasova 35+ jezika Podrška za SSML

Brzi, lokalni neuralni tekst za govorni sustav optimiziran za Maline Pi i ugrađene uređaje.

Brzo · 0 (CPU only) VRAM Probaj.

VITS

Sinteza krajnjeg do kraja Prirodna prozodija Brzi zaključak Višestruki zvučnici

Uvjetna varijacija autokoder s adversarial učenje za krajnje-na-konac tekst-na-speech.

Brzo · 1GB VRAM Probaj.

MeloTTS

Optimizirani CPU-om Višejezični Višestruki naglasak Proizvodnja spremna Niska zastarelost

Visoke kvalitete višejezični tekst-na-speech koji radi na CPU s minimalnim latency.

Brzo · 0.5GB (GPU optional) VRAM Probaj.

Bark

Zvučni efekti Smijeh/uzdiše Izrada glazbe 100+ zvučnika Višejezični

Transformer-based text-to-audio model koji generira realan govor, glazbu, i zvučne efekte.

Sporo · 5GB VRAM Probaj.

Bark Small

Lagano Brže od punog Barka Emocionalni govor Višejezični

Lakša verzija Barka s bržim zaključkom i manjim korištenjem memorije.

Srednje · 2GB VRAM Probaj.

CosyVoice 2

Streaming kloniranje nula metaka Međujezični Kontrola emocija Ljudski paritet

Alibaba je skalabilni TTS s ljudskim paritetom prirode i gotovo nula latencije.

Dia TTS

Višezvočnik Izrada dijaloga Prirodno zaokretanje Emocionalni izraz 1.6B parametri

Višezvučnički dijaloški model koji stvara prirodne razgovore između zvučnika.

Parler TTS

Opis glasa Kontrola prirodnog jezika Flexibilno stvaranje glasa Nije potreban predefinirani glasovi

Opišite glas koji želite na prirodnom jeziku i Parler generira odgovarajući govor.

Indic Parler TTS

11 indijskih jezika Opis glasa Kontrola prirodnog jezika Autentičan indijski izgovor

Kvalitetni govor za 8+ indijski jezik s prirodnim jezikom kontrole glasa.

Sporo · 8GB VRAM Probaj.

KhanomTan TTS

Tajlandska TTS Višestruki zvučnici YourTTS arhitektura Komercijalno-sigurna dozvola

Tajlandski-prvi tekst-na-speech s izborom govornika glasove.

Brzo · 2GB VRAM Probaj.

IndexTTS-2

Kontrola emocija Nula-shot Vektori emocija Izrazan govor Fino zrela kontrola

Nula-shot TTS s fino-zrele kontrole emocija i visokom ekspresivnosti.

Spark TTS

Kloniranje glasa Kontrola emocija Kontrola stila Zahtijevano 5-sekundni kloniranje

Glasovno kloniranje TTS s kontroliranim emocijama i stilom govora putem upita.

GPT-SoVITS

5-sekundni kloniranje Pjevački glas Malokratno učenje Visoka vjernost Međujezični

Nekoliko udaraca kloniranja glasa TTS koji replicira bilo koji glas iz samo 5 sekundi zvuka.

Sporo · 6GB VRAM Probaj.

Orpheus

Emocije na ljudskoj razini 100K sati treninga Prirodni naglasak Izrazan govor

Emocionalni TTS model na ljudskoj razini obučen na 100K sati govora podataka.

Chatterbox

kloniranje nula metaka Kontrola emocija Visoka vjernost Prijenos stila kloniranje jednog uzorka

Najmoderniji kloniranje glasa s kontrolom emocija iz Resemble AI-a.

Tortoise TTS

Najviša kvaliteta Višeglasni Arhitektura DALL-E Kloniranje glasa Automatski regresivan

Višeglasni tekst-na-speech fokusiran na kvalitetu s autoregresivnom arhitekturom.

Sporo · 8GB VRAM Probaj.

StyleTTS 2

Ljudska razina Difuzija stila Osposobljavanje protivnika Prirodna varijacija Visoka vjernost

Ljudska razina tekst-na-speech kroz difuziju stila i suparnički trening.

OpenVoice

Trenutno kloniranje Pretvaranje glasa Kontrola emocija Kontrola akcenta Višejezični

Trenutno kloniranje glasa s granuliranom kontrolom nad stilom, emocijama i naglaskom.

Qwen3 TTS

9 predpostavljenih glasova Dizajn glasa iz teksta Kontrola emocija 10 jezika

Alibabov višejezični TTS s predefiniranim glasovima i dizajnom glasa iz teksta.

Srednje · 7GB VRAM Probaj.

VieNeu-TTS-v2

7 predpostavljenih glasova (Sjeverni + Južni naglasak) Preklop koda en-Vi kloniranje glasa (3-5s referenca) Podcast / višezvučnička podrška Samo CPU – nije potreban GPU

Vijetnamski + Engleski kod-switching TTS sa 7 predpostavljenih glasova i nula-shot kloniranje glasa. CPU-samo, nije potrebno GPU.

Brzo · CPU VRAM Probaj.

Sesame CSM

Razgovorno Prirodno vrijeme Okretanje Backchannel Parametri 1B

Konverzacijski model govora stvara prirodni dijalog uz odgovarajući tajming i emocije.

Sporo · 8GB VRAM Probaj.

Chatterbox Turbo

Pod-200ms latencija Paralinguističke oznake 6x u realnom vremenu Kloniranje glasa Vodna oznaka

Brže Chatterbox s pod-200ms latency i paralinguističke oznake za smijeh, kašalj, i više.

Brzo · 2GB VRAM Probaj.

VoxCPM

44.1kHz audio Bez tokenizera Kloniranje u međujezičnom jeziku Kontekstno svjestan LoRA fino uklapanje

TTS bez tokenizera proizvodi zvuk 44.1kHz s konzistentnošću kontekst-svjesnog paragrafa.

Brzo · 4GB VRAM Probaj.

Kani TTS 2

3GB VRAM Ultra-brzo Lagano NanoCodec Slobodno

Ultra-lagano 400M engleski TTS model radi u samo 3GB VRAM.

Brzo · 3GB VRAM Probaj.

OuteTTS

Zaključak o CPU-u Zaključak preglednika Višestruke pozadine Profili zvučnika

LLM-based TTS koji radi na CPU, GPU, ili preglednik preko lama.cpp i Transformers.js.

Sporo · 2GB VRAM Probaj.

VibeVoice

Višezvočnik Do 90 min Izrada podcasta Konzistencija zvučnika 200ms streaming

Microsoft model za dugoformni višezvučni sadržaj poput podcasta i audio knjiga.

Brzo · 4GB VRAM Probaj.

Pocket TTS

Parametri 100M Zaključak o CPU-u Kloniranje glasa kloniranje jednog uzorka Spremni za rub

Lagani model parametra 100M od strane Kyutai s kloniranjem glasa iz jednog uzorka.

Brzo · 1GB VRAM Probaj.

Kitten TTS

Zaključak samo CPU-a Pod veličinom 80MB modela 8 ugrađenih glasova Kontrola brzine Na osnovu ONNX-a 24kHz izlaz

Ultra-lagano TTS ispod 80MB. Pokreće se na CPU bez GPU.

Brzo · 0GB VRAM Probaj.

CosyVoice3

Dvostruko strujanje Kontrola emocija Kloniranje glasa Kontrola brzine i volumena Sljedeća uputa

Sljedeća generacija višejezični TTS s dvostrukim streamingom, kontrolom emocija, i nultim kloniranjem glasa.

Brzo · 4GB VRAM Probaj.

NAMAA Saudi TTS

Saudijski arapski dijalekt Moderni standardni arapski kloniranje glasa s nultim udarcem Kontrola emocija Izgovor

Prvi otvoren saudijsko-arapski TTS. Native saudijski dijalekt s Chatterbox kvaliteta glasovnog kloniranja.

Srednje · 6GB VRAM Probaj.

Darwin TTS

Kloniranje glasa Međujezični FFN-krvav 4 temeljna jezika Qwen3 kičma

Prekomodalna Qwen3-TTS varijanta s FFN težine umiješana iz Qwen3-1,7B jezikovnog modela za oštrije višejezično kloniranje.

Srednje · 7GB VRAM Probaj.

MOSS-TTSD

Višezvučni dijalog Do 5 zvučnika 60min koherentnog zvuka Kloniranje glasa optimiziran podcastom

Model višezvučničkog dijaloga — generirati razgovore u stilu podcasta s do 5 zvučnika i 60 minuta koherentnog audio.

Srednje · 12GB VRAM Probaj.

Ming-Omni TTS

44.1kHz izlaz Kloniranje glasa Kontrola emocija Kontrola dialekta Generacija BGM-a Kompaktno 0,5B

Kompaktan model svemodalnog govora 0.5B iz inclusionAI s visoko vjernošću 44.1kHz izlaza i kloniranjem glasa nula.

Srednje · 3GB VRAM Probaj.

MOSS-TTS Nano