Slobodna AI Tekst-u-govor

82M parametri Ultra brzo Izraziti glasovi Višejezičan Podrška za strujanje

Lagani 82M parametar model pruža studijsku kvalitetu govora sa blistavo brzim zaključcima.

Brzo · 1.5GB VRAM Probaj.

Piper

CPU friendly Offline 100+ glasova 35+ jezika SSML podrška

Brzi, lokalni neuralni sistem za pretvorbu teksta u govor optimiziran za Raspberry Pi i ugrađene uređaje.

Brzo · 0 (CPU only) VRAM Probaj.

VITS

End-to-end sinteza Prirodna prozodija Brzi zaključak Više zvučnika

Uvjetni varijacijski autokoder sa protivničkim učenjem za end-to-end tekst-u-govor.

Brzo · 1GB VRAM Probaj.

MeloTTS

CPU-optimizirano Višejezični Višestruki naglasci Spreman za proizvodnju Niska latencija

Visoka kvaliteta višejezičnog tekst-u-govor koji radi na CPU sa minimalnom latencijom.

Brzo · 0.5GB (GPU optional) VRAM Probaj.

Bark

Zvučni efekti Smijeh/uzdah Generacija muzike 100+ govornika Višejezičan

Tekst-u-zvuk model zasnovan na transformatorima koji generira realističan govor, muziku i zvučne efekte.

Sporije · 5GB VRAM Probaj.

Bark Small

Lako Brži od punog Larva. Emocionalni govor Višejezičan

Laganiji oblik Bark-a sa bržim zaključavanjem i manjom upotrebom memorije.

Srednje · 2GB VRAM Probaj.

CosyVoice 2

Stream Kloniranje sa nultim udarcem Cross-language Kontrola emocija Human-paritet

Alibaba-in skalabilni streaming TTS sa ljudskom paritetom prirodnosti i skoro nultom latencijom.

Dia TTS

Multi-zvučnik Generiranje dijaloga Prirodno kretanje Emocionalni izraz Parametri

Multi-speaker dijaloški model koji stvara prirodne razgovore između govornika.

Parler TTS

Opis glasa Kontrola prirodnog jezika Fleksibilno stvaranje glasa Nisu potrebni unaprijed postavljeni glasovi

Opisujte glas koji želite u prirodnom jeziku i Parler će generirati odgovarajući govor.

Indic Parler TTS

11 jezika Opis glasa Prirodni jezik Autentični indijski izgovor

2018. "Slovenski jezik u odnosu na druge jezike u BiH".

Sporije · 8GB VRAM Probaj.

KhanomTan TTS

Tajlandski TTS Više zvučnika YourTTS arhitektura Komercijalno sigurna licenca

Tajlandski prvi tekst-u-govor s izborom govornika glasova.

Brzo · 2GB VRAM Probaj.

IndexTTS-2

Kontrola emocija Zero-shot Emocionalni vektori Ekspresivni govor Fine-grained control

Zero-shot TTS sa fino zrnatom kontrolom emocija i visokom ekspresivnošću.

Spark TTS

Kloniranje glasa Kontrola emocija Kontrola stila Zasnovano na upitima Kloniranje u 5 sekundi

Kloniranje glasa TTS sa kontroliranim emocijama i stilom govora putem naredbi.

GPT-SoVITS

Kloniranje u 5 sekundi Pjevački glas Učenje u nekoliko koraka High fidelity Cross-language

Nekoliko snimki kloniranja glasa TTS koji replicira bilo koji glas od samo 5 sekundi zvuka.

Sporije · 6GB VRAM Probaj.

Orpheus

Emocije na ljudskom nivou 100.000 sati treninga Prirodni naglasak Ekspresivni govor

Emocionalni TTS model na ljudskom nivou obučen na 100K sati govornih podataka.

Chatterbox

Kloniranje bez udaraca Kontrola emocija High fidelity Prenošenje stila Kloniranje jednog uzorka

Najmodernije kloniranje glasa sa kontrolom emocija od Resemble AI.

Tortoise TTS

Najviši kvalitet Višeglasni DALL-E arhitektura Kloniranje glasa Auto-regresija

Višeglasni tekst-u-govor fokusiran je na kvalitetu sa autoregresivnom arhitekturom.

Sporije · 8GB VRAM Probaj.

StyleTTS 2

Ljudski nivo Stil difuzije Protivnički trening Prirodna varijacija High fidelity

Human-level text-to-speech through style diffusion and adversary training.

OpenVoice

Trenutno kloniranje Pretvorba glasa Kontrola emocija Kontrola naglaska Višejezičan

Instant kloniranje glasa sa granularnom kontrolom stila, emocija i naglaska.

Qwen3 TTS

9 unaprijed postavljenih glasova Dizajn glasa iz teksta Kontrola emocija 10 jezika

Alibaba's multilingual TTS with preset voices and voice design from text.

Srednje · 7GB VRAM Probaj.

VieNeu-TTS-v2

7 unaprijed postavljenih glasova (sjeverni + južni naglasci) En-Vi kodno prebacivanje Kloniranje glasa (3-5s reference) Podrška za podcast / više zvučnika Samo CPU — nije potreban GPU

Vijetnamski + engleski kod-prebacivanje TTS sa 7 unaprijed postavljenih glasova i kloniranje glasa bez snimanja. Samo CPU, nije potreban GPU.

Brzo · CPU VRAM Probaj.

Sesame CSM

Konverzacijski Prirodno vrijeme Turn Backchannel Parametri

Konverzacijski govorni model koji generira prirodni dijalog sa odgovarajućim vremenom i emocijama.

Sporije · 8GB VRAM Probaj.

Chatterbox Turbo

Sub-200ms latency Paralingvistički znakovi 6x real-time Kloniranje glasa Vodeni žig

Brži Chatterbox sa latencijom ispod 200 ms i paralingvističkim oznakama za smijeh, kašalj i drugo.

Brzo · 2GB VRAM Probaj.

VoxCPM

Audio Tokenizer-free Cross-language cloning Kontekstno osjetljiv LoRA fino podešavanje

Tokenizer-free TTS produces 44.1kHz audio with context-aware paragraph consistency.

Brzo · 4GB VRAM Probaj.

Kani TTS 2

3GB VRAM Ultra brzo Lako NanoCodec Slobodan

400M English TTS model koji radi na samo 3GB VRAM-a.

Brzo · 3GB VRAM Probaj.

OuteTTS

CPU inference Browser inference Višestruki backend Profili govornika

LLM-based TTS koji radi na CPU, GPU, ili pregledniku preko llama.cpp i Transformers.js.

Sporije · 2GB VRAM Probaj.

VibeVoice

Multi-zvučnik Do 90 minuta Podcast generacija Dosljednost govornika 200ms streaming

Microsoftov model za dugotrajni multi-speaker sadržaj kao što su podcasti i audioknjige.

Brzo · 4GB VRAM Probaj.

Pocket TTS

Parametri CPU inference Kloniranje glasa Kloniranje jednog uzorka Edge-ready

100M parametar model od strane Kyutai sa kloniranjem glasa iz jednog uzorka.

Brzo · 1GB VRAM Probaj.

Kitten TTS

CPU-only inference Veličina modela manja od 80MB 8 ugrađenih glasova Kontrola brzine ONNX-based 24kHz izlaz

Ultra-lagani TTS ispod 80MB. Radi na CPU bez GPU.

Brzo · 0GB VRAM Probaj.

CosyVoice3

Bi-stream Kontrola emocija Kloniranje glasa Kontrola brzine/glasnosti Instrukcija slijedi

Sljedeća generacija višejezičnog TTS-a sa bi-streamingom, kontrolom emocija i kloniranjem glasa bez snimanja.

Brzo · 4GB VRAM Probaj.

NAMAA Saudi TTS

Saudijski arapski jezik Moderni standardni arapski Kloniranje glasa bez snimanja Kontrola emocija Native pronunciation

Prvi otvoreni saudijski arapski TTS. Nativni saudijski dijalekt sa kloniranjem glasa kvalitete Chatterbox.

Srednje · 6GB VRAM Probaj.

Darwin TTS

Kloniranje glasa Cross-language FFN-miješano 4 core languages Qwen3 backbone

Cross-modal Qwen3-TTS varijanta sa FFN ponderima pomiješana sa Qwen3-1.7B jezičkim modelom za oštrije višejezično kloniranje.

Srednje · 7GB VRAM Probaj.

MOSS-TTSD

Dijalog sa više govornika Do 5 zvučnika 60min coherent audio Kloniranje glasa Optimizacija podcasta

Multi-speaker dialogue continuation model — generira podcast-style razgovore sa do 5 govornika i 60 minuta koherentnog zvuka.

Srednje · 12GB VRAM Probaj.

Ming-Omni TTS

44.1kHz izlaz Kloniranje glasa Kontrola emocija Kontrola dijalekta BGM generacija Compact 0.5B

1995. godine je predstavljena verzija 1.0, koja je imala 4.1 MB RAM-a, 4.0.1.0 pogon i 4.1.2.0 grafičku karticu.

Srednje · 3GB VRAM Probaj.

MOSS-TTS Nano