Free AI Teksti në Fjalë

Parametrat 82M Ultra i shpejtë Zëra ekspresivë Shumëgjuhësh Suporti i streaming

Modeli i lehtë i parametrave 82M që ofron fjalë me cilësi studioje me përfundime të shpejta.

Me shpejtësi · 1.5GB VRAM Provoje.

Piper

CPU-friendly Mundësia e lirë 100+ zëra 35+ gjuhë Suporti SSML

Një sistem i shpejtë, lokal neuronal tekst-në-folje i optimizuar për Raspberry Pi dhe pajisjet e ndërlidhura.

Me shpejtësi · 0 (CPU only) VRAM Provoje.

VITS

Sintezë nga fundi në fund Prozodia natyrore Përfundim i shpejtë Shumë zëra

Kodifikues i kushtëzuar variacional me mësim të kundërt për tekst-në-folje.

Me shpejtësi · 1GB VRAM Provoje.

MeloTTS

Optimizuar për CPU Shumëgjuhësh Akcente të shumta Gati për prodhim Latencë e ulët

Tekst-në-folje shumëgjuhësh me cilësi të lartë që punon në CPU me kohëzgjatje minimale.

Me shpejtësi · 0.5GB (GPU optional) VRAM Provoje.

Bark

Efektet e tingullit Qesh/psherëtin Gjeneratori i muzikës 100+ folës Shumëgjuhësh

Modeli i tekstit në audio i bazuar në transformator që gjeneron fjalë, muzikë dhe efekte të tingullit realiste.

Ngadalë · 5GB VRAM Provoje.

Bark Small

I lehtë Më shpejt se bark i plotë Fjalë emocionale Shumëgjuhësh

Version më i lehtë i Bark me përfundim më të shpejtë dhe përdorim më të ulët të kujtesës.

Medium · 2GB VRAM Provoje.

CosyVoice 2

Fluturimi Klonimi Zero-shot Gjuhë të ndryshme Kontrolli i emocioneve Paritet njerëzor

Alibaba's scaleable streaming TTS me natyrshmërinë e paritetit njerëzor dhe afërsisht zero vonesë.

Dia TTS

Shumë folës Gjeneratori i dialogut Natyral Shprehje emocionale Parametrat

Modeli i krijimit të dialogut me shumë folës që krijon biseda natyrore midis folësve.

Parler TTS

Përshkrimi zëri Kontrolli i gjuhës natyrore Krijimi i zërit fleksibël Nuk duhen zëra të paracaktuar

Përshkruaj zërin që dëshiron në gjuhën natyrore dhe Parler gjeneron një zë të përshtatshëm.

Indic Parler TTS

Gjuhët e Indisë Përshkrimi i zërit Kontrolli i gjuhës natyrore Përkthim i vërtetë indian

Fjalë të cilësisë së lartë për 8+ gjuhë indiane me kontrollin e zërit të gjuhës natyrore.

Ngadalë · 8GB VRAM Provoje.

KhanomTan TTS

Thai TTS Shumë zëra Arkitektura YourTTS Liçenca e sigurtë komerciale

Thai-i parë tekst-në-folje me një zgjedhje të zërave të folësit.

Me shpejtësi · 2GB VRAM Provoje.

IndexTTS-2

Kontrolli i emocioneve Zero-shot Vektorë emocionesh Fjalë shprehëse Kontroll me grimca të vogla

Zero-shot TTS me kontroll të mirë të emocioneve dhe shprehje të lartë.

Spark TTS

Klonimi i zërit Kontrolli i emocioneve Kontrolli i stilit Bazuar në pyetje Klonimi 5 sekondash

Klonimi i zërit TTS me emocione të kontrollueshme dhe stil të foljes nëpërmjet kërkesave.

GPT-SoVITS

Klonimi 5 sekondash Zëri i këngës Mësimi me pak goditje High Fidelity Gjuhë të ndryshme

Klonimi i zërit me pak gjuajtje TTS që kopjon çdo zë nga vetëm 5 sekonda audio.

Ngadalë · 6GB VRAM Provoje.

Orpheus

Emocione në nivelin e njeriut 100K orë trainimi Vënia në dukje natyrale Fjalëshkrimi ekspresiv

Modeli TTS emocional në nivelin njerëzor i trajnuar në 100K orë të dhëna të foljes.

Chatterbox

Klonimi Zero-shot Kontrolli i emocioneve High Fidelity Transferimi i stilit Klonimi i një shembull

Klonimi i zërit me kontroll të emocioneve nga "Resemble AI".

Tortoise TTS

Cilësi më e lartë Shumë-zëri Arkitektura DALL-E Klonimi i zërit Autoregresiv

Teksti-në-folje me shumë zëra i përqëndruar në cilësinë me arkitekturë autoregresive.

Ngadalë · 8GB VRAM Provoje.

StyleTTS 2

Niveli i njeriut Stili i përhapjes Stërvitja e kundërshtarit Variacioni natyror High Fidelity

Teksti në nivelin e njeriut në fjalë nëpërmjet përhapjes së stilit dhe trainimit kundërshtar.

OpenVoice

Klonimi i menjëhershëm Konvertimi i zërit Kontrolli i emocioneve Kontrolli i theksit Shumëgjuhësh

Klonimi i menjëhershëm i zërit me kontroll të hollësishëm mbi stilin, emocionet dhe theksin.

Qwen3 TTS

9 zëra të paracaktuar Zëri nga teksti Kontrolli i emocioneve 10 gjuhë

TTS shumëgjuhësh i Alibaba me zëra të paracaktuar dhe dizajn zëri nga teksti.

Medium · 7GB VRAM Provoje.

VieNeu-TTS-v2

7 zëra të paracaktuar (akcentet veriore + jugore) En-Vi kod-switch Klonimi i zërit (referenca 3-5s) Suporti i podcast / shumë-përgjigjeve CPU vetëm — nuk kërkohet GPU

Vietnameze + Anglisht TTS me 7 zëra të paracaktuar dhe klonim zëri zero-shot. CPU vetëm, nuk kërkohet GPU.

Me shpejtësi · CPU VRAM Provoje.

Sesame CSM

Konversacion Koha natyrore Rresht Backchannel Parametrat

Modeli i bisedës që gjeneron dialog natyror me kohën dhe emocionin e duhur.

Ngadalë · 8GB VRAM Provoje.

Chatterbox Turbo

Latency nën 200ms Tag-ët paralinguistikë 6x real-time Klonimi i zërit Shënim uji

Chatterbox më i shpejtë me kohë të vonuar nën 200ms dhe etiketa paralinguistike për qeshje, kollë dhe më shumë.

Me shpejtësi · 2GB VRAM Provoje.

VoxCPM

Audio 44.1kHz Tokenizer-free Klonimi ndërgjuhësor Konteksti LoRA fine tuning

Tokenizer-free TTS producing 44.1kHz audio with context-aware paragraph consistency.

Me shpejtësi · 4GB VRAM Provoje.

Kani TTS 2

3GB VRAM Ultra i shpejtë I lehtë NanoCodec I lirë

Modeli i lehtë 400M TTS i anglishtes që punon vetëm me 3GB VRAM.

Me shpejtësi · 3GB VRAM Provoje.

OuteTTS

CPU Shfletuesi Backend-e të shumfisht Profili i folësit

LLM-bazuar TTS që shkon në CPU, GPU, ose browser nëpërmjet llama.cpp dhe Transformers.js.

Ngadalë · 2GB VRAM Provoje.

VibeVoice

Shumë folës Deri në 90 min Podcast Konsistenca e zërit 200ms streaming

Modeli i Microsoft-it për përmbajtjen e formës së gjatë me shumë folës si podcasts dhe audiobooks.

Me shpejtësi · 4GB VRAM Provoje.

Pocket TTS

Parametrat 100M CPU Klonimi i zërit Klonimi i një shembull Edge-ready

Model i lehtë me parametra 100M nga Kyutai me klonim zëri nga një shembull i vetëm.

Me shpejtësi · 1GB VRAM Provoje.

Kitten TTS

CPU-vetëm Më pak se 80MB madhësia e modelit 8 zëra të ndërtuar Kontrolli i shpejtësisë Bazuar në ONNX 24kHz në dalje

TTS ultra-i lehtë nën 80MB. Ruan në CPU pa GPU.

Me shpejtësi · 0GB VRAM Provoje.

CosyVoice3

Dy-fluksi Kontrolli i emocioneve Klonimi i zërit Kontrolli i shpejtësisë/volumit Instruksionet që vijnë

TTS e brezit të ardhshëm shumëgjuhësh me bi-streaming, kontroll emocionesh, dhe klonim zëri zero-shot.

Me shpejtësi · 4GB VRAM Provoje.

NAMAA Saudi TTS

Dialekti arab saudit Arabishtja moderne standarde Klonimi i zërit zero-shot Kontrolli i emocioneve Fjalë e folur

Dialekti vendas i Arabisë Saudite me klonim zëri me cilësi Chatterbox.

Medium · 6GB VRAM Provoje.

Darwin TTS

Klonimi i zërit Gjuhë të ndryshme FFN-Blended 4 gjuhë kryesore Qwen3 backbone

Cross-modal Qwen3-TTS variant me peshë FFN të përzier nga Qwen3-1.7B model gjuhësor për klonim më të mprehtë shumëgjuhësh.

Medium · 7GB VRAM Provoje.

MOSS-TTSD

Dialogu me shumë folës Deri në 5 zëra 60min audio koherent Klonimi i zërit Optimizimi i Podcast

Modeli i vazhdimit të dialogut me shumë folës - gjeneron biseda në stil podcast me deri në 5 folës dhe 60 minuta audio të koherentë.

Medium · 12GB VRAM Provoje.

Ming-Omni TTS

44.1kHz në dalje Klonimi i zërit Kontrolli i emocioneve Kontrolli i dialektit Gjeneratori i BGM Kompakt 0.5B

Model kompakt 0.5B i foljes omni-modal nga inclusionAI me 44.1kHz të lartë-besueshmërisë dhe klonimin e zërit zero-shot.

Medium · 3GB VRAM Provoje.

MOSS-TTS Nano