Free AI Teksti në Fjalë
33+ modele me burim të hapur, 273+ Zërat, 33+ Nuk kërkohet llogari.
Gjithçka që ju duhet për AI të zërit
Më shumë se 30 instrumentë të mbështetur nga modele të inteligjencës artificiale me burim të hapur
33+ Modelet e zërit AI
Koleksioni më i plotë i modeleve të TTS me burim të hapur në një platformë
Kokoro I lirë
Kokoro është një model tekst-në-folje me 82 milion parametra që punon shumë më mirë se klasa e tij e peshes. Pavarësisht nga madhësia e vogël, prodhon një folje të jashtëzakonshme natyrale dhe shprehëse. Kokoro suporton gjuhë të shumta duke përfshirë anglishten, japonishten, kinezishten dhe koreanishten me një varietet zërash shprehës. Ekzekutohet jashtëzakonisht shpejt — duke gjeneruar tinguj pothuajse 100 herë më shpejt se në kohë reale në një GPU.
Më i miri për: TTS me cilësi të lartë me kohëzgjatje minimale, aplikime streaming
Provoje pa pagesë
Piper I lirë
Piper është një motor i lehtë tekst-në-folje i zhvilluar nga Rhasspy që përdor arkitekturat VITS dhe larynx. Ekzekutohet krejtësisht në CPU, duke e bërë atë ideal për pajisjet e periferisë, automatikën shtëpiake dhe aplikacionet që kërkojnë TTS jashtë linje. Me mbi 100 zëra në më shumë se 30 gjuhë, Piper jep një zë natyror në shpejtësi të kohës reale edhe në një Raspberry Pi 4.
Më i miri për: Pamje të shpejta, açesibilitet dhe aplikativë të ndërlidhur
Provoje pa pagesë
VITS I lirë
VITS (Variation Inference with adversarial learning for end-to-end Text-to-Speech) është një metodë paralele TTS që gjeneron tinguj më natyrorë se sa modelet aktuale me dy faza. Ajo adopton variacionin e inferimit të rritur me rrjedhat normalizuese dhe një proces trainimi kundërshtar, duke arritur një përmirësim të ndjeshëm në natyrshmëri.
Më i miri për: Tekst-në-Fjalë me qëllim të përgjithshëm me prozodi natyrore
Provoje pa pagesë
MeloTTS I lirë
MeloTTS nga MyShell.ai është një bibliotekë shumëgjuhëshe TTS që suporton anglishten (amerikane, britanike, indiane, australiane), spanjishten, frëngjishten, kineze, japoneze dhe koreane. Është shumë e shpejtë, duke përpunuar tekstin me shpejtësi pothuajse në kohë reale vetëm në CPU. MeloTTS është projektuar për përdorim në prodhim dhe suporton si CPU ashtu edhe GPU.
Më i miri për: Aplikacionet e prodhimit kanë nevojë për TTS të shpejtë dhe shumëgjuhësh
Provoje pa pagesë
Kani TTS 2 I lirë
Kani-TTS-2 nga NineNineSix është një model ultra i lehtë me parametra 400M i ndërtuar mbi një LFM2 të Liquid AI me NVIDIA NanoCodec. Ekzekutohet në vetëm 3GB VRAM dhe prodhon ~10 sekonda të foljes në ~2 sekonda në një A100 (RTF 0.2). Versioni aktual publik dërgon një `kani-tts-2-en` vetëm në anglisht dhe nuk ekspozon kapin e ndërtimit të folësit të nevojshëm për klonimin e zërit — përdor Chatterbox / IndexTTS2 / F5-TTS për klonim, ose Kokoro / MeloTTS për jo-anglisht.
Më i miri për: Gjenerati i shpejtë i gjuhës angleze në hardware me VRAM të ulët, parashikime të shpejta
Provoje pa pagesë
OuteTTS I lirë
OuteTTS zgjeron modelet e mëdha të gjuhës me aftësitë e tekstit në fjalë duke ruajtur arkitekturën origjinale. Ajo suporton backends të shumta duke përfshirë llama.cpp (CPU/GPU), Hugging Face Transformers, ExLlamaV2, VLLM, dhe madje edhe inferimet e shfletuesit nëpërmjet Transformers.js. Përmban klonim zero-shot të zërit nëpërmjet profileve të folësit të ruajtur si JSON.
Më i miri për: Shpërndarje Edge, TTS i bazuar në shfletues, mjedise me burime të ulta
Provoje pa pagesë
Pocket TTS I lirë
Pocket TTS nga Kyutai (krijuesit e Moshi) është një model i vogël tekst-në-folje me parametra 100M që punon shumë më mirë se sa peshon. Ekzekutohet me efektshmëri në CPU, mbështet klonimin e zërit zero-shot nga një shembull i vetëm audio, dhe prodhon një zë natyror. Madhësia e vogël e modelit e bën atë ideal për përdorimin në periferi dhe mjedise me burime të pakta.
Më i miri për: Shpërndarje e lehtë, mjedise vetëm CPU, klonim i shpejtë zëri
Provoje pa pagesë
Kitten TTS I lirë
Kitten TTS nga KittenML është një model i lehtë tekst-në-folje i ndërtuar mbi ONNX. Me variante nga 15M në 80M parametra (25-80 MB në disk), ai jep sintezë të zërit me cilësi të lartë në CPU pa kërkuar një GPU. Përmban 8 zëra të ndërtuar, shpejtësi të rregullueshme të fjalës, dhe paraprocesim të tekstit të ndërtuar për numra, monedha dhe njësi. Ideal për zbatimin e skajshëm dhe aplikacionet me kohë të shkurtër.
Më i miri për: TTS i shpejtë dhe i lehtë, zbatim në skaj, aplikime me kohë të shkurtër
Provoje pa pagesë
Ming-Omni TTS I lirë
Ming-omni-tts-0.5B nga inclusionAI është një model kompakt omni-modal i foljes i ndërtuar mbi bazën e dendur BailingMM me një dekoder audio të përshtatshëm për rrjedhjen Patch-by-Patch. Shërben 44.1kHz output (pranë cilësisë CD), mbështet klonimin e zërit zero-shot nga një referencë 3+ sekonda, dhe përfshin kontrollin e ndërtuar të emocionit / dialektit / BGM nëpërmjet instruksioneve JSON. Stabilitet i shkëlqyer — 0.83% WER në standardet kineze.
Më i miri për: Narracioni dygjuhësh me besnikëri të lartë, zëri i kontrolluar nga emocionet, përmbajtja e audiolibrit kinez
Provoje pa pagesë
MOSS-TTS Nano I lirë
MOSS-TTS-Nano-100M është varianta e OpenMOSS me 100M parametra e familjes MOSS-TTS, duke ndarë arkitekturën e vonesës-transformuesit. Shkëmben cilësinë e modelit 8B për ~80 herë më pak peshë dhe VRAM dramatikisht më të ulët për kërkesë, duke e bërë të përshtatshëm për zbatime të nivelit të lirë dhe të performancës së lartë. E njëjta arritje në 20 gjuhë.
Më i miri për: Free-tier TTS, prodhim i madh, përdorim interaktiv me kohë të shkurtër
Provoje pa pagesë
Bark Standard
Modeli i tekstit në audio i bazuar në transformator që gjeneron fjalë, muzikë dhe efekte të tingullit realiste.
Programuesi: Suno · Liçenca: MIT
Provoje.
Bark Small Standard
Version më i lehtë i Bark me përfundim më të shpejtë dhe përdorim më të ulët të kujtesës.
Programuesi: Suno · Liçenca: MIT
Provoje.
CosyVoice 2 Standard
Alibaba's scaleable streaming TTS me natyrshmërinë e paritetit njerëzor dhe afërsisht zero vonesë.
Programuesi: Alibaba (Tongyi Lab) · Liçenca: Apache 2.0
Provoje.
Dia TTS Standard
Modeli i krijimit të dialogut me shumë folës që krijon biseda natyrore midis folësve.
Programuesi: Nari Labs · Liçenca: Apache 2.0
Provoje.
Parler TTS Standard
Përshkruaj zërin që dëshiron në gjuhën natyrore dhe Parler gjeneron një zë të përshtatshëm.
Programuesi: Hugging Face · Liçenca: Apache 2.0
Provoje.
IndexTTS-2 Standard
Zero-shot TTS me kontroll të mirë të emocioneve dhe shprehje të lartë.
Programuesi: Index Team · Liçenca: Bilibili Model License
Provoje.
Spark TTS Standard
Klonimi i zërit TTS me emocione të kontrollueshme dhe stil të foljes nëpërmjet kërkesave.
Programuesi: SparkAudio · Liçenca: CC BY-NC-SA 4.0
Provoje.
GPT-SoVITS Standard
Klonimi i zërit me pak gjuajtje TTS që kopjon çdo zë nga vetëm 5 sekonda audio.
Programuesi: RVC-Boss · Liçenca: MIT
Provoje.
Orpheus Standard
Modeli TTS emocional në nivelin njerëzor i trajnuar në 100K orë të dhëna të foljes.
Programuesi: Canopy Labs · Liçenca: Llama 3.2 Community
Provoje.
Qwen3 TTS Standard
TTS shumëgjuhësh i Alibaba me zëra të paracaktuar dhe dizajn zëri nga teksti.
Programuesi: Alibaba (Qwen) · Liçenca: Apache 2.0
Provoje.
VieNeu-TTS-v2 Standard
Vietnameze + Anglisht TTS me 7 zëra të paracaktuar dhe klonim zëri zero-shot. CPU vetëm, nuk kërkohet GPU.
Programuesi: Phạm Nguyễn Ngọc Bảo · Liçenca: Apache 2.0
Provoje.
Chatterbox Turbo Standard
Chatterbox më i shpejtë me kohë të vonuar nën 200ms dhe etiketa paralinguistike për qeshje, kollë dhe më shumë.
Programuesi: Resemble AI · Liçenca: MIT
Provoje.
VoxCPM Standard
Tokenizer-free TTS producing 44.1kHz audio with context-aware paragraph consistency.
Programuesi: OpenBMB · Liçenca: Apache 2.0
Provoje.
VibeVoice Standard
Modeli i Microsoft-it për përmbajtjen e formës së gjatë me shumë folës si podcasts dhe audiobooks.
Programuesi: Microsoft · Liçenca: MIT
Provoje.
CosyVoice3 Standard
TTS e brezit të ardhshëm shumëgjuhësh me bi-streaming, kontroll emocionesh, dhe klonim zëri zero-shot.
Programuesi: Alibaba (FunAudioLLM) · Liçenca: Apache 2.0
Provoje.
NAMAA Saudi TTS Standard
Dialekti vendas i Arabisë Saudite me klonim zëri me cilësi Chatterbox.
Programuesi: NAMAA Space · Liçenca: MIT
Provoje.
Darwin TTS Standard
Cross-modal Qwen3-TTS variant me peshë FFN të përzier nga Qwen3-1.7B model gjuhësor për klonim më të mprehtë shumëgjuhësh.
Programuesi: FINAL-Bench · Liçenca: Apache 2.0
Provoje.
MOSS-TTSD Standard
Modeli i vazhdimit të dialogut me shumë folës - gjeneron biseda në stil podcast me deri në 5 folës dhe 60 minuta audio të koherentë.
Programuesi: OpenMOSS · Liçenca: Apache 2.0
Provoje.
CosyVoice 2
Alibaba's scaleable streaming TTS me natyrshmërinë e paritetit njerëzor dhe afërsisht zero vonesë.
Gjuhë: en, zh, ja, ko, fr, de, it, es
Klono zërin
IndexTTS-2
Zero-shot TTS me kontroll të mirë të emocioneve dhe shprehje të lartë.
Gjuhë: en, zh
Klono zërin
Spark TTS
Klonimi i zërit TTS me emocione të kontrollueshme dhe stil të foljes nëpërmjet kërkesave.
Gjuhë: en, zh
Klono zërin
GPT-SoVITS
Klonimi i zërit me pak gjuajtje TTS që kopjon çdo zë nga vetëm 5 sekonda audio.
Gjuhë: en, zh, ja, ko
Klono zërin
Tortoise TTS
Teksti-në-folje me shumë zëra i përqëndruar në cilësinë me arkitekturë autoregresive.
Gjuhë: en
Klono zërin
OpenVoice
Klonimi i menjëhershëm i zërit me kontroll të hollësishëm mbi stilin, emocionet dhe theksin.
Gjuhë: en, zh, ja, ko, fr, es
Klono zërin
VieNeu-TTS-v2
Vietnameze + Anglisht TTS me 7 zëra të paracaktuar dhe klonim zëri zero-shot. CPU vetëm, nuk kërkohet GPU.
Gjuhë: vi, en
Klono zërin
Chatterbox Turbo
Chatterbox më i shpejtë me kohë të vonuar nën 200ms dhe etiketa paralinguistike për qeshje, kollë dhe më shumë.
Gjuhë: en
Klono zërin
VoxCPM
Tokenizer-free TTS producing 44.1kHz audio with context-aware paragraph consistency.
Gjuhë: en, zh
Klono zërin
OuteTTS
LLM-bazuar TTS që shkon në CPU, GPU, ose browser nëpërmjet llama.cpp dhe Transformers.js.
Gjuhë: en
Klono zërin
Pocket TTS
Model i lehtë me parametra 100M nga Kyutai me klonim zëri nga një shembull i vetëm.
Gjuhë: en, fr
Klono zërin
CosyVoice3
TTS e brezit të ardhshëm shumëgjuhësh me bi-streaming, kontroll emocionesh, dhe klonim zëri zero-shot.
Gjuhë: en, zh, ja, ko, de, es, fr, it, ru
Klono zërin
NAMAA Saudi TTS
Dialekti vendas i Arabisë Saudite me klonim zëri me cilësi Chatterbox.
Gjuhë: ar
Klono zërin
Darwin TTS
Cross-modal Qwen3-TTS variant me peshë FFN të përzier nga Qwen3-1.7B model gjuhësor për klonim më të mprehtë shumëgjuhësh.
Gjuhë: en, ko, ja, zh
Klono zërin
MOSS-TTSD
Modeli i vazhdimit të dialogut me shumë folës - gjeneron biseda në stil podcast me deri në 5 folës dhe 60 minuta audio të koherentë.
Gjuhë: en, zh
Klono zërin
Ming-Omni TTS
Model kompakt 0.5B i foljes omni-modal nga inclusionAI me 44.1kHz të lartë-besueshmërisë dhe klonimin e zërit zero-shot.
Gjuhë: en, zh
Klono zërin
MOSS-TTS Nano
Tiny 100M MOSS-TTS variant — e njëjta arkitekturë, 80x më e vogël, latency e nivelit të lirë.
Gjuhë: en, zh, de, es, fr, ja, it, ko, ru, ar, pt
Klono zërinAPI e parë e zhvilluesit
REST API e përshtatshme me OpenAI. Një pikë përfundimtare, më shumë se 22 modele. Mbështetje streaming për aplikacionet në kohë reale.
- Format i përshtatshëm OpenAI
- Streaming TTS për aplikacionet në kohë reale
- Përpunimi i grupeve për punë të mëdha
- Njoftime webhook
pip install ttsai
npm install @ttsainpm/ttsai
from tts_ai import TTSClient
client = TTSClient(api_key="sk-tts-xxx")
audio = client.generate(
text="Hello from TTS.ai!",
model="kokoro",
voice="af_bella",
)
client.save(audio, "output.mp3")
Çmime të thjeshta, transparente
Fillo i lirë.Shkallezohu ndërsa rritesh.
I lirë
15,000 karakterë + 5,000/ditë
- 7 modele të lira duke përfshirë Kokoro
- 5,000 karaktere për gjeneratë
- API akses përfshirë
Fillues
500,000 karakterë/muaj
- Të gjitha 22+ modelet
- 100,000 karaktere për gjeneratë
- Klonimi i zërit
Pro
2,000,000 karakterë/muaj
- Gjithçka në Starter
- Hyrja në API
- Përpunimi i përparësisë
Biznes
10,000,000 karakterë/muaj
- Gjithçka në Pro
- Bulk API
- Rreshta e përparësisë
Shiko të gjitha planet duke përfshirë paketat e karaktereve →
Pyetje të shpeshta
Çfarë mund të përmirësojmë? Feedback-i juaj na ndihmon të zgjidhim problemet.
Fillo të përdorësh zërin AI sot
Bashkohu me krijues, zhvillues dhe biznese që përdorin TTS.ai