Free AI Teksti në Fjalë
31+ modele me burim të hapur, 231+ Zërat, 34+ Nuk kërkohet llogari.
Gjithçka që ju duhet për AI të zërit
Më shumë se 30 instrumentë të mbështetur nga modele të inteligjencës artificiale me burim të hapur
31+ Modelet e zërit AI
Koleksioni më i plotë i modeleve të TTS me burim të hapur në një platformë
Kokoro Free
Kokoro është një model tekst-në-folje me 82 milion parametra që punon shumë më mirë se klasa e tij e peshes. Pavarësisht nga madhësia e vogël, prodhon një folje të jashtëzakonshme natyrale dhe shprehëse. Kokoro suporton gjuhë të shumta duke përfshirë anglishten, japonishten, kinezishten dhe koreanishten me një varietet zërash shprehës. Ekzekutohet jashtëzakonisht shpejt — duke gjeneruar tinguj pothuajse 100 herë më shpejt se në kohë reale në një GPU.
Më i miri për: TTS me cilësi të lartë me kohëzgjatje minimale, aplikime streaming
Provoje pa pagesë
Piper Free
Piper është një motor i lehtë tekst-në-folje i zhvilluar nga Rhasspy që përdor arkitekturat VITS dhe larynx. Ekzekutohet krejtësisht në CPU, duke e bërë atë ideal për pajisjet e periferisë, automatikën shtëpiake dhe aplikacionet që kërkojnë TTS jashtë linje. Me mbi 100 zëra në më shumë se 30 gjuhë, Piper jep një zë natyror në shpejtësi të kohës reale edhe në një Raspberry Pi 4.
Më i miri për: Pamje të shpejta, açesibilitet dhe aplikativë të ndërlidhur
Provoje pa pagesë
VITS Free
VITS (Variation Inference with adversarial learning for end-to-end Text-to-Speech) është një metodë paralele TTS që gjeneron tinguj më natyrorë se sa modelet aktuale me dy faza. Ajo adopton variacionin e inferimit të rritur me rrjedhat normalizuese dhe një proces trainimi kundërshtar, duke arritur një përmirësim të ndjeshëm në natyrshmëri.
Më i miri për: Tekst-në-Fjalë me qëllim të përgjithshëm me prozodi natyrore
Provoje pa pagesë
MeloTTS Free
MeloTTS nga MyShell.ai është një bibliotekë shumëgjuhëshe TTS që suporton anglishten (amerikane, britanike, indiane, australiane), spanjishten, frëngjishten, kineze, japoneze dhe koreane. Është shumë e shpejtë, duke përpunuar tekstin me shpejtësi pothuajse në kohë reale vetëm në CPU. MeloTTS është projektuar për përdorim në prodhim dhe suporton si CPU ashtu edhe GPU.
Më i miri për: Aplikacionet e prodhimit kanë nevojë për TTS të shpejtë dhe shumëgjuhësh
Provoje pa pagesë
OuteTTS Free
OuteTTS zgjeron modelet e mëdha të gjuhës me aftësitë e tekstit në fjalë duke ruajtur arkitekturën origjinale. Ajo suporton backends të shumta duke përfshirë llama.cpp (CPU/GPU), Hugging Face Transformers, ExLlamaV2, VLLM, dhe madje edhe inferimet e shfletuesit nëpërmjet Transformers.js. Përmban klonim zero-shot të zërit nëpërmjet profileve të folësit të ruajtur si JSON.
Më i miri për: Shpërndarje Edge, TTS i bazuar në shfletues, mjedise me burime të ulta
Provoje pa pagesë
Pocket TTS Free
Pocket TTS nga Kyutai (krijuesit e Moshi) është një model i vogël tekst-në-folje me parametra 100M që punon shumë më mirë se sa peshon. Ekzekutohet me efektshmëri në CPU, mbështet klonimin e zërit zero-shot nga një shembull i vetëm audio, dhe prodhon një zë natyror. Madhësia e vogël e modelit e bën atë ideal për përdorimin në periferi dhe mjedise me burime të pakta.
Më i miri për: Shpërndarje e lehtë, mjedise vetëm CPU, klonim i shpejtë zëri
Provoje pa pagesë
Kitten TTS Free
Kitten TTS by KittenML is an ultra-lightweight text-to-speech model built on ONNX. With variants from 15M to 80M parameters (25-80 MB on disk), it delivers high-quality voice synthesis on CPU without requiring a GPU. Features 8 built-in voices, adjustable speech speed, and built-in text preprocessing for numbers, currencies, and units. Ideal for edge deployment and low-latency applications.
Më i miri për: Fast lightweight TTS, edge deployment, low-latency applications
Provoje pa pagesë
Bark Standard
Modeli i tekstit në audio i bazuar në transformator që gjeneron fjalë, muzikë dhe efekte të tingullit realiste.
Programuesi: Suno · Liçenca: MIT
Provoje.
Bark Small Standard
Version më i lehtë i Bark me përfundim më të shpejtë dhe përdorim më të ulët të kujtesës.
Programuesi: Suno · Liçenca: MIT
Provoje.
CosyVoice 2 Standard
Alibaba's scaleable streaming TTS me natyrshmërinë e paritetit njerëzor dhe afërsisht zero vonesë.
Programuesi: Alibaba (Tongyi Lab) · Liçenca: Apache 2.0
Provoje.
Dia TTS Standard
Modeli i krijimit të dialogut me shumë folës që krijon biseda natyrore midis folësve.
Programuesi: Nari Labs · Liçenca: Apache 2.0
Provoje.
Parler TTS Standard
Përshkruaj zërin që dëshiron në gjuhën natyrore dhe Parler gjeneron një zë të përshtatshëm.
Programuesi: Hugging Face · Liçenca: Apache 2.0
Provoje.
GLM-TTS Standard
Arrit normat më të ulta të gabimit të karaktereve midis modeleve të TTS me burim të hapur.
Programuesi: Zhipu AI · Liçenca: GLM-4 License
Provoje.
IndexTTS-2 Standard
Zero-shot TTS me kontroll të mirë të emocioneve dhe shprehje të lartë.
Programuesi: Index Team · Liçenca: Bilibili Model License
Provoje.
Spark TTS Standard
Klonimi i zërit TTS me emocione të kontrollueshme dhe stil të foljes nëpërmjet kërkesave.
Programuesi: SparkAudio · Liçenca: CC BY-NC-SA 4.0
Provoje.
GPT-SoVITS Standard
Klonimi i zërit me pak gjuajtje TTS që kopjon çdo zë nga vetëm 5 sekonda audio.
Programuesi: RVC-Boss · Liçenca: MIT
Provoje.
Orpheus Standard
Modeli TTS emocional në nivelin njerëzor i trajnuar në 100K orë të dhëna të foljes.
Programuesi: Canopy Labs · Liçenca: Llama 3.2 Community
Provoje.
Qwen3 TTS Standard
TTS shumëgjuhësh i Alibaba me klonim zëri, zëra të paracaktuar dhe dizajn zëri nga teksti.
Programuesi: Alibaba (Qwen) · Liçenca: Apache 2.0
Provoje.
Chatterbox Turbo Standard
Chatterbox më i shpejtë me kohë të vonuar nën 200ms dhe etiketa paralinguistike për qeshje, kollë dhe më shumë.
Programuesi: Resemble AI · Liçenca: MIT
Provoje.
Dia 2 Standard
Fluturimi i parë bisedor TTS me dialog multi-folës dhe shenja paralinguistike.
Programuesi: Nari Labs · Liçenca: Apache 2.0
Provoje.
VoxCPM Standard
Tokenizer-free TTS producing 44.1kHz audio with context-aware paragraph consistency.
Programuesi: OpenBMB · Liçenca: Apache 2.0
Provoje.
TADA Standard
Zero-hallucination TTS me tekst-akustik dyfishtë të përshtatur, 5 herë më shpejt se krahasuar LLM TTS.
Programuesi: Hume AI · Liçenca: MIT
Provoje.
VibeVoice Standard
Modeli i Microsoft-it për përmbajtjen e formës së gjatë me shumë folës si podcasts dhe audiobooks.
Programuesi: Microsoft · Liçenca: MIT
Provoje.
CosyVoice3 Standard
Next-generation multilingual TTS with bi-streaming, emotion control, and zero-shot voice cloning.
Programuesi: Alibaba (FunAudioLLM) · Liçenca: Apache 2.0
Provoje.
CosyVoice 2
Alibaba's scaleable streaming TTS me natyrshmërinë e paritetit njerëzor dhe afërsisht zero vonesë.
Gjuhë: en, zh, ja, ko, fr, de, it, es
Klono zërin
GLM-TTS
Arrit normat më të ulta të gabimit të karaktereve midis modeleve të TTS me burim të hapur.
Gjuhë: en, zh
Klono zërin
IndexTTS-2
Zero-shot TTS me kontroll të mirë të emocioneve dhe shprehje të lartë.
Gjuhë: en, zh
Klono zërin
Spark TTS
Klonimi i zërit TTS me emocione të kontrollueshme dhe stil të foljes nëpërmjet kërkesave.
Gjuhë: en, zh
Klono zërin
GPT-SoVITS
Klonimi i zërit me pak gjuajtje TTS që kopjon çdo zë nga vetëm 5 sekonda audio.
Gjuhë: en, zh, ja, ko
Klono zërin
Tortoise TTS
Teksti-në-folje me shumë zëra i përqëndruar në cilësinë me arkitekturë autoregresive.
Gjuhë: en
Klono zërin
OpenVoice
Klonimi i menjëhershëm i zërit me kontroll të hollësishëm mbi stilin, emocionet dhe theksin.
Gjuhë: en, zh, ja, ko, fr, de, es, it
Klono zërin
Qwen3 TTS
TTS shumëgjuhësh i Alibaba me klonim zëri, zëra të paracaktuar dhe dizajn zëri nga teksti.
Gjuhë: en, zh, ja, ko, de, fr, ru, pt, es, it
Klono zërin
Chatterbox Turbo
Chatterbox më i shpejtë me kohë të vonuar nën 200ms dhe etiketa paralinguistike për qeshje, kollë dhe më shumë.
Gjuhë: en
Klono zërin
VoxCPM
Tokenizer-free TTS producing 44.1kHz audio with context-aware paragraph consistency.
Gjuhë: en, zh
Klono zërin
OuteTTS
LLM-bazuar TTS që shkon në CPU, GPU, ose browser nëpërmjet llama.cpp dhe Transformers.js.
Gjuhë: en
Klono zërin
Pocket TTS
Model i lehtë me parametra 100M nga Kyutai me klonim zëri nga një shembull i vetëm.
Gjuhë: en, fr
Klono zërin
CosyVoice3
Next-generation multilingual TTS with bi-streaming, emotion control, and zero-shot voice cloning.
Gjuhë: en, zh, ja, ko, de, es, fr, it, ru
Klono zërin
MOSS-TTS
Ultra-long 20-language TTS supporting up to 1 hour of continuous generation with phoneme-level control.
Gjuhë: en, zh, de, es, fr, ja, it, hu, ko, ru, fa, ar, pl, pt, cs, da, sv, el, tr
Klono zërin
MegaTTS3
ByteDance's sparse alignment TTS with adjustable intelligibility vs. speaker similarity.
Gjuhë: en, zh
Klono zërinAPI e parë e zhvilluesit
REST API e përshtatshme me OpenAI. Një pikë përfundimtare, më shumë se 22 modele. Mbështetje streaming për aplikacionet në kohë reale.
- Format i përshtatshëm OpenAI
- Streaming TTS për aplikacionet në kohë reale
- Përpunimi i grupeve për punë të mëdha
- Njoftime webhook
pip install ttsai
npm install @ttsainpm/ttsai
from tts_ai import TTSClient
client = TTSClient(api_key="sk-tts-xxx")
audio = client.generate(
text="Hello from TTS.ai!",
model="kokoro",
voice="af_bella",
)
client.save(audio, "output.mp3")
Çmime të thjeshta, transparente
Fillo i lirë.Shkallezohu ndërsa rritesh.
I lirë
15 kreditë
- Kokoro, Piper, VITS, MeloTTS
- Kufiri i 500 karakterëve
- 3 gjen/orë (pa llogari)
Fillues
500,000 karakterë/muaj
- Të gjitha 22+ modelet
- 100,000 karaktere për gjeneratë
- Klonimi i zërit
Pro
2,000,000 karakterë/muaj
- Gjithçka në Starter
- Hyrja në API
- Përpunimi i përparësisë
Biznes
10,000,000 karakterë/muaj
- Gjithçka në Pro
- Bulk API
- Rreshta e përparësisë
Shiko të gjitha planet duke përfshirë paketat e karaktereve →
Pyetje të shpeshta
Çfarë mund të përmirësojmë? Feedback-i juaj na ndihmon të zgjidhim problemet.
Fillo të përdorësh zërin AI sot
Bashkohu me krijues, zhvillues dhe biznese që përdorin TTS.ai