Free AI Tevere:

82M parameters Ultra-fast Mazwi ekutaura Multilingual Streaming rutsigiro

Lightweight 82M parameter model inopa studio-quality speech neflash-fast inference.

Fast · 1.5GB VRAM Tarisa

Piper

CPU-friendly Offline anogona 100+ mazita 35 + mitauro SSML rutsigiro

A nyore, local neural tenzi kutaura system optimized for Raspberry Pi and embedded devices.

Fast · 0 (CPU only) VRAM Tarisa

VITS

End-to-end synthesis Natural prosody Kuongorora kwakanaka Mamwe ma speakers

Conditional variation autoencoder ne adversarial kudzidza kwe end-to-end text-to-speech.

Fast · 1GB VRAM Tarisa

MeloTTS

CPU-inokurumidza Multilingual Multiple accents Production-ready Low latency

Yakakwira-mhando multilingual text-to-speech iyo inofamba pa CPU neyakaderera latency.

Fast · 0.5GB (GPU optional) VRAM Tarisa

Bark

Zvishandiso Kuseka/kushungurudzika Kuumbwa kwemutauro 100 + vanotaura Multilingual

Transformer-based text-to-audio model iyo inogadzira yakasarudzika mashoko, mimhanzi, uye mhedzisiro yezwi.

Yakaoma · 5GB VRAM Tarisa

Bark Small

Yakaderera Faster than full Bark Emotional speech Multilingual

Lighter vhezheni yeBark nekurumbidza inference uye pasi memory usage.

Medium · 2GB VRAM Tarisa

CosyVoice 2

Kutendeuka Zero-shot cloning Cross-lingual Kudzora kwepfungwa Human-parity

Alibaba's scalable streaming TTS ine hunhu hwemunhu-parity uye latency yakati rebei.

Dia TTS

Multi-speaker Dialog generation Kuchinja-chinja kwezvisikwa Kutaura kwepfungwa 1.6B parameters

Multi-mutaura dialog generation model iyo inogadzira zvakajairika mashoko pakati pemutaura.

Parler TTS

Ruzivo rwezwi Natural Language Control Kuumbwa kwezwi rinogadzikana Hapana zvinodiwa zvemazwi

Kutaura mashoko aunoda mutauro wakanaka uye Parler ichagadzira mazita anoenderana.

Indic Parler TTS

11 Mazwi eIndia Kutaura Natural Language Control Authentic Indian pronunciation

High-mhando mashoko kune 8+ Indian zvinyorwa nenyama-chirungu mashoko kudzora.

Yakaoma · 8GB VRAM Tarisa

KhanomTan TTS

Thai TTS Mamwe ma speakers YourTTS architecture Commercial-safe License

Thai-kutanga text-to-speech nesarudzo yevataura mashoko.

Fast · 2GB VRAM Tarisa

IndexTTS-2

Kudzora kwepfungwa Zero-shot Emotion vector Kutaura kwakajeka Fine-grained kudzora

Zero-shot TTS neyakaomeswa kudzora kwepfungwa uye yakakura kuratidzika.

Spark TTS

Kutaura Emotion control Style control Prompt-based 5-second cloning

Voice cloning TTS ne controllable emotion uye kutaura pfungwa kuburikidza nemibvunzo.

GPT-SoVITS

5-second cloning Chirungu Kudzidza kwemazuva mashoma High fidelity Cross-lingual

Few-shot voice cloning TTS iyo inoshandura chero mashoko kubva chete 5 masekondi eaudio.

Yakaoma · 6GB VRAM Tarisa

Orpheus

Human-level emotion 100K maawa ekudzidzisa Natural emphasis Kutaura kwakajeka

Human-level emotional TTS model yakadzidziswa pa 100K mazuva emashoko data.

Chatterbox

Zero-shot cloning Kudzora kwepfungwa High fidelity Kutumira kweStyle Kuita tsvakurudzo

State-of-the-art zero-shot voice cloning nepfungwa kudzora kubva Resemble AI.

Tortoise TTS

Yakakwira mhando Multi-voice DALL-E architecture Kutaura Kudzokera-kumusoro otomatiki

Multi-voice text-to-speech yakatarisana nemhando neautoregressive architecture.

Yakaoma · 8GB VRAM Tarisa

StyleTTS 2

Human-level Style diffusion Kudzidziswa kwevakwikwidzi Kusiyana-siyana kwezvisikwa High fidelity

Human-level text-to-speech kuburikidza style diffusion uye oponetsa kudzidziswa.

OpenVoice

Inokurumidza clone Kushandura mashoko Kudzora kwepfungwa Kudzora kweaccent Multilingual

Instant voice cloning ne granular kudzora pamusoro style, emotions, uye accent.

Qwen3 TTS

9 preset mazwi Voice design kubva kune imwe Kudzora kwepfungwa 10 languages

Alibaba's multilingual TTS ne preset mashoko uye mashoko dhizaini kubva muchinyorwa.

Medium · 7GB VRAM Tarisa

VieNeu-TTS-v2

7 preset mashoko (North + South accents) En-Vi code-switching Voice cloning (3-5s reference) Podcast / multi-mutaura rutsigiro CPU-only — hapana GPU inodiwa

Vietnamese + English code-switching TTS ne7 preset mashoko uye zero-shot mashoko cloning. CPU- chete, hapana GPU zvinodiwa.

Fast · CPU VRAM Tarisa

Sesame CSM

Conversational Natural timing Kuchinja-chinja Backchannel 1B parameters

Conversational mashoko model kuumba zvakatipoteredza musangano nenguva yakakodzera uye emotions.

Yakaoma · 8GB VRAM Tarisa

Chatterbox Turbo

Sub-200ms latency Paralinguistic tags 6x real-time Kutaura Kuisa zita remvura

Faster Chatterbox nesub-200ms latency uye paralinguistic tags for laughs, kuora mwoyo, uye zvakawanda.

Fast · 2GB VRAM Tarisa

VoxCPM

44.1kHz zvemukati Tokenizer-free Cross-lingual cloning Context-aware LoRA fine-tuning

Tokenizer-free TTS inogadzira 44.1kHz audio ne context-aware paragraph consistency.

Fast · 4GB VRAM Tarisa

Kani TTS 2

3GB VRAM Ultra-fast Yakaderera NanoCodec Free

Ultra-yakajeka 400M English TTS model ichishanda mu3GB VRAM chete.

Fast · 3GB VRAM Tarisa

OuteTTS

CPU inference Kuongorora kwebrowser Mamwe mabackends Mupi wevataura

LLM-based TTS iyo inofamba pa CPU, GPU, kana browser kuburikidza llama.cpp uye Transformers.js.

Yakaoma · 2GB VRAM Tarisa

VibeVoice

Multi-speaker kusvika 90 min Podcast generation Kutaura kwakaenzana 200ms streaming

Microsoft model for long-form multi-speaker content like podcasts and audiobooks.

Fast · 4GB VRAM Tarisa

Pocket TTS

100M parameters CPU inference Kutaura Kuita tsvakurudzo imwe chete Yakagadzirira-kutenderera

Lightweight 100M parameter model by Kyutai ne voice cloning kubva kune imwe sample.

Fast · 1GB VRAM Tarisa

Kitten TTS

CPU-only inference Pasi pe 80MB yemufananidzo urefu 8 built-in mazita Kudzora kwesimba ONNX-based 24kHz output

Ultra- lightweight TTS pasi 80MB. Runs pa CPU pasina GPU.

Fast · 0GB VRAM Tarisa

CosyVoice3

Bi-streaming Kudzora kwepfungwa Kutaura Speed / volume control Instruction following

Next-generational multilingual TTS ne bi-streaming, kudzora pfungwa, uye zero-shot voice cloning.

Fast · 4GB VRAM Tarisa

NAMAA Saudi TTS

Saudi Arabic dialect ChiArabic Chazvino- chazvino Zero-shot voice cloning Kudzora kwepfungwa Mutauro wemutauro

First open Saudi-Arabic TTS. Native Saudi dialect ne Chatterbox-mhando voice cloning.

Medium · 6GB VRAM Tarisa

Darwin TTS

Kutaura Cross-lingual FFN-yakaenzana 4 core zvinyorwa Qwen3 backbone

Cross-modal Qwen3-TTS siyana ne FFN zviyero zvakabatanidzwa kubva Qwen3-1.7B rurimi model for sharper multilingual cloning.

Medium · 7GB VRAM Tarisa

MOSS-TTSD

Multi-speaker dialogue Kusvika 5 vataura 60min coherent audio Kutaura Podcast-inokurumidza

Multi-speaker dialogue kuenderera mberi model - kuburitsa podcast-style mashoko ne kusvika 5 vataura uye 60 maminitsi akafanana audio.

Medium · 12GB VRAM Tarisa

Ming-Omni TTS

44.1kHz output Kutaura Kudzora kwepfungwa Dialect control BGM generation Compact 0.5B

Compact 0.5B omni-modal kutaura model kubva inclusionAI nehigh-fidelity 44.1kHz output uye zero-shot voice cloning.

Medium · 3GB VRAM Tarisa

MOSS-TTS Nano