I-Free AI Umbhalo ukuya kuSpeech

Iiparamitha ze-82M Ekhawulezayo kakhulu Ilizwi elithethayo Ulwimi oluninzi Inkxaso ye-Streaming

Imodeli elula ye-82M yeparameter enika ukuthetha kwestudio-umgangatho okhawulezayo okhawulezayo.

I-Fixed · 1.5GB VRAM Zama kwakhona

Piper

CPU- elungele Ukuphuma ngaphandle kwenethiwekhi kunokwenzeka 100+ izithethi 35+ iilwimi Inkxaso ye SSML

Inkqubo yendlela yokusebenza yokubhala- ukuya- ku- kuthetha ekhawulezayo, engaphakathi kwindlela yokusebenza yokubhala- ukuya- ku- kuthetha eyenziwe kakuhle ye Raspberry Pi nezixhobo ezifakwe ngaphakathi. Name

I-Fixed · 0 (CPU only) VRAM Zama kwakhona

VITS

Ukwenziwa kwezinto ngesandla I-Prosody eNtsha Uvavanyo olukhawulezayo Abathethi abaninzi

I-encoder eguqukayo elawulwa ngokuzenzekelayo enemfundo echaphazelayo yesiphelo-se-siphelo sombhalo-ukuthetha.

I-Fixed · 1GB VRAM Zama kwakhona

MeloTTS

I-CPU-ilungelelaniswe kakuhle Iilwimi ezininzi IsiNgesi-C Uluhlu lweeNkqubo Ixesha lokuphuma eliphantsi

Umbhalo ophezulu ephepheni ovela kwiilwimi ezininzi usuka kumazwi osebenza kwi CPU ngexesha elifutshane lokulibazisa.

I-Fixed · 0.5GB (GPU optional) VRAM Zama kwakhona

Bark

Iziphumo zesandi Uxolo/uxolo olukhulu Uhlobo lwengoma Abathethi abangaphezu kwe-100 Ulwimi oluninzi

Imodeli yombhalo-ukuya-kwisandi esekelwe kwi-transformer evelisa ukuthetha okunyanisekileyo, umculo, kunye neziphumo zesandi.

Ekhawulezayo · 5GB VRAM Zama kwakhona

Bark Small

Iinkcukacha Ikhawuleza kune-Bark epheleleyo Ukuthetha ngokuzithandela Iilwimi ezininzi

Uguqulelo olusezantsi lwe Bark olunolwazi olukhawulezayo nokusetyenziswa okuphantsi kovimba wolwazi.

I-Medium · 2GB VRAM Zama kwakhona

CosyVoice 2

Unikezelo Uklonelo lwe-zero-shot Iilwimi eziliqela Ulawulo lweemvakalelo I-Human-parity

I-Alibaba's scalable streaming TTS ene-human-parity naturalness kunye ne-zero-near latency.

Dia TTS

Umthumeli-woninzi Ukwenziwa kwencoko yababini Ukujika okuqhelekileyo Ukubonisa iimvakalelo Iiparamitha ze-1.6B

Imodeli yokudala ingxoxo yomthumeli-omninzi eyenza ingxoxo eqhelekileyo phakathi kwamathumeli.

Parler TTS

Inkcazelo yeSandi Ulawulo lweelwimi zobuqu Ukwenza ilizwi elilula Akukho lizwi elimiselweyo elifunekayo

Ichaza ilizwi ofuna ngayo kwilwimi oluqhelekileyo kwaye i-Parler ivelise ukuthetha okuhambelanayo.

Indic Parler TTS

Iilwimi zaseIndiya Inkcazelo yeSandi Ulawulo lweelwimi zobuqu IsiXhosa

Ukuthetha omgangatho ophezulu kwiilwimi ezingaphezu kwe8 zesi-Indian ngolawulo lwelizwi le-language eqhelekileyo.

Ekhawulezayo · 8GB VRAM Zama kwakhona

KhanomTan TTS

Thai TTS Abathethi abaninzi Uyilo lwe YourTTS Ilayisensi ekhuselekileyo yezorhwebo

Umbhalo-usuka-kwi-Thai-kuqala-usuka-ku-ukuthetha nokhetho lweelizwi lomthumeli.

I-Fixed · 2GB VRAM Zama kwakhona

IndexTTS-2

Ulawulo lweemvakalelo I-Zero-shot Ii-Vectors zeMvakalelo Ukuthetha okuchazayo Ulawulo olunogranule encinci

I-TTS engapheliyo ene-fine-grained emotional control kunye nokubonisa okuphezulu.

Spark TTS

Ukuphinda usebenzise ilizwi Ulawulo lweemvakalelo Ulawulo lwesimbo I-Prompt-based 5- imizuzwana yokuklona

Uklone lwelizwi le TTS ngeemvakalelo ezilawulwayo kunye nesitayile sokuthetha ngeempendulo.

GPT-SoVITS

5- imizuzwana yokuklona Ilizwi elidlalayo Ukufunda ngemizuzwana embalwa Ukuthembeka okuphezulu Iilwimi eziliqela

Ilizwi elincinci-eliqhutywa lokuklonya i-TTS ephindayo nayiphi na ilizwi ukusuka kwimizuzu emihlanu kuphela yesandi.

Ekhawulezayo · 6GB VRAM Zama kwakhona

Orpheus

Umgangatho wengqondo yomuntu 100K iiyure zoqeqesho Ukubeka ingqalelo ngokwendalo Ukuthetha okuchazayo

Imodeli ye-TTS evakalelwa ngamandla enqanaba lomuntu eqeqeshwe kwi-100K yeeyure zedatha yokuthetha.

Chatterbox

Uklonelo lwe-zero-shot Ulawulo lweemvakalelo Ukuthembeka okuphezulu Unikezelo lwesimbo Uklonelo lwesampuli enye

Uhlobo olutsha lwesandi esingena-nto esifana nesandi esilawulwa ngumnqweno ovela kwiResemble AI.

Tortoise TTS

Ubunjani obuphezulu kakhulu Ilizwi elininzi Uyilo lweDALL-E Ukuphinda usebenzise ilizwi Ukuphinda-phinda okuzenzekelayo

Umbhalo-ukuthetha-ngezwi oluninzi olujolise kwixabiso kunye noyilo oluya ezantsi ngokuzenzekelayo.

Ekhawulezayo · 8GB VRAM Zama kwakhona

StyleTTS 2

Umphakamo woMntu Uhlobo lokusasaza Uqeqesho oluchaphazela Utshintsho oluqhelekileyo Ukuthembeka okuphezulu

Umgangatho womntu-umbhalo-ukuthetha-ukuthetha ngokusasaza isimbo kunye noqeqesho oluchaseneyo.

OpenVoice

Uklonelo olukhawulezayo Uguqulelo lwesandi Ulawulo lweemvakalelo Ulawulo lwe-Accent Ulwimi oluninzi

Uklonelo lwesandi olukhawulezayo nolawulo oluthe kratya kwindlela, imvakalelo, nesiqhelo.

Qwen3 TTS

9 ilizwi elichaziweyo phambi koshicilelo Uyilo lwesandi ukusuka kumbhalo Ulawulo lweemvakalelo Iilwimi

I-Alibaba's multilingual TTS eneelizwi ezimiselweyo kunye noyilo lwelizwi ukusuka kumbhalo.

I-Medium · 7GB VRAM Zama kwakhona

VieNeu-TTS-v2

7 ilizwi elimiselweyo ngaphambili (Mntla + Umzantsi izikhankanyi) En-Vi code-switching Ukuklona kwelizwi (3-5s ubhekiso) Inkxaso yepodcast / yomthumeli-omninzi CPU- kuphela — akukho GPU ifunekayo

Name=IsiVietnamese + isiNgesi ikhowudi- yokutshintshela i TTS ngeelizwi ezimiselweyo ezisi-7 nelo lizwi elilinganayo. CPU kuphela, akukho GPU ifunekayo. Name

I-Fixed · CPU VRAM Zama kwakhona

Sesame CSM

Incoko Ixesha eliqhelekileyo Ukujika Isiqhagamshelanisi esezantsi Iiparamitha ze-1B

Imodeli yokuthetha-thethana eyenza unxibelelwano oluqhelekileyo ngexesha elifanelekileyo kunye nengqondo.

Ekhawulezayo · 8GB VRAM Zama kwakhona

Chatterbox Turbo

I-Sub-200ms latency Iimpawu ze-Paralinguistic 6x ixesha elikhoyo Ukuphinda usebenzise ilizwi Uphawu lwamanzi

Ibhokisi yencoko yababini ekhawulezayo ene sub-200ms latency kunye nee-tags zeparalinguistic zoluvo, ukuphefumla, kunye nezinye izinto.

I-Fixed · 2GB VRAM Zama kwakhona

VoxCPM

44.1kHz enesandi I-Tokenizer-free Uhlobo olufanayo I-Context-aware I-LoRA ye-fine-tuning

I-Tokenizer-free TTS ivelisa i-44.1kHz yesandi ngemeko-bume eyaziyo iparagraph consistency.

I-Fixed · 4GB VRAM Zama kwakhona

Kani TTS 2

3GB VRAM Ekhawulezayo kakhulu Ii-Lightweight I-NanoCodec Iinketho zelizwe

Imodeli ye-400M yesiNgesi ye-TTS elula kakhulu esebenza kwi-3GB VRAM kuphela.

I-Fixed · 3GB VRAM Zama kwakhona

OuteTTS

CPU inference Uvavanyo lwesiKhangeli Iindawo ezimva ezininzi Iiprofayili zomthumeli

I-LLM-based TTS esebenza kwi-CPU, GPU, okanye kwi-browser nge-lama.cpp ne-Transformers.js.

Ekhawulezayo · 2GB VRAM Zama kwakhona

VibeVoice

Umthumeli-woninzi Iiyure/ Imizuzu Uhlobo lwepodcast Umgangatho womthumeli 200ms unikezelo

Imodeli ye-Microsoft yezinto eziqulethe i-multi-speaker ezifana nepodcasts kunye neencwadi zesandi.

I-Fixed · 4GB VRAM Zama kwakhona

Pocket TTS

Iiparamitha ze-100M CPU inference Ukuphinda usebenzise ilizwi Ukuklona kwesampuli enye Ilungile- kumda

Imodeli elula yeparamitha ye-100M ye-Kyutai enesandi esifana nesona esivela kwisikhokelo esifanayo.

I-Fixed · 1GB VRAM Zama kwakhona

Kitten TTS

CPU- kuphela inference Ubungakanani bemodeli ngaphantsi kwe-80MB 8 ilizwi elingenanto Ulawulo lwesantya ONNX- esekelwe Imveliso

I-TTS encinci kakhulu ngaphantsi kwe-80MB. Isebenza kwi-CPU ngaphandle kwe-GPU.

I-Fixed · 0GB VRAM Zama kwakhona

CosyVoice3

Unikezelo olubini Ulawulo lweemvakalelo Ukuphinda usebenzise ilizwi Ulawulo lwesantya/volumu Umthetho olandelayo

Uhlobo olulandelayo lwe-TTS olunolwazi oluninzi olunokuhamba-hamba, ulawulo lweemvakalelo, kunye nokuklonywa kwelizwi elingekhoyo.

I-Fixed · 4GB VRAM Zama kwakhona

NAMAA Saudi TTS

IsiArabhu seSaudi I-Arabic Eqhelekileyo Yexesha Elitsha Uklonelo lwesandi olungena-nto Ulawulo lweemvakalelo Isivakalisi sendawo

I-TTS yokuqala evulekileyo ye-Saudi-Arabic. I-Saudi yendawo engqongileyo enesandi se-Chatterbox-quality cloning.

I-Medium · 6GB VRAM Zama kwakhona

Darwin TTS

Ukuphinda usebenzise ilizwi Iilwimi eziliqela FFN-Idityanisiwe 4 iilwimi zesiseko Qwen3 backbone

I-Qwen3-TTS efana ne-cross-modal ene-FFN weights edityaniswa kwi-Qwen3-1.7B imodeli ye-language ye-multilingual cloning ecacileyo.

I-Medium · 7GB VRAM Zama kwakhona

MOSS-TTSD

Incoko yababini yomthumeli-omninzi Ii-speakers ezili-5 60min coherent audio Ukuphinda usebenzise ilizwi Ukwenza i-Podcast isebenze kakuhle

Imodeli yoqhubekeko lwencoko yababini yomthumeli-ninzi — yenza i-podcast-style conversations nge-5 speakers kunye nemizuzu engama-60 yesandi esihambelanayo.

I-Medium · 12GB VRAM Zama kwakhona

Ming-Omni TTS

Imveliso Ukuphinda usebenzise ilizwi Ulawulo lweemvakalelo Ulawulo lwe-Dialect Uhlobo lwe-BGM Icompact 0. 5B

Imodeli yokuthetha elula ye-0.5B esebenzisa i-omni-modal evela kwi-inclusionAI enemveliso ethembekileyo ye-44.1kHz kunye nokuphinda-phinda kwelizwi elingekhoyo.

I-Medium · 3GB VRAM Zama kwakhona

MOSS-TTS Nano