I-AI ekhululekile Umbhalo usuka kumazwi

82M parameters Qhubeka kakhulu Izizwi ezichazayo Izilimi eziningi Usizo lokusakaza

Imodeli elula yepharamitha engu-82M ehlinzeka ngolimi olusezingeni le-studio nge-inference esheshayo.

Isheshayo · 1.5GB VRAM Zama

Piper

CPU-friendly Isebenza ngaphandle kwenethiwekhi Izizwi ezingaphezu kuka-100 Izilimi ezingaphezu kuka-35 Inkxaso ye-SSML

I-neural text to speech system ehamba ngokushesha, etholakala endaweni elungele i-Raspberry Pi nezisetshenziswa ezifakwe ngaphakathi.

Isheshayo · 0 (CPU only) VRAM Zama

VITS

Isingeniso esingenaso isiphelo I-prosodia ejwayelekile Ukubikezela okukhawulelwe Abakhulumayo abaningi

I-conditional variation autoencoder ene-adversarial learning ye-end-to-end text-to-speech.

Isheshayo · 1GB VRAM Zama

MeloTTS

CPU-optimized Izilimi eziningi Isi-Latin Ukukhiqizwa-kulungile Latency ephansi

Umbhalo osezingeni eliphakeme okhuluma izilimi eziningi osebenza ku-CPU ngesikhathi esincane.

Isheshayo · 0.5GB (GPU optional) VRAM Zama

Bark

Izinhlamvu zomsindo Ukuhlukumeza/ukuphuza Ukukhishwa komculo Abakhuluma ngo-100+ Izilimi eziningi

Imodeli yokubhala-kuya-kwesandi esekelwe ku-transformer ekhiqiza amagama acacile, umculo, kanye nemiphumela yomsindo.

Ephansi · 5GB VRAM Zama

Bark Small

Isisindo esincane Ihamba ngokushesha kune-Bark egcwele Ukukhuluma okunengqondo Izilimi eziningi

Uhlobo oluncane lwe-Bark olunezincazelo ezisheshayo nokusetshenziswa okuphansi kwememori.

Isizinda · 2GB VRAM Zama

CosyVoice 2

Ukusakazwa Ukuklona okungenalutho Isilimi esihlukene Ukulawula imizwa I-human-parity

I-Alibaba's scalable streaming TTS ne-human-parity naturalness ne-near-zero latency.

Dia TTS

Isikhulumi esiningi Ukukhiqizwa kwebhokisi lenkulumo Ukushintsha-shintsha okujwayelekile Ukubonisa imizwa Amapharamitha we-1.6B

Imodeli yokukhiqiza umsindo oningi owenza ukuxhumana okujwayelekile phakathi kwama-speakers.

Parler TTS

Incazelo yomsindo Ukulawula ulwimi olujwayelekile Ukwakha umsindo osheshayo Akunamagama asethelwe ngaphambili adingekayo

Sichaza umsindo ofuna ngesilimi esijwayelekile futhi i-Parler ikhiqiza umsindo olinganayo.

Indic Parler TTS

Izilimi zase-India Ulwaziso lwezwi Ukulawula ulwimi olujwayelekile Isi-Indian Authentic

Ukukhuluma okusezingeni eliphakeme ku-8+ izilimi zase-India ngokulawula umsindo wesilimi esijwayelekile.

Ephansi · 8GB VRAM Zama

KhanomTan TTS

isi-Thai TTS Abakhulumayo abaningi I-YourTTS architecture Ilayisense ephephile yebhizinisi

Umbhalo-ku-ukukhuluma okuqala wase-Thai nokukhetha kwamazwi okhuluma.

Isheshayo · 2GB VRAM Zama

IndexTTS-2

Ukulawula imizwa I-zero-shot I-emotions vector Ulimi oluchazayo Ukulawula okuncane

I-TTS engekho emthethweni ene-fine-grained emotional control ne-high expressionality.

Spark TTS

Ukuklona umsindo Ukulawula imizwa Ukulawula isitayela Isekelwe ku-prompt Ukuklona kwesekondi ezingu-5

Uhlu lwezwi lokuklonya i-TTS nge-emoji elawulwayo nesimo sokukhuluma nge-prompts.

GPT-SoVITS

Ukuklona kwesekondi ezingu-5 Umsindo wokuzivocavoca Ukufunda okuncane Ikhwalithi ephezulu Isilimi esihlukene

Uhlu lwezwi lokuklonya TTS oluncane oluphindayo noma yiluphi ulwimi kusuka kumasekondi angama-5 kuphela wesandi.

Ephansi · 6GB VRAM Zama

Orpheus

Umbono womuntu 100K amahora okuqeqeshwa Ukugcizelela okujwayelekile Ukukhuluma okuzwakalayo

Imodeli ye-TTS enamandla okuqonda esezingeni lomuntu eqeqeshiwe ngehora le-100K ledatha yokukhuluma.

Chatterbox

Ukuklona okungenalutho Ukulawula imizwa Ikhwalithi ephezulu Ukudluliswa kwesimo Ukuklona isampula eyodwa

Uhlelo olusha lokuklonya umsindo olungenalutho olune-emotion control oluvela ku-Resemble AI.

Tortoise TTS

Ubunjani obuphezulu kakhulu Umsindo oningi DALL-E architecture Ukuklona umsindo Ukubuyela emuva okuzenzakalelayo

Umbhalo-ku-ukukhuluma okhuluma ngezilimi eziningi obhekene nekhwalithi ngesakhiwo esibuyela emuva.

Ephansi · 8GB VRAM Zama

StyleTTS 2

Izinga lomuntu Isitayela sokusabalalisa Ukuqeqeshwa kokulwa Ukuhluka okujwayelekile Ikhwalithi ephezulu

Uhlelo lokuhlela amagama ngokuya ngesimo sengqondo somuntu kanye noqeqesho oluphikisanayo.

OpenVoice

Uklonyeliswa okuzenzakalelayo Ukushintsha umsindo Ukulawula imizwa Ukulawula isici Izilimi eziningi

Ukuklonya umsindo ngokuzenzakalela ngokulawula okuqinile ngesitayela, inkanuko, nesimo.

Qwen3 TTS

Izizwi ezisetshenzisiwe ezingu-9 Uhlelo lwezwi kusuka kumbhalo Ukulawula imizwa Izilimi

I-Alibaba's multilingual TTS enezinhlamvu ezisetshenzisiwe kanye nobuciko bezinhlamvu kusuka kumbhalo.

Isizinda · 7GB VRAM Zama

VieNeu-TTS-v2

7 amazwi asethelwe ngaphambili (Ntshonalanga + Umfula) En-Vi code-switching Ukuklonya umsindo (3-5s ubufakazi) Ukuxhaswa kwepodcast / isikhulumi esiningi CPU kuphela — akukho GPU edingekayo

I-Vietnam + isiNgisi sokuguqulela ikhodi TTS ngemisindo emi-7 esethelwe ngaphambili ne-zero-shot voice cloning. CPU kuphela, akukho GPU edingekayo.

Isheshayo · CPU VRAM Zama

Sesame CSM

Ukuxhumana Isikhathi esijwayelekile Ukushintsha-shintsha Isixhumanisi esingaphambili Amapharamitha we-1B

Imodeli yokukhuluma ekhuluma ngokuzimela ekhiqiza ukuxhumana okujwayelekile ngesikhathi esifanele kanye nemizwa.

Ephansi · 8GB VRAM Zama

Chatterbox Turbo

Isikhathi sokuzimela esingaphansi kuka-200ms Isihloko 1 6x isikhathi sangempela Ukuklona umsindo Uphawu lwamanzi

Ibhokisi lokuxoxa elisheshayo ne-sub-200ms latency kanye namathegi e-paralinguistic alula, aphuzi, nezinye izinto.

Isheshayo · 2GB VRAM Zama

VoxCPM

Umsindo I-Tokenizer-free Ukuklonya ulwimi olunolimi oluningi Izinga-lesimo Ukulungiswa kwe-LoRA

I-Tokenizer-free TTS ekhiqiza umsindo we-44.1kHz nge-context-aware paragraph consistency.

Isheshayo · 4GB VRAM Zama

Kani TTS 2

3GB VRAM Qhubeka kakhulu Isisindo esincane I-NanoCodec Ikhululekile

Imodeli ye-Ultra-lightweight 400M English TTS esebenza kuphela ku-3GB VRAM.

Isheshayo · 3GB VRAM Zama

OuteTTS

Ukubikezela kwe-CPU Isiphequluli sokuzibandakanya Izinsiza ezimqoka eziningi Amaprofayili omsindo

I-LLM-based TTS esebenza ku-CPU, GPU, noma isiphequluli nge-lama.cpp ne-Transformers.js.

Ephansi · 2GB VRAM Zama

VibeVoice

Isikhulumi esiningi Iminithi engu-90 Ukukhishwa kwepodcast Ukuhambisana komsindo 200ms ukusakazwa

Imodeli ye-Microsoft yezinhlayiyana ze-multi-speaker ezinde njenge-podcasts ne-audiobooks.

Isheshayo · 4GB VRAM Zama

Pocket TTS

Amapharamitha angama-100M Ukubikezela kwe-CPU Ukuklona umsindo Ukuklona kwesampula eyodwa Ilungele isiphetho

Imodeli elula ye-100M parameter eyenziwe ngu-Kyutai ngezwi lokuklonya kusuka kusampula eyodwa.

Isheshayo · 1GB VRAM Zama

Kitten TTS

Ukubikezela kwe-CPU kuphela Kungaphansi kuka-80MB ubukhulu bemodeli 8 imisindo efakwe ngaphakathi Ukulawula isivinini ONNX-based 24kHz output

I-TTS elula kakhulu ngaphansi kwe-80MB. Isebenza ku-CPU ngaphandle kwe-GPU.

Isheshayo · 0GB VRAM Zama

CosyVoice3

Ukulungiswa kwe-bi-stream Ukulawula imizwa Ukuklona umsindo Ukulawula isivinini/isivolumu Uhlelo olulandelayo

Isigaba esilandelayo se-TTS esikhuluma izilimi eziningi esisebenzisa i-bi-streaming, ukulawula imizwa, kanye nokuklonya umsindo ongekho emthethweni.

Isheshayo · 4GB VRAM Zama

NAMAA Saudi TTS

isi-Arabhu se-Saudi isi-Arabic esijwayelekile esimanje Ukuklona umsindo ongekho emthethweni Ukulawula imizwa IsiZulu

I-TTS yokuqala evulekile yase-Saudi-Arabic. I-Saudi dialect ejwayelekile ne-Chatterbox-quality voice cloning.

Isizinda · 6GB VRAM Zama

Darwin TTS

Ukuklona umsindo Isilimi esihlukene FFN-exhunywe Izilimi ezingu-4 eziyinhloko Qwen3 backbone

I-cross-modal Qwen3-TTS ehlukile ngesisindo se-FFN esixutshwe kusuka ku-Qwen3-1.7B imodeli yesilimi sokwenza okufanayo ngemithombo eminingi.

Isizinda · 7GB VRAM Zama

MOSS-TTSD

Izingxoxo zomsindo-omningi Kuze kube ngama-speakers angama-5 60min coherent audio Ukuklona umsindo Ukuthuthukiswa kwepodcast

Imodeli yokuqhubeka kwengxoxo yezinhlamvu eziningi — yenza ingxoxo yohlobo lwepodcast ngezinhlamvu ezingu-5 namaminithi angama-60 esandi esihambisanayo.

Isizinda · 12GB VRAM Zama

Ming-Omni TTS

I-44.1kHz output Ukuklona umsindo Ukulawula imizwa Ukulawula isilimi Ukukhiqizwa kwe-BGM I compact 0.5B

Imodeli yokukhuluma elula ye-0.5B omni-modal evela ku-inclusionAI ene-high-fidelity 44.1kHz output kanye noklonyeliswa kwezwi lokushaya-isibalo.

Isizinda · 3GB VRAM Zama

MOSS-TTS Nano