Free AI Tọghata ngwe ka ọsụsọ

82M paramita Ónyénwē Ụda ndị na-akọwa Asụsụ ndị ọzọ Nnyemaka nbudata

Lightweight 82M parameter model delivering studio-quality speech with blazing-fast inference.

Nhazi · 1.5GB VRAM Jiri ya

Piper

CPU-friendly Òfè 100+ ụda Asụsụ 35+ Nnyemaka SSML

Nhazi ngwe na-atụgharị n'ime okwu nke dị n'ime ala nke a rụpụtara maka Raspberry Pi nakwa ngwaọrụ ndị e hiwere.

Nhazi · 0 (CPU only) VRAM Jiri ya

VITS

Nhazi nkenke Nhazi ụghasị Nkọwa n'ụzọ nkịtị Ndịna ndịna

Nhazi-nhazi nkeonwe na-amụta maka ngwe-ka-asụsụ nkeonwe.

Nhazi · 1GB VRAM Jiri ya

MeloTTS

CPU-ónyénwē Asụsụ ndị ọzọ Asụsụ ndị ọzọ Nhazi-nhazi Latentị ala

Nhazi ngwe-ka-asụsụ dị elu na-arụ ọrụ na CPU na-enweghị mmechi.

Nhazi · 0.5GB (GPU optional) VRAM Jiri ya

Bark

Nhazi ụda Na-anụ ọkụ n'obi/na-asị ụjọ Kewapụta egwu 100+ ndịna-ekwuo Asụsụ ndị ọzọ

Transform-based text-to-audio model nke na-emepụta okwu, egwu, na mmetụta ụda.

Ónyénwē · 5GB VRAM Jiri ya

Bark Small

Nnukwuogbe N'ụzọ nkịtị Asụsụ na-atọ ụtọ Asụsụ ndị ọzọ

Ụdị dị n'okpuru nke Bark na-eji nghọta dị n'okpuru.

M_edia · 2GB VRAM Jiri ya

CosyVoice 2

Nhazi Zọro-shot Cloning Cross-Language Nlekọta mmem Human-parity

Alibaba's scalable streaming TTS na human-parity naturalness na nso-zero latency.

Dia TTS

Mọlti-ọsụsọ Nhazi dayalọ́ọ̀gụ̀ Nhazi-nhazi Nkọwa n'ime uche 1.6B paramita

Multi-speaker dialog generation model nke na-emepụta nchọgharị n'etiti ndị na-ekwu okwu.

Parler TTS

Nkọwa ụda Nhazi asụsụ nkeonwe Kewapụta ụda na-agbanwe agbanwe Enweghị ụda ọfụụ achọrọ

Depụta ụda ịchọrọ n'asụsụ na-emeghị n'aka na Parler ga-eweta ụda dị n'otu.

Indic Parler TTS

Asụsụ ndị India Ndesịta okwu Nhazi asụsụ Authentic Indian pronunciation

Nsụgharị nke asụsụ Igbo na-asụgharị site na asụsụ Igbo na-asụgharị site na asụsụ Igbo.

Ónyénwē · 8GB VRAM Jiri ya

KhanomTan TTS

Thai TTS Ndịna ndịna YourTTS architecture Commercial-safe license

Thai-first text-to-speech na nhọrọ nke ụda ndị na-ekwu okwu.

Nhazi · 2GB VRAM Jiri ya

IndexTTS-2

Nhazi ụghaasị Zọro-shot Emōzí vékìtàlụ̀ Asụsụ na-egosi Nlekọta ọfụụ-ọfụụ

Zero-shot TTS na-ejikwa mmetụta uche nke dị mma nakwa n'ụzọ dị elu.

Spark TTS

Nhazi ụda Nlekọta mmem Nhazi ụcha N'okpuru 5-sekọnd Klónị

Klọnaịsị ụda TTS n'ụdị ụda na-achịkwa ya nakwa n'ụdị okwu site n'ịjụjụ.

GPT-SoVITS

5-sekọnd Klónị Oji nke ọbụna Nkụzi nke obere-shot N'elu Cross-language

Few-shot ụda na-ebuli TTS nke na-ebuli ụda ọbụla site na sekọnd 5 nke ụda.

Ónyénwē · 6GB VRAM Jiri ya

Orpheus

Ndụmọdụ 100K awa nkuzi Nkọwa naịraịl Asụsụ na-egosi

Human-level emotional TTS model trained on 100K hours of speech data.

Chatterbox

Zọro-shot Cloning Nhazi ụghaasị N'elu Ntụgharị ụcha Klọọ̀nụ̀tụ̀ sáà ọfụụ

State-of-the-art zero-shot ụda ịkọsa na nchịkwa mmetụta site na Resemble AI.

Tortoise TTS

Nhazi dị elu Òtù DALL-E architecture Nhazi ụda Ótùótù

Multi-voice text-to-speech na-atụle na mma na-eji autoregressive architecture.

Ónyénwē · 8GB VRAM Jiri ya

StyleTTS 2

Nhazi Ụdị ntụgharị Ọzụzụ ọgụ Nhazi N'elu

Nhazi ngwe-ka-asụsụ n'ụdị mmadụ site n'ịgbakọ na ịzụlite.

OpenVoice

Klọ́nọ́ọ̀tụ̀ọ̀ Ntụgharị ụda Nhazi ụghaasị Nhazi aịkọn Asụsụ ndị ọzọ

Nkwado ụda na-akpaghị aka na nlekọta n'elu ụdị, mmetụta, nakwa ntụgharị.

Qwen3 TTS

9 ụda ndị ahụ e kpebisiri ike Nhazi ụda site na ngwe Nhazi ụghaasị Asụsụ ndị ọzọ

Alibaba's multilingual TTS na preset ụda na ụda nhazi site na ngwe.

M_edia · 7GB VRAM Jiri ya

VieNeu-TTS-v2

7 presets ụda (North + South accents) En-Vi kood-switching Klọnsị ụda (3-5s reference) Podcast / nkwado maka ndịna-ekwuo CPU-ọbụla - enweghị GPU achọrọ

Vietnamese + English kood-swap TTS na ụda 7 preset na ụda nke na-agaghị adọta. CPU-ọbụla, GPU ọbụla chọrọ.

Nhazi · CPU VRAM Jiri ya

Sesame CSM

Nkata Nhazi oge Ntụgharị Backchannel 1B paramita

N'ihe banyere okwu, ọ bụ ihe na-eme ka okwu na-atọ ụtọ ma na-atọ ụtọ.

Ónyénwē · 8GB VRAM Jiri ya

Chatterbox Turbo

Sub-200ms latency Paralinguistic tags 6x oge-obere Nhazi ụda Ụcha mmiri

Chatterbox n'ụzọ nkịtị na sub-200ms latency na paralinguistic tags maka nnụnụ, nkụda mmụọ, na ndị ọzọ.

Nhazi · 2GB VRAM Jiri ya

VoxCPM

44.1kHz ụda Tokenizer-free Cross-language cloning Nhazi-nhazi LoRA fine-tuning

Tokenizer-free TTS na-eweta 44.1kHz ụda na n'ozuzu ya na-aghọta paragraf.

Nhazi · 4GB VRAM Jiri ya

Kani TTS 2

3GB VRAM Ónyénwē Nnukwuogbe NanoCodec Free

Ultra-lightweight 400M English TTS model na-arụ ọrụ na 3GB VRAM.

Nhazi · 3GB VRAM Jiri ya

OuteTTS

CPU inference Nhazi nchọgharị Backends ndị ọzọ Ọrụ

LLM-n'okpuru TTS na-agbagharị na CPU, GPU, mọọbụ nchọgharị site na llama.cpp na Transformers.js.

Ónyénwē · 2GB VRAM Jiri ya

VibeVoice

Mọlti-ọsụsọ Ruo 90 nkeji Podcast mmegharị Nhazi nke onyeọsụsụ 200ms ntụgharị

Móòdù Microsoft maka ihenhọrọ ndị na-ekwusa ọtụtụ ihe dị ka podcasts na audiobooks.

Nhazi · 4GB VRAM Jiri ya

Pocket TTS

Paramita 100M CPU inference Nhazi ụda Klónọ̀ọ Nhazi

Lightweight 100M parameter model site na Kyutai na ụda na-ebuli site na saịmpọn.

Nhazi · 1GB VRAM Jiri ya

Kitten TTS

CPU-ọbụla inference N'okpuru 80MB nha móòdù 8 ụda ndị ahụ e hiwere Nhazi ọsọ ONNX-n'okpuru 24kHz ọbụna

Ultra-lightweight TTS n'okpuru 80MB. Na-arụ ọrụ na CPU na-enweghị GPU.

Nhazi · 0GB VRAM Jiri ya

CosyVoice3

Bi-streaming Nhazi ụghaasị Nhazi ụda Nhazi ọsọ/ọnụọgụgụ Ndụmọdụ na-esonụ

TTS nke nsụgharị ọzọ na-asụ asụsụ abụọ na bi-streaming, nlekọta mmetụta, nakwa ịkọgharị ụda nke enweghị ntọala.

Nhazi · 4GB VRAM Jiri ya

NAMAA Saudi TTS

Saudi Arabic Modern Standard Arabic Zọro-shot ụda igodo Nhazi ụghaasị Nsụgharị nkeonwe

Mepee TTS Saudi-Arabic mbụ. Naịlọn Saudi dialọg na-echekwa ụda Chatterbox-ọdịnaya.

M_edia · 6GB VRAM Jiri ya

Darwin TTS

Nhazi ụda Cross-language FFN-n'ogbe Asụsụ 4 Qwen3 backbone

Cross-modal Qwen3-TTS varians na FFN weights na-agbanye site na Qwen3-1.7B asụsụ model maka nsụgharị asụsụ dị iche iche dị ike.

M_edia · 7GB VRAM Jiri ya

MOSS-TTSD

Mọlti-ọsụsụ dailọọgụ Ruo 5 speakers 60min coherent ụda Nhazi ụda Podcast Optimisations

Multi-speaker dialog continuation model - mepụta podcast-style conversations na ruo 5 speakers na 60 nkeji nke coherent audio.

M_edia · 12GB VRAM Jiri ya

Ming-Omni TTS

44.1kHz ọbụna Nhazi ụda Nhazi ụghaasị Nhazi ngwe BGM nke a mepụtala N'ime

Compact 0.5B omni-modal okwu model site inclusionAI na elu-fidelity 44.1kHz output na zero-shot okwu cloning.

M_edia · 3GB VRAM Jiri ya

MOSS-TTS Nano