AI bebas Teks ke Tutur

Parameter 82M Ultra-cepat Suara ekspresif Berbilang Bahasa Sokongan Strim

Model parameter ringan 82M memberikan ucapan studio-kualiti dengan kesimpulan yang cepat.

Tetap · 1.5GB VRAM Cubalah.

Piper

CPU-friendly Boleh luar talian 100+ suara 35+ bahasa Sokongan SSML

Sistem teks-ke-tutur saraf setempat yang pantas dioptimumkan untuk Raspberry Pi dan peranti terbenam.

Tetap · 0 (CPU only) VRAM Cubalah.

VITS

Sintetik hujung-ke-hujung Prosody semulajadi Kesimpulan pantas Beberapa pengerak

Autoencoder varian bersyarat dengan pembelajaran berlawanan untuk teks-ke-tutur hujung-ke-hujung.

Tetap · 1GB VRAM Cubalah.

MeloTTS

Dioptimumkan CPU Berbilang Bahasa Aksen Berbilang Bersedia untuk pengeluaran Lentingan rendah

Teks-ke-tutur berbilang bahasa berkualiti tinggi yang berjalan pada CPU dengan latensi minimum.

Tetap · 0.5GB (GPU optional) VRAM Cubalah.

Bark

Kesan bunyi Ketawa/mendengus Penjanaan muzik 100+ pengerak Berbilang Bahasa

Model teks-ke-audio berasaskan Transformer yang menghasilkan ucapan, muzik, dan kesan bunyi yang realistik.

Perlahan · 5GB VRAM Cubalah.

Bark Small

Berat ringan Lebih pantas daripada Bark penuh Ucapan emosi Berbilang Bahasa

Versi ringan Bark dengan inferensi lebih pantas dan penggunaan memori yang lebih rendah.

Media · 2GB VRAM Cubalah.

CosyVoice 2

Streaming Kloning Zero-shot Lintas-bahasa Kawalan emosi Pariti-manusia

Alibaba's boleh skala streaming TTS dengan manusia-parit semula jadi dan latensi hampir-sifar.

Dia TTS

Penutur berbilang Penjanaan dialog Bertukar-tukar semulajadi Ungkapan emosi Parameter 1.6B

Model penjanaan dialog multi-pembesar yang mencipta perbualan semulajadi antara pembesar.

Parler TTS

Huraian Suara Kawalan bahasa semulajadi Penciptaan suara fleksibel Tiada suara praset diperlukan

Huraikan suara yang anda mahu dalam bahasa semulajadi dan Parler akan menghasilkan ucapan yang sepadan.

Indic Parler TTS

Bahasa India Huraian Suara Kawalan bahasa semulajadi Sebutan India Orginal

Perbualan berkualiti tinggi untuk 8+ bahasa India dengan kawalan suara bahasa semulajadi.

Perlahan · 8GB VRAM Cubalah.

KhanomTan TTS

Thai TTS Beberapa pengerak Arkitektur YourTTS Lesen selamat-komersial

Teks-ke-tutur Thai-pertama dengan pilihan suara pembicara.

Tetap · 2GB VRAM Cubalah.

IndexTTS-2

Kawalan emosi Zero-shot Vektor emosi Ucapan ekspresif Kawalan berbutir halus

Zero-shot TTS dengan kawalan emosi halus-grained dan ekspresi tinggi.

Spark TTS

Klon suara Kawalan emosi Kawalan Gaya Berdasarkan-Prompt Klon 5 saat

Klon suara TTS dengan emosi yang boleh dikawal dan gaya bercakap melalui prompt.

GPT-SoVITS

Klon 5 saat Suara menyanyi Belajar dengan sedikit tembakan Ketulenan tinggi Lintas-bahasa

Klon suara TTS yang meniru suara mana-mana dari hanya 5 saat audio.

Perlahan · 6GB VRAM Cubalah.

Orpheus

Emosi tahap manusia 100K jam latihan Penonjolan semulajadi Ucapan ekspresif

Model TTS emosi tahap manusia dilatih pada 100K jam data ucapan.

Chatterbox

Klon Sifar-tembak Kawalan emosi Ketulenan tinggi Pemindahan Gaya Klon sampel tunggal

Kloning suara yang canggih dengan kawalan emosi dari Resemble AI.

Tortoise TTS

Kualiti tertinggi Berbilang-suara Arkitektur DALL-E Klon suara Autoregressif

Teks-ke-tutur berbilang suara berfokus pada kualiti dengan arsitektur autoregressif.

Perlahan · 8GB VRAM Cubalah.

StyleTTS 2

Tahap manusia Gaya penyebaran Latihan lawan lawan Variasi semulajadi Ketulenan tinggi

Teks-ke-percakapan tahap manusia melalui penyebaran gaya dan latihan lawan.

OpenVoice

Klon Segera Penukaran suara Kawalan emosi Kawalan Aksen Berbilang Bahasa

Klon suara seketika dengan kawalan granular terhadap gaya, emosi, dan loghat.

Qwen3 TTS

9 suara praset Reka bentuk suara dari teks Kawalan emosi 10 bahasa

TTS multibahasa Alibaba dengan suara praset dan reka bentuk suara dari teks.

Media · 7GB VRAM Cubalah.

VieNeu-TTS-v2

7 suara praset (aksen Utara + Selatan) En-Vi kod-switch Klon suara (rujukan 3-5s) Sokongan Podcast / multi-pembesar suara CPU sahaja — tiada GPU diperlukan

TTS kod-tukar Vietnam + Inggeris dengan 7 suara praset dan klon suara sifar-tembak. CPU sahaja, tiada GPU diperlukan.

Tetap · CPU VRAM Cubalah.

Sesame CSM

Perbualan Tempoh semulajadi Bertukar-tukar Saluran Belakang Parameter 1B

Model percakapan perbualan menghasilkan dialog semula jadi dengan masa yang sesuai dan emosi.

Perlahan · 8GB VRAM Cubalah.

Chatterbox Turbo

Ketegangan Sub-200ms Tag Paralinguistik 6x masa nyata Klon suara Tanda air

Chatterbox yang lebih pantas dengan latensi sub-200ms dan tag paralinguistik untuk ketawa, batuk, dan lebih.

Tetap · 2GB VRAM Cubalah.

VoxCPM

Audio 44.1kHz Tokenizer-free Klon lintas-bahasa Konteks-sensitif Penyelarasan halus LoRA

TTS bebas tokenizer menghasilkan audio 44.1kHz dengan konsistensi perenggan kontekstual.

Tetap · 4GB VRAM Cubalah.

Kani TTS 2

3GB VRAM Ultra-cepat Berat ringan NanoCodec Bebas

Model TTS bahasa Inggeris 400M ultra-ringan berjalan dalam hanya 3GB VRAM.

Tetap · 3GB VRAM Cubalah.

OuteTTS

Kesimpulan CPU Kesimpulan pelayar Berbilang backend Profil Speaker

TTS berasaskan LLM yang berjalan pada CPU, GPU, atau pelayar melalui llama.cpp dan Transformers.js.

Perlahan · 2GB VRAM Cubalah.

VibeVoice

Penutur berbilang Hingga 90 min Penjanaan Podcast Keserasian Speaker 200ms strim

Model Microsoft untuk kandungan berbilang pembesar suara berbentuk panjang seperti podcast dan buku audio.

Tetap · 4GB VRAM Cubalah.

Pocket TTS

Parameter 100M Kesimpulan CPU Klon suara Klon sampel tunggal Sedia-Tepi

Model parameter ringan 100M oleh Kyutai dengan kloning suara dari satu sampel.

Tetap · 1GB VRAM Cubalah.

Kitten TTS

Kesimpulan CPU-sahaja Saiz model kurang daripada 80MB 8 suara tertanam Kawalan kelajuan Berdasarkan ONNX Output 24kHz

TTS ultra-ringan di bawah 80MB. Dijalankan pada CPU tanpa GPU.

Tetap · 0GB VRAM Cubalah.

CosyVoice3

Bi-strim Kawalan emosi Klon suara Kawalan kelajuan/volume Instruksi berikut

TTS multibahasa generasi seterusnya dengan bi-streaming, kawalan emosi, dan klon suara sifar-tembak.

Tetap · 4GB VRAM Cubalah.

NAMAA Saudi TTS

Dialek Arab Saudi Arab Standard Moden Klon suara sifar-tembak Kawalan emosi Huruf

TTS Arab Saudi terbuka pertama. Dialek Arab Saudi asli dengan klon suara kualiti Chatterbox.

Media · 6GB VRAM Cubalah.

Darwin TTS

Klon suara Lintas-bahasa FFN-campuran 4 bahasa utama Punggung belakang Qwen3

Varian cross-modal Qwen3-TTS dengan berat FFN dicampur dari model bahasa Qwen3-1.7B untuk klon multibahasa yang lebih tajam.

Media · 7GB VRAM Cubalah.

MOSS-TTSD

Dialog multi-pembesar suara Sehingga 5 pengeras 60min audio koheren Klon suara Optimisasi Podcast

Model sambungan dialog pembicara berbilang — cipta perbualan gaya podcast dengan sehingga 5 pembicara dan 60 minit audio koheren.

Media · 12GB VRAM Cubalah.

Ming-Omni TTS

Output 44.1kHz Klon suara Kawalan emosi Kawalan Dialek Penjanaan BGM Kompakt 0.5B

Model ucapan omni-modal 0.5B dari inclusionAI dengan output 44.1kHz yang tinggi dan kloning suara sifar-tembak.

Media · 3GB VRAM Cubalah.

MOSS-TTS Nano