Gratis AI Teks ke Pidato

Parameter 82M Ultra-cepat. Suara ekspresif Multibahasa Dukungan streaming

Model parameter 82M ringan memberikan pidato kualitas studio dengan inferensi cepat menyala.

Cepat · 1.5GB VRAM Cobalah

Piper

Friendly CPU Mampu offline 100+ suara 35+ bahasa Dukungan SSML

Teks saraf lokal yang cepat, ke sistem pidato yang dioptimalkan untuk Raspberry Pi dan perangkat yang tertanam.

Cepat · 0 (CPU only) VRAM Cobalah

VITS

Sintesis Akhir-ke-akhir Prosody alami Inferensi cepat Speaker berganda

Variasi kondisional autoencoder dengan adversarial belajar untuk akhir-to-end teks-to-peech.

Cepat · 1GB VRAM Cobalah

MeloTTS

CPU-optimasi Multibahasa Beberapa aksen Produksi-siap Latensi rendah

Kualitas tinggi multibahasa teks-ke-peech yang berjalan pada CPU dengan latensi minimal.

Cepat · 0.5GB (GPU optional) VRAM Cobalah

Bark

Efek suara Tertawa/berat Generasi musik 100+ speaker Multibahasa

Model teks berbasis Transformer-to-audio yang menghasilkan pidato, musik, dan efek suara yang realistis.

Lambat · 5GB VRAM Cobalah

Bark Small

Ringanweather forecast Lebih cepat dari Bark penuh Tutur Kata Emosi Multibahasa

Lighter versi Bark dengan inferensi yang lebih cepat dan penggunaan memori yang lebih rendah.

Sedang · 2GB VRAM Cobalah

CosyVoice 2

Streaming Kloning Zero-shot Cross-bahasa Kontrol emosi Perpajakan manusia

TTS bersisik Aliba dengan sifat alami manusia dan latensi dekat nol.

Dia TTS

Multi-speaker Generasi Dialog Melakukan perubahan yang alami. Ekspresi emosional 1.6B parameter

Model dialog multi pembicara yang menciptakan percakapan alami antara pembicara.

Parler TTS

Deskripsi suara Kontrol bahasa alami Pembuatan suara fleksibel Tidak perlu suara preset

Gambarkan suara yang Anda inginkan dalam bahasa alami dan Parler menghasilkan pidato yang cocok.

Indic Parler TTS

11 bahasa India Deskripsi suara Kontrol bahasa alami Pengucapan Indik Autentik

Pidato berkualitas tinggi untuk 8+ bahasa India dengan kontrol suara bahasa alami.

Lambat · 8GB VRAM Cobalah

KhanomTan TTS

TTS Thailand Speaker berganda Arsitektur YourTTS Lisensi komersil-aman

Thai-pertama teks-to-peech dengan pilihan suara speaker.

Cepat · 2GB VRAM Cobalah

IndexTTS-2

Kontrol emosi Zero-shot Vektor Emosi Tutur kata yang ekspresif Kontrol yang baik.

Nol-shot TTS dengan kontrol emosi halus dan ekspresif tinggi.

Spark TTS

Penklonan Suara Kontrol emosi Kendali gaya Prompt-based Kloning 5-detik

Suara kloning TTS dengan emosi terkendali dan berbicara gaya melalui prompt.

GPT-SoVITS

Kloning 5-detik Bernyanyi suara Beberapa tembakan pembelajaran Kesetian yang tinggi Cross-bahasa

Beberapa kali kloning suara TTS yang mereplikasi suara hanya dari 5 detik audio.

Lambat · 6GB VRAM Cobalah

Orpheus

Emosi tingkat manusia Pelatihan 100K jam Perluasan alami Tutur kata yang ekspresif

Model TTS emosional tingkat manusia dilatih pada 100K jam dari data pidato.

Chatterbox

Kloning Zero-shot Kontrol emosi Kesetian yang tinggi Transfer gaya Satu sampel kloning

State-of-the-art zero-shot voice kloning dengan kontrol emosi dari Resemble AI.

Tortoise TTS

Kualitas tertinggi Multi-voice Arsitektur DALL-E Penklonan Suara Autoregresif

Speech teks multi-voice difokuskan pada kualitas dengan arsitektur autoregresif.

Lambat · 8GB VRAM Cobalah

StyleTTS 2

Tingkat manusia Difusi gaya Pelatihan media. Variasi alami Kesetian yang tinggi

Tingkat manusia teks-to-peech melalui gaya difusi dan pelatihan permusuhan.

OpenVoice

Kloning Instan Konversi suara Kontrol emosi Kontrol akses Multibahasa

Kloning suara instan dengan kontrol granular atas gaya, emosi, dan aksen.

Qwen3 TTS

9 suara preset Desain suara dari teks Kontrol emosi 10 bahasa

TTS multibahasa Aliba dengan suara dan desain suara dari teks.

Sedang · 7GB VRAM Cobalah

VieNeu-TTS-v2

7 suara preset (Aksen Utara + Selatan) Penggunaan kode En-Vi Kloning suara (referensi 3-5s) Podcast / dukungan multi-speaker CPU-only ° tidak dibutuhkan GPU

Vietnam + English code-switching TTS dengan 7 suara preset dan kloning suara nol-shot. CPU-only, tidak dibutuhkan GPU.

Cepat · CPU VRAM Cobalah

Sesame CSM

Percakapan Waktu yang wajar Turn-taking Backchannel parameter 1B

Model percakapan menghasilkan dialog alami dengan waktu yang tepat dan emosi.

Lambat · 8GB VRAM Cobalah

Chatterbox Turbo

Latensi Sub-200ms Tag paralinguistik 6x real-time Penklonan Suara Penandaan air

Lebih cepat Chatterbox dengan latensi sub-200ms dan tag paralinguistik untuk tertawa, batuk, dan banyak lagi.

Cepat · 2GB VRAM Cobalah

VoxCPM

Audio 44.1kHz Tokenizer-free Kloning lintas-bahasa Context-aware LoRA fine-tuning

TTS bebas tokenizer memproduksi audio 44.1kHz dengan konsistensi paragraf sadar konteks.

Cepat · 4GB VRAM Cobalah

Kani TTS 2

VRAM 3GB Ultra-cepat. Ringanweather forecast NanoCodec Bebas

Model Maksimal Ultra 400M English TTS berjalan hanya dalam 3GB VRAM.

Cepat · 3GB VRAM Cobalah

OuteTTS

Inferensi CPU Inferensi browser Beberapa backend Profil Speaker

TTS LLM berbasis yang berjalan pada CPU, GPU, atau peramban melalui llama.cpp dan Transformers.js.

Lambat · 2GB VRAM Cobalah

VibeVoice

Multi-speaker Sampai 90 menit Generasi Podcast Konsistensi Speaker 200ms streaming

Model Microsoft untuk konten multi pembicara bentuk panjang seperti podcast dan buku audio.

Cepat · 4GB VRAM Cobalah

Pocket TTS

Parameter 100M Inferensi CPU Penklonan Suara [ Gambar di hlm. Edge-siap

Model parameter 100M ringan oleh Kyutai dengan kloning suara dari sampel tunggal.

Cepat · 1GB VRAM Cobalah

Kitten TTS

Inferensi hanya- CPU Ukuran model 80MB 8 suara bawaan Kontrol kecepatan berbasis ONNX 24kHz keluaran

Ultra-lightweight TTS di bawah 80MB. dijalankan pada CPU tanpa GPU.

Cepat · 0GB VRAM Cobalah

CosyVoice3

Bi-streaming Kontrol emosi Penklonan Suara Kendali kecepatan/volume Instruksi berikut

Berikutnya generasi multibahasa TTS dengan bi-streaming, kontrol emosi, dan kloning suara nol-shot.

Cepat · 4GB VRAM Cobalah

NAMAA Saudi TTS

dialek Arab Saudi Arab Standar Modern Kloning suara nol-shot Kontrol emosi Pengucapan asli

dialek Saudi asli Saudi dengan kloning suara berkualitas Chatterbox.

Sedang · 6GB VRAM Cobalah

Darwin TTS

Penklonan Suara Cross-bahasa FFN-blended 4 bahasa inti Tulang punggung Qwen3

Varian lintas-modal Qwen3-TTS dengan berat FFN dipadukan dari model bahasa Qwen3-1.7B untuk kloning multibahasa yang lebih tajam.

Sedang · 7GB VRAM Cobalah

MOSS-TTSD

Dialog multi-speaker Sampai dengan 5 speaker Audio koheren 60min Penklonan Suara Podcast teroptimasi

Berdialog multi-taluter model kelanjutan. membuat percakapan gaya podcast dengan hingga 5 speaker dan 60 menit dari audio koheren.

Sedang · 12GB VRAM Cobalah

Ming-Omni TTS

44.1kHz keluaran Penklonan Suara Kontrol emosi Kontrol dialect Generasi BGM Compact 0.5B

Compact 0.5B omni-modal model pidato dari inclusionAI dengan high-fidelity 44.1kHz keluaran dan clone suara nol-shot.

Sedang · 3GB VRAM Cobalah

MOSS-TTS Nano