Gratis AI Teks ke Pidato
33+ model open-source, 273+ Suara-suara, 33+ Tak ada rekening yang diperlukan.
Segala Sesuatu yang Anda Butuhkan untuk Suara AI
30+ tools powered by open-source AI modeles
33+ Model Suara AI
Koleksi paling komprehensif model TTS open-source dalam satu platform
Kokoro Bebas
Kokoro adalah model parameter 82 juta teks-ke-peech yang memukul dengan baik di atas kelas berat badannya meskipun ukurannya kecil, ia menghasilkan pidato yang sangat alami dan ekspresif. Kokoro mendukung berbagai bahasa termasuk bahasa Inggris, Jepang, Cina, dan Korea dengan berbagai suara ekspresif. ia berlari sangat cepat menghasilkan audio hampir 100x lebih cepat daripada GPU.
Terbaik untuk: TTS berkualitas tinggi dengan aplikasi minimal latensi, streaming
Coba Bebas
Piper Bebas
Piper adalah mesin text-to-speech ringan yang dikembangkan oleh Rhassypy yang menggunakan VITS dan laringx arsitektur. mesin ini bekerja sepenuhnya pada CPU, membuatnya ideal untuk perangkat tepi, otomasi rumah, dan aplikasi yang membutuhkan TTS offline. dengan lebih dari 100 suara melintasi 30 bahasa+, Piper memberikan pidato yang terdengar alami pada kecepatan nyata bahkan pada sebuah Raspberry Pi 4.
Terbaik untuk: Pratilik cepat, aksesibilitas, dan aplikasi tertanam
Coba Bebas
VITS Bebas
VITS (Inferensi Variational dengan adversaria belajar untuk end-to-end Text-to-Speech) adalah metode akhir-ke-end TTS yang menghasilkan audio terdengar lebih alami daripada model dua tahap saat ini. Ia mengadopsi inferensi variasi yang ditambah dengan aliran normal dan proses pelatihan adversaria, mencapai peningkatan yang signifikan dalam naturalnessness.
Terbaik untuk: Umum tujuan teks-to-peech dengan prosody alami
Coba Bebas
MeloTTS Bebas
MeloTTS oleh MyShell.ai adalah perpustakaan TTS multibahasa yang mendukung bahasa Inggris (Amerika, Inggris, India, Australia), Spanyol, Prancis, Cina, Jepang, dan Korea. Ini sangat cepat, memproses teks pada hampir kecepatan real-time pada CPU saja. MeloTTS dirancang untuk produksi dan mendukung baik CPU maupun GPUference.
Terbaik untuk: Aplikasi produksi membutuhkan TTS multibahasa yang cepat
Coba Bebas
Kani TTS 2 Bebas
Kani-TTS-2 by Nine Sixd is an ultra-lightweight 400M modelmeter built on a Liquid Al LFM2 backbone with NVIDIA NanoCodec. It runs in just 3GB VRAM and product ~10 seconds of speech in ~2 seconds on an A100 (RTF 0.2). The current public release command an English-only naVIDIA Nacan-ts-ents-2-en-en--en--enppointpointpointpointment and does not expove the speaker-emdding in the speaker-emdding to cloning for Chatter Chatter - Chatterboxt2 / FTTS /5 FTTS, untuk kloning, atau Konglid, atau melos.
Terbaik untuk: Generasi Inggris cepat pada perangkat keras rendah-VRAM, preview cepat
Coba Bebas
OuteTTS Bebas
OuteTTS memperluas model bahasa yang besar dengan kemampuan text-to-spiech saat melestarikan arsitektur asli. Ini mendukung beberapa backend termasuk llama.cpp (CPU/GPU), Hugging Face Transformers, ExLmaV2, VLLM, dan bahkan browser inference melalui Transformers.j.j.Fures nol-shot cloning melalui profil speaker yang disimpan sebagai JSON.
Terbaik untuk: Penyebaran tepi, berbasis peramban TTS, lingkungan sumber-rendah
Coba Bebas
Pocket TTS Bebas
Pocket TTS oleh Kyutai (kloning suara 0-shot dari sampel audio tunggal, dan menghasilkan suara alami model-ke-peech yang memukul dengan baik di atas beratnya. Ini berjalan efisien pada CPU, mendukung kloning suara nol-shot dari sebuah pidato suara. Ukuran model kecil membuatnya ideal untuk penyebaran tepi dan lingkungan sumber-rendah.
Terbaik untuk: Penyebaran ringan, hanya lingkungan CPU, kloning suara cepat
Coba Bebas
Kitten TTS Bebas
Kitten TTS oleh KittenML adalah sebuah sintesis suara ultra-cahaya-ke-peech yang dibangun di ONNX. Dengan varian dari 15M ke 80M parameter (25-80 MB pada disk), itu memberikan sintesis suara berkualitas tinggi pada CPU tanpa membutuhkan GPU. Fetures 8 built-in voices, kecepatan bicara tersesuaikan, dan dibangun dalam teks preproses untuk angka, kursensi, dan unit I dealed for edge dan aplikasi frekuensi rendah.
Terbaik untuk: TTS ringan cepat, penyebaran tepi, aplikasi latensi rendah
Coba Bebas
Ming-Omni TTS Bebas
Ming-omni-tts--0.5B oleh inclusionAI adalah sebuah model pidato omni-modal compact yang dibangun di atas tulang belakang padat BailingM dengan suara padat Patch-by-Patch yang cocok dengan decoder audio. Memberikan keluaran 44.1kHz (dekat kualitas CD), mendukung cloning suara nol-shot dari referensi 3+ detik, dan termasuk built-in emotion / dialek / kontrol JM melalui instruksi JSON. Kestabilan Excellent 0.83 WER pada benchmarks Cina.
Terbaik untuk: Fidelitas tinggi dwilingual narasi, akting suara yang dikendalikan emosi, isi buku audio Cina
Coba Bebas
MOSS-TTS Nano Bebas
Varian compact 100M-SSS-TTS-Nano-100M adalah 100M-parameter padat dari keluarga MOSS-TTS, berbagi arsitektur delay-transformer. Menukarkan kualitas puncak model 8B untuk ~80x lebih kecil berat badan dan secara dramatis lebih rendah per-request VRAM, membuatnya cocok untuk penyebaran free-tier dan tinggi-melalui. Sama 20 bahasa.
Terbaik untuk: Free-tier TTS, produksi volume tinggi, penggunaan interaktif latensi rendah
Coba Bebas
Bark Standar
Model teks berbasis Transformer-to-audio yang menghasilkan pidato, musik, dan efek suara yang realistis.
Pengembang: Suno · Lisensi: MIT
Cobalah
Bark Small Standar
Lighter versi Bark dengan inferensi yang lebih cepat dan penggunaan memori yang lebih rendah.
Pengembang: Suno · Lisensi: MIT
Cobalah
CosyVoice 2 Standar
TTS bersisik Aliba dengan sifat alami manusia dan latensi dekat nol.
Pengembang: Alibaba (Tongyi Lab) · Lisensi: Apache 2.0
Cobalah
Dia TTS Standar
Model dialog multi pembicara yang menciptakan percakapan alami antara pembicara.
Pengembang: Nari Labs · Lisensi: Apache 2.0
Cobalah
Parler TTS Standar
Gambarkan suara yang Anda inginkan dalam bahasa alami dan Parler menghasilkan pidato yang cocok.
Pengembang: Hugging Face · Lisensi: Apache 2.0
Cobalah
IndexTTS-2 Standar
Nol-shot TTS dengan kontrol emosi halus dan ekspresif tinggi.
Pengembang: Index Team · Lisensi: Bilibili Model License
Cobalah
Spark TTS Standar
Suara kloning TTS dengan emosi terkendali dan berbicara gaya melalui prompt.
Pengembang: SparkAudio · Lisensi: CC BY-NC-SA 4.0
Cobalah
GPT-SoVITS Standar
Beberapa kali kloning suara TTS yang mereplikasi suara hanya dari 5 detik audio.
Pengembang: RVC-Boss · Lisensi: MIT
Cobalah
Orpheus Standar
Model TTS emosional tingkat manusia dilatih pada 100K jam dari data pidato.
Pengembang: Canopy Labs · Lisensi: Llama 3.2 Community
Cobalah
Qwen3 TTS Standar
TTS multibahasa Aliba dengan suara dan desain suara dari teks.
Pengembang: Alibaba (Qwen) · Lisensi: Apache 2.0
Cobalah
VieNeu-TTS-v2 Standar
Vietnam + English code-switching TTS dengan 7 suara preset dan kloning suara nol-shot. CPU-only, tidak dibutuhkan GPU.
Pengembang: Phạm Nguyễn Ngọc Bảo · Lisensi: Apache 2.0
Cobalah
Chatterbox Turbo Standar
Lebih cepat Chatterbox dengan latensi sub-200ms dan tag paralinguistik untuk tertawa, batuk, dan banyak lagi.
Pengembang: Resemble AI · Lisensi: MIT
Cobalah
VoxCPM Standar
TTS bebas tokenizer memproduksi audio 44.1kHz dengan konsistensi paragraf sadar konteks.
Pengembang: OpenBMB · Lisensi: Apache 2.0
Cobalah
VibeVoice Standar
Model Microsoft untuk konten multi pembicara bentuk panjang seperti podcast dan buku audio.
Pengembang: Microsoft · Lisensi: MIT
Cobalah
CosyVoice3 Standar
Berikutnya generasi multibahasa TTS dengan bi-streaming, kontrol emosi, dan kloning suara nol-shot.
Pengembang: Alibaba (FunAudioLLM) · Lisensi: Apache 2.0
Cobalah
NAMAA Saudi TTS Standar
dialek Saudi asli Saudi dengan kloning suara berkualitas Chatterbox.
Pengembang: NAMAA Space · Lisensi: MIT
Cobalah
Darwin TTS Standar
Varian lintas-modal Qwen3-TTS dengan berat FFN dipadukan dari model bahasa Qwen3-1.7B untuk kloning multibahasa yang lebih tajam.
Pengembang: FINAL-Bench · Lisensi: Apache 2.0
Cobalah
MOSS-TTSD Standar
Berdialog multi-taluter model kelanjutan. membuat percakapan gaya podcast dengan hingga 5 speaker dan 60 menit dari audio koheren.
Pengembang: OpenMOSS · Lisensi: Apache 2.0
Cobalah
CosyVoice 2
TTS bersisik Aliba dengan sifat alami manusia dan latensi dekat nol.
Bahasa: en, zh, ja, ko, fr, de, it, es
Suara Kloning
IndexTTS-2
Nol-shot TTS dengan kontrol emosi halus dan ekspresif tinggi.
Bahasa: en, zh
Suara Kloning
Spark TTS
Suara kloning TTS dengan emosi terkendali dan berbicara gaya melalui prompt.
Bahasa: en, zh
Suara Kloning
GPT-SoVITS
Beberapa kali kloning suara TTS yang mereplikasi suara hanya dari 5 detik audio.
Bahasa: en, zh, ja, ko
Suara Kloning
Chatterbox
State-of-the-art zero-shot voice kloning dengan kontrol emosi dari Resemble AI.
Bahasa: en
Suara Kloning
Tortoise TTS
Speech teks multi-voice difokuskan pada kualitas dengan arsitektur autoregresif.
Bahasa: en
Suara Kloning
OpenVoice
Kloning suara instan dengan kontrol granular atas gaya, emosi, dan aksen.
Bahasa: en, zh, ja, ko, fr, es
Suara Kloning
VieNeu-TTS-v2
Vietnam + English code-switching TTS dengan 7 suara preset dan kloning suara nol-shot. CPU-only, tidak dibutuhkan GPU.
Bahasa: vi, en
Suara Kloning
Chatterbox Turbo
Lebih cepat Chatterbox dengan latensi sub-200ms dan tag paralinguistik untuk tertawa, batuk, dan banyak lagi.
Bahasa: en
Suara Kloning
VoxCPM
TTS bebas tokenizer memproduksi audio 44.1kHz dengan konsistensi paragraf sadar konteks.
Bahasa: en, zh
Suara Kloning
OuteTTS
TTS LLM berbasis yang berjalan pada CPU, GPU, atau peramban melalui llama.cpp dan Transformers.js.
Bahasa: en
Suara Kloning
Pocket TTS
Model parameter 100M ringan oleh Kyutai dengan kloning suara dari sampel tunggal.
Bahasa: en, fr
Suara Kloning
CosyVoice3
Berikutnya generasi multibahasa TTS dengan bi-streaming, kontrol emosi, dan kloning suara nol-shot.
Bahasa: en, zh, ja, ko, de, es, fr, it, ru
Suara Kloning
NAMAA Saudi TTS
dialek Saudi asli Saudi dengan kloning suara berkualitas Chatterbox.
Bahasa: ar
Suara Kloning
Darwin TTS
Varian lintas-modal Qwen3-TTS dengan berat FFN dipadukan dari model bahasa Qwen3-1.7B untuk kloning multibahasa yang lebih tajam.
Bahasa: en, ko, ja, zh
Suara Kloning
MOSS-TTSD
Berdialog multi-taluter model kelanjutan. membuat percakapan gaya podcast dengan hingga 5 speaker dan 60 menit dari audio koheren.
Bahasa: en, zh
Suara Kloning
Ming-Omni TTS
Compact 0.5B omni-modal model pidato dari inclusionAI dengan high-fidelity 44.1kHz keluaran dan clone suara nol-shot.
Bahasa: en, zh
Suara Kloning
MOSS-TTS Nano
100M MOSS-TTS varian sama arsitektur, 80x lebih kecil, latensi free-tier.
Bahasa: en, zh, de, es, fr, ja, it, ko, ru, ar, pt
Suara KloningAPI Pengembang-Pertama
API REST OpenAI yang kompatibel. Satu titik akhir, 22+ model. Streaming dukungan untuk aplikasi real-time.
- Format kompatibel OpenAI
- Streaming TTS untuk aplikasi real-time
- Pemrosesan Batch untuk pekerjaan besar
- Pemberitahuan Webhook
pip install ttsai
npm install @ttsainpm/ttsai
from tts_ai import TTSClient
client = TTSClient(api_key="sk-tts-xxx")
audio = client.generate(
text="Hello from TTS.ai!",
model="kokoro",
voice="af_bella",
)
client.save(audio, "output.mp3")
Sederhana, Harga Transparan
Mulai bebas, skala saat Anda tumbuh.
Bebas
15.000 karakter + 5.000/hari
- 7 model gratis termasuk Kokoro
- 5.000 karakter per generasi
- Akses API disertakan
Pro
2.000 kredit/bulan
- Segala sesuatu di Starter
- Akses API
- Pemrosesan prioritas
Pertanyaan yang Sering Diajukan
Umpan balikmu membantu kita memperbaiki masalah.
Mulai Menggunakan Suara AI Dewasa Ini
Gabungkan pembuat, pengembang, dan bisnis menggunakan TTS.ai