AI bebas Teks ke Tutur
33+ model sumber terbuka, 273+ suara-suara, 33+ Bahasa. Tiada akaun diperlukan.
Semua yang anda perlukan untuk AI Suara
30+ alat dikuasakan oleh model AI sumber terbuka
33+ Model Suara AI
Koleksi paling komprehensif model TTS sumber terbuka dalam satu platform
Kokoro Bebas
Kokoro adalah model teks-ke-tutur 82 juta parameter yang mencecah lebih daripada kelas beratnya. Walaupun saiznya kecil, ia menghasilkan pertuturan yang luar biasa semulajadi dan ekspresif. Kokoro menyokong pelbagai bahasa termasuk bahasa Inggeris, Jepun, Cina, dan Korea dengan pelbagai suara ekspresif. Ia berjalan sangat pantas — menghasilkan audio hampir 100x lebih pantas daripada masa nyata pada GPU.
Terbaik untuk: TTS berkualiti tinggi dengan latensi minimum, aplikasi strim
Cuba percuma
Piper Bebas
Piper adalah enjin teks-ke-tutur ringan yang dikembangkan oleh Rhasspy yang menggunakan VITS dan larynx. Ia berjalan sepenuhnya pada CPU, menjadikannya sesuai untuk peranti tepi, automasi rumah, dan aplikasi yang memerlukan TTS luar talian. Dengan lebih 100 suara melebihi 30+ bahasa, Piper memberikan pertuturan bunyi-semulajadi pada kelajuan masa nyata bahkan pada Raspberry Pi 4.
Terbaik untuk: Pralihat pantas, kebolehcapaian, dan aplikasi terbenam
Cuba percuma
VITS Bebas
VITS (Kesimpulan Variasi dengan pembelajaran lawan untuk Teks-ke-Tutur hujung-ke-hujung) adalah kaedah TTS hujung-ke-hujung sejajar yang menghasilkan audio berbunyi lebih semulajadi daripada model dua-tahap semasa. Ia mengamalkan kesimpulan variasi yang dipertingkatkan dengan aliran normalisasi dan proses latihan lawan, mencapai peningkatan yang ketara dalam kebolehan semulajadi.
Terbaik untuk: Teks-ke-tutur tujuan umum dengan prosodi semulajadi
Cuba percuma
MeloTTS Bebas
MeloTTS oleh MyShell.ai adalah pustaka TTS berbilang bahasa yang menyokong Bahasa Inggeris (Amerika, British, India, Australia), Sepanyol, Perancis, Cina, Jepun, dan Korea. Ia sangat pantas, pemprosesan teks pada kelajuan hampir masa nyata pada CPU sahaja. MeloTTS direka untuk penggunaan pengeluaran dan menyokong kedua-dua CPU dan GPU inferensi.
Terbaik untuk: Aplikasi pengeluaran memerlukan TTS pantas, berbilang bahasa
Cuba percuma
Kani TTS 2 Bebas
Kani-TTS-2 oleh NineNineSix adalah model parameter 400M ultra-ringan yang dibina pada tulang belakang AI LFM2 cecair dengan NVIDIA NanoCodec. Ia berjalan dalam hanya 3GB VRAM dan menghasilkan ~10 saat percakapan dalam ~2 saat pada A100 (RTF 0.2). Rilis awam semasa menghantar titik periksa `kani-tts-2-en` bahasa Inggeris sahaja dan tidak memaparkan hook pemampatan-pendengar yang diperlukan untuk klon suara — gunakan Chatterbox / IndexTTS2 / F5-TTS untuk klon, atau Kokoro / MeloTTS untuk bukan-bahasa Inggeris.
Terbaik untuk: Penjanaan bahasa Inggeris pantas pada perkakasan VRAM rendah, pralihat pantas
Cuba percuma
OuteTTS Bebas
OuteTTS memperluaskan model bahasa besar dengan keupayaan teks-ke-tutur sambil memelihara arsitektur asal. Ia menyokong banyak backend termasuk llama.cpp (CPU/GPU), Hugging Face Transformers, ExLlamaV2, VLLM, dan bahkan inferensi pelayar melalui Transformers.js. Ciri-ciri kloning suara sifar-tembak melalui profil pembicara disimpan sebagai JSON.
Terbaik untuk: Pelaksanaan tepi, TTS berasaskan pelayar, persekitaran sumber rendah
Cuba percuma
Pocket TTS Bebas
Pocket TTS oleh Kyutai (pencipta Moshi) adalah model teks-ke-tutur parameter 100M yang kompak yang menekan lebih berat daripada beratnya. Ia berjalan dengan berkesan pada CPU, menyokong klon suara sifar-tembak dari sampel audio tunggal, dan menghasilkan pertuturan berbunyi semulajadi. Saiz model kecil menjadikannya sesuai untuk pelaksanaan tepi dan persekitaran sumber rendah.
Terbaik untuk: Pelaksanaan ringan, persekitaran CPU-hanya, klon suara pantas
Cuba percuma
Kitten TTS Bebas
Kitten TTS oleh KittenML adalah model teks-ke-tutur ultra-lembut yang dibina pada ONNX. Dengan varian dari parameter 15M hingga 80M (25-80 MB pada cakera), ia memberikan sintesis suara berkualiti tinggi pada CPU tanpa memerlukan GPU. Ciri-ciri 8 suara tertanam, kelajuan pertuturan boleh selaraskan, dan prapemprosesan teks tertanam untuk nombor, mata wang, dan unit. Ideal untuk pelaksanaan tepi dan aplikasi latensi rendah.
Terbaik untuk: TTS ringan pantas, pelaksanaan tepi, aplikasi latensi rendah
Cuba percuma
Ming-Omni TTS Bebas
Ming-omni-tts-0.5B oleh inclusionAI adalah model percakapan omni-modal kompak yang dibina pada tulang belakang padat BailingMM dengan dekoder audio sepadan aliran Patch-by-Patch. Menyediakan output 44.1kHz (hampir kualiti CD), menyokong klon suara sifar-tembak dari rujukan 3+ saat, dan termasuk kawalan emosi / dialek / BGM tertanam melalui arahan JSON. Kestabilan yang baik — 0.83% WER pada benchmark Cina.
Terbaik untuk: Narasi bilingual yang tinggi, suara yang diuruskan emosi, kandungan buku audio Cina
Cuba percuma
MOSS-TTS Nano Bebas
MOSS-TTS-Nano-100M ialah varian parameter 100M OpenMOSS yang kompak dari keluarga MOSS-TTS, berkongsi arsitektur penambah-lengah. Menjual kualiti puncak model 8B untuk berat ~80x yang lebih kecil dan VRAM per-permintaan yang lebih rendah, menjadikannya sesuai untuk pelaksanaan lapis-bebas dan kelajuan tinggi. Saiz 20-bahasa yang sama.
Terbaik untuk: TTS lapisan-bebas, pengeluaran-volum-tinggi, penggunaan interaktif latensi-rendah
Cuba percuma
Bark Piawai
Model teks-ke-audio berasaskan Transformer yang menghasilkan ucapan, muzik, dan kesan bunyi yang realistik.
Pemaju: Suno · Lesen: MIT
Cubalah.
Bark Small Piawai
Versi ringan Bark dengan inferensi lebih pantas dan penggunaan memori yang lebih rendah.
Pemaju: Suno · Lesen: MIT
Cubalah.
CosyVoice 2 Piawai
Alibaba's boleh skala streaming TTS dengan manusia-parit semula jadi dan latensi hampir-sifar.
Pemaju: Alibaba (Tongyi Lab) · Lesen: Apache 2.0
Cubalah.
Dia TTS Piawai
Model penjanaan dialog multi-pembesar yang mencipta perbualan semulajadi antara pembesar.
Pemaju: Nari Labs · Lesen: Apache 2.0
Cubalah.
Parler TTS Piawai
Huraikan suara yang anda mahu dalam bahasa semulajadi dan Parler akan menghasilkan ucapan yang sepadan.
Pemaju: Hugging Face · Lesen: Apache 2.0
Cubalah.
IndexTTS-2 Piawai
Zero-shot TTS dengan kawalan emosi halus-grained dan ekspresi tinggi.
Pemaju: Index Team · Lesen: Bilibili Model License
Cubalah.
Spark TTS Piawai
Klon suara TTS dengan emosi yang boleh dikawal dan gaya bercakap melalui prompt.
Pemaju: SparkAudio · Lesen: CC BY-NC-SA 4.0
Cubalah.
GPT-SoVITS Piawai
Klon suara TTS yang meniru suara mana-mana dari hanya 5 saat audio.
Pemaju: RVC-Boss · Lesen: MIT
Cubalah.
Orpheus Piawai
Model TTS emosi tahap manusia dilatih pada 100K jam data ucapan.
Pemaju: Canopy Labs · Lesen: Llama 3.2 Community
Cubalah.
Qwen3 TTS Piawai
TTS multibahasa Alibaba dengan suara praset dan reka bentuk suara dari teks.
Pemaju: Alibaba (Qwen) · Lesen: Apache 2.0
Cubalah.
VieNeu-TTS-v2 Piawai
TTS kod-tukar Vietnam + Inggeris dengan 7 suara praset dan klon suara sifar-tembak. CPU sahaja, tiada GPU diperlukan.
Pemaju: Phạm Nguyễn Ngọc Bảo · Lesen: Apache 2.0
Cubalah.
Chatterbox Turbo Piawai
Chatterbox yang lebih pantas dengan latensi sub-200ms dan tag paralinguistik untuk ketawa, batuk, dan lebih.
Pemaju: Resemble AI · Lesen: MIT
Cubalah.
VoxCPM Piawai
TTS bebas tokenizer menghasilkan audio 44.1kHz dengan konsistensi perenggan kontekstual.
Pemaju: OpenBMB · Lesen: Apache 2.0
Cubalah.
VibeVoice Piawai
Model Microsoft untuk kandungan berbilang pembesar suara berbentuk panjang seperti podcast dan buku audio.
Pemaju: Microsoft · Lesen: MIT
Cubalah.
CosyVoice3 Piawai
TTS multibahasa generasi seterusnya dengan bi-streaming, kawalan emosi, dan klon suara sifar-tembak.
Pemaju: Alibaba (FunAudioLLM) · Lesen: Apache 2.0
Cubalah.
NAMAA Saudi TTS Piawai
TTS Arab Saudi terbuka pertama. Dialek Arab Saudi asli dengan klon suara kualiti Chatterbox.
Pemaju: NAMAA Space · Lesen: MIT
Cubalah.
Darwin TTS Piawai
Varian cross-modal Qwen3-TTS dengan berat FFN dicampur dari model bahasa Qwen3-1.7B untuk klon multibahasa yang lebih tajam.
Pemaju: FINAL-Bench · Lesen: Apache 2.0
Cubalah.
MOSS-TTSD Piawai
Model sambungan dialog pembicara berbilang — cipta perbualan gaya podcast dengan sehingga 5 pembicara dan 60 minit audio koheren.
Pemaju: OpenMOSS · Lesen: Apache 2.0
Cubalah.
CosyVoice 2
Alibaba's boleh skala streaming TTS dengan manusia-parit semula jadi dan latensi hampir-sifar.
Bahasa: en, zh, ja, ko, fr, de, it, es
Klon Suara
IndexTTS-2
Zero-shot TTS dengan kawalan emosi halus-grained dan ekspresi tinggi.
Bahasa: en, zh
Klon Suara
Spark TTS
Klon suara TTS dengan emosi yang boleh dikawal dan gaya bercakap melalui prompt.
Bahasa: en, zh
Klon Suara
GPT-SoVITS
Klon suara TTS yang meniru suara mana-mana dari hanya 5 saat audio.
Bahasa: en, zh, ja, ko
Klon Suara
Tortoise TTS
Teks-ke-tutur berbilang suara berfokus pada kualiti dengan arsitektur autoregressif.
Bahasa: en
Klon Suara
OpenVoice
Klon suara seketika dengan kawalan granular terhadap gaya, emosi, dan loghat.
Bahasa: en, zh, ja, ko, fr, es
Klon Suara
VieNeu-TTS-v2
TTS kod-tukar Vietnam + Inggeris dengan 7 suara praset dan klon suara sifar-tembak. CPU sahaja, tiada GPU diperlukan.
Bahasa: vi, en
Klon Suara
Chatterbox Turbo
Chatterbox yang lebih pantas dengan latensi sub-200ms dan tag paralinguistik untuk ketawa, batuk, dan lebih.
Bahasa: en
Klon Suara
VoxCPM
TTS bebas tokenizer menghasilkan audio 44.1kHz dengan konsistensi perenggan kontekstual.
Bahasa: en, zh
Klon Suara
OuteTTS
TTS berasaskan LLM yang berjalan pada CPU, GPU, atau pelayar melalui llama.cpp dan Transformers.js.
Bahasa: en
Klon Suara
Pocket TTS
Model parameter ringan 100M oleh Kyutai dengan kloning suara dari satu sampel.
Bahasa: en, fr
Klon Suara
CosyVoice3
TTS multibahasa generasi seterusnya dengan bi-streaming, kawalan emosi, dan klon suara sifar-tembak.
Bahasa: en, zh, ja, ko, de, es, fr, it, ru
Klon Suara
NAMAA Saudi TTS
TTS Arab Saudi terbuka pertama. Dialek Arab Saudi asli dengan klon suara kualiti Chatterbox.
Bahasa: ar
Klon Suara
Darwin TTS
Varian cross-modal Qwen3-TTS dengan berat FFN dicampur dari model bahasa Qwen3-1.7B untuk klon multibahasa yang lebih tajam.
Bahasa: en, ko, ja, zh
Klon Suara
MOSS-TTSD
Model sambungan dialog pembicara berbilang — cipta perbualan gaya podcast dengan sehingga 5 pembicara dan 60 minit audio koheren.
Bahasa: en, zh
Klon Suara
Ming-Omni TTS
Model ucapan omni-modal 0.5B dari inclusionAI dengan output 44.1kHz yang tinggi dan kloning suara sifar-tembak.
Bahasa: en, zh
Klon Suara
MOSS-TTS Nano
Varian MOSS-TTS 100M kecil — arsitektur yang sama, 80x lebih kecil, latensi lapisan bebas.
Bahasa: en, zh, de, es, fr, ja, it, ko, ru, ar, pt
Klon SuaraAPI Pemaju-Pertama
API REST serasi OpenAI. Satu titik akhir, 22+ model. Sokongan strim untuk aplikasi masa nyata.
- Format serasi OpenAI
- Strim TTS untuk aplikasi masa nyata
- Pemprosesan serbuan untuk kerja besar
- Pemberitahuan Webhook
pip install ttsai
npm install @ttsainpm/ttsai
from tts_ai import TTSClient
client = TTSClient(api_key="sk-tts-xxx")
audio = client.generate(
text="Hello from TTS.ai!",
model="kokoro",
voice="af_bella",
)
client.save(audio, "output.mp3")
Harga yang Mudah, Lutsinar
Mulakan secara percuma.
Bebas
15,000 aksara + 5,000/hari
- 7 model percuma termasuk Kokoro
- 5,000 aksara per generasi
- Akses API termasuk
Pro
2,000 kredit/bulan
- Semua dalam Pelancar
- Capaian API
- Pemprosesan keutamaan
Perniagaan
10,000 kredit/bulan
- Semuanya dalam Pro
- API Bulk
- Baris gilir keutamaan
Soalan Lazim
Apa yang boleh kami perbaiki?
Mula Guna Suara AI Hari Ini
Sertai pencipta, pembangun, dan perniagaan menggunakan TTS.ai