Report Bug / Feature Request

Teks AI ke Tutur Kata

Ubah teks ke ucapan yang terdengar alami dengan model AI open-source. Bebas digunakan, tidak diperlukan akun.

Daftar Bebas

Kami belum memiliki suara TTS dalam bahasamu. Juallah Suara Anda

Teks
Berkas

0/500 karakter · Sign up for 5,000 per generation →

Daftar untuk batas 5,000 karakter

Mode SSML (Bahasa Markup Syntesis Speech for fine control)

Bungkus teks Anda dalam tag SSML untuk kendali yang tepat:

<speak><prosody rate="slow">Slow speech</prosody></speak>

Emotion / Style Tags

Tambahkan penanda emosi untuk mempengaruhi pengiriman (dukungan model bervariasi):

Kamus Pengucapan

Definisikan pengucapan ubahan (kata = pelafalan):

Pitch 0

-12 +12

Model AI

Suara

Bahasa

Format Keluaran

Kecepatan 1.0x

0.5x 2.0x

Free with Piper, VITS, Melotts

Audio yang Anda buat akan muncul di sini. Pilih model, masukkan teks, dan klik Generate.

Rincian Model

Chatterbox

Premium

Chatterbox by Resemble AI is a cutting-edge zero-shot voice cloning model. It can replicate any voice from a single audio sample with remarkable accuracy, capturing not just the timbre but also the speaking style and emotional nuances. Chatterbox also features fine-grained emotion control, allowing you to adjust the emotional tone of the generated speech independently from the voice identity.

Pengembang:	Resemble AI
Lisensi:	MIT
Kecepatan	Medium
Kualitas:
bahasa	1 bahasa
VRAM	4GB
Kloning Suara	Didukung

Fitur:

Zero-shot cloning Emotion control High fidelity Style transfer Single sample cloning

Terbaik untuk:: Professional voice cloning with emotional control, content creation

Tips untuk Hasil yang Lebih Baik

Gunakan tanda baca yang tepat untuk jeda alami dan intonasi
Eja keluar nomor dan singkatan untuk pengucapan yang lebih jelas
Tambahkan koma untuk membuat jeda pendek antara frasa
Gunakan ellipsis (...) untuk jeda dramatis lagi
Coba Kokoro atau CosyVoice 2 untuk hasil yang paling alami
Gunakan Dia untuk dialog multi-speaker dan isi podcast

Penggunaan Karakter

Tier	Biaya per 1K karakter
Bebas	0 kredit (tak terbatas)
Standar	2 kredit / 1K karakter
Premium	4 kredit / 1K karakter

Dapatkan Karakter Lebih

Bagaimana AI Teks kepada Cara Kerja Tutur Kata

Hasilkan suara kualitas profesional dalam tiga langkah sederhana. tidak ada pengetahuan teknis yang diperlukan.

Langkah 1

Masukkan Teks Anda

Ketik, tempel, atau unggah teks yang ingin Anda ubah ke pidato. Dukung hingga 5.000 karakter per generasi untuk pengguna log masuk. Gunakan teks biasa atau tambahkan tag SSML untuk kontrol lanjutan atas pengucapan, jeda, dan penekanan.

Langkah 2

Pilih Model & Suara

Pilih dari 20+ model AI melalui tiga tingkat. Pilih suara yang cocok dengan isi Anda, pilih bahasa target Anda, atur kecepatan putar dari 0.5x ke 2.0x, dan pilih format keluaran yang disukai (MP3, WAV, OGG, atau FLAC).

Langkah 3

Buat & Unduhan

Klik Hasilkan dan audio Anda siap dalam hitungan detik. Pratilik dengan pemutar bawaan, download dalam format yang dipilih, atau salin tautan yang dapat dibagi. Gunakan API untuk pemrosesan batch dan integrasi ke dalam aliran kerja Anda.

Teks untuk Menggunakan Kasus Speech

AI-powered teks-to-peech adalah mengubah bagaimana orang menciptakan, mengkonsumsi, dan berinteraksi dengan konten audio di puluhan industri.

Buku audio

Ubah seluruh buku menjadi buku audio yang terdengar alami dengan narasi berkualitas studio. Dukungan multi-berbicara dengan Dia untuk dialog karakter.

Voiceover Video

Buat voiceover profesional untuk YouTube, TikTok, Instagram Reels, dan Shorts. 100+ suara atau klon Anda sendiri.

Podcast

Hasilkan episoda podcast dari skrip dengan berbagai suara AI. Gunakan Dia untuk percakapan dua pembicara alami.

Permainan

Suara AI untuk permainan indie, novel visual, dan fiksi interaktif dialog NPC, suara pendek, 30 bahasa.

E-Learning

Ubah materi kursus, kuliah, dan pelatihan konten ke audio. Dukungan multi-bahasa untuk platform global.

Aksesibilitas

Buat situs web, dokumen, dan aplikasi yang dapat diakses. Integrasi API layar dan konversi artikel-to-audio.

IVR & Sistem Telepon

Sistem daya IVR, menu telepon, dan layanan pelanggan dengan suara AI alami.

Media Sosial

Narasi TikTok, Instagram Reels, Twitter/X komentar, YouTube Shorts.

Streaming

Twitch TTS waspada, chat-to-voice, AI co-hosts, dan Discord bots.

Pemasaran

Ad voiceovers, explainer video, demo produk, dan presentasi penjualan.

Dubbing & Lokalisasi

Terjemahkan dan dub video ke dalam 30 bahasa dengan suara-matched AI. Auto-trankripsi dan deteksi speaker.

Renungan & Kesehatan

Renungan, cerita tidur, latihan pernapasan, dan penegasan dengan suara Al yang tenang dan menenangkan.

Lihat Semua Huruf & Alat yang Digunakan

Semua Teks ke Model Pidato

Spesifikasi terrinci untuk setiap model AI yang tersedia pada TTS.ai. Bandingkan kualitas, kecepatan, dukungan bahasa, dan fitur untuk menemukan model yang sempurna untuk proyek Anda.

Kokoro

Free

Kokoro adalah model parameter 82 juta teks-ke-peech yang memukul dengan baik di atas kelas berat badannya meskipun ukurannya kecil, ia menghasilkan pidato yang sangat alami dan ekspresif. Kokoro mendukung berbagai bahasa termasuk bahasa Inggris, Jepang, Cina, dan Korea dengan berbagai suara ekspresif. ia berlari sangat cepat menghasilkan audio hampir 100x lebih cepat daripada GPU.

Pengembang::
Hexgrad

Lisensi::
Apache 2.0

Kecepatan:
Fast

Kualitas::

bahasa:
en, ja, zh, ko, fr, de, it, pt, es, hi, ru

VRAM:
1.5GB

Kloning Suara:
Tidak

Biaya per 1K karakter:
Bebas

Parameter 82M Ultra-cepat. Suara ekspresif Multibahasa Dukungan streaming

Terbaik untuk:: TTS berkualitas tinggi dengan aplikasi minimal latensi, streaming

Cobalah Kokoro

Piper

Free

Piper adalah mesin text-to-speech ringan yang dikembangkan oleh Rhassypy yang menggunakan VITS dan laringx arsitektur. mesin ini bekerja sepenuhnya pada CPU, membuatnya ideal untuk perangkat tepi, otomasi rumah, dan aplikasi yang membutuhkan TTS offline. dengan lebih dari 100 suara melintasi 30 bahasa+, Piper memberikan pidato yang terdengar alami pada kecepatan nyata bahkan pada sebuah Raspberry Pi 4.

Pengembang::
Rhasspy

Lisensi::
MIT

Kecepatan:
Fast

Kualitas::

bahasa:
en, de, fr, es, it, pt, nl, pl, ru, zh, ja, ko, ar, cs, da, fi, el, hu, is, ka, kk, ne, no, ro, sk, sr, sv, sw, tr, uk, vi

VRAM:
0 (CPU only)

Kloning Suara:
Tidak

Biaya per 1K karakter:
Bebas

Friendly CPU Mampu offline 100+ suara 30+ bahasa Dukungan SSML

Terbaik untuk:: Pratilik cepat, aksesibilitas, dan aplikasi tertanam

Cobalah Piper

VITS

Free

VITS (Inferensi Variational dengan adversaria belajar untuk end-to-end Text-to-Speech) adalah metode akhir-ke-end TTS yang menghasilkan audio terdengar lebih alami daripada model dua tahap saat ini. Ia mengadopsi inferensi variasi yang ditambah dengan aliran normal dan proses pelatihan adversaria, mencapai peningkatan yang signifikan dalam naturalnessness.

Pengembang::
Jaehyeon Kim et al.

Lisensi::
MIT

Kecepatan:
Fast

Kualitas::

bahasa:
en, de, es, fr, pt, nl, fi, hu, bg, uk, pl

VRAM:
1GB

Kloning Suara:
Tidak

Biaya per 1K karakter:
Bebas

Sintesis Akhir-ke-akhir Prosody alami Inferensi cepat Speaker berganda

Terbaik untuk:: Umum tujuan teks-to-peech dengan prosody alami

Cobalah VITS

MeloTTS

Free

MeloTTS oleh MyShell.ai adalah perpustakaan TTS multibahasa yang mendukung bahasa Inggris (Amerika, Inggris, India, Australia), Spanyol, Prancis, Cina, Jepang, dan Korea. Ini sangat cepat, memproses teks pada hampir kecepatan real-time pada CPU saja. MeloTTS dirancang untuk produksi dan mendukung baik CPU maupun GPUference.

Pengembang::
MyShell.ai

Lisensi::
MIT

Kecepatan:
Fast

Kualitas::

bahasa:
en, es, fr, zh, ja, ko

VRAM:
0.5GB (GPU optional)

Kloning Suara:
Tidak

Biaya per 1K karakter:
Bebas

CPU-optimasi Multibahasa Beberapa aksen Produksi-siap Latensi rendah

Terbaik untuk:: Aplikasi produksi membutuhkan TTS multibahasa yang cepat

Cobalah MeloTTS

Bark

Standard

Bark by Suno is a transformer-based text-to-audio model that can make make very realistik, multibahasa speech as other audio like music, background noise, and sound effects. dapat menghasilkan komunikasi nonverbal seperti tertawa, mendesah, dan menangis.

Pengembang::
Suno

Lisensi::
MIT

Kecepatan:
Slow

Kualitas::

bahasa:
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr

VRAM:
5GB

Kloning Suara:
Tidak

Biaya per 1K karakter:
2x

Efek suara Tertawa/berat Generasi musik 100+ speaker Multibahasa

Terbaik untuk:: Konten audio kreatif, buku audio dengan emosi, efek suara

Cobalah Bark

Bark Small

Standard

Bark Small adalah versi disuling dari model Bark yang menukar beberapa kualitas audio untuk kecepatan inferensi yang jauh lebih cepat dan persyaratan memori yang lebih rendah. ia mempertahankan kemampuan Bark untuk menghasilkan ucapan dengan emosi, tawa, dan berbagai bahasa.

Pengembang::
Suno

Lisensi::
MIT

Kecepatan:
Medium

Kualitas::

bahasa:
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr

VRAM:
2GB

Kloning Suara:
Tidak

Biaya per 1K karakter:
2x

Ringanweather forecast Lebih cepat dari Bark penuh Tutur Kata Emosi Multibahasa

Terbaik untuk:: Audio kreatif cepat ketika full Bark terlalu lambat

Cobalah Bark Small

CosyVoice 2

Standard

CosyVoice 2 oleh Alibaba's Tongyi Lab mencapai kualitas pidato yang sebanding dengan tingkat keterlambatan yang sangat rendah, membuatnya ideal untuk aplikasi real-time. menggunakan pendekatan kuantasi skalar yang terbatas untuk streaming sintesis dan mendukung kloning suara nol-shot, sintesis lintas-bahasa, dan kontrol emosi yang baik. ini melebihi banyak sistem TTS komersial dalam evaluasi subjektif.

Pengembang::
Alibaba (Tongyi Lab)

Lisensi::
Apache 2.0

Kecepatan:
Medium

Kualitas::

bahasa:
en, zh, ja, ko, fr, de, it, es

VRAM:
4GB

Kloning Suara:
Ya

Biaya per 1K karakter:
2x

Streaming Kloning Zero-shot Cross-bahasa Kontrol emosi Perpajakan manusia

Terbaik untuk:: Aplikasi real-time, TTS streaming, voice assists

Cobalah CosyVoice 2

Dia TTS

Standard

Dia oleh Nari Labs adalah model parameter 1.6B teks-to-peech yang dirancang khusus untuk menghasilkan dialog multi pembicara. Ia dapat menghasilkan percakapan yang terdengar alami antara dua pembicara dengan pengambilan balik, prosody, dan ekspresi emosional. Dia sempurna untuk membuat konten gaya podcast, dialog audiobook, dan percakapan interaktif AI.

Pengembang::
Nari Labs

Lisensi::
Apache 2.0

Kecepatan:
Medium

Kualitas::

bahasa:
en

VRAM:
4GB

Kloning Suara:
Tidak

Biaya per 1K karakter:
2x

Multi-speaker Generasi Dialog Melakukan perubahan yang alami. Ekspresi emosional 1.6B parameter

Terbaik untuk:: Podcast, dialog buku audio, konten percakapan

Cobalah Dia TTS

Parler TTS

Standard

Parler TTS adalah model teks-to-peech yang menggunakan deskripsi suara bahasa alami untuk mengontrol pidato yang dihasilkan. Alih-alih memilih dari suara-suara praset, Anda menggambarkan suara yang Anda inginkan (mis., "suara wanita yang hangat dengan aksen Inggris sedikit, berbicara perlahan-lahan dan jelas") dan Parler menghasilkan pidato yang cocok dengan deskripsi itu. Hal ini membuatnya unik fleksibel untuk aplikasi kreatif.

Pengembang::
Hugging Face

Lisensi::
Apache 2.0

Kecepatan:
Medium

Kualitas::

bahasa:
en

VRAM:
4GB

Kloning Suara:
Tidak

Biaya per 1K karakter:
2x

Deskripsi suara Kontrol bahasa alami Pembuatan suara fleksibel Tidak perlu suara preset

Terbaik untuk:: Aplikasi kreatif dimana anda memerlukan karakteristik suara gubahan

Cobalah Parler TTS

GLM-TTS

Standard

GLM-TTS oleh Zhipu AI adalah sebuah sistem text-to-peech yang dibangun di atas arsitektur Llama dengan pencocokan aliran. Ini mencapai tingkat kesalahan karakter terendah antara model TTS open-source, berarti itu menghasilkan pengucapan yang paling akurat. GLM-TTS mendukung Bahasa Inggris dan Cina dengan kloning suara dari 3-10 detik sampel audio.

Pengembang::
Zhipu AI

Lisensi::
GLM-4 License

Kecepatan:
Medium

Kualitas::

bahasa:
en, zh

VRAM:
4GB

Kloning Suara:
Ya

Biaya per 1K karakter:
2x

Laju galat terrendah Penklonan Suara undo-type Prosody alami

Terbaik untuk:: Aplikasi yang memerlukan akurasi pengucapan maksimum

Cobalah GLM-TTS

IndexTTS-2

Standard

IndexTTS-2 adalah sebuah sistem text-to-peech canggih yang unggul pada sintesis suara nol-shot dengan kontrol emosi yang halus. Ini dapat menghasilkan pidato dengan nada emosional tertentu seperti bahagia, sedih, marah, atau takut tanpa membutuhkan data pelatihan spesifik emosi. Model menggunakan vektor emosi untuk mengontrol ekspresi emosional yang dihasilkan secara tepat.

Pengembang::
Index Team

Lisensi::
Bilibili Model License

Kecepatan:
Medium

Kualitas::

bahasa:
en, zh

VRAM:
4GB

Kloning Suara:
Ya

Biaya per 1K karakter:
2x

Kontrol emosi Zero-shot Vektor Emosi Tutur kata yang ekspresif Kontrol yang baik.

Terbaik untuk:: Isi ekspresif emosional, buku audio, asisten virtual

Cobalah IndexTTS-2

Spark TTS

Standard

Spark TTS oleh SparkAudio adalah model teks-to-peech yang menggabungkan kloning suara dengan gaya emosi yang dapat dikendalikan dan berbicara. Menggunakan 5 detik dari audio referensi, dapat mengkloning sebuah suara dan kemudian menghasilkan pidato dengan emosi, kecepatan yang berbeda, dan gaya ketika mempertahankan identitas suara kloning. Spark TTS menggunakan sistem kontrol berbasis saran.

Pengembang::
SparkAudio

Lisensi::
CC BY-NC-SA 4.0

Kecepatan:
Medium

Kualitas::

bahasa:
en, zh

VRAM:
4GB

Kloning Suara:
Ya

Biaya per 1K karakter:
2x

Penklonan Suara Kontrol emosi Kendali gaya Prompt-based Kloning 5-detik

Terbaik untuk:: Pembuatan konten dengan suara kloning dan kontrol emosional

Cobalah Spark TTS

GPT-SoVITS

Standard

GPT-SoVIT menggabungkan model bahasa bergaya GPT dengan SoVIT (Inferensi Suara Bernyanyi melalui Terjemahan dan Sintesis) untuk kloning suara yang sangat kuat. Dengan sebanyak 5 detik audio referensi, ia dapat secara akurat mengklon sebuah suara dan menghasilkan pidato baru sambil melestarikan karakteristik unik pembicara. Ini unggul pada kedua berbicara dan bernyanyi sintesis suara.

Pengembang::
RVC-Boss

Lisensi::
MIT

Kecepatan:
Slow

Kualitas::

bahasa:
en, zh, ja, ko

VRAM:
6GB

Kloning Suara:
Ya

Biaya per 1K karakter:
2x

Kloning 5-detik Bernyanyi suara Beberapa tembakan pembelajaran Kesetian yang tinggi Cross-bahasa

Terbaik untuk:: Kloning suara, menyanyikan sintesis, pembuat konten replikasi suara

Cobalah GPT-SoVITS

Orpheus

Standard

Orpheus adalah model skala besar teks-ke-peech yang mencapai ekspresi emosi tingkat manusia. Dilatih pada lebih dari 100.000 jam data pidato yang beragam, itu unggul dalam menghasilkan emosi alami, penekanan, dan gaya bicara. Orpheus dapat menghasilkan pidato yang hampir tidak dapat dibedakan dari rekaman manusia.

Pengembang::
Canopy Labs

Lisensi::
Llama 3.2 Community

Kecepatan:
Medium

Kualitas::

bahasa:
en

VRAM:
4GB

Kloning Suara:
Tidak

Biaya per 1K karakter:
2x

Emosi tingkat manusia Pelatihan 100K jam Perluasan alami Tutur kata yang ekspresif

Terbaik untuk:: Emotion pidato berkualitas tinggi, buku audio, akting suara

Cobalah Orpheus

Chatterbox

Premium

Chatterbox oleh Resemble AI adalah model kloning suara yang mutakhir. Ini dapat meniru suara apapun dari contoh audio tunggal dengan akurasi yang luar biasa, menangkap bukan hanya timbre tetapi juga gaya berbicara dan nuansa emosional. Chatterbox juga menampilkan kontrol emosi yang halus, memungkinkan Anda untuk menyesuaikan nada emosional dari pidato yang dihasilkan secara independen dari identitas suara.

Pengembang::
Resemble AI

Lisensi::
MIT

Kecepatan:
Medium

Kualitas::

bahasa:
en

VRAM:
4GB

Kloning Suara:
Ya

Biaya per 1K karakter:
4x

Kloning Zero-shot Kontrol emosi Kesetian yang tinggi Transfer gaya Satu sampel kloning

Terbaik untuk:: Kloning suara profesional dengan kontrol emosional, penciptaan konten

Cobalah Chatterbox

Tortoise TTS

Premium

Tortoise TTS adalah sistem autoregressive multi-voice text-to-peech yang memprioritaskan kualitas audio atas kecepatan. Ini menggunakan arsitektur DALL-E-inspired untuk menghasilkan pidato yang sangat alami dengan prosody dan speaker yang sempurna kesamaan. Sementara lebih lambat dari banyak alternatif, Tortoise menghasilkan beberapa pidato sintetis paling realistis yang tersedia dalam ekosistem open-source.

Pengembang::
James Betker

Lisensi::
Apache 2.0

Kecepatan:
Slow

Kualitas::

bahasa:
en

VRAM:
8GB

Kloning Suara:
Ya

Biaya per 1K karakter:
4x

Kualitas tertinggi Multi-voice Arsitektur DALL-E Penklonan Suara Autoregresif

Terbaik untuk:: Buku audio, isi premium, aplikasi kualitas-pertama

Cobalah Tortoise TTS

StyleTTS 2

Premium

StyTTS 2 mencapai sintesis tingkat manusia TTS dengan menggabungkan gaya difusi dengan pelatihan adversaria menggunakan model bahasa bahasa besar. Ini menghasilkan pidato yang paling alami di antara model pembicara tunggal, menyaingi rekaman manusia. Gaya STTS 2 menggunakan model berbasis difusi untuk menangkap variasi bahasa manusia secara penuh.

Pengembang::
Columbia University

Lisensi::
MIT

Kecepatan:
Medium

Kualitas::

bahasa:
en

VRAM:
4GB

Kloning Suara:
Tidak

Biaya per 1K karakter:
4x

Tingkat manusia Difusi gaya Pelatihan media. Variasi alami Kesetian yang tinggi

Terbaik untuk:: Sintesis pembicara tunggal berkualitas studio, narasi profesional

Cobalah StyleTTS 2

OpenVoice

Premium

OpenVoice oleh MyShell.ai memungkinkan kloning suara instan dengan kontrol granular atas gaya suara, emosi, aksen, irama, jeda, dan intonasi. dapat mengklon sebuah suara dari klip audio pendek dan menghasilkan pidato dalam berbagai bahasa sementara mempertahankan identitas pembicara. OpenVoice juga berfungsi sebagai pengkonversi suara, memungkinkan transformasi suara real-time.

Pengembang::
MyShell.ai / MIT

Lisensi::
MIT

Kecepatan:
Medium

Kualitas::

bahasa:
en, zh, ja, ko, fr, de, es, it

VRAM:
4GB

Kloning Suara:
Ya

Biaya per 1K karakter:
4x

Kloning Instan Konversi suara Kontrol emosi Kontrol akses Multibahasa

Terbaik untuk:: Kloning suara dengan kontrol gaya yang bagus, konversi suara

Cobalah OpenVoice

Qwen3 TTS

Standard

Qwen3-TTS adalah 1.7 miliar parameter teks-ke-peech model dari tim Qwen Aliba. Ini mendukung tiga mode: preset suara dengan kontrol emosi (9 pembicara), kloning suara dari hanya 3 detik audio, dan mode desain suara yang unik di mana Anda menggambarkan suara yang Anda inginkan dalam bahasa alami. Ini mencakup 10 bahasa dengan ekspresif tinggi dan prosody alami.

Pengembang::
Alibaba (Qwen)

Lisensi::
Apache 2.0

Kecepatan:
Medium

Kualitas::

bahasa:
en, zh, ja, ko, de, fr, ru, pt, es, it

VRAM:
7GB

Kloning Suara:
Ya

Biaya per 1K karakter:
2x

Penklonan Suara 9 suara preset Desain suara dari teks Kontrol emosi 10 bahasa

Terbaik untuk:: Isi multibahasa dengan kloning suara atau desain suara gubahan

Cobalah Qwen3 TTS

Sesame CSM

Premium

Sesame CSM (Conversation Speech Model) adalah model parameter 1 miliar yang dirancang khusus untuk menghasilkan pidato percakapan. Ini model alami pola percakapan manusia termasuk pengaturan waktu, respon backchannel, reaksi emosional, dan aliran percakapan. CSM menghasilkan audio yang terdengar seperti percakapan alami manusia daripada percakapan sintetis.

Pengembang::
Sesame

Lisensi::
Apache 2.0

Kecepatan:
Slow

Kualitas::

bahasa:
en

VRAM:
8GB

Kloning Suara:
Tidak

Biaya per 1K karakter:
4x

Percakapan Waktu yang wajar Turn-taking Backchannel parameter 1B

Terbaik untuk:: Asisten AI, Chatbot, aplikasi AI percakapan.

Cobalah Sesame CSM

Chatterbox Turbo

Standard

Chatterbox Turbo by Resemble AI is a 350M parameter upgrade to Chatterbox, messing up to 6x real-time speed with sub-200ms latensi. It supports paralinguistik tags like [laugh], [ugh], and [chuckle] processly in text. Includes Perth watermarking on all revenceance tracking.

Pengembang::
Resemble AI

Lisensi::
MIT

Kecepatan:
Fast

Kualitas::

bahasa:
en

VRAM:
2GB

Kloning Suara:
Ya

Biaya per 1K karakter:
2x

Latensi Sub-200ms Tag paralinguistik 6x real-time Penklonan Suara Penandaan air

Terbaik untuk:: Real-time agen suara, pidato ekspresif dengan suara alami

Cobalah Chatterbox Turbo

Dia 2

Standard

Dia2 by Nari Labs is a streaming-first upgrade to Dia, available in 1B and 2B parameter varians. It beginsizing synthesizing audio from the first few tocks, making it ideal untuk agen suara real-time dan pipeech pipeech. Support dialog multi-peaker dengan [S1] /[S2] tag dan isyarat paralinguistik seperti (tertawa).

Pengembang::
Nari Labs

Lisensi::
Apache 2.0

Kecepatan:
Fast

Kualitas::

bahasa:
en

VRAM:
4GB

Kloning Suara:
Tidak

Biaya per 1K karakter:
2x

Streaming keluaran Multi-speaker Latensi rendah isyarat Paralinguistik Sampai keluaran 2 menit

Terbaik untuk:: Real-time agen suara, dialog generasi, aplikasi streaming

Cobalah Dia 2

VoxCPM

Standard

VoxCPM 1.5 oleh OpenBMB adalah sebuah model TTS yang bebas token novel yang beroperasi dalam ruang yang berkesinambungan daripada token diskrete. Ini menghasilkan tinggi-fidelity 44.1kHz, mendukung kloning suara nol-shot dari 3-10 detik, dan mempertahankan konsistensi melalui paragraf. Kloning lintas-bahasa memungkinkan Anda menerapkan suara Inggris untuk pidato Cina dan sebaliknya.

Pengembang::
OpenBMB

Lisensi::
Apache 2.0

Kecepatan:
Fast

Kualitas::

bahasa:
en, zh

VRAM:
4GB

Kloning Suara:
Ya

Biaya per 1K karakter:
2x

Audio 44.1kHz Tokenizer-free Kloning lintas-bahasa Context-aware LoRA fine-tuning

Terbaik untuk:: Audio berfidelitas tinggi, buku audio, isi bentuk panjang dengan konsistensi suara

Cobalah VoxCPM

OuteTTS

Free

OuteTTS memperluas model bahasa yang besar dengan kemampuan text-to-spiech saat melestarikan arsitektur asli. Ini mendukung beberapa backend termasuk llama.cpp (CPU/GPU), Hugging Face Transformers, ExLmaV2, VLLM, dan bahkan browser inference melalui Transformers.j.j.Fures nol-shot cloning melalui profil speaker yang disimpan sebagai JSON.

Pengembang::
OuteAI

Lisensi::
Apache 2.0

Kecepatan:
Fast

Kualitas::

bahasa:
en

VRAM:
2GB

Kloning Suara:
Ya

Biaya per 1K karakter:
Bebas

Inferensi CPU Inferensi browser Penklonan Suara Beberapa backend Profil Speaker

Terbaik untuk:: Penyebaran tepi, berbasis peramban TTS, lingkungan sumber-rendah

Cobalah OuteTTS

TADA

Standard

TADA (Text-Acoustic Dual Alignment) oleh Hume AI adalah model TTS yang inovatif yang menghilangkan halusinasi melalui sebuah arsitektur alignmen ganda yang dibangun di Llama 3.2 (English) dan 3B (multitual varians, TADA mencapai RTF 0.09 5x lebih cepat daripada model LLM berbasis TTS yang sebanding.

Pengembang::
Hume AI

Lisensi::
MIT

Kecepatan:
Fast

Kualitas::

bahasa:
en

VRAM:
5GB

Kloning Suara:
Tidak

Biaya per 1K karakter:
2x

Nol halusinasi 5x lebih cepat dari LLM TTS Ekspresi emosional Konteks audio 700s Dua perataan

Terbaik untuk:: Pidato bebas halusinasi berkualitas tinggi, ekspresi emosional, inferensi cepat

Cobalah TADA

VibeVoice

Standard

VibeVoice by Microsoft datang dengan dua varian: sebuah model 1,5B untuk konten berbentuk panjang (naik sampai 90 menit, 4 speaker) dan model Realtime 0.5B untuk streaming dengan ~200ms latensi audio pertama. Varian 1,5B unggul pada podcast dan buku audio dengan konsistensi speaker di atas jalur panjang. Catatan: Microsoft menghapus kode TTS dari repositori dan audio yang dihasilkan termasuk AI disclaimers.

Pengembang::
Microsoft

Lisensi::
MIT

Kecepatan:
Fast

Kualitas::

bahasa:
en, zh

VRAM:
4GB

Kloning Suara:
Tidak

Biaya per 1K karakter:
2x

Multi-speaker Sampai 90 menit Generasi Podcast Konsistensi Speaker 200ms streaming

Terbaik untuk:: Podcast, buku audio, panjang-bentuk konten multi-talk

Cobalah VibeVoice

Pocket TTS

Free

Pocket TTS oleh Kyutai (kloning suara 0-shot dari sampel audio tunggal, dan menghasilkan suara alami model-ke-peech yang memukul dengan baik di atas beratnya. Ini berjalan efisien pada CPU, mendukung kloning suara nol-shot dari sebuah pidato suara. Ukuran model kecil membuatnya ideal untuk penyebaran tepi dan lingkungan sumber-rendah.

Pengembang::
Kyutai

Lisensi::
MIT

Kecepatan:
Fast

Kualitas::

bahasa:
en, fr

VRAM:
1GB

Kloning Suara:
Ya

Biaya per 1K karakter:
Bebas

Parameter 100M Inferensi CPU Penklonan Suara [ Gambar di hlm. Edge-siap

Terbaik untuk:: Penyebaran ringan, hanya lingkungan CPU, kloning suara cepat

Cobalah Pocket TTS

Kitten TTS

Free

Kitten TTS by KittenML is an ultra-lightweight text-to-speech model built on ONNX. With variants from 15M to 80M parameters (25-80 MB on disk), it delivers high-quality voice synthesis on CPU without requiring a GPU. Features 8 built-in voices, adjustable speech speed, and built-in text preprocessing for numbers, currencies, and units. Ideal for edge deployment and low-latency applications.

Pengembang::
KittenML

Lisensi::
Apache 2.0

Kecepatan:
Fast

Kualitas::

bahasa:
en

VRAM:
0GB

Kloning Suara:
Tidak

Biaya per 1K karakter:
Bebas

CPU-only inference Under 80MB model size 8 built-in voices Speed control ONNX-based 24kHz output

Terbaik untuk:: Fast lightweight TTS, edge deployment, low-latency applications

Cobalah Kitten TTS

CosyVoice3

Standard

CosyVoice3 is the latest evolution from Alibaba's FunAudioLLM team. It features bi-streaming inference with ~150ms latency, instruction-based control for emotion/speed/volume, and improved speaker similarity for zero-shot cloning. Supports 9 languages plus 18 Chinese dialects. RL-tuned variant delivers state-of-the-art prosody.

Pengembang::
Alibaba (FunAudioLLM)

Lisensi::
Apache 2.0

Kecepatan:
Fast

Kualitas::

bahasa:
en, zh, ja, ko, de, es, fr, it, ru

VRAM:
4GB

Kloning Suara:
Ya

Biaya per 1K karakter:
2x

Bi-streaming Emotion control Voice cloning Speed/volume control Instruction following

Terbaik untuk:: Multilingual production TTS, real-time applications, voice cloning

Cobalah CosyVoice3

MOSS-TTS

Premium

MOSS-TTS from OpenMOSS supports generation of up to 1 hour of continuous speech across 20 languages. Features token-level duration control, phoneme-level pronunciation control via IPA/Pinyin, and code-switching between languages. The 8B production model delivers state-of-the-art quality with zero-shot voice cloning from reference audio.

Pengembang::
OpenMOSS

Lisensi::
Apache 2.0

Kecepatan:
Medium

Kualitas::

bahasa:
en, zh, de, es, fr, ja, it, hu, ko, ru, fa, ar, pl, pt, cs, da, sv, el, tr

VRAM:
16GB

Kloning Suara:
Ya

Biaya per 1K karakter:
4x

Ultra-long generation 20 languages Voice cloning Duration control Pronunciation control Code-switching

Terbaik untuk:: Audiobooks, long-form content, multilingual production

Cobalah MOSS-TTS

MegaTTS3

Premium

MegaTTS3 from ByteDance uses a novel sparse alignment mechanism combined with a latent diffusion transformer. Features adjustable trade-off between speech intelligibility and speaker similarity for zero-shot voice cloning.

Pengembang::
ByteDance

Lisensi::
Apache 2.0

Kecepatan:
Slow

Kualitas::

bahasa:
en, zh

VRAM:
8GB

Kloning Suara:
Ya

Biaya per 1K karakter:
4x

Voice cloning Adjustable similarity Cross-lingual

Terbaik untuk:: High-fidelity voice cloning

Cobalah MegaTTS3

Kokoro

Bebas

Kokoro is an 82 million parameter text-to-speech model that punches well above its weight class. Despite its tiny size, it produces remarkably natural and expressive speech. Kokoro supports multiple languages including English, Japanese, Chinese, and Korean with a variety of expressive voices. It runs incredibly fast — generating audio nearly 100x faster than real-time on a GPU.

Pengembang::
Hexgrad

Lisensi::
Apache 2.0

Kecepatan:
Fast

Kualitas::

bahasa: en, ja, zh, ko, fr, de, it, pt, es, hi, ru

Terbaik untuk:: High-quality TTS with minimal latency, streaming applications

Coba Bebas

Piper

Bebas

Piper is a lightweight text-to-speech engine developed by Rhasspy that uses VITS and larynx architectures. It runs entirely on CPU, making it ideal for edge devices, home automation, and applications requiring offline TTS. With over 100 voices across 30+ languages, Piper delivers natural-sounding speech at real-time speeds even on a Raspberry Pi 4.

Pengembang::
Rhasspy

Lisensi::
MIT

Kecepatan:
Fast

Kualitas::

bahasa: en, de, fr, es, it, pt, nl, pl, ru, zh, ja, ko, ar, cs, da, fi, el, hu, is, ka, kk, ne, no, ro, sk, sr, sv, sw, tr, uk, vi

Terbaik untuk:: Quick previews, accessibility, and embedded applications

Coba Bebas

VITS

Bebas

VITS (Variational Inference with adversarial learning for end-to-end Text-to-Speech) is a parallel end-to-end TTS method that generates more natural sounding audio than current two-stage models. It adopts variational inference augmented with normalizing flows and an adversarial training process, achieving a significant improvement in naturalness.

Pengembang::
Jaehyeon Kim et al.

Lisensi::
MIT

Kecepatan:
Fast

Kualitas::

bahasa: en, de, es, fr, pt, nl, fi, hu, bg, uk, pl

Terbaik untuk:: General-purpose text-to-speech with natural prosody

Coba Bebas

MeloTTS

Bebas

MeloTTS by MyShell.ai is a multilingual TTS library supporting English (American, British, Indian, Australian), Spanish, French, Chinese, Japanese, and Korean. It is extremely fast, processing text at near real-time speed on CPU alone. MeloTTS is designed for production use and supports both CPU and GPU inference.

Pengembang::
MyShell.ai

Lisensi::
MIT

Kecepatan:
Fast

Kualitas::

bahasa: en, es, fr, zh, ja, ko

Terbaik untuk:: Production applications needing fast, multilingual TTS

Coba Bebas

OuteTTS

Bebas

OuteTTS extends large language models with text-to-speech capabilities while preserving the original architecture. It supports multiple backends including llama.cpp (CPU/GPU), Hugging Face Transformers, ExLlamaV2, VLLM, and even browser inference via Transformers.js. Features zero-shot voice cloning through speaker profiles saved as JSON.

Pengembang::
OuteAI

Lisensi::
Apache 2.0

Kecepatan:
Fast

Kualitas::

bahasa: en

Terbaik untuk:: Edge deployment, browser-based TTS, low-resource environments

Coba Bebas

Pocket TTS

Bebas

Pocket TTS by Kyutai (creators of Moshi) is a compact 100M parameter text-to-speech model that punches well above its weight. It runs efficiently on CPU, supports zero-shot voice cloning from a single audio sample, and produces natural-sounding speech. The small model size makes it ideal for edge deployment and low-resource environments.

Pengembang::
Kyutai

Lisensi::
MIT

Kecepatan:
Fast

Kualitas::

bahasa: en, fr

Standar

Pengembang::
Alibaba (FunAudioLLM)

Lisensi::
Apache 2.0

Kecepatan:
Fast

Kualitas::

bahasa:
en, zh, ja, ko, de, es, fr, it, ru

Kloning Suara:
Ya

Bi-streamingEmotion controlVoice cloningSpeed/volume controlInstruction following

Terbaik untuk:: Multilingual production TTS, real-time applications, voice cloning

Cobalah CosyVoice3

Premium

Pengembang::
OpenMOSS

Lisensi::
Apache 2.0

Kecepatan:
Medium

Kualitas::

bahasa:
en, zh, de, es, fr, ja, it, hu, ko, ru, fa, ar, pl, pt, cs, da, sv, el, tr

Kloning Suara:
Ya

VRAM:
16GB

Biaya per 1K karakter:
4x

Ultra-long generation20 languagesVoice cloningDuration controlPronunciation controlCode-switching

Terbaik untuk:: Audiobooks, long-form content, multilingual production

Cobalah MOSS-TTS

MegaTTS3

Premium

Pengembang::
ByteDance

Lisensi::
Apache 2.0

Kecepatan:
Slow

Kualitas::

bahasa:
en, zh

Kloning Suara:
Ya

VRAM:
8GB

Biaya per 1K karakter:
4x

Voice cloningAdjustable similarityCross-lingual

Terbaik untuk:: High-fidelity voice cloning

Cobalah MegaTTS3

Tabel Perbandingan Model

Model	Pengembang:	Tier	Kecepatan	bahasa	VRAM	Lisensi:	kredit
Kokoro	Hexgrad	Free	Fast	11	1.5GB	Apache 2.0	Bebas	Gunakan
Piper	Rhasspy	Free	Fast	31	0 (CPU only)	MIT	Bebas	Gunakan
VITS	Jaehyeon Kim et al.	Free	Fast	11	1GB	MIT	Bebas	Gunakan
MeloTTS	MyShell.ai	Free	Fast	6	0.5GB (GPU optional)	MIT	Bebas	Gunakan
Bark	Suno	Standard	Slow	13	5GB	MIT	2	Gunakan
Bark Small	Suno	Standard	Medium	13	2GB	MIT	2	Gunakan
CosyVoice 2	Alibaba (Tongyi Lab)	Standard	Medium	8	4GB	Apache 2.0	2	Gunakan
Dia TTS	Nari Labs	Standard	Medium	1	4GB	Apache 2.0	2	Gunakan
Parler TTS	Hugging Face	Standard	Medium	1	4GB	Apache 2.0	2	Gunakan
GLM-TTS	Zhipu AI	Standard	Medium	2	4GB	GLM-4 License	2	Gunakan
IndexTTS-2	Index Team	Standard	Medium	2	4GB	Bilibili Model License	2	Gunakan
Spark TTS	SparkAudio	Standard	Medium	2	4GB	CC BY-NC-SA 4.0	2	Gunakan
GPT-SoVITS	RVC-Boss	Standard	Slow	4	6GB	MIT	2	Gunakan
Orpheus	Canopy Labs	Standard	Medium	1	4GB	Llama 3.2 Community	2	Gunakan
Chatterbox	Resemble AI	Premium	Medium	1	4GB	MIT	4	Gunakan
Tortoise TTS	James Betker	Premium	Slow	1	8GB	Apache 2.0	4	Gunakan
StyleTTS 2	Columbia University	Premium	Medium	1	4GB	MIT	4	Gunakan
OpenVoice	MyShell.ai / MIT	Premium	Medium	8	4GB	MIT	4	Gunakan
Qwen3 TTS	Alibaba (Qwen)	Standard	Medium	10	7GB	Apache 2.0	2	Gunakan
Sesame CSM	Sesame	Premium	Slow	1	8GB	Apache 2.0	4	Gunakan
Chatterbox Turbo	Resemble AI	Standard	Fast	1	2GB	MIT	2	Gunakan
Dia 2	Nari Labs	Standard	Fast	1	4GB	Apache 2.0	2	Gunakan
VoxCPM	OpenBMB	Standard	Fast	2	4GB	Apache 2.0	2	Gunakan
OuteTTS	OuteAI	Free	Fast	1	2GB	Apache 2.0	Bebas	Gunakan
TADA	Hume AI	Standard	Fast	1	5GB	MIT	2	Gunakan
VibeVoice	Microsoft	Standard	Fast	2	4GB	MIT	2	Gunakan
Pocket TTS	Kyutai	Free	Fast	2	1GB	MIT	Bebas	Gunakan
Kitten TTS	KittenML	Free	Fast	1	0GB	Apache 2.0	Bebas	Gunakan
CosyVoice3	Alibaba (FunAudioLLM)	Standard	Fast	9	4GB	Apache 2.0	2	Gunakan
MOSS-TTS	OpenMOSS	Premium	Medium	19	16GB	Apache 2.0	4	Gunakan
MegaTTS3	ByteDance	Premium	Slow	2	8GB	Apache 2.0	4	Gunakan

Teks Al yang Paling Berkorehensif ke Peron Tutur Suara

Mengapa Memilih TTS.ai untuk Bertekstur?

TTS.ai menyatukan dunia

Setiap model adalah sumber terbuka di bawah MIT, Apache 2.0, atau lisensi serbaboleh yang sama, memastikan Anda memiliki hak komersial penuh untuk menggunakan audio yang dihasilkan di proyek Anda. Apakah Anda membutuhkan sintesis cepat, ringan untuk aplikasi real-time atau keluaran premium studio untuk buku audio dan podcast, TTS.ai memiliki model yang tepat untuk setiap kasus.

Model Bebas, Tak Perlu Akun

Mulailah dengan tiga model TTS gratis: Piper (cepat, ringan), VITS (sintesis saraf berkualitas tinggi), dan Melotts (multi-language support). tidak ada sign-up, tidak ada kartu kredit, tidak ada batasan pada generasi. model gratis mendukung Inggris dan banyak bahasa lain dengan keluaran natural-sounding cocok untuk kebanyakan aplikasi.

Proses GPU-Accelerasi

Semua model TTS dijalankan dengan model yang didedikasikan NVIDIA GPUs untuk waktu yang cepat dan konsisten. model bebas biasanya menghasilkan audio dalam waktu kurang dari 2 detik. model standar seperti Kokoro, CosyVoice 2, dan Bark rata-rata 3-5 detik. model Premium dengan kualitas tertinggi, seperti Tortoise dan Chatterbox, proses dalam 5-15 detik tergantung pada panjang teks.

30+ Bahasa Didukung

Hasilkan pidato dalam lebih dari 30 bahasa termasuk bahasa Inggris, Spanyol, Perancis, Jerman, Italia, Portugis, Cina, Jepang, Korea, Arab, Hindi, Rusia, dan lebih banyak lagi beberapa model mendukung sintesis lintas bahasa, berarti Anda dapat menghasilkan pidato dalam bahasa yang tidak pernah dilatih suara asli.

API Pengembang-Siap

Integrate TTS.ai ke aplikasi Anda dengan API OpenAI yang kompatibel kami. Satu titik akhir untuk semua model 20+. Python, JavaScript, CURL, dan Go SDK. streaming dukungan untuk aplikasi real-time. Proses Batch untuk pembuatan konten skala besar. Webhooks untuk pemberitahuan sinkronifikasi. Tersedia pada rencana Pro dan Enterprise.

Pertanyaan yang Sering Diajukan

Teks ke pidato (TTS) adalah teknologi AI yang mengubah teks tertulis menjadi audio yang terdengar alami model TTS saraf modern seperti Kokoro, Chatterbox, dan CosyVoice 2 menggunakan pembelajaran mendalam untuk menghasilkan pidato yang terdengar sangat manusiawi, dengan prosody alami, emosi, dan irama.

Ini tergantung pada kebutuhan Anda. Untuk pratinjau cepat, gunakan Piper atau Melottis (bebas, cepat). Untuk kualitas tinggi, coba Kokoro atau CosyVoice 2 (standard tier). Untuk kloning suara, gunakan Chatterbox atau GPT-SoVITS (premium). Untuk konten dialog/podcast, coba Dia TTS. Setiap model memiliki kekuatan berbeda æus percobaan untuk menemukan yang terbaik.

Yes! TTS.ai offers free text-to-speech with Kokoro, Piper, VITS, and MeloTTS models. No account required for up to 500 characters and 3 generations per hour. Sign up for a free account to get 15,000 characters and access all models.

TTS kami secara kolektif mendukung 30 bahasa termasuk bahasa Inggris, Spanyol, Jerman, Italia, Portugis, Cina, Jepang, Korea, Arab, Rusia, Hindi, dan lebih banyak lagi.

Ya, audio yang dihasilkan melalui TTS.ai dapat digunakan secara komersial. Semua model kami menggunakan lisensi open-source (MIT, Apache 2.0). Periksa lisensi individu untuk istilah spesifik. Kami sarankan meninjau lisensi model spesifik yang Anda gunakan untuk proyek Anda.

TTS.ai mendukung MP3, WAV, OGG, dan FLAC format keluaran. MP3 adalah baku untuk pemutaran web. WAV direkomendasikan untuk pemrosesan audio lebih lanjut. Anda dapat mengubah diantara format menggunakan perkakas Audio Converter kita.

Kloning suara menggunakan AI untuk meniru suara spesifik dari contoh audio pendek (biasanya 5-30 detik). Unggah rekaman jelas dari suara target, dan model seperti Chatterbox, GPT-SoVITS, atau OpenVOTs akan menghasilkan pidato baru dalam suara itu. Kualitas akan meningkat dengan audio referensi bersih, lebih lama.

Pengguna bebas dapat menghasilkan hingga 500 karakter per permintaan. Pengguna terdaftar mendapatkan 5.000 karakter per permintaan. Untuk teks yang lebih panjang, audio dibuat dalam potongan dan dijahit secara otomatis. Pengguna API dapat memproses hingga 10.000 karakter per permintaan.

Dukungan SSML (Speech Synthesis Markup Language) bervariasi menurut model. Piper dan beberapa model lainnya mendukung tag SSML dasar untuk jeda, penekanan, dan kontrol pengucapan. Untuk model tanpa dukungan SSML asli, Anda dapat menggunakan tanda baca alami dan garis istirahat untuk mempengaruhi prosody.

Ya, kebanyakan model mendukung penyesuaian kecepatan dari 0.5x ke 2.0x. beberapa model seperti Bark dan Parler juga mengijinkan pitch dan kontrol gaya. Anda dapat mengatur parameter kecepatan pada panel pengaturan canggih atau melalui parameter kecepatan API.

Ya, pemrosesan batch tersedia melalui API kami. Anda dapat memasukkan beberapa segmen teks dalam satu panggilan API atau skrip, dan masing-masing akan diproses dan dikembalikan sebagai berkas audio terpisah. Ini ideal untuk bab buku audio, modul belajar, atau dialog game skrip.

Hasilkan kunci API dari dashboard akun Anda, lalu kirim permintaan POST ke titik akhir API REST kami dengan teks, model, dan parameter suara Anda. Kami menyediakan contoh kode dalam Python, JavaScript, dan TURL. API ini kompatibel dengan OpenAI, sehingga integrasi yang ada bekerja dengan perubahan minimal.

5.0/5 (3)

Mulai Mengkonversi Teks ke Pidato Sekarang

Join thousands of creators using TTS.ai. Get 15,000 free characters with a new account. Free models available without signup.

Daftar Bebas Tilik Pricing

Teks AI ke Tutur Kata

Beritahu teman-temanmu!

Rincian Model

Chatterbox

Tips untuk Hasil yang Lebih Baik

Penggunaan Karakter

Bagaimana AI Teks kepada Cara Kerja Tutur Kata

Masukkan Teks Anda

Pilih Model & Suara

Buat & Unduhan

Teks untuk Menggunakan Kasus Speech

Buku audio

Voiceover Video

Podcast

Permainan

E-Learning

Aksesibilitas

IVR & Sistem Telepon

Media Sosial

Streaming

Pemasaran

Dubbing & Lokalisasi

Renungan & Kesehatan

Semua Teks ke Model Pidato

Kokoro

Piper

VITS

MeloTTS

Bark

Bark Small

CosyVoice 2

Dia TTS

Parler TTS

GLM-TTS

IndexTTS-2

Spark TTS

GPT-SoVITS

Orpheus

Chatterbox

Tortoise TTS

StyleTTS 2

OpenVoice

Qwen3 TTS

Sesame CSM

Chatterbox Turbo

Dia 2

VoxCPM

OuteTTS

TADA

VibeVoice

Pocket TTS

Kitten TTS

CosyVoice3

MOSS-TTS

MegaTTS3

Kokoro

Piper

VITS

MeloTTS

OuteTTS

Pocket TTS

Kitten TTS

Bark

Bark Small

CosyVoice 2

Dia TTS

Parler TTS

GLM-TTS

IndexTTS-2

Spark TTS

GPT-SoVITS

Orpheus

Qwen3 TTS

Chatterbox Turbo

Dia 2

VoxCPM

TADA

VibeVoice

CosyVoice3

Chatterbox