Gratis AI Teks ke Pidato

33+ model open-source, 273+ Suara-suara, 33+ Tak ada rekening yang diperlukan.

17K+
pembuat
70K+
generasi
33+
Model AI
273+
suara
0/500 karakter · Daftar untuk 5.000 per generasi → Bebas
Beritahu teman-temanmu!

33+ Model Suara AI

Koleksi paling komprehensif model TTS open-source dalam satu platform

KokoroKokoro Bebas

Kokoro adalah model parameter 82 juta teks-ke-peech yang memukul dengan baik di atas kelas berat badannya meskipun ukurannya kecil, ia menghasilkan pidato yang sangat alami dan ekspresif. Kokoro mendukung berbagai bahasa termasuk bahasa Inggris, Jepang, Cina, dan Korea dengan berbagai suara ekspresif. ia berlari sangat cepat menghasilkan audio hampir 100x lebih cepat daripada GPU.

Terbaik untuk: TTS berkualitas tinggi dengan aplikasi minimal latensi, streaming

Coba Bebas

PiperPiper Bebas

Piper adalah mesin text-to-speech ringan yang dikembangkan oleh Rhassypy yang menggunakan VITS dan laringx arsitektur. mesin ini bekerja sepenuhnya pada CPU, membuatnya ideal untuk perangkat tepi, otomasi rumah, dan aplikasi yang membutuhkan TTS offline. dengan lebih dari 100 suara melintasi 30 bahasa+, Piper memberikan pidato yang terdengar alami pada kecepatan nyata bahkan pada sebuah Raspberry Pi 4.

Terbaik untuk: Pratilik cepat, aksesibilitas, dan aplikasi tertanam

Coba Bebas

VITSVITS Bebas

VITS (Inferensi Variational dengan adversaria belajar untuk end-to-end Text-to-Speech) adalah metode akhir-ke-end TTS yang menghasilkan audio terdengar lebih alami daripada model dua tahap saat ini. Ia mengadopsi inferensi variasi yang ditambah dengan aliran normal dan proses pelatihan adversaria, mencapai peningkatan yang signifikan dalam naturalnessness.

Terbaik untuk: Umum tujuan teks-to-peech dengan prosody alami

Coba Bebas

MeloTTSMeloTTS Bebas

MeloTTS oleh MyShell.ai adalah perpustakaan TTS multibahasa yang mendukung bahasa Inggris (Amerika, Inggris, India, Australia), Spanyol, Prancis, Cina, Jepang, dan Korea. Ini sangat cepat, memproses teks pada hampir kecepatan real-time pada CPU saja. MeloTTS dirancang untuk produksi dan mendukung baik CPU maupun GPUference.

Terbaik untuk: Aplikasi produksi membutuhkan TTS multibahasa yang cepat

Coba Bebas

Kani TTS 2Kani TTS 2 Bebas

Kani-TTS-2 by Nine Sixd is an ultra-lightweight 400M modelmeter built on a Liquid Al LFM2 backbone with NVIDIA NanoCodec. It runs in just 3GB VRAM and product ~10 seconds of speech in ~2 seconds on an A100 (RTF 0.2). The current public release command an English-only naVIDIA Nacan-ts-ents-2-en-en--en--enppointpointpointpointment and does not expove the speaker-emdding in the speaker-emdding to cloning for Chatter Chatter - Chatterboxt2 / FTTS /5 FTTS, untuk kloning, atau Konglid, atau melos.

Terbaik untuk: Generasi Inggris cepat pada perangkat keras rendah-VRAM, preview cepat

Coba Bebas

OuteTTSOuteTTS Bebas

OuteTTS memperluas model bahasa yang besar dengan kemampuan text-to-spiech saat melestarikan arsitektur asli. Ini mendukung beberapa backend termasuk llama.cpp (CPU/GPU), Hugging Face Transformers, ExLmaV2, VLLM, dan bahkan browser inference melalui Transformers.j.j.Fures nol-shot cloning melalui profil speaker yang disimpan sebagai JSON.

Terbaik untuk: Penyebaran tepi, berbasis peramban TTS, lingkungan sumber-rendah

Coba Bebas

Pocket TTSPocket TTS Bebas

Pocket TTS oleh Kyutai (kloning suara 0-shot dari sampel audio tunggal, dan menghasilkan suara alami model-ke-peech yang memukul dengan baik di atas beratnya. Ini berjalan efisien pada CPU, mendukung kloning suara nol-shot dari sebuah pidato suara. Ukuran model kecil membuatnya ideal untuk penyebaran tepi dan lingkungan sumber-rendah.

Terbaik untuk: Penyebaran ringan, hanya lingkungan CPU, kloning suara cepat

Coba Bebas

Kitten TTSKitten TTS Bebas

Kitten TTS oleh KittenML adalah sebuah sintesis suara ultra-cahaya-ke-peech yang dibangun di ONNX. Dengan varian dari 15M ke 80M parameter (25-80 MB pada disk), itu memberikan sintesis suara berkualitas tinggi pada CPU tanpa membutuhkan GPU. Fetures 8 built-in voices, kecepatan bicara tersesuaikan, dan dibangun dalam teks preproses untuk angka, kursensi, dan unit I dealed for edge dan aplikasi frekuensi rendah.

Terbaik untuk: TTS ringan cepat, penyebaran tepi, aplikasi latensi rendah

Coba Bebas

Ming-Omni TTSMing-Omni TTS Bebas

Ming-omni-tts--0.5B oleh inclusionAI adalah sebuah model pidato omni-modal compact yang dibangun di atas tulang belakang padat BailingM dengan suara padat Patch-by-Patch yang cocok dengan decoder audio. Memberikan keluaran 44.1kHz (dekat kualitas CD), mendukung cloning suara nol-shot dari referensi 3+ detik, dan termasuk built-in emotion / dialek / kontrol JM melalui instruksi JSON. Kestabilan Excellent 0.83 WER pada benchmarks Cina.

Terbaik untuk: Fidelitas tinggi dwilingual narasi, akting suara yang dikendalikan emosi, isi buku audio Cina

Coba Bebas

MOSS-TTS NanoMOSS-TTS Nano Bebas

Varian compact 100M-SSS-TTS-Nano-100M adalah 100M-parameter padat dari keluarga MOSS-TTS, berbagi arsitektur delay-transformer. Menukarkan kualitas puncak model 8B untuk ~80x lebih kecil berat badan dan secara dramatis lebih rendah per-request VRAM, membuatnya cocok untuk penyebaran free-tier dan tinggi-melalui. Sama 20 bahasa.

Terbaik untuk: Free-tier TTS, produksi volume tinggi, penggunaan interaktif latensi rendah

Coba Bebas

BarkBark Standar

Model teks berbasis Transformer-to-audio yang menghasilkan pidato, musik, dan efek suara yang realistis.

Pengembang: Suno · Lisensi: MIT

Cobalah

Bark SmallBark Small Standar

Lighter versi Bark dengan inferensi yang lebih cepat dan penggunaan memori yang lebih rendah.

Pengembang: Suno · Lisensi: MIT

Cobalah

CosyVoice 2CosyVoice 2 Standar

TTS bersisik Aliba dengan sifat alami manusia dan latensi dekat nol.

Pengembang: Alibaba (Tongyi Lab) · Lisensi: Apache 2.0

Cobalah

Dia TTSDia TTS Standar

Model dialog multi pembicara yang menciptakan percakapan alami antara pembicara.

Pengembang: Nari Labs · Lisensi: Apache 2.0

Cobalah

Parler TTSParler TTS Standar

Gambarkan suara yang Anda inginkan dalam bahasa alami dan Parler menghasilkan pidato yang cocok.

Pengembang: Hugging Face · Lisensi: Apache 2.0

Cobalah

IndexTTS-2IndexTTS-2 Standar

Nol-shot TTS dengan kontrol emosi halus dan ekspresif tinggi.

Pengembang: Index Team · Lisensi: Bilibili Model License

Cobalah

Spark TTSSpark TTS Standar

Suara kloning TTS dengan emosi terkendali dan berbicara gaya melalui prompt.

Pengembang: SparkAudio · Lisensi: CC BY-NC-SA 4.0

Cobalah

GPT-SoVITSGPT-SoVITS Standar

Beberapa kali kloning suara TTS yang mereplikasi suara hanya dari 5 detik audio.

Pengembang: RVC-Boss · Lisensi: MIT

Cobalah

OrpheusOrpheus Standar

Model TTS emosional tingkat manusia dilatih pada 100K jam dari data pidato.

Pengembang: Canopy Labs · Lisensi: Llama 3.2 Community

Cobalah

Qwen3 TTSQwen3 TTS Standar

TTS multibahasa Aliba dengan suara dan desain suara dari teks.

Pengembang: Alibaba (Qwen) · Lisensi: Apache 2.0

Cobalah

VieNeu-TTS-v2VieNeu-TTS-v2 Standar

Vietnam + English code-switching TTS dengan 7 suara preset dan kloning suara nol-shot. CPU-only, tidak dibutuhkan GPU.

Pengembang: Phạm Nguyễn Ngọc Bảo · Lisensi: Apache 2.0

Cobalah

Chatterbox TurboChatterbox Turbo Standar

Lebih cepat Chatterbox dengan latensi sub-200ms dan tag paralinguistik untuk tertawa, batuk, dan banyak lagi.

Pengembang: Resemble AI · Lisensi: MIT

Cobalah

VoxCPMVoxCPM Standar

TTS bebas tokenizer memproduksi audio 44.1kHz dengan konsistensi paragraf sadar konteks.

Pengembang: OpenBMB · Lisensi: Apache 2.0

Cobalah

VibeVoiceVibeVoice Standar

Model Microsoft untuk konten multi pembicara bentuk panjang seperti podcast dan buku audio.

Pengembang: Microsoft · Lisensi: MIT

Cobalah

CosyVoice3CosyVoice3 Standar

Berikutnya generasi multibahasa TTS dengan bi-streaming, kontrol emosi, dan kloning suara nol-shot.

Pengembang: Alibaba (FunAudioLLM) · Lisensi: Apache 2.0

Cobalah

NAMAA Saudi TTSNAMAA Saudi TTS Standar

dialek Saudi asli Saudi dengan kloning suara berkualitas Chatterbox.

Pengembang: NAMAA Space · Lisensi: MIT

Cobalah

Darwin TTSDarwin TTS Standar

Varian lintas-modal Qwen3-TTS dengan berat FFN dipadukan dari model bahasa Qwen3-1.7B untuk kloning multibahasa yang lebih tajam.

Pengembang: FINAL-Bench · Lisensi: Apache 2.0

Cobalah

MOSS-TTSDMOSS-TTSD Standar

Berdialog multi-taluter model kelanjutan. membuat percakapan gaya podcast dengan hingga 5 speaker dan 60 menit dari audio koheren.

Pengembang: OpenMOSS · Lisensi: Apache 2.0

Cobalah

ChatterboxChatterbox Premium

State-of-the-art zero-shot voice kloning dengan kontrol emosi dari Resemble AI.

Kualitas:

Cobalah

Tortoise TTSTortoise TTS Premium

Speech teks multi-voice difokuskan pada kualitas dengan arsitektur autoregresif.

Kualitas:

Cobalah

StyleTTS 2StyleTTS 2 Premium

Tingkat manusia teks-to-peech melalui gaya difusi dan pelatihan permusuhan.

Kualitas:

Cobalah

OpenVoiceOpenVoice Premium

Kloning suara instan dengan kontrol granular atas gaya, emosi, dan aksen.

Kualitas:

Cobalah

Sesame CSMSesame CSM Premium

Model percakapan menghasilkan dialog alami dengan waktu yang tepat dan emosi.

Kualitas:

Cobalah

CosyVoice 2CosyVoice 2

TTS bersisik Aliba dengan sifat alami manusia dan latensi dekat nol.

Bahasa: en, zh, ja, ko, fr, de, it, es

Suara Kloning

IndexTTS-2IndexTTS-2

Nol-shot TTS dengan kontrol emosi halus dan ekspresif tinggi.

Bahasa: en, zh

Suara Kloning

Spark TTSSpark TTS

Suara kloning TTS dengan emosi terkendali dan berbicara gaya melalui prompt.

Bahasa: en, zh

Suara Kloning

GPT-SoVITSGPT-SoVITS

Beberapa kali kloning suara TTS yang mereplikasi suara hanya dari 5 detik audio.

Bahasa: en, zh, ja, ko

Suara Kloning

ChatterboxChatterbox

State-of-the-art zero-shot voice kloning dengan kontrol emosi dari Resemble AI.

Bahasa: en

Suara Kloning

Tortoise TTSTortoise TTS

Speech teks multi-voice difokuskan pada kualitas dengan arsitektur autoregresif.

Bahasa: en

Suara Kloning

OpenVoiceOpenVoice

Kloning suara instan dengan kontrol granular atas gaya, emosi, dan aksen.

Bahasa: en, zh, ja, ko, fr, es

Suara Kloning

VieNeu-TTS-v2VieNeu-TTS-v2

Vietnam + English code-switching TTS dengan 7 suara preset dan kloning suara nol-shot. CPU-only, tidak dibutuhkan GPU.

Bahasa: vi, en

Suara Kloning

Chatterbox TurboChatterbox Turbo

Lebih cepat Chatterbox dengan latensi sub-200ms dan tag paralinguistik untuk tertawa, batuk, dan banyak lagi.

Bahasa: en

Suara Kloning

VoxCPMVoxCPM

TTS bebas tokenizer memproduksi audio 44.1kHz dengan konsistensi paragraf sadar konteks.

Bahasa: en, zh

Suara Kloning

OuteTTSOuteTTS

TTS LLM berbasis yang berjalan pada CPU, GPU, atau peramban melalui llama.cpp dan Transformers.js.

Bahasa: en

Suara Kloning

Pocket TTSPocket TTS

Model parameter 100M ringan oleh Kyutai dengan kloning suara dari sampel tunggal.

Bahasa: en, fr

Suara Kloning

CosyVoice3CosyVoice3

Berikutnya generasi multibahasa TTS dengan bi-streaming, kontrol emosi, dan kloning suara nol-shot.

Bahasa: en, zh, ja, ko, de, es, fr, it, ru

Suara Kloning

NAMAA Saudi TTSNAMAA Saudi TTS

dialek Saudi asli Saudi dengan kloning suara berkualitas Chatterbox.

Bahasa: ar

Suara Kloning

Darwin TTSDarwin TTS

Varian lintas-modal Qwen3-TTS dengan berat FFN dipadukan dari model bahasa Qwen3-1.7B untuk kloning multibahasa yang lebih tajam.

Bahasa: en, ko, ja, zh

Suara Kloning

MOSS-TTSDMOSS-TTSD

Berdialog multi-taluter model kelanjutan. membuat percakapan gaya podcast dengan hingga 5 speaker dan 60 menit dari audio koheren.

Bahasa: en, zh

Suara Kloning

Ming-Omni TTSMing-Omni TTS

Compact 0.5B omni-modal model pidato dari inclusionAI dengan high-fidelity 44.1kHz keluaran dan clone suara nol-shot.

Bahasa: en, zh

Suara Kloning

MOSS-TTS NanoMOSS-TTS Nano

100M MOSS-TTS varian sama arsitektur, 80x lebih kecil, latensi free-tier.

Bahasa: en, zh, de, es, fr, ja, it, ko, ru, ar, pt

Suara Kloning

API Pengembang-Pertama

API REST OpenAI yang kompatibel. Satu titik akhir, 22+ model. Streaming dukungan untuk aplikasi real-time.

  • Format kompatibel OpenAI
  • Streaming TTS untuk aplikasi real-time
  • Pemrosesan Batch untuk pekerjaan besar
  • Pemberitahuan Webhook
Tilik Dokumen API
pip install ttsai npm install @ttsainpm/ttsai
Python
from tts_ai import TTSClient

client = TTSClient(api_key="sk-tts-xxx")
audio = client.generate(
    text="Hello from TTS.ai!",
    model="kokoro",
    voice="af_bella",
)
client.save(audio, "output.mp3")

Sederhana, Harga Transparan

Mulai bebas, skala saat Anda tumbuh.

Bebas

$0

15.000 karakter + 5.000/hari

  • 7 model gratis termasuk Kokoro
  • 5.000 karakter per generasi
  • Akses API disertakan
Daftar Bebas

Pemulai

$9/mo

500 kredit/bulan

  • Semua 22+ model
  • 100.000 karakter per generasi
  • Kloning Suara
Mulai
Paling Populer

Pro

$29/mo

2.000 kredit/bulan

  • Segala sesuatu di Starter
  • Akses API
  • Pemrosesan prioritas
Dapatkan Pro

Bisnis

$99/mo

10.000 kredit/bulan

  • Semuanya dalam Pro
  • API Bulk
  • Antrian prioritas
Dapatkan Bisnis

Lihat semua rencana termasuk paket karakter →

Pertanyaan yang Sering Diajukan

TTS.ai adalah platform suara AI yang paling komprehensif, menawarkan 22+ model teks-to-peech, kloning suara, berbicara-ke-teks, dan alat audio. Semua model open source tanpa vendor lock-in.

Yes! TTS.ai offers free text-to-speech with Kokoro, Piper, VITS, and MeloTTS models. No account required. Sign up to get 15,000 free characters and access all models. Paid plans start at $9/month.

Untuk kecepatan, gunakan Kokoro atau Piper. Untuk kualitas, coba CosyVoice 2 atau StyTTS 2. Untuk mengkloning suara, gunakan Chatterbox atau GPT-SoVIT. Untuk dialog, gunakan Dia TTS. Coba beberapa model pada teks yang sama untuk dibandingkan.

Ya. API TTS, STT, kloning suara, dan alat audio. Disertakan pada setiap rencana termasuk bebas, dengan batas laju pada skala tersebut dengan tiger (Free: 10 req/min: 20, Starter: 30, Pro: 60, Business: 300). Lihat dokumentasi di tts.ai/api/.

Kualitas suara berbeda dengan model. model Premium seperti CosyVoice 2, Stylist 2, dan Chatterbox menghasilkan pidato berkualitas dekat dengan intonasi alami dan emosi model bebas seperti kokoro menawarkan kualitas yang sangat baik untuk kebanyakan kasus.

TTS.ai mendukung 30+ bahasa di seluruh perpustakaan modelnya. Bahasa Inggris memiliki dukungan model terluas, tapi model seperti CosyVoice 2 mencakup Cina, Jepang, dan Korea; GPT-SoVIT menangani bahasa Cina, Jepang, Korea, dan Inggris; dan MellottS mendukung bahasa Inggris, Spanyol, Prancis, Cina, Jepang, dan Korea.

Semua pemrosesan terjadi pada server GPU kami yang berdedikasi. Kami tidak menyimpan masukan teks Anda atau audio yang dihasilkan setelah pengiriman. Menunggah sampel suara untuk kloning hanya digunakan untuk sesi saat ini dan tidak dipertahankan. Kami tidak pernah berbagi data Anda dengan pihak ketiga atau menggunakannya untuk melatih model.

Semua audio yang dihasilkan pada TTS.ai adalah milikmu untuk digunakan secara komersial, termasuk untuk video YouTube, podcast, buku audio, aplikasi, iklan, dan produk. Model kami adalah open source di bawah lisensi serbaboleh (MITIT, Apache 2.0). No royalti atau atribution diperlukan.

TTS.ai menghasilkan audio dalam format WAV secara baku untuk kualitas maksimum. Anda dapat mengubah ke MP3, FLAC, OGG, atau M4A menggunakan alat bebas Audio Konversier. API mendukung format keluaran yang Anda sukai secara langsung dalam permintaan.

Mengunggah contoh audio pendek (setidaknya 5 detik) suara yang ingin digandakan, lalu mengetik teks apapun untuk menghasilkan suara. Model seperti Chatterbox, GPT-SoVIT, dan CosyVick 2 mendukung kloning suara. Suara kloning menangkap nada, aksen, dan gaya berbicara.

Model gratis (Kokoro, Piper, VITS, Melotts) tidak memerlukan akun dan biaya karakter nol. Model standar (2.000 karakter/1K input) termasuk Bark, CosyVoice 2, F5-TTS, dan Dia. Model Premium (4.000 karakter/1K input) termasuk OpenVoice, Chatterbox, StyTTS 2, dan Tortoise.

Ya. API mendukung pemrosesan batch untuk mengubah volume besar teks ke pidato. Kirim beberapa permintaan dan ambil hasil secara tidak langsung menggunakan UUID pekerjaan. Rencana Bisnis ($99/mo) dan akses antrian prioritas untuk pemrosesan batch yang lebih cepat. Ideal untuk produksi audiobook, konten saja, dan proyek suara skala besar.
4.1/5 (42)

Umpan balikmu membantu kita memperbaiki masalah.

Mulai Menggunakan Suara AI Dewasa Ini

Gabungkan pembuat, pengembang, dan bisnis menggunakan TTS.ai