AI bebas Teks ke Tutur

31+ model sumber terbuka, 231+ suara-suara, 34+ Bahasa. Tiada akaun diperlukan.

8K+
pencipta
32K+
generasi
31+
Model AI
231+
suara
0/500 aksara · Sign up for 5,000 per generation → Bebas
Cinta TTS.ai? Beritahu kawan-kawan anda!

31+ Model Suara AI

Koleksi paling komprehensif model TTS sumber terbuka dalam satu platform

KokoroKokoro Free

Kokoro adalah model teks-ke-tutur 82 juta parameter yang mencecah lebih daripada kelas beratnya. Walaupun saiznya kecil, ia menghasilkan pertuturan yang luar biasa semulajadi dan ekspresif. Kokoro menyokong pelbagai bahasa termasuk bahasa Inggeris, Jepun, Cina, dan Korea dengan pelbagai suara ekspresif. Ia berjalan sangat pantas — menghasilkan audio hampir 100x lebih pantas daripada masa nyata pada GPU.

Terbaik untuk: TTS berkualiti tinggi dengan latensi minimum, aplikasi strim

Cuba percuma

PiperPiper Free

Piper adalah enjin teks-ke-tutur ringan yang dikembangkan oleh Rhasspy yang menggunakan VITS dan larynx. Ia berjalan sepenuhnya pada CPU, menjadikannya sesuai untuk peranti tepi, automasi rumah, dan aplikasi yang memerlukan TTS luar talian. Dengan lebih 100 suara melebihi 30+ bahasa, Piper memberikan pertuturan bunyi-semulajadi pada kelajuan masa nyata bahkan pada Raspberry Pi 4.

Terbaik untuk: Pralihat pantas, kebolehcapaian, dan aplikasi terbenam

Cuba percuma

VITSVITS Free

VITS (Kesimpulan Variasi dengan pembelajaran lawan untuk Teks-ke-Tutur hujung-ke-hujung) adalah kaedah TTS hujung-ke-hujung sejajar yang menghasilkan audio berbunyi lebih semulajadi daripada model dua-tahap semasa. Ia mengamalkan kesimpulan variasi yang dipertingkatkan dengan aliran normalisasi dan proses latihan lawan, mencapai peningkatan yang ketara dalam kebolehan semulajadi.

Terbaik untuk: Teks-ke-tutur tujuan umum dengan prosodi semulajadi

Cuba percuma

MeloTTSMeloTTS Free

MeloTTS oleh MyShell.ai adalah pustaka TTS berbilang bahasa yang menyokong Bahasa Inggeris (Amerika, British, India, Australia), Sepanyol, Perancis, Cina, Jepun, dan Korea. Ia sangat pantas, pemprosesan teks pada kelajuan hampir masa nyata pada CPU sahaja. MeloTTS direka untuk penggunaan pengeluaran dan menyokong kedua-dua CPU dan GPU inferensi.

Terbaik untuk: Aplikasi pengeluaran memerlukan TTS pantas, berbilang bahasa

Cuba percuma

OuteTTSOuteTTS Free

OuteTTS memperluaskan model bahasa besar dengan keupayaan teks-ke-tutur sambil memelihara arsitektur asal. Ia menyokong banyak backend termasuk llama.cpp (CPU/GPU), Hugging Face Transformers, ExLlamaV2, VLLM, dan bahkan inferensi pelayar melalui Transformers.js. Ciri-ciri kloning suara sifar-tembak melalui profil pembicara disimpan sebagai JSON.

Terbaik untuk: Pelaksanaan tepi, TTS berasaskan pelayar, persekitaran sumber rendah

Cuba percuma

Pocket TTSPocket TTS Free

Pocket TTS oleh Kyutai (pencipta Moshi) adalah model teks-ke-tutur parameter 100M yang kompak yang menekan lebih berat daripada beratnya. Ia berjalan dengan berkesan pada CPU, menyokong klon suara sifar-tembak dari sampel audio tunggal, dan menghasilkan pertuturan berbunyi semulajadi. Saiz model kecil menjadikannya sesuai untuk pelaksanaan tepi dan persekitaran sumber rendah.

Terbaik untuk: Pelaksanaan ringan, persekitaran CPU-hanya, klon suara pantas

Cuba percuma

Kitten TTSKitten TTS Free

Kitten TTS by KittenML is an ultra-lightweight text-to-speech model built on ONNX. With variants from 15M to 80M parameters (25-80 MB on disk), it delivers high-quality voice synthesis on CPU without requiring a GPU. Features 8 built-in voices, adjustable speech speed, and built-in text preprocessing for numbers, currencies, and units. Ideal for edge deployment and low-latency applications.

Terbaik untuk: Fast lightweight TTS, edge deployment, low-latency applications

Cuba percuma

BarkBark Standard

Model teks-ke-audio berasaskan Transformer yang menghasilkan ucapan, muzik, dan kesan bunyi yang realistik.

Pemaju: Suno · Lesen: MIT

Cubalah.

Bark SmallBark Small Standard

Versi ringan Bark dengan inferensi lebih pantas dan penggunaan memori yang lebih rendah.

Pemaju: Suno · Lesen: MIT

Cubalah.

CosyVoice 2CosyVoice 2 Standard

Alibaba's boleh skala streaming TTS dengan manusia-parit semula jadi dan latensi hampir-sifar.

Pemaju: Alibaba (Tongyi Lab) · Lesen: Apache 2.0

Cubalah.

Dia TTSDia TTS Standard

Model penjanaan dialog multi-pembesar yang mencipta perbualan semulajadi antara pembesar.

Pemaju: Nari Labs · Lesen: Apache 2.0

Cubalah.

Parler TTSParler TTS Standard

Huraikan suara yang anda mahu dalam bahasa semulajadi dan Parler akan menghasilkan ucapan yang sepadan.

Pemaju: Hugging Face · Lesen: Apache 2.0

Cubalah.

GLM-TTSGLM-TTS Standard

Mencapai kadar ralat aksara terendah di antara model TTS sumber terbuka.

Pemaju: Zhipu AI · Lesen: GLM-4 License

Cubalah.

IndexTTS-2IndexTTS-2 Standard

Zero-shot TTS dengan kawalan emosi halus-grained dan ekspresi tinggi.

Pemaju: Index Team · Lesen: Bilibili Model License

Cubalah.

Spark TTSSpark TTS Standard

Klon suara TTS dengan emosi yang boleh dikawal dan gaya bercakap melalui prompt.

Pemaju: SparkAudio · Lesen: CC BY-NC-SA 4.0

Cubalah.

GPT-SoVITSGPT-SoVITS Standard

Klon suara TTS yang meniru suara mana-mana dari hanya 5 saat audio.

Pemaju: RVC-Boss · Lesen: MIT

Cubalah.

OrpheusOrpheus Standard

Model TTS emosi tahap manusia dilatih pada 100K jam data ucapan.

Pemaju: Canopy Labs · Lesen: Llama 3.2 Community

Cubalah.

Qwen3 TTSQwen3 TTS Standard

TTS multibahasa Alibaba dengan klon suara, suara praset, dan reka bentuk suara dari teks.

Pemaju: Alibaba (Qwen) · Lesen: Apache 2.0

Cubalah.

Chatterbox TurboChatterbox Turbo Standard

Chatterbox yang lebih pantas dengan latensi sub-200ms dan tag paralinguistik untuk ketawa, batuk, dan lebih.

Pemaju: Resemble AI · Lesen: MIT

Cubalah.

Dia 2Dia 2 Standard

TTS perbualan streaming-pertama dengan dialog multi-pendengar dan petunjuk paralinguistik.

Pemaju: Nari Labs · Lesen: Apache 2.0

Cubalah.

VoxCPMVoxCPM Standard

TTS bebas tokenizer menghasilkan audio 44.1kHz dengan konsistensi perenggan kontekstual.

Pemaju: OpenBMB · Lesen: Apache 2.0

Cubalah.

TADATADA Standard

TTS halusinasi sifar dengan teks-akustik dua hala, 5x lebih cepat daripada TTS LLM setanding.

Pemaju: Hume AI · Lesen: MIT

Cubalah.

VibeVoiceVibeVoice Standard

Model Microsoft untuk kandungan berbilang pembesar suara berbentuk panjang seperti podcast dan buku audio.

Pemaju: Microsoft · Lesen: MIT

Cubalah.

CosyVoice3CosyVoice3 Standard

Next-generation multilingual TTS with bi-streaming, emotion control, and zero-shot voice cloning.

Pemaju: Alibaba (FunAudioLLM) · Lesen: Apache 2.0

Cubalah.

ChatterboxChatterbox Premium

Kloning suara yang canggih dengan kawalan emosi dari Resemble AI.

Kualiti:

Cubalah.

Tortoise TTSTortoise TTS Premium

Teks-ke-tutur berbilang suara berfokus pada kualiti dengan arsitektur autoregressif.

Kualiti:

Cubalah.

StyleTTS 2StyleTTS 2 Premium

Teks-ke-percakapan tahap manusia melalui penyebaran gaya dan latihan lawan.

Kualiti:

Cubalah.

OpenVoiceOpenVoice Premium

Klon suara seketika dengan kawalan granular terhadap gaya, emosi, dan loghat.

Kualiti:

Cubalah.

Sesame CSMSesame CSM Premium

Model percakapan perbualan menghasilkan dialog semula jadi dengan masa yang sesuai dan emosi.

Kualiti:

Cubalah.

MOSS-TTSMOSS-TTS Premium

Ultra-long 20-language TTS supporting up to 1 hour of continuous generation with phoneme-level control.

Kualiti:

Cubalah.

MegaTTS3MegaTTS3 Premium

ByteDance's sparse alignment TTS with adjustable intelligibility vs. speaker similarity.

Kualiti:

Cubalah.

CosyVoice 2CosyVoice 2

Alibaba's boleh skala streaming TTS dengan manusia-parit semula jadi dan latensi hampir-sifar.

Bahasa: en, zh, ja, ko, fr, de, it, es

Klon Suara

GLM-TTSGLM-TTS

Mencapai kadar ralat aksara terendah di antara model TTS sumber terbuka.

Bahasa: en, zh

Klon Suara

IndexTTS-2IndexTTS-2

Zero-shot TTS dengan kawalan emosi halus-grained dan ekspresi tinggi.

Bahasa: en, zh

Klon Suara

Spark TTSSpark TTS

Klon suara TTS dengan emosi yang boleh dikawal dan gaya bercakap melalui prompt.

Bahasa: en, zh

Klon Suara

GPT-SoVITSGPT-SoVITS

Klon suara TTS yang meniru suara mana-mana dari hanya 5 saat audio.

Bahasa: en, zh, ja, ko

Klon Suara

ChatterboxChatterbox

Kloning suara yang canggih dengan kawalan emosi dari Resemble AI.

Bahasa: en

Klon Suara

Tortoise TTSTortoise TTS

Teks-ke-tutur berbilang suara berfokus pada kualiti dengan arsitektur autoregressif.

Bahasa: en

Klon Suara

OpenVoiceOpenVoice

Klon suara seketika dengan kawalan granular terhadap gaya, emosi, dan loghat.

Bahasa: en, zh, ja, ko, fr, de, es, it

Klon Suara

Qwen3 TTSQwen3 TTS

TTS multibahasa Alibaba dengan klon suara, suara praset, dan reka bentuk suara dari teks.

Bahasa: en, zh, ja, ko, de, fr, ru, pt, es, it

Klon Suara

Chatterbox TurboChatterbox Turbo

Chatterbox yang lebih pantas dengan latensi sub-200ms dan tag paralinguistik untuk ketawa, batuk, dan lebih.

Bahasa: en

Klon Suara

VoxCPMVoxCPM

TTS bebas tokenizer menghasilkan audio 44.1kHz dengan konsistensi perenggan kontekstual.

Bahasa: en, zh

Klon Suara

OuteTTSOuteTTS

TTS berasaskan LLM yang berjalan pada CPU, GPU, atau pelayar melalui llama.cpp dan Transformers.js.

Bahasa: en

Klon Suara

Pocket TTSPocket TTS

Model parameter ringan 100M oleh Kyutai dengan kloning suara dari satu sampel.

Bahasa: en, fr

Klon Suara

CosyVoice3CosyVoice3

Next-generation multilingual TTS with bi-streaming, emotion control, and zero-shot voice cloning.

Bahasa: en, zh, ja, ko, de, es, fr, it, ru

Klon Suara

MOSS-TTSMOSS-TTS

Ultra-long 20-language TTS supporting up to 1 hour of continuous generation with phoneme-level control.

Bahasa: en, zh, de, es, fr, ja, it, hu, ko, ru, fa, ar, pl, pt, cs, da, sv, el, tr

Klon Suara

MegaTTS3MegaTTS3

ByteDance's sparse alignment TTS with adjustable intelligibility vs. speaker similarity.

Bahasa: en, zh

Klon Suara

API Pemaju-Pertama

API REST serasi OpenAI. Satu titik akhir, 22+ model. Sokongan strim untuk aplikasi masa nyata.

  • Format serasi OpenAI
  • Strim TTS untuk aplikasi masa nyata
  • Pemprosesan serbuan untuk kerja besar
  • Pemberitahuan Webhook
Papar Dokumen API
pip install ttsai npm install @ttsainpm/ttsai
Python
from tts_ai import TTSClient

client = TTSClient(api_key="sk-tts-xxx")
audio = client.generate(
    text="Hello from TTS.ai!",
    model="kokoro",
    voice="af_bella",
)
client.save(audio, "output.mp3")

Harga yang Mudah, Lutsinar

Mulakan secara percuma.

Bebas

$0

15 kredit

  • Kokoro, Piper, VITS, MeloTTS
  • Had 500 aksara
  • 3 gen/jam (tiada akaun)
Daftar Masuk

Pelancar

$9/ms

500 kredit/bulan

  • Semua 22+ model
  • 100,000 aksara per generasi
  • Klon Suara
Mulakan
Paling Popular

Pro

$29/ms

2,000 kredit/bulan

  • Semua dalam Pelancar
  • Capaian API
  • Pemprosesan keutamaan
Dapatkan Pro

Perniagaan

$99/ms

10,000 kredit/bulan

  • Semuanya dalam Pro
  • API Bulk
  • Baris gilir keutamaan
Dapatkan Perniagaan

Lihat semua rancangan termasuk pakej aksara →

Soalan Lazim

TTS.ai adalah platform suara AI yang paling komprehensif, menawarkan 22+ model teks-ke-tutur, klon suara, ucapan-ke-teks, dan alat audio. Semua model adalah sumber terbuka tanpa pengecualian pembekal.

Ya! TTS.ai menawarkan teks-ke-tutur percuma dengan model Kokoro, Piper, VITS, dan MeloTTS. Tiada akaun diperlukan. Daftar untuk mendapatkan 15,000 aksara percuma dan akses semua model. Rancangan berbayar bermula pada $9/bulan.

Untuk kelajuan, gunakan Kokoro atau Piper. Untuk kualiti, cuba CosyVoice 2 atau StyleTTS 2. Untuk klon suara, gunakan Chatterbox atau GPT-SoVITS. Untuk dialog, gunakan Dia TTS. Cuba beberapa model pada teks yang sama untuk dibandingkan.

Ya. API REST serasi OpenAI untuk TTS, STT, klon suara, dan alat audio. Tersedia pada rancangan Pro ($29/mo) dan Enterprise ($99/mo). Lihat dokumentasi di tts.ai/api/.

Kualiti suara bervariasi mengikut model. Model premium seperti CosyVoice 2, StyleTTS 2, dan Chatterbox menghasilkan ucapan kualiti hampir manusia dengan intonasi dan emosi semulajadi. Model percuma seperti Kokoro menawarkan kualiti yang baik untuk kebanyakan kes penggunaan.

TTS.ai menyokong 30+ bahasa di seluruh pustaka modelnya. Bahasa Inggeris mempunyai sokongan model yang paling luas, tetapi model seperti CosyVoice 2 merangkumi Cina, Jepun, dan Korea; GPT-SoVITS mengendalikan Cina, Jepun, Korea, dan Inggeris; dan MeloTTS menyokong Bahasa Inggeris, Sepanyol, Perancis, Cina, Jepun, dan Korea.

Ya. Semua pemprosesan berlaku pada pelayan GPU kami yang didedikasikan. Kami tidak menyimpan input teks anda atau audio yang dijana selepas penghantaran. Sampel suara yang dimuat naik untuk klon hanya digunakan untuk sesi semasa dan tidak disimpan. Kami tidak pernah berkongsi data anda dengan pihak ketiga atau menggunakannya untuk melatih model.

Ya. Semua audio yang dihasilkan pada TTS.ai adalah milik anda untuk digunakan secara komersial, termasuk untuk video YouTube, podcast, buku audio, aplikasi, iklan, dan produk. Model kami adalah sumber terbuka di bawah lesen yang membenarkan (MIT, Apache 2.0). Tiada royalti atau pengakuan diperlukan.

TTS.ai menghasilkan audio dalam format WAV secara lalai untuk kualiti maksimum. Anda boleh menukar ke MP3, FLAC, OGG, atau M4A menggunakan alat Penukar Audio percuma kami. API menyokong menentukan format output yang anda suka secara langsung dalam permintaan.

Muat naik sampel audio pendek (sekurang-kurangnya 5 saat) suara yang anda ingin klon, kemudian taip sebarang teks untuk menghasilkan percakapan dalam suara itu. Model seperti Chatterbox, GPT-SoVITS, dan CosyVoice 2 menyokong klon suara. Suara yang diklon menangkap nada, loghat, dan gaya percakapan.

Model percuma (Kokoro, Piper, VITS, MeloTTS) tidak memerlukan akaun dan kos aksara sifar. Model piawai (2,000 aksara/1K input) termasuk Bark, CosyVoice 2, F5-TTS, dan Dia. Model premium (4,000 aksara/1K input) termasuk OpenVoice, Chatterbox, StyleTTS 2, dan Tortoise. Model berbayar biasanya menawarkan kualiti yang lebih tinggi, lebih banyak suara, dan ciri tambahan seperti klon suara.

Ya. API menyokong pemprosesan batch untuk menukarkan jumlah besar teks ke ucapan. Hantarkan permintaan berbilang dan dapatkan hasil secara asynchronous menggunakan UUID kerja. Pelan Enterprise ($99/mo) termasuk akses baris gilir keutamaan untuk pemprosesan batch yang lebih pantas. Ideal untuk produksi buku audio, kandungan kursus, dan projek suara skala besar.
4.0/5 (22)

Apa yang boleh kami perbaiki?

Mula Guna Suara AI Hari Ini

Sertai pencipta, pembangun, dan perniagaan menggunakan TTS.ai