AI bebas Teks ke Tutur

33+ model sumber terbuka, 273+ suara-suara, 33+ Bahasa. Tiada akaun diperlukan.

18K+
pencipta
72K+
generasi
33+
Model AI
273+
suara
0/500 aksara · Daftar untuk 5,000 per generasi → Bebas
Cinta TTS.ai? Beritahu kawan-kawan anda!

33+ Model Suara AI

Koleksi paling komprehensif model TTS sumber terbuka dalam satu platform

KokoroKokoro Bebas

Kokoro adalah model teks-ke-tutur 82 juta parameter yang mencecah lebih daripada kelas beratnya. Walaupun saiznya kecil, ia menghasilkan pertuturan yang luar biasa semulajadi dan ekspresif. Kokoro menyokong pelbagai bahasa termasuk bahasa Inggeris, Jepun, Cina, dan Korea dengan pelbagai suara ekspresif. Ia berjalan sangat pantas — menghasilkan audio hampir 100x lebih pantas daripada masa nyata pada GPU.

Terbaik untuk: TTS berkualiti tinggi dengan latensi minimum, aplikasi strim

Cuba percuma

PiperPiper Bebas

Piper adalah enjin teks-ke-tutur ringan yang dikembangkan oleh Rhasspy yang menggunakan VITS dan larynx. Ia berjalan sepenuhnya pada CPU, menjadikannya sesuai untuk peranti tepi, automasi rumah, dan aplikasi yang memerlukan TTS luar talian. Dengan lebih 100 suara melebihi 30+ bahasa, Piper memberikan pertuturan bunyi-semulajadi pada kelajuan masa nyata bahkan pada Raspberry Pi 4.

Terbaik untuk: Pralihat pantas, kebolehcapaian, dan aplikasi terbenam

Cuba percuma

VITSVITS Bebas

VITS (Kesimpulan Variasi dengan pembelajaran lawan untuk Teks-ke-Tutur hujung-ke-hujung) adalah kaedah TTS hujung-ke-hujung sejajar yang menghasilkan audio berbunyi lebih semulajadi daripada model dua-tahap semasa. Ia mengamalkan kesimpulan variasi yang dipertingkatkan dengan aliran normalisasi dan proses latihan lawan, mencapai peningkatan yang ketara dalam kebolehan semulajadi.

Terbaik untuk: Teks-ke-tutur tujuan umum dengan prosodi semulajadi

Cuba percuma

MeloTTSMeloTTS Bebas

MeloTTS oleh MyShell.ai adalah pustaka TTS berbilang bahasa yang menyokong Bahasa Inggeris (Amerika, British, India, Australia), Sepanyol, Perancis, Cina, Jepun, dan Korea. Ia sangat pantas, pemprosesan teks pada kelajuan hampir masa nyata pada CPU sahaja. MeloTTS direka untuk penggunaan pengeluaran dan menyokong kedua-dua CPU dan GPU inferensi.

Terbaik untuk: Aplikasi pengeluaran memerlukan TTS pantas, berbilang bahasa

Cuba percuma

Kani TTS 2Kani TTS 2 Bebas

Kani-TTS-2 oleh NineNineSix adalah model parameter 400M ultra-ringan yang dibina pada tulang belakang AI LFM2 cecair dengan NVIDIA NanoCodec. Ia berjalan dalam hanya 3GB VRAM dan menghasilkan ~10 saat percakapan dalam ~2 saat pada A100 (RTF 0.2). Rilis awam semasa menghantar titik periksa `kani-tts-2-en` bahasa Inggeris sahaja dan tidak memaparkan hook pemampatan-pendengar yang diperlukan untuk klon suara — gunakan Chatterbox / IndexTTS2 / F5-TTS untuk klon, atau Kokoro / MeloTTS untuk bukan-bahasa Inggeris.

Terbaik untuk: Penjanaan bahasa Inggeris pantas pada perkakasan VRAM rendah, pralihat pantas

Cuba percuma

OuteTTSOuteTTS Bebas

OuteTTS memperluaskan model bahasa besar dengan keupayaan teks-ke-tutur sambil memelihara arsitektur asal. Ia menyokong banyak backend termasuk llama.cpp (CPU/GPU), Hugging Face Transformers, ExLlamaV2, VLLM, dan bahkan inferensi pelayar melalui Transformers.js. Ciri-ciri kloning suara sifar-tembak melalui profil pembicara disimpan sebagai JSON.

Terbaik untuk: Pelaksanaan tepi, TTS berasaskan pelayar, persekitaran sumber rendah

Cuba percuma

Pocket TTSPocket TTS Bebas

Pocket TTS oleh Kyutai (pencipta Moshi) adalah model teks-ke-tutur parameter 100M yang kompak yang menekan lebih berat daripada beratnya. Ia berjalan dengan berkesan pada CPU, menyokong klon suara sifar-tembak dari sampel audio tunggal, dan menghasilkan pertuturan berbunyi semulajadi. Saiz model kecil menjadikannya sesuai untuk pelaksanaan tepi dan persekitaran sumber rendah.

Terbaik untuk: Pelaksanaan ringan, persekitaran CPU-hanya, klon suara pantas

Cuba percuma

Kitten TTSKitten TTS Bebas

Kitten TTS oleh KittenML adalah model teks-ke-tutur ultra-lembut yang dibina pada ONNX. Dengan varian dari parameter 15M hingga 80M (25-80 MB pada cakera), ia memberikan sintesis suara berkualiti tinggi pada CPU tanpa memerlukan GPU. Ciri-ciri 8 suara tertanam, kelajuan pertuturan boleh selaraskan, dan prapemprosesan teks tertanam untuk nombor, mata wang, dan unit. Ideal untuk pelaksanaan tepi dan aplikasi latensi rendah.

Terbaik untuk: TTS ringan pantas, pelaksanaan tepi, aplikasi latensi rendah

Cuba percuma

Ming-Omni TTSMing-Omni TTS Bebas

Ming-omni-tts-0.5B oleh inclusionAI adalah model percakapan omni-modal kompak yang dibina pada tulang belakang padat BailingMM dengan dekoder audio sepadan aliran Patch-by-Patch. Menyediakan output 44.1kHz (hampir kualiti CD), menyokong klon suara sifar-tembak dari rujukan 3+ saat, dan termasuk kawalan emosi / dialek / BGM tertanam melalui arahan JSON. Kestabilan yang baik — 0.83% WER pada benchmark Cina.

Terbaik untuk: Narasi bilingual yang tinggi, suara yang diuruskan emosi, kandungan buku audio Cina

Cuba percuma

MOSS-TTS NanoMOSS-TTS Nano Bebas

MOSS-TTS-Nano-100M ialah varian parameter 100M OpenMOSS yang kompak dari keluarga MOSS-TTS, berkongsi arsitektur penambah-lengah. Menjual kualiti puncak model 8B untuk berat ~80x yang lebih kecil dan VRAM per-permintaan yang lebih rendah, menjadikannya sesuai untuk pelaksanaan lapis-bebas dan kelajuan tinggi. Saiz 20-bahasa yang sama.

Terbaik untuk: TTS lapisan-bebas, pengeluaran-volum-tinggi, penggunaan interaktif latensi-rendah

Cuba percuma

BarkBark Piawai

Model teks-ke-audio berasaskan Transformer yang menghasilkan ucapan, muzik, dan kesan bunyi yang realistik.

Pemaju: Suno · Lesen: MIT

Cubalah.

Bark SmallBark Small Piawai

Versi ringan Bark dengan inferensi lebih pantas dan penggunaan memori yang lebih rendah.

Pemaju: Suno · Lesen: MIT

Cubalah.

CosyVoice 2CosyVoice 2 Piawai

Alibaba's boleh skala streaming TTS dengan manusia-parit semula jadi dan latensi hampir-sifar.

Pemaju: Alibaba (Tongyi Lab) · Lesen: Apache 2.0

Cubalah.

Dia TTSDia TTS Piawai

Model penjanaan dialog multi-pembesar yang mencipta perbualan semulajadi antara pembesar.

Pemaju: Nari Labs · Lesen: Apache 2.0

Cubalah.

Parler TTSParler TTS Piawai

Huraikan suara yang anda mahu dalam bahasa semulajadi dan Parler akan menghasilkan ucapan yang sepadan.

Pemaju: Hugging Face · Lesen: Apache 2.0

Cubalah.

IndexTTS-2IndexTTS-2 Piawai

Zero-shot TTS dengan kawalan emosi halus-grained dan ekspresi tinggi.

Pemaju: Index Team · Lesen: Bilibili Model License

Cubalah.

Spark TTSSpark TTS Piawai

Klon suara TTS dengan emosi yang boleh dikawal dan gaya bercakap melalui prompt.

Pemaju: SparkAudio · Lesen: CC BY-NC-SA 4.0

Cubalah.

GPT-SoVITSGPT-SoVITS Piawai

Klon suara TTS yang meniru suara mana-mana dari hanya 5 saat audio.

Pemaju: RVC-Boss · Lesen: MIT

Cubalah.

OrpheusOrpheus Piawai

Model TTS emosi tahap manusia dilatih pada 100K jam data ucapan.

Pemaju: Canopy Labs · Lesen: Llama 3.2 Community

Cubalah.

Qwen3 TTSQwen3 TTS Piawai

TTS multibahasa Alibaba dengan suara praset dan reka bentuk suara dari teks.

Pemaju: Alibaba (Qwen) · Lesen: Apache 2.0

Cubalah.

VieNeu-TTS-v2VieNeu-TTS-v2 Piawai

TTS kod-tukar Vietnam + Inggeris dengan 7 suara praset dan klon suara sifar-tembak. CPU sahaja, tiada GPU diperlukan.

Pemaju: Phạm Nguyễn Ngọc Bảo · Lesen: Apache 2.0

Cubalah.

Chatterbox TurboChatterbox Turbo Piawai

Chatterbox yang lebih pantas dengan latensi sub-200ms dan tag paralinguistik untuk ketawa, batuk, dan lebih.

Pemaju: Resemble AI · Lesen: MIT

Cubalah.

VoxCPMVoxCPM Piawai

TTS bebas tokenizer menghasilkan audio 44.1kHz dengan konsistensi perenggan kontekstual.

Pemaju: OpenBMB · Lesen: Apache 2.0

Cubalah.

VibeVoiceVibeVoice Piawai

Model Microsoft untuk kandungan berbilang pembesar suara berbentuk panjang seperti podcast dan buku audio.

Pemaju: Microsoft · Lesen: MIT

Cubalah.

CosyVoice3CosyVoice3 Piawai

TTS multibahasa generasi seterusnya dengan bi-streaming, kawalan emosi, dan klon suara sifar-tembak.

Pemaju: Alibaba (FunAudioLLM) · Lesen: Apache 2.0

Cubalah.

NAMAA Saudi TTSNAMAA Saudi TTS Piawai

TTS Arab Saudi terbuka pertama. Dialek Arab Saudi asli dengan klon suara kualiti Chatterbox.

Pemaju: NAMAA Space · Lesen: MIT

Cubalah.

Darwin TTSDarwin TTS Piawai

Varian cross-modal Qwen3-TTS dengan berat FFN dicampur dari model bahasa Qwen3-1.7B untuk klon multibahasa yang lebih tajam.

Pemaju: FINAL-Bench · Lesen: Apache 2.0

Cubalah.

MOSS-TTSDMOSS-TTSD Piawai

Model sambungan dialog pembicara berbilang — cipta perbualan gaya podcast dengan sehingga 5 pembicara dan 60 minit audio koheren.

Pemaju: OpenMOSS · Lesen: Apache 2.0

Cubalah.

ChatterboxChatterbox Premium

Kloning suara yang canggih dengan kawalan emosi dari Resemble AI.

Kualiti:

Cubalah.

Tortoise TTSTortoise TTS Premium

Teks-ke-tutur berbilang suara berfokus pada kualiti dengan arsitektur autoregressif.

Kualiti:

Cubalah.

StyleTTS 2StyleTTS 2 Premium

Teks-ke-percakapan tahap manusia melalui penyebaran gaya dan latihan lawan.

Kualiti:

Cubalah.

OpenVoiceOpenVoice Premium

Klon suara seketika dengan kawalan granular terhadap gaya, emosi, dan loghat.

Kualiti:

Cubalah.

Sesame CSMSesame CSM Premium

Model percakapan perbualan menghasilkan dialog semula jadi dengan masa yang sesuai dan emosi.

Kualiti:

Cubalah.

CosyVoice 2CosyVoice 2

Alibaba's boleh skala streaming TTS dengan manusia-parit semula jadi dan latensi hampir-sifar.

Bahasa: en, zh, ja, ko, fr, de, it, es

Klon Suara

IndexTTS-2IndexTTS-2

Zero-shot TTS dengan kawalan emosi halus-grained dan ekspresi tinggi.

Bahasa: en, zh

Klon Suara

Spark TTSSpark TTS

Klon suara TTS dengan emosi yang boleh dikawal dan gaya bercakap melalui prompt.

Bahasa: en, zh

Klon Suara

GPT-SoVITSGPT-SoVITS

Klon suara TTS yang meniru suara mana-mana dari hanya 5 saat audio.

Bahasa: en, zh, ja, ko

Klon Suara

ChatterboxChatterbox

Kloning suara yang canggih dengan kawalan emosi dari Resemble AI.

Bahasa: en

Klon Suara

Tortoise TTSTortoise TTS

Teks-ke-tutur berbilang suara berfokus pada kualiti dengan arsitektur autoregressif.

Bahasa: en

Klon Suara

OpenVoiceOpenVoice

Klon suara seketika dengan kawalan granular terhadap gaya, emosi, dan loghat.

Bahasa: en, zh, ja, ko, fr, es

Klon Suara

VieNeu-TTS-v2VieNeu-TTS-v2

TTS kod-tukar Vietnam + Inggeris dengan 7 suara praset dan klon suara sifar-tembak. CPU sahaja, tiada GPU diperlukan.

Bahasa: vi, en

Klon Suara

Chatterbox TurboChatterbox Turbo

Chatterbox yang lebih pantas dengan latensi sub-200ms dan tag paralinguistik untuk ketawa, batuk, dan lebih.

Bahasa: en

Klon Suara

VoxCPMVoxCPM

TTS bebas tokenizer menghasilkan audio 44.1kHz dengan konsistensi perenggan kontekstual.

Bahasa: en, zh

Klon Suara

OuteTTSOuteTTS

TTS berasaskan LLM yang berjalan pada CPU, GPU, atau pelayar melalui llama.cpp dan Transformers.js.

Bahasa: en

Klon Suara

Pocket TTSPocket TTS

Model parameter ringan 100M oleh Kyutai dengan kloning suara dari satu sampel.

Bahasa: en, fr

Klon Suara

CosyVoice3CosyVoice3

TTS multibahasa generasi seterusnya dengan bi-streaming, kawalan emosi, dan klon suara sifar-tembak.

Bahasa: en, zh, ja, ko, de, es, fr, it, ru

Klon Suara

NAMAA Saudi TTSNAMAA Saudi TTS

TTS Arab Saudi terbuka pertama. Dialek Arab Saudi asli dengan klon suara kualiti Chatterbox.

Bahasa: ar

Klon Suara

Darwin TTSDarwin TTS

Varian cross-modal Qwen3-TTS dengan berat FFN dicampur dari model bahasa Qwen3-1.7B untuk klon multibahasa yang lebih tajam.

Bahasa: en, ko, ja, zh

Klon Suara

MOSS-TTSDMOSS-TTSD

Model sambungan dialog pembicara berbilang — cipta perbualan gaya podcast dengan sehingga 5 pembicara dan 60 minit audio koheren.

Bahasa: en, zh

Klon Suara

Ming-Omni TTSMing-Omni TTS

Model ucapan omni-modal 0.5B dari inclusionAI dengan output 44.1kHz yang tinggi dan kloning suara sifar-tembak.

Bahasa: en, zh

Klon Suara

MOSS-TTS NanoMOSS-TTS Nano

Varian MOSS-TTS 100M kecil — arsitektur yang sama, 80x lebih kecil, latensi lapisan bebas.

Bahasa: en, zh, de, es, fr, ja, it, ko, ru, ar, pt

Klon Suara

API Pemaju-Pertama

API REST serasi OpenAI. Satu titik akhir, 22+ model. Sokongan strim untuk aplikasi masa nyata.

  • Format serasi OpenAI
  • Strim TTS untuk aplikasi masa nyata
  • Pemprosesan serbuan untuk kerja besar
  • Pemberitahuan Webhook
Papar Dokumen API
pip install ttsai npm install @ttsainpm/ttsai
Python
from tts_ai import TTSClient

client = TTSClient(api_key="sk-tts-xxx")
audio = client.generate(
    text="Hello from TTS.ai!",
    model="kokoro",
    voice="af_bella",
)
client.save(audio, "output.mp3")

Harga yang Mudah, Lutsinar

Mulakan secara percuma.

Bebas

$0

15,000 aksara + 5,000/hari

  • 7 model percuma termasuk Kokoro
  • 5,000 aksara per generasi
  • Akses API termasuk
Daftar Masuk

Pelancar

$9/ms

500 kredit/bulan

  • Semua 22+ model
  • 100,000 aksara per generasi
  • Klon Suara
Mulakan
Paling Popular

Pro

$29/ms

2,000 kredit/bulan

  • Semua dalam Pelancar
  • Capaian API
  • Pemprosesan keutamaan
Dapatkan Pro

Perniagaan

$99/ms

10,000 kredit/bulan

  • Semuanya dalam Pro
  • API Bulk
  • Baris gilir keutamaan
Dapatkan Perniagaan

Lihat semua rancangan termasuk pakej aksara →

Soalan Lazim

TTS.ai adalah platform suara AI yang paling komprehensif, menawarkan 22+ model teks-ke-tutur, klon suara, ucapan-ke-teks, dan alat audio. Semua model adalah sumber terbuka tanpa pengecualian pembekal.

Ya! TTS.ai menawarkan teks-ke-tutur percuma dengan model Kokoro, Piper, VITS, dan MeloTTS. Tiada akaun diperlukan. Daftar untuk mendapatkan 15,000 aksara percuma dan akses semua model. Rancangan berbayar bermula pada $9/bulan.

Untuk kelajuan, gunakan Kokoro atau Piper. Untuk kualiti, cuba CosyVoice 2 atau StyleTTS 2. Untuk klon suara, gunakan Chatterbox atau GPT-SoVITS. Untuk dialog, gunakan Dia TTS. Cuba beberapa model pada teks yang sama untuk dibandingkan.

Ya. API REST serasi OpenAI untuk TTS, STT, klon suara, dan alat audio. Termasuk pada setiap rancangan termasuk percuma, dengan had kadar yang diskalar mengikut aras (Bebas: 10 req/min, Lite: 20, Pemula: 30, Pro: 60, Bisnes: 300). Lihat dokumentasi di tts.ai/api/.

Kualiti suara bervariasi mengikut model. Model premium seperti CosyVoice 2, StyleTTS 2, dan Chatterbox menghasilkan ucapan kualiti hampir manusia dengan intonasi dan emosi semulajadi. Model percuma seperti Kokoro menawarkan kualiti yang baik untuk kebanyakan kes penggunaan.

TTS.ai menyokong 30+ bahasa di seluruh pustaka modelnya. Bahasa Inggeris mempunyai sokongan model yang paling luas, tetapi model seperti CosyVoice 2 merangkumi Cina, Jepun, dan Korea; GPT-SoVITS mengendalikan Cina, Jepun, Korea, dan Inggeris; dan MeloTTS menyokong Bahasa Inggeris, Sepanyol, Perancis, Cina, Jepun, dan Korea.

Ya. Semua pemprosesan berlaku pada pelayan GPU kami yang didedikasikan. Kami tidak menyimpan input teks anda atau audio yang dijana selepas penghantaran. Sampel suara yang dimuat naik untuk klon hanya digunakan untuk sesi semasa dan tidak disimpan. Kami tidak pernah berkongsi data anda dengan pihak ketiga atau menggunakannya untuk melatih model.

Ya. Semua audio yang dihasilkan pada TTS.ai adalah milik anda untuk digunakan secara komersial, termasuk untuk video YouTube, podcast, buku audio, aplikasi, iklan, dan produk. Model kami adalah sumber terbuka di bawah lesen yang membenarkan (MIT, Apache 2.0). Tiada royalti atau pengakuan diperlukan.

TTS.ai menghasilkan audio dalam format WAV secara lalai untuk kualiti maksimum. Anda boleh menukar ke MP3, FLAC, OGG, atau M4A menggunakan alat Penukar Audio percuma kami. API menyokong menentukan format output yang anda suka secara langsung dalam permintaan.

Muat naik sampel audio pendek (sekurang-kurangnya 5 saat) suara yang anda ingin klon, kemudian taip sebarang teks untuk menghasilkan percakapan dalam suara itu. Model seperti Chatterbox, GPT-SoVITS, dan CosyVoice 2 menyokong klon suara. Suara yang diklon menangkap nada, loghat, dan gaya percakapan.

Model percuma (Kokoro, Piper, VITS, MeloTTS) tidak memerlukan akaun dan kos aksara sifar. Model piawai (2,000 aksara/1K input) termasuk Bark, CosyVoice 2, F5-TTS, dan Dia. Model premium (4,000 aksara/1K input) termasuk OpenVoice, Chatterbox, StyleTTS 2, dan Tortoise. Model berbayar biasanya menawarkan kualiti yang lebih tinggi, lebih banyak suara, dan ciri tambahan seperti klon suara.

Ya. API menyokong pemprosesan berbilang bagi menukarkan jumlah teks yang besar kepada ucapan. Hantarkan permintaan berbilang dan dapatkan hasil secara asynchronous menggunakan UUID kerja. Pelan perniagaan ($99/mo) dan lebih tinggi termasuk akses baris gilir keutamaan untuk pemprosesan berbilang yang lebih pantas. Ideal untuk pengeluaran buku audio, kandungan kursus, dan projek suara berskala besar.
4.1/5 (42)

Apa yang boleh kami perbaiki?

Mula Guna Suara AI Hari Ini

Sertai pencipta, pembangun, dan perniagaan menggunakan TTS.ai