Laporkan Permintaan Kutu / Fitur

TTS Realtime

Streaming teks-to-peech with sub-detik first-audio latensi. Dibuat untuk agen suara dan aplikasi hidup.

Daftar Bebas

Kami belum memiliki suara TTS dalam bahasamu. Juallah Suara Anda

Teks

Streaming

0/5,000 karakter ~0.3s audio pertama

Pengaturan & Suara

Model Hanya model yang mampu di streaming.

Suara

Kecepatan 1.0x

Latensi Hidup

—

Klik Stream untuk mengukur latensi audio pertama

Keluaran

Pecahan audio akan diputar di sini saat mereka masuk.

Cara Kerja TTS streaming

Kirim Teks

Teks POST ke /v1/tts/stream/ sebagai permintaan Events Server-Sent.

2. Model Menghasilkan

Kokoro potongan teks dan menghasilkan sampel audio-oleh-sample di GPU.

3. Chunks Stream

Base64-enkode WAV potongan tiba di atas SSE dan mulai bermain segera.

4 dengarkan hidup

Pengguna mendengar awal dari kalimat di bawah satu detik, bahkan pada masukan panjang.

Gunakan Kasus

Dimana latensi sub-detik membuka pengalaman baru.

Agen Suara

Robot percakapan yang merespon secepat manusia.

Live Dubbing

Terjemahkan dan dub arus secara real time tanpa buffering pause.

Permainan

NPC dialog yang bereaksi terhadap pilihan pemutar secara instan, tidak ada pra-render VO.

Aksesibilitas

Pembaca layar dan alat bantu yang mulai berbicara saat klik pengguna.

Rencana TTS Realtime

Mulai bebas, upgrade ketika Anda membutuhkan lebih banyak

Bebas

Kokoro streaming (model bebas)
500 karakter per generasi
10 aliran bebas/hari per pengguna anonim
Latensi Pertama-Oudio Sub-detik
SSE streaming melalui HTTPS

Paling Populer

Akun Bebas

15.000 karakter di signup
5.000 karakter per stream
Kunci API bagi akses programmatis
Sejarah generasi
Tidak ada tutup arus harian

Daftar Bebas

Pro

MOSS-TTS-Realtime (ketika hidup)
100.000 karakter per stream
Antrian GPU prioritas
Agen suara + Twilio integrasi
Batas tingkat yang lebih tinggi

Tingkatkan

Pertanyaan yang Sering Diajukan

Teks-to-speech arus potongan audio karena mereka dihasilkan, bukannya menunggu seluruh kalimat untuk menyelesaikan. Sampel audio pertama tiba di bawah satu detik, membuatnya cocok untuk agen suara hidup, dubbing, dan interaktif aplikasi di mana latensi penting.

TTS regular menghasilkan berkas audio penuh sebelum mengembalikan apa pun yang Anda tunggu, kemudian mendengar seluruh kalimat sekaligus. Realtime TTS menggunakan Acara Server-Sent (SSE) untuk menstreamkan potongan audio pendek sebagai model yang memproduksinya. Pengguna mendengar awal kalimat segera, bahkan pada masukan panjang.

Kokoro adalah backend default those menghasilkan audio kira-kira 100x lebih cepat daripada waktu nyata pada GPU modern. Kami mengintegrasikan MOSS-TTS-Realtime sebagai alternatif kualitas lebih tinggi; pengguna akan dapat memilih per permintaan setelah kapal itu.

Keterlambatan awal yang khas pada Kokoro adalah 300-800m atas koneksi publik. Pemujaan jaringan mendominasi setelah itu. Halaman ini permukaannya diukur dari waktu ke-pertama-dio di UI sehingga Anda dapat melihat berapa lama waktu yang dibutuhkan setiap permintaan.

Suara agen yang menanggapi percakapan, hidup dubbing untuk media streaming, permainan interaktif NPCs, pembaca aksesibilitas yang mulai berbicara saat klik pengguna, dan aplikasi di mana menunggu dua atau tiga detik untuk audio akan merasa malas.

Ya. POST ke https://api.tts.ai/v1/tts/stream/dengan tubuh yang sama dengan reguler /v1/tts/point. Responnya adalah aliran SSE dari base64-encode WAV chucks. The free tiers mendukung 10 generasi per hari pengguna anonim; pengguna terotentikasi mendapatkan penyisihan karakter per-account.

Kokoro menggunakan suara pra-dilatih dan tidak mengkloning. MOSS-TTS-Realtime (ketika terintegrasi) mendukung kloning suara zero-shot dari referensi 3 detik. Untuk kloning suara hari ini, gunakan reguler /text-to-speech/ halaman dengan Chatterbox atau GPT-SoVIT mereka tidak streaming-capable tetapi menghasilkan suara gubahan.

Harga karakter yang sama dengan titik akhir TTS biasa. Kokoro adalah biaya bebas (1x). MOSS-TTS-Realtime akan dijalankan pada tingkat standar (2x biaya) ketika diaktifkan. Protokol streaming tidak menambahkan harga pengisian ulang.

Ya pasang titik akhir streaming dengan webhook suara Twilio untuk pakan langsung audio ke panggilan telepon. platform suara kami sudah melakukan ini untuk IVR dan keluar panggilan. Akhir-ke-akhir pada panggilan telepon biasanya 1-2 detik termasuk respon STT dan LLM.

Jika jaringan Anda menjatuhkan potongan dalam transit, pemutar streaming akan melewatkan ke depan daripada kios. Bagi aplikasi yang tidak dapat mentolerir kesenjangan, kembali ke titik akhir non-streaming biasa, atau buffer 500ms audio sebelum memulai pemutaran.

5.0/5 (1)

Stream Speech in Real Time

Bebas untuk 10 generasi pertama sehari. mendaftar untuk membuka tunjangan karakter penuh dan akses API.

Daftar Bebas Tilik Pricing

TTS Realtime

Teks

Pengaturan & Suara

Latensi Hidup

Keluaran

Cara Kerja TTS streaming

Kirim Teks

2. Model Menghasilkan

3. Chunks Stream

4 dengarkan hidup

Gunakan Kasus

Agen Suara

Live Dubbing

Permainan

Aksesibilitas

Rencana TTS Realtime

Pertanyaan yang Sering Diajukan

Apa itu TTS realtime?

Bagaimana TTS realtime berbeda dari TTS biasa?

Model mana yang mengatur halaman realtime?

Seberapa cepat latensi audio pertama?

Apa yang bisa saya bangun dengan TTS realtime?

Apakah ada API untuk TTS realtime?

Apakah mendukung kloning suara?

Berapa biaya TTS realtime?

Dapatkah saya menggunakannya pada panggilan telepon?

Mengapa audio memotong kata tengah kadang-kadang?

Stream Speech in Real Time