TTS Realtime

Streaming teks-to-peech with sub-detik first-audio latensi. Dibuat untuk agen suara dan aplikasi hidup.

Kami belum memiliki suara TTS dalam bahasamu. Juallah Suara Anda

Teks

Streaming
0/5,000 karakter ~0.3s audio pertama

Pengaturan & Suara

Hanya model yang mampu di streaming.

Latensi Hidup

Klik Stream untuk mengukur latensi audio pertama

Keluaran

Pecahan audio akan diputar di sini saat mereka masuk.

0:00
Potongan pertama:
Total potongan: 0
Total waktu:

Cara Kerja TTS streaming

Kirim Teks

Teks POST ke /v1/tts/stream/ sebagai permintaan Events Server-Sent.

2. Model Menghasilkan

Kokoro potongan teks dan menghasilkan sampel audio-oleh-sample di GPU.

3. Chunks Stream

Base64-enkode WAV potongan tiba di atas SSE dan mulai bermain segera.

4 dengarkan hidup

Pengguna mendengar awal dari kalimat di bawah satu detik, bahkan pada masukan panjang.

Gunakan Kasus

Dimana latensi sub-detik membuka pengalaman baru.

Agen Suara

Robot percakapan yang merespon secepat manusia.

Live Dubbing

Terjemahkan dan dub arus secara real time tanpa buffering pause.

Permainan

NPC dialog yang bereaksi terhadap pilihan pemutar secara instan, tidak ada pra-render VO.

Aksesibilitas

Pembaca layar dan alat bantu yang mulai berbicara saat klik pengguna.

Rencana TTS Realtime

Mulai bebas, upgrade ketika Anda membutuhkan lebih banyak

Bebas
  • Kokoro streaming (model bebas)
  • 500 karakter per generasi
  • 10 aliran bebas/hari per pengguna anonim
  • Latensi Pertama-Oudio Sub-detik
  • SSE streaming melalui HTTPS
Paling Populer
Akun Bebas
  • 15.000 karakter di signup
  • 5.000 karakter per stream
  • Kunci API bagi akses programmatis
  • Sejarah generasi
  • Tidak ada tutup arus harian
Daftar Bebas
Pro
  • MOSS-TTS-Realtime (ketika hidup)
  • 100.000 karakter per stream
  • Antrian GPU prioritas
  • Agen suara + Twilio integrasi
  • Batas tingkat yang lebih tinggi
Tingkatkan

Pertanyaan yang Sering Diajukan

Teks-to-speech arus potongan audio karena mereka dihasilkan, bukannya menunggu seluruh kalimat untuk menyelesaikan. Sampel audio pertama tiba di bawah satu detik, membuatnya cocok untuk agen suara hidup, dubbing, dan interaktif aplikasi di mana latensi penting.

TTS regular menghasilkan berkas audio penuh sebelum mengembalikan apa pun yang Anda tunggu, kemudian mendengar seluruh kalimat sekaligus. Realtime TTS menggunakan Acara Server-Sent (SSE) untuk menstreamkan potongan audio pendek sebagai model yang memproduksinya. Pengguna mendengar awal kalimat segera, bahkan pada masukan panjang.

Kokoro adalah backend default those menghasilkan audio kira-kira 100x lebih cepat daripada waktu nyata pada GPU modern. Kami mengintegrasikan MOSS-TTS-Realtime sebagai alternatif kualitas lebih tinggi; pengguna akan dapat memilih per permintaan setelah kapal itu.

Keterlambatan awal yang khas pada Kokoro adalah 300-800m atas koneksi publik. Pemujaan jaringan mendominasi setelah itu. Halaman ini permukaannya diukur dari waktu ke-pertama-dio di UI sehingga Anda dapat melihat berapa lama waktu yang dibutuhkan setiap permintaan.

Suara agen yang menanggapi percakapan, hidup dubbing untuk media streaming, permainan interaktif NPCs, pembaca aksesibilitas yang mulai berbicara saat klik pengguna, dan aplikasi di mana menunggu dua atau tiga detik untuk audio akan merasa malas.

Ya. POST ke https://api.tts.ai/v1/tts/stream/dengan tubuh yang sama dengan reguler /v1/tts/point. Responnya adalah aliran SSE dari base64-encode WAV chucks. The free tiers mendukung 10 generasi per hari pengguna anonim; pengguna terotentikasi mendapatkan penyisihan karakter per-account.

Kokoro menggunakan suara pra-dilatih dan tidak mengkloning. MOSS-TTS-Realtime (ketika terintegrasi) mendukung kloning suara zero-shot dari referensi 3 detik. Untuk kloning suara hari ini, gunakan reguler /text-to-speech/ halaman dengan Chatterbox atau GPT-SoVIT mereka tidak streaming-capable tetapi menghasilkan suara gubahan.

Harga karakter yang sama dengan titik akhir TTS biasa. Kokoro adalah biaya bebas (1x). MOSS-TTS-Realtime akan dijalankan pada tingkat standar (2x biaya) ketika diaktifkan. Protokol streaming tidak menambahkan harga pengisian ulang.

Ya pasang titik akhir streaming dengan webhook suara Twilio untuk pakan langsung audio ke panggilan telepon. platform suara kami sudah melakukan ini untuk IVR dan keluar panggilan. Akhir-ke-akhir pada panggilan telepon biasanya 1-2 detik termasuk respon STT dan LLM.

Jika jaringan Anda menjatuhkan potongan dalam transit, pemutar streaming akan melewatkan ke depan daripada kios. Bagi aplikasi yang tidak dapat mentolerir kesenjangan, kembali ke titik akhir non-streaming biasa, atau buffer 500ms audio sebelum memulai pemutaran.
5.0/5 (1)

Umpan balikmu membantu kita memperbaiki masalah.

Stream Speech in Real Time

Bebas untuk 10 generasi pertama sehari. mendaftar untuk membuka tunjangan karakter penuh dan akses API.