Realtime TTS

Streaming teks-ka-ucapan kanthi latensi sub-detik pertama-audio. Digawé kanggo agen swara lan aplikasi live.

Teks

Streaming
0/5,000 aksara ~0.3s audio pisanan

& Setelan swara

Kacamatan iki kagolong kacamatan kang paling cilik.

Tingkat latensi

Klik Stream kanggo ngukur latensi audio pisanan

Output

Ing jaman biyèn, anané musik iki digawé kanthi cara dicampur.

0:00
Sepotong pisanan:
Jumlah potongan: 0
Total wektu:

Cara Streaming TTS Kerja

1. Kirim teks

POST text to /v1/tts/stream/ as a Server-Sent Events request.

2. Model kang digawé

Ing basa Jawa, tembung pantun iku tegesé pantun kang digawé saka tanduran.

3. Stream Chunks

1444-1446: Panjenenganipun dipunangkat dados uskup agung ing kutha punika.

4. Listen Live

Ing basa Jawa, tembung iki bisa dijupuk saka tembung cipta, ya iku cipta.

Kasus Pangguna

Ing jaman iki, para ahli wis bisa ngenali wujud-wujud anyar.

Asisten swara

Saliyané iku, uga ana sing diarani gawéan manungsa.

Dubbing langsung

Ing basa Jawa, tembung iki bisa dijupuk saka tembung pantun.

Game

NPC dialog kang reacted kanggo pilihan pemain langsung, ora pre-rendered VO.

Kamampuan kanggo nyambung

Para pamaca layar lan piranti bantu kang wiwit ngomong nalika pangguna klik.

Realtime TTS Plans

Diwiwiti gratis, dioptimalake nalika perlu luwih

Bebas
  • Kokoro streaming (model gratis)
  • 500 aksara saben generasi
  • 10 streams/dina gratis saben pangguna anonim
  • Sub-detik pisanan-audio latensi
  • SSE streaming liwat HTTPS
Paling populer
Akun
  • 15,000 karakter nalika signup
  • 5,000 aksara saben stream
  • Kunci API kanggo akses program
  • Sejarah
  • Ora ana watesan stream saben dina
Sign Up Free
Pro
  • MOSS-TTS-Realtime (wektu live)
  • 100,000 aksara saben stream
  • Prioritas GPU
  • Voice agent + Twilio integrasi
  • Batas laju dhuwur
Ngoptimalake

Pitakon kang Kadhangkala Ditakoni

Teks-ka-ucapan realtime stream audio chunks nalika dipunjenengi, nggantos ngantos sewu ukara rampung. Sampeyan audio kapisan teka ing ngisor siji detik, ndamel punika cocog kanggé live voice agents, dubbing, lan aplikasi interaktif ing ngendi latensi penting.

TTS biasané ngasilaké file audio lengkap sadurunge bali apa-apa — sampeyan ndhaftar, banjur krungu kabeh ukara ing siji wektu. Realtime TTS nggunakake Server-Sent Events (SSE) kanggo stream audio short chunks kaya model ngasilaké iku. Pangguna krungu wiwitan ukara cedhak karo langsung, malah ing input dawa.

Kokoro iku backend pigura mburi pigura mburi — iku ngasilaké audio kira-kira 100x luwih cepet tinimbang wektu nyata ing GPU modern. Kita nggabungake MOSS-TTS-Realtime minangka alternatif kualitas dhuwur; pangguna bakal bisa milih miturut panjaluk sawisé dikirim.

Latensi audio pisanan ing Kokoro ya iku 300-800ms liwat sambungan umum. Jaringan round-trip dominan sawisé iku. Halaman iki ngasilaké wektu-ka-audio-pisanan sing diukur langsung ing UI supaya sampeyan bisa ndeleng persis kepiye suwe saben panjaluk.

Ing basa Inggris, istilah iki bisa digunakaké kanggo nyebut wong kang ora bisa maca, ora bisa maca, ora bisa maca, ora bisa maca, ora bisa maca, ora bisa maca, ora bisa maca, ora bisa maca, ora bisa maca, ora bisa maca, ora bisa maca, ora bisa maca, ora bisa maca, ora bisa maca, ora bisa maca.

Ya. POST menyang https://api.tts.ai/v1/tts/stream/ kanthi awak kang padha karo /v1/tts/ titik pungkasan. Balasan iku stream SSE saka potongan WAV kang dienkodé base64. Tingkat gratis nyokong 10 generasi saben dina saben pangguna anonim; pangguna sing diverifikasi nampa akèh karakter saben akun.

Kokoro nggunakake swara kang wis dilatih lan ora kloning. MOSS-TTS-Realtime (kanggo digabung) nyokong kloning swara zero-shot saka referensi3detik. Kanggo kloning swara lengkap saiki, gunakake /text-to-speech/ kaca biasa karo Chatterbox utawa GPT-SoVITS — sing ora bisa streaming nanging ngasilaké swara sing disesuaikan.

Kokoro iku free-tier (1x cost). MOSS-TTS-Realtime bakal dijalanaké ing tingkat standar (2x cost) nalika diaktifaké. Protokol streaming ora nambahake biaya tambahan.

Ya — sambungake titik pungkasan streaming karo webhook swara Twilio kanggo feed audio langsung menyang telpon. Platform agen swara kita wis nindakake iki kanggo IVR lan telpon metu. End-to-end latency ing telpon biasane 1-2 detik kalebu STT lan LLM respon.

Yen jaringan sampeyan ngilangi sebagean nalika transit, pamuter streaming bakal lelungan maju tinimbang nggedhekake. Kanggo aplikasi kang ora bisa toleransi celah, balik menyang titik pungkasan non-streaming, utawa buffer 500ms audio sadurunge miwiti pamuter.
5.0/5 (1)

Apa kang bisa kita tambahi? Feedbackmu mbantu kita ngrampungi masalah.

Streaming basa ing wektu nyata

Gratis kanggo 10 generasi pisanan saben dina. Gawe akun kanggo nglumpukaké akèhé aksara lan akses API.