TTS masa nyata

Strim teks-ke-tutur dengan latensi audio pertama sub-saat. Dibina untuk ejen suara dan aplikasi langsung.

Kami belum mempunyai suara TTS dalam bahasa anda. Bantu kami tambahkan suara anda! Jual Suara Anda

Teks

Streaming
0/5,000 aksara ~0.3s audio pertama

& Tetapan Suara

Hanya model yang boleh dimuat turun.

Lentingan Segera

Klik Strim untuk mengukur latensi audio pertama

Output

Buah audio akan dimainkan di sini sebagai mereka mengalir masuk.

0:00
Bahagian pertama:
Jumlah kepingan: 0
Jumlah masa:

Bagaimana Streaming TTS Berfungsi

1. Hantar Teks

Teks POST ke /v1/tts/stream/ sebagai permintaan Peristiwa Dihantar-Pelayan.

2. Model Menjana

Kokoro memotong teks dan menghasilkan sampel-secara-sampel audio pada GPU.

3. Strim Butir-butir

Bahagian WAV terkodkan Base64 tiba melalui SSE dan mula main dengan segera.

4. Dengar Langsung

Pengguna mendengar permulaan ayat dalam masa kurang dari satu saat, walaupun pada input panjang.

Gunakan Kes

Di mana latensi sub-saat membuka pengalaman baru.

Ejen Suara

Bot perbualan yang menjawab secepat manusia akan.

Dubbing Segera

Terjemah dan dub strim dalam masa nyata tanpa penimbal jeda.

Permainan

Dialog NPC yang bertindak balas kepada pilihan pemain dengan serta merta, tiada VO pra-dihasilkan.

Kebolehcapaian

Pembaca skrin dan alat bantuan yang mula bercakap bila pengguna klik.

Rencana TTS masa nyata

Mulakan percuma, naik taraf bila anda perlukan lebih

Bebas
  • Kokoro streaming (model percuma)
  • 500 aksara per generasi
  • 10 strim percuma/hari bagi setiap pengguna anonim
  • Lentingan audio pertama subsaat
  • Strim SSE melalui HTTPS
Paling Popular
Akaun Bebas
  • 15,000 aksara pada pendaftaran
  • 5,000 aksara per strim
  • Kekunci API untuk akses program
  • Sejarah Penjanaan
  • Tiada had strim harian
Daftar Masuk
Pro
  • MOSS-TTS-Realtime (bila hidup)
  • 100,000 aksara per strim
  • Baris gilir GPU keutamaan
  • Ejen suara + integrasi Twilio
  • Had kadar lebih tinggi
Naik taraf

Soalan Lazim

Teks-ke-tutur masa nyata strimkan potongan audio bila ia dijana, bukannya menunggu keseluruhan ayat untuk selesai. Sampel audio pertama tiba dalam masa kurang dari satu saat, menjadikannya sesuai untuk ejen suara hidup, duplikasi, dan aplikasi interaktif di mana latensi penting.

TTS biasa menghasilkan fail audio penuh sebelum mengembalikan apa-apa — anda tunggu, kemudian dengar keseluruhan ayat sekali. TTS masa nyata menggunakan Peristiwa-Pelayan-Dihantar (SSE) untuk strim potongan audio pendek sebagai model menghasilkan mereka. Pengguna mendengar permulaan ayat hampir dengan serta merta, bahkan pada input panjang.

Kokoro adalah bahagian belakang lalai — ia menghasilkan audio kira-kira 100x lebih pantas daripada masa nyata pada GPU moden. Kami mengintegrasikan MOSS-TTS-Masa-Real sebagai alternatif kualiti yang lebih tinggi; pengguna akan dapat memilih per permintaan apabila ia dihantar.

Kelamaan audio pertama biasa pada Kokoro ialah 300-800ms melalui sambungan awam. Perjalanan sekeliling rangkaian mendominasi selepas itu. Halaman memaparkan masa-ke-audio-pertama yang diukur secara langsung dalam UI supaya anda boleh lihat berapa lama setiap permintaan mengambil masa.

Agen suara yang menjawab secara perbualan, duplikasi langsung untuk media streaming, NPC permainan interaktif, pembaca kebolehcapaian yang mula bercakap ketika pengguna mengklik, dan sebarang aplikasi di mana menunggu dua atau tiga saat untuk audio akan terasa perlahan.

Ya. POST ke https://api.tts.ai/v1/tts/stream/ dengan badan yang sama seperti titik akhir /v1/tts/ biasa. Balasan adalah strim SSE daripada kepingan WAV dikodkan base64. Tahap percuma menyokong 10 generasi per hari per pengguna anonim; pengguna yang disahkan mendapat peruntukan aksara penuh per akaun.

Kokoro menggunakan suara pralatih dan tidak klon. MOSS-TTS-Realtime (bila diintegrasikan) menyokong klon suara sifar-tembak dari rujukan 3 saat. Untuk klon suara penuh hari ini, gunakan halaman /text-to-speech/ biasa dengan Chatterbox atau GPT-SoVITS — yang tidak mampu strim tetapi menghasilkan suara tersendiri.

Kos aksara sama seperti titik akhir TTS biasa. Kokoro adalah lapisan percuma (kos 1x). MOSS-TTS-Realtime akan berjalan pada lapisan piawai (kos 2x) bila diaktifkan. Protokol strim tidak menambah sebarang bayaran tambahan harga.

Ya — pasangkan titik akhir strim dengan webhook suara Twilio untuk menyuap audio sepanjang masa ke dalam panggilan telefon. Platform ejen suara kami sudah melakukan ini untuk IVR dan panggilan keluar. Kelamaan akhir-ke-akhir pada panggilan telefon biasanya 1-2 saat termasuk respon STT dan LLM.

Jika rangkaian anda jatuhkan sekeping semasa laluan, pemain strim akan melompat ke hadapan bukannya terhenti. Untuk aplikasi yang tidak boleh tolera kekosongan, kembali ke titik akhir bukan strim biasa, atau penimbal 500ms audio sebelum mula main.
5.0/5 (1)

Apa yang boleh kami perbaiki?

Strim Perbualan dalam Masa Sebenar

Percuma untuk 10 generasi pertama sehari. Daftar untuk membuka kebenaran aksara penuh dan akses API.