Lapor Pepijat / Permintaan Ciri

TTS masa nyata

Strim teks-ke-tutur dengan latensi audio pertama sub-saat. Dibina untuk ejen suara dan aplikasi langsung.

Daftar Masuk

Kami belum mempunyai suara TTS dalam bahasa anda. Bantu kami tambahkan suara anda! Jual Suara Anda

Teks

Streaming

0/5,000 aksara ~0.3s audio pertama

& Tetapan Suara

Model Hanya model yang boleh dimuat turun.

Suara

Kelajuan 1.0x

Lentingan Segera

—

Klik Strim untuk mengukur latensi audio pertama

Output

Buah audio akan dimainkan di sini sebagai mereka mengalir masuk.

Bagaimana Streaming TTS Berfungsi

1. Hantar Teks

Teks POST ke /v1/tts/stream/ sebagai permintaan Peristiwa Dihantar-Pelayan.

2. Model Menjana

Kokoro memotong teks dan menghasilkan sampel-secara-sampel audio pada GPU.

3. Strim Butir-butir

Bahagian WAV terkodkan Base64 tiba melalui SSE dan mula main dengan segera.

4. Dengar Langsung

Pengguna mendengar permulaan ayat dalam masa kurang dari satu saat, walaupun pada input panjang.

Gunakan Kes

Di mana latensi sub-saat membuka pengalaman baru.

Ejen Suara

Bot perbualan yang menjawab secepat manusia akan.

Dubbing Segera

Terjemah dan dub strim dalam masa nyata tanpa penimbal jeda.

Permainan

Dialog NPC yang bertindak balas kepada pilihan pemain dengan serta merta, tiada VO pra-dihasilkan.

Kebolehcapaian

Pembaca skrin dan alat bantuan yang mula bercakap bila pengguna klik.

Rencana TTS masa nyata

Mulakan percuma, naik taraf bila anda perlukan lebih

Bebas

Kokoro streaming (model percuma)
500 aksara per generasi
10 strim percuma/hari bagi setiap pengguna anonim
Lentingan audio pertama subsaat
Strim SSE melalui HTTPS

Paling Popular

Akaun Bebas

15,000 aksara pada pendaftaran
5,000 aksara per strim
Kekunci API untuk akses program
Sejarah Penjanaan
Tiada had strim harian

Daftar Masuk

Pro

MOSS-TTS-Realtime (bila hidup)
100,000 aksara per strim
Baris gilir GPU keutamaan
Ejen suara + integrasi Twilio
Had kadar lebih tinggi

Naik taraf

Soalan Lazim

Teks-ke-tutur masa nyata strimkan potongan audio bila ia dijana, bukannya menunggu keseluruhan ayat untuk selesai. Sampel audio pertama tiba dalam masa kurang dari satu saat, menjadikannya sesuai untuk ejen suara hidup, duplikasi, dan aplikasi interaktif di mana latensi penting.

TTS biasa menghasilkan fail audio penuh sebelum mengembalikan apa-apa — anda tunggu, kemudian dengar keseluruhan ayat sekali. TTS masa nyata menggunakan Peristiwa-Pelayan-Dihantar (SSE) untuk strim potongan audio pendek sebagai model menghasilkan mereka. Pengguna mendengar permulaan ayat hampir dengan serta merta, bahkan pada input panjang.

Kokoro adalah bahagian belakang lalai — ia menghasilkan audio kira-kira 100x lebih pantas daripada masa nyata pada GPU moden. Kami mengintegrasikan MOSS-TTS-Masa-Real sebagai alternatif kualiti yang lebih tinggi; pengguna akan dapat memilih per permintaan apabila ia dihantar.

Kelamaan audio pertama biasa pada Kokoro ialah 300-800ms melalui sambungan awam. Perjalanan sekeliling rangkaian mendominasi selepas itu. Halaman memaparkan masa-ke-audio-pertama yang diukur secara langsung dalam UI supaya anda boleh lihat berapa lama setiap permintaan mengambil masa.

Agen suara yang menjawab secara perbualan, duplikasi langsung untuk media streaming, NPC permainan interaktif, pembaca kebolehcapaian yang mula bercakap ketika pengguna mengklik, dan sebarang aplikasi di mana menunggu dua atau tiga saat untuk audio akan terasa perlahan.

Ya. POST ke https://api.tts.ai/v1/tts/stream/ dengan badan yang sama seperti titik akhir /v1/tts/ biasa. Balasan adalah strim SSE daripada kepingan WAV dikodkan base64. Tahap percuma menyokong 10 generasi per hari per pengguna anonim; pengguna yang disahkan mendapat peruntukan aksara penuh per akaun.

Kokoro menggunakan suara pralatih dan tidak klon. MOSS-TTS-Realtime (bila diintegrasikan) menyokong klon suara sifar-tembak dari rujukan 3 saat. Untuk klon suara penuh hari ini, gunakan halaman /text-to-speech/ biasa dengan Chatterbox atau GPT-SoVITS — yang tidak mampu strim tetapi menghasilkan suara tersendiri.

Kos aksara sama seperti titik akhir TTS biasa. Kokoro adalah lapisan percuma (kos 1x). MOSS-TTS-Realtime akan berjalan pada lapisan piawai (kos 2x) bila diaktifkan. Protokol strim tidak menambah sebarang bayaran tambahan harga.

Ya — pasangkan titik akhir strim dengan webhook suara Twilio untuk menyuap audio sepanjang masa ke dalam panggilan telefon. Platform ejen suara kami sudah melakukan ini untuk IVR dan panggilan keluar. Kelamaan akhir-ke-akhir pada panggilan telefon biasanya 1-2 saat termasuk respon STT dan LLM.

Jika rangkaian anda jatuhkan sekeping semasa laluan, pemain strim akan melompat ke hadapan bukannya terhenti. Untuk aplikasi yang tidak boleh tolera kekosongan, kembali ke titik akhir bukan strim biasa, atau penimbal 500ms audio sebelum mula main.

5.0/5 (1)

Strim Perbualan dalam Masa Sebenar

Percuma untuk 10 generasi pertama sehari. Daftar untuk membuka kebenaran aksara penuh dan akses API.

Daftar Masuk Lihat Harga

TTS masa nyata

Teks

& Tetapan Suara

Lentingan Segera

Output

Bagaimana Streaming TTS Berfungsi

1. Hantar Teks

2. Model Menjana

3. Strim Butir-butir

4. Dengar Langsung

Gunakan Kes

Ejen Suara

Dubbing Segera

Permainan

Kebolehcapaian

Rencana TTS masa nyata

Soalan Lazim

Apa itu TTS masa nyata?

Bagaimana TTS masa nyata berbeza dari TTS biasa?

Model mana yang menyokong halaman masa nyata?

Berapa cepat latensi audio pertama?

Apa yang boleh saya bina dengan TTS masa nyata?

Adakah terdapat API untuk TTS masa nyata?

Adakah ia menyokong klon suara?

Berapakah kos TTS masa nyata?

Boleh saya gunakannya untuk panggilan telefon?

Kenapa audio kadang-kadang terputus di tengah-tengah perkataan?

Strim Perbualan dalam Masa Sebenar