TTS v reálném čase
Streaming text-to-speech s sub-sekundou první-audio latency. Postaven pro hlasové agenty a živé aplikace.
Jak funguje streamování TTS
1. Odeslat text
POST text do /v1/tts/stream/ jako požadavek Server-Sent Events.
2. Model generuje
Kokoro zablokuje text a generuje audio vzorek po vzorku na GPU.
3. Stream Chunks
Base64-kódované WAV kusy dorazí přes SSE a začít hrát okamžitě.
4. Poslouchejte živě
Uživatel slyší začátek věty pod sekundu, dokonce i na dlouhých vstupech.
Pouzdra na použití
Kde sub-sekundová latence odemkne nové zážitky.
Hlasové agenty
Konverzační roboti, kteří reagují tak rychle jako lidé.
Živé dabování
Přelož a dub potok v reálném čase bez buffering pauzy.
Hry
Dialog NPC, který reaguje na volbu hráče okamžitě, žádné předrenderované VO.
Přístupnost
Čtečky obrazovek a pomocné nástroje, které začnou mluvit okamžikem, kdy uživatel klikne.
Plány TTS v reálném čase
Start zdarma, upgrade, když potřebujete více
- Kokoro streaming (free model)
- 500 znaků na generaci
- 10 volných proudů/den na anonymního uživatele
- Subsekunda první-audio latence
- SSE streamování přes HTTPS
- 15 000 znaků při přihlášení
- 5,000 znaků na jeden proud
- API klíč pro programmatický přístup
- Historie generování
- Žádný uzávěr denního proudu
- MOSS-TTS-Realtime (když žije)
- 100 000 znaků na jeden proud
- Prioritní fronta GPU
- Voice agent + Twilio integrace
- Vyšší limity sazeb
Často kladené otázky
Co bychom mohli zlepšit? Vaše zpětná vazba nám pomáhá řešit problémy.
Proslov v reálném čase
Zdarma pro prvních 10 generací denně. Zaregistrujte se k odemknutí plného příspěvku na charakter a API přístup.