Valós idejű TTS
Streaming sms-to-speech sub-second first-audio latency. Hanganyagokhoz és élő alkalmazásokhoz építették.
Hogyan működik a TTS-ek közvetítése?
1. Szöveg küldése
POST szöveg /v1/tts/stream/ a Server-Sent Event kéréséhez.
2. Model Generations
Kokoro darabolja a szöveget, és a GPU-n audio mintázatot generál.
3. Stream Chunks
Base64 kódolt WAV darabok érkezik az SSE és elkezd játszani azonnal.
4. Figyelj élőben
A felhasználó egy másodperc alatt hallja a mondat kezdetét, még hosszú bemeneteken is.
Esetek használata
Ahol a másodperc alatti késés új élményeket tár fel.
Hanganyagok
Társalgó robotok, amik olyan gyorsan reagálnak, mint egy ember.
Élő dubbing
Fordítsa le és szinkronizálja a patak valós időben puffer szünetek nélkül.
Játékok
NPC párbeszédablak, amely azonnal reagál a játékosok választására, nincs előre megadott VO.
Hozzáférhetőség
Képernyő olvasók és segítő eszközök, amelyek elkezdenek beszélni abban a pillanatban, amikor egy felhasználó kattint.
Valós idejű TTS-tervek
Ingyenes indítás, frissítés, ha többre van szükséged
- Kokoro streaming (szabad modell)
- 500 karakter generációnként
- 10 ingyenes patak/nap anonim felhasználónként
- Másodperces első audio-késleltetés
- SSE streaming over HTTPS
- 15.000 karakter a regisztrációkor
- 5000 chars per stream
- API kulcs a programmatikus hozzáféréshez
- Generációs történelem
- Nincs napi átfolyási kupak
- MOSS-TTS-Realtime (élőben)
- 100,000 chars per stream
- Prioritású GPU sor
- Hanganyag + Twilio integráció
- Magasabb adókulcsi határértékek
Gyakran ismételt kérdések
Mit lehetne javítani? A visszajelzés segít megoldani a problémákat.
Stream beszéd valós időben
Ingyenes az első 10 generáció egy nap. Iratkozzon fel, hogy felszabadítsa a teljes karakter támogatás és API hozzáférést.