Realtime TTS
Stroom teks-na-sech met ondertweede eerste-audio latency. Gebou vir stemagente en lewende toepassings.
Hoe dit werk om TTS te maal
1. Stuur Teks
POS-teks na /v1/ts/stream/ as 'n Bediener-Sent events versoek.
2. Model Genereer
Kokoro stukke van die teks en genereer klankmonster-by-aples op die GPU.
3. Stroomkunks
Basis64-en-gekodeerde WAV-brokke kom oor SSE en begin dadelik speel.
4. Luister lewe
Gebruiker hoor die begin van die sin in onder 'n sekonde, selfs op lang invoere.
Gebruik letterkase
Waar sub-second latency nuwe ondervindinge ontsluit.
Stemagente
Gesprekke wat so vinnig soos'n mens reageer.
Lewende teistering
Vertaal en dub 'n stroom in' n regte tyd sonder bufferspouses.
Speletjies
NPC dialoog wat reageer op speler keuses onmiddellik, geen voorafverdrade VO nie.
Toeganklikheid
Skermlesers en helpende hulpmiddels wat begin praat die oomblik wat 'n gebruiker kliek.
Reële TTS - planne
Begin sonder, opgradering wanneer u meer nodig het
- Kokoro - strooming (vrye model)
- 500 karakters per geslag
- 10 vrye strome/dag per anonieme gebruiker
- Subtweede eerste- audio latency
- SSE stroom oor HTTP's
- 15 000 karakters by ondertekening
- 5 000 karakters per stroom
- API-sleutel vir programmemamatiese toegang
- Geslaggeskiedenis
- Geen dagstroommap nie
- MOSS-TTS-Realtime (wanneer lewe)
- 100 000 chars per stroom
- Prioriteit GPU wagtou
- Stem agent + Twilio integrasie
- Hoër tempo beperk
Vrae wat dikwels gevra word
U terugvoer help ons om geskille reg te stel.
Stroom spraak in die regte tyd
Vry vir die eerste 10 geslagte per dag. Teken op om die volle karaktertoelae en API toegang te ontsluit.