Realtime TTS

Streaming test-to-diskors b'sub-tieni ewwel awdjo latency. Mibnija għall-aġenti vuċi u applikazzjonijiet ħajjin.

Għad m'għandniex vuċijiet TTS fil-lingwa tiegħek. Għinna nżidu tiegħek! Biegħ il-vuċi tiegħek

Test

Streaming
0/5,000 karattri ~0.3s l-ewwel awdjo

Vuċi & Settings

Mudelli li kapaċi jistrimjaw biss.

Latenza Live

Ikklikkja Stream biex tkejjel il-latency tal-ewwel awdjo

Riżultat

Audio biċċiet se tilgħab hawn kif huma nixxiegħa fil.

0:00
L-ewwel biċċa:
Total ta’ biċċiet: 0
Ħin totali:

Kif Streaming TTS xogħlijiet

1. Ibgħat it-test

Test POST għal /v1/tts/stream/ bħala talba Avvenimenti Mibgħuta mis-Server.

2. Mudell jiġġenera

Kokoro chunks-test u jiġġenera awdjo kampjun-by-kampjun fuq il-GPU.

3. Biċċiet tal-fluss

Base64-ikkodifikati biċċiet WAV jaslu fuq SSE u jibdew jilagħbu immedjatament.

4. Listen Live

Utent jisma l-bidu tas-sentenza f'inqas minn sekonda, anke fuq inputs twal.

Każijiet ta’ użu

Fejn sub-sekonda latency unlocks esperjenzi ġodda.

Aġenti tal-vuċi

Bots konversazzjonali li jirrispondu malajr daqs kemm ikun bniedem.

Live dubjar

Ittraduċi u dub nixxiegħa fil-ħin reali mingħajr buffering pauses.

Logħob

NPC djalogu li jirreaġixxi għall-għażliet player istantanjament, l-ebda VO pre-rendered.

Aċċessibbiltà

Qarrejja tal-iskrin u għodod ta' assistenza li jibdew jitkellmu fil-mument li l-utent jikklikkja.

Realtime TTS Pjanijiet

Ibda b'xejn, aġġorna meta jkollok bżonn aktar

Ħieles
  • Kokoro streaming (mingħajr mudell)
  • 500 karattru għal kull ġenerazzjoni
  • 10 flussi b'xejn/jum għal kull utent anonimu
  • Sub-tieni latency ewwel awdjo
  • SSE streaming fuq HTTPS
L-aktar popolari
Kont b'xejn
  • 15,000 karattru meta tiffirma
  • 5,000 karattru għal kull nixxija
  • Ċavetta API għal aċċess programmatiku
  • Storja tal-ġenerazzjoni
  • Ebda limitu ta’ flussi ta’ kuljum
Irreġistra b'xejn
Għal
  • MOSS-TTS-Realtime (meta jkun ħaj)
  • 100,000 karattri għal kull nixxiegħa
  • Prijorità tal-kju tal-GPU
  • Aġent tal-vuċi + Twilio integrazzjoni
  • Limiti ta’ rata ogħla
Aġġornament

Mistoqsijiet Frekwenti (FAQ)

Realtime test-to-talk streams biċċiet awdjo kif dawn huma ġġenerati, minflok stennija għall-sentenza sħiħa biex jitlesta.L-ewwel kampjun awdjo jaslu f'inqas minn sekonda, li jagħmilha adattata għall-aġenti vuċi ħajjin, dubjar, u l-applikazzjonijiet interattivi fejn materji latency.

TTS regolari jiġġenera l-fajl awdjo sħiħ qabel ma jirritorna xi ħaġa — inti tistenna, imbagħad tisma s-sentenza kollha f'daqqa. Realtime TTS tuża Server-Sent Avvenimenti (SSE) biex stream biċċiet awdjo qasir kif il-mudell jipproduċi minnhom.

Kokoro huwa l-backend default — li jiġġenera awdjo bejn wieħed u ieħor 100x aktar malajr minn ħin reali fuq GPU moderni.Aħna qed jintegraw MOSS-TTS-Realtime bħala alternattiva ta' kwalità ogħla; l-utenti se jkunu jistgħu jagħżlu għal kull talba ladarba li vapuri.

Il-paġna turi l-ħin imkejjel ħaj għall-ewwel awdjo fl-interface tal-utent sabiex tkun tista' tara eżattament kemm ħadet kull talba.Il-paġna turi wkoll il-ħin imkejjel ħaj għall-ewwel awdjo fl-interface tal-utent sabiex tkun tista' tara eżattament kemm ħadet kull talba.

Aġenti tal-vuċi li jirrispondu b’mod konversattiv, dubjar dirett għal midja streaming, NPCs interattivi tal-logħob, qarrejja tal-aċċessibbiltà li jibdew jitkellmu fil-mument li utent ikklikkja, u kwalunkwe applikazzjoni fejn stennija ta’ żewġ jew tliet sekondi għall-awdjo tħossha bil-mod.

Iva. POST għal https://api.tts.ai/v1/tts/stream/ bl-istess korp bħall-punt aħħari regolari /v1/tts/. It-tweġiba hija nixxiegħa SSE ta’ biċċiet WAV ikkodifikati b’base64. Il-livell liberu jappoġġja 10 ġenerazzjonijiet kuljum għal kull utent anonimu; l-utenti awtentikati jiksbu l-allokazzjoni sħiħa ta’ karattri għal kull kont.

Kokoro juża vuċijiet imħarrġa minn qabel u ma jikklonax. MOSS-TTS-Realtime (meta integrat) jappoġġja klonar tal-vuċi zero-shot minn referenza ta' 3 sekondi. Għal klonar sħiħ tal-vuċi llum, uża l-paġna regolari /test-to-speech/ ma' Chatterbox jew GPT-SoVITS — dawn mhumiex kapaċi li jxandru imma jipproduċu vuċijiet apposta.

L-istess spiża tal-karattru bħall-punt aħħari TTS regolari. Kokoro huwa b'xejn (1x spiża). MOSS-TTS-Realtime se taħdem fil-livell standard (2x spiża) meta tkun attivata. Il-protokoll tal-istreaming ma jżidx ebda ħlas addizzjonali għall-ipprezzar.

Iva — jaqblu l-endpoint streaming ma’ webhook vuċi Twilio biex ifornu awdjo ħajjin fis-sejħa tat-telefon. pjattaforma tagħna aġent vuċi diġà tagħmel dan għall-IVR u sejħiet outbound. end-to-end latency fuq sejħa tat-telefon hija tipikament 1-2 sekondi inklużi STT u LLM tweġiba.

Jekk in-netwerk tiegħek jaqta’ biċċa fi tranżitu, il-plejer tal-istreaming se jaqbeż quddiem minflok ma jistabbilizza.Għall-applikazzjonijiet li ma jistgħux jittolleraw lakuni, jaqgħu lura għall-punt aħħari regolari mhux streaming, jew buffer 500ms ta’ awdjo qabel ma tibda l-plejbek.
5.0/5 (1)

X'nistgħu ntejbu? Il-feedback tiegħek jgħinna nsolvu l-problemi.

Stream Diskors fil-Ħin Reali

B'xejn għall-ewwel 10 ġenerazzjonijiet kuljum.Irreġistra biex tiżblokka l-allokazzjoni sħiħa tal-karattri u l-aċċess għall-API.