TTS în timp real
Streaming text-to-speech cu sub-secund latență prim-audio. Construit pentru agenți vocali și aplicații live.
Cum funcționează streaming TTS
1. Trimite text
Text POST pentru /v1/tts/stream/ ca o cerere de evenimente Server-Send.
2. Modelul generează
Kokoro îngroapă textul și generează eșantion-pe-eșantion pe GPU.
3. Trucuri de stream
Base64-encodat bucăți WAV ajunge peste SSE și începe să joace imediat.
4. Ascultaţi în direct
Utilizatorul aude începutul propoziției într-o secundă, chiar și pe intrari lungi.
Cazuri de utilizare
În cazul în care sub-a doua latență deblochează noi experiențe.
Agenţi vocali
Boturile de conversaţie care răspund la fel de repede ca un om.
Dobândă în direct
Traduceți și dublați un flux în timp real fără pauze tamponare.
Jocuri
dialogul NPC care reacționează la alegerile jucătorului instantaneu, fără VO pre-referit.
Accesibilitate
Cititorii de ecran și instrumente de asistență care încep să vorbească în momentul în care un utilizator clicează.
Planurile TTS în timp real
Pornește gratuit, upgrade atunci când aveți nevoie de mai mult
- Flux Kokoro (model liber)
- 500 de caractere pe generație
- 10 fluxuri/zi gratuite pe utilizator anonim
- Sub-a doua latență de primă audiență
- SSE streaming peste HTTPS
- 15.000 de caractere la înscrierea
- 5.000 de caractere pe flux
- Cheie API pentru accesul programmatic
- Istoric generație
- Fără capac zilnic al fluxului
- MOSS-TTS-Realtime (când trăiesc)
- 100.000 de caractere pe râu
- Coada GPU prioritară
- Agent vocal + Integrare Twilio
- Limitele ratei mai mari
Întrebări frecvente
Feedback-ul vostru ne ajută să rezolvăm problemele.
Discursul de discuţii în timp real
Gratuit pentru primele 10 generatii pe zi. Inscrie-te pentru a debloca alocatia completa de caracter si accesul API.