TTS i realtid
Streaming text-till-tal med sub-andra första-audio latency. Byggd för röst agenter och live-applikationer.
Hur Streaming TTS fungerar
1. Skicka text
POST-text till /v1/tts/stream/ som begäran om server-Sent Events.
2. Modell skapar
Kokoro delar upp texten och genererar ljudprov-för-prov på GPU.
3. Strömma chunks
Base64-kodade WAV bitar anländer över SSE och börja spela omedelbart.
4. Lyssna Live
Användaren hör början av meningen i under en sekund, även på långa ingångar.
Användningsfall
Där latens under andra tiden öppnar upp nya upplevelser.
Röstagenter
Konversationsrobotar som reagerar lika snabbt som en människa skulle göra.
Live-dubbning
Översätt och dubba en ström i realtid utan att buffra pauser.
Spel
NPC dialogruta som reagerar på spelarens val omedelbart, ingen förrenderad VO.
Tillgänglighet
Skärmläsare och hjälpmedel som börjar tala det ögonblick en användare klickar.
TTS-planer i realtid
Starta gratis, uppgradera när du behöver mer
- Kokoro streaming (fri modell)
- 500 tecken per generation
- 10 gratisströmmar/dag per anonym användare
- Underandra förstaaudio latensen
- SSE streaming över HTTPS
- 15 000 tecken vid registrering
- 5000 rödingar per bäck
- API- nyckel för programmatisk åtkomst
- Generationshistorik
- Inget dagligt streamkapsyl
- MOSS-TTS-Realtime (när du sänder)
- 100 000 tecken per bäck
- Prioriterad GPU- kö
- Röstagent + Twilio integration
- Högre räntegränser
Vanliga frågor
Vad kan vi förbättra? Din feedback hjälper oss att lösa problem.
Strömma tal i realtid
Gratis för de första 10 generationerna om dagen. Registrera dig för att låsa upp full karaktär utsläppsrätter och API-åtkomst.