Realtime TTS

Streaming text-to-speech met sub-second first-audio latency. Gebouwd voor spraakagenten en live toepassingen.

Tekst

Streaming
0/5,000 tekens ~0.3s eerste audio

Spraakinstellingen

Streaming-geschikte modellen alleen.

Live Latency

Klik op Stream om de eerste audio latentie te meten

Uitvoer

Audio brokken zullen hier spelen als ze binnenstromen.

0:00
Eerste brok:
Totaal brokken: 0
Totale tijd:

Hoe Streaming TTS werkt

1. Tekst versturen

POST tekst naar /v1/tts/stream/als een verzoek om Server-Sent Events.

2. Model Generaties

Kokoro brokken de tekst en genereert audio sample-voor-sample op de GPU.

3. Stream Chunks

Base64-gecodeerde WAV brokken arriveren boven SSE en beginnen onmiddellijk te spelen.

4. Live luisteren

Gebruiker hoort het begin van de zin in minder dan een seconde, zelfs op lange ingangen.

Cases gebruiken

Waar subseconde latency nieuwe ervaringen ontsluit.

Spraakmiddelen

Conversatie bots die zo snel reageren als een mens zou doen.

Live Dubbing

Vertaal en dub een stroom in real time zonder bufferpauzes.

Spelletjes

NPC-dialoog die onmiddellijk reageert op spelerkeuzes, geen vooraf gerenderde VO.

Toegankelijkheid

Schermlezers en hulpmiddelen die beginnen te spreken op het moment dat een gebruiker klikt.

Realtime TTS-plannen

Start gratis, upgrade wanneer je meer nodig hebt

Vrij
  • Kokoro streaming (vrij model)
  • 500 tekens per generatie
  • 10 gratis streams/dag per anonieme gebruiker
  • Subseconde eerste audio latentie
  • SSE streaming over HTTPS
Meest populair
Gratis account
  • 15.000 tekens bij aanmelding
  • 5.000 tekens per stroom
  • API sleutel voor programmatische toegang
  • Generatiegeschiedenis
  • Geen dagelijkse stream cap
Gratis aanmelden
Pro
  • MOSS-TTS-Realtime (toen live)
  • 100.000 tekens per stroom
  • Prioritaire GPU-wachtrij
  • Spraakmiddel + integratie van Twilio
  • Hogere snelheidslimieten
Upgrade

Veelgestelde vragen

Realtime tekst-tot-spraak streamt audio brokken als ze worden gegenereerd, in plaats van te wachten tot de hele zin te voltooien. De eerste audio sample arriveert in minder dan een seconde, waardoor het geschikt is voor live voice agenten, nabbing, en interactieve toepassingen waar latency belangrijk is.

Reguliere TTS genereert het volledige audiobestand voordat u iets teruggeeft, wacht u en hoort dan de hele zin in één keer. Realtime TTS gebruikt Server-Sent Events (SSE) om korte audio brokken te streamen als het model ze produceert. De gebruiker hoort het begin van de zin vrijwel onmiddellijk, zelfs op lange ingangen.

Kokoro is de standaard backend die ongeveer 100x sneller dan real time audio genereert op een moderne GPU. We integreren MOSS-TTS-Realtime als een alternatief van hogere kwaliteit; gebruikers zullen kunnen kiezen per aanvraag zodra dat schip.

Typische eerste-audio latency op Kokoro is 300-800ms over een openbare verbinding. Netwerk ronde-trip domineert daarna. De pagina oppervlaktes de live gemeten tijd-tot-eerste-audio in de UI, zodat u kunt zien hoe lang elk verzoek duurde.

Voice agenten die conversatief reageren, live nasynchronisatie voor streaming media, interactieve game NPC's, toegankelijkheid lezers die beginnen te spreken op het moment dat een gebruiker klikt, en elke toepassing waar twee of drie seconden wachten voor audio zou traag voelen.

Ja. POST naar https://api.tts.ai/v1/tts/stream/met hetzelfde lichaam als het reguliere /v1/tts/-eindpunt. De respons is een SSE-stroom van basis64-gecodeerde WAV brokken. De gratis tier ondersteunt 10 generaties per dag per anonieme gebruiker; geauthentificeerde gebruikers krijgen de volledige per-account karakter vergoeding.

Kokoro gebruikt vooraf getrainde stemmen en kloont niet. MOSS-TTS-Realtime (wanneer geïntegreerd) ondersteunt nul-shot stemklonen vanuit een 3-seconde referentie. Voor het volledig klonen van stemmen vandaag, gebruik je de reguliere /text-to-speech/pagina met Chatterbox of GPT-SoVITS.Die zijn niet streaming-compatible maar produceren aangepaste stemmen.

Zelfde karakterkosten als het reguliere TTS-eindpunt. Kokoro is free-tier (1x kosten). MOSS-TTS-Realtime draait op het standaard niveau (2x kosten) wanneer ingeschakeld. Het streaming protocol voegt geen prijstoeslag toe.

Ja, koppel de streaming eindpunt met een Twilio voice webhook om live audio te voeden in een telefoongesprek. Ons voice agent platform doet dit al voor IVR en uitgaande bellen. End-to-end latency op een telefoongesprek is typisch 1-2 seconden, waaronder STT en LLM respons.

Als uw netwerk een brok in transit laat vallen, zal de streaming speler eerder vooruit springen dan stilzetten. Voor toepassingen die geen gaten kunnen verdragen, terugvallen op het reguliere niet-streaming eindpunt, of 500ms audio bufferen voordat u begint met afspelen.
5.0/5 (1)

Wat kunnen we verbeteren? Uw feedback helpt ons problemen op te lossen.

Stream Speech in Real Time

Gratis voor de eerste 10 generaties per dag. Schrijf je in om de volledige karaktertoeslag en API toegang te ontgrendelen.