Rapporteer bug / feature request

Realtime TTS

Streaming text-to-speech met sub-second first-audio latency. Gebouwd voor spraakagenten en live toepassingen.

Gratis aanmelden

Tekst

Streaming

0/5,000 tekens ~0.3s eerste audio

Spraakinstellingen

Model Streaming-geschikte modellen alleen.

Stem

Snelheid 1.0x

Live Latency

—

Klik op Stream om de eerste audio latentie te meten

Uitvoer

Audio brokken zullen hier spelen als ze binnenstromen.

Hoe Streaming TTS werkt

1. Tekst versturen

POST tekst naar /v1/tts/stream/als een verzoek om Server-Sent Events.

2. Model Generaties

Kokoro brokken de tekst en genereert audio sample-voor-sample op de GPU.

3. Stream Chunks

Base64-gecodeerde WAV brokken arriveren boven SSE en beginnen onmiddellijk te spelen.

4. Live luisteren

Gebruiker hoort het begin van de zin in minder dan een seconde, zelfs op lange ingangen.

Cases gebruiken

Waar subseconde latency nieuwe ervaringen ontsluit.

Spraakmiddelen

Conversatie bots die zo snel reageren als een mens zou doen.

Live Dubbing

Vertaal en dub een stroom in real time zonder bufferpauzes.

Spelletjes

NPC-dialoog die onmiddellijk reageert op spelerkeuzes, geen vooraf gerenderde VO.

Toegankelijkheid

Schermlezers en hulpmiddelen die beginnen te spreken op het moment dat een gebruiker klikt.

Realtime TTS-plannen

Start gratis, upgrade wanneer je meer nodig hebt

Vrij

Kokoro streaming (vrij model)
500 tekens per generatie
10 gratis streams/dag per anonieme gebruiker
Subseconde eerste audio latentie
SSE streaming over HTTPS

Meest populair

Gratis account

15.000 tekens bij aanmelding
5.000 tekens per stroom
API sleutel voor programmatische toegang
Generatiegeschiedenis
Geen dagelijkse stream cap

Gratis aanmelden

Pro

MOSS-TTS-Realtime (toen live)
100.000 tekens per stroom
Prioritaire GPU-wachtrij
Spraakmiddel + integratie van Twilio
Hogere snelheidslimieten

Upgrade

Veelgestelde vragen

Realtime tekst-tot-spraak streamt audio brokken als ze worden gegenereerd, in plaats van te wachten tot de hele zin te voltooien. De eerste audio sample arriveert in minder dan een seconde, waardoor het geschikt is voor live voice agenten, nabbing, en interactieve toepassingen waar latency belangrijk is.

Reguliere TTS genereert het volledige audiobestand voordat u iets teruggeeft, wacht u en hoort dan de hele zin in één keer. Realtime TTS gebruikt Server-Sent Events (SSE) om korte audio brokken te streamen als het model ze produceert. De gebruiker hoort het begin van de zin vrijwel onmiddellijk, zelfs op lange ingangen.

Kokoro is de standaard backend die ongeveer 100x sneller dan real time audio genereert op een moderne GPU. We integreren MOSS-TTS-Realtime als een alternatief van hogere kwaliteit; gebruikers zullen kunnen kiezen per aanvraag zodra dat schip.

Typische eerste-audio latency op Kokoro is 300-800ms over een openbare verbinding. Netwerk ronde-trip domineert daarna. De pagina oppervlaktes de live gemeten tijd-tot-eerste-audio in de UI, zodat u kunt zien hoe lang elk verzoek duurde.

Voice agenten die conversatief reageren, live nasynchronisatie voor streaming media, interactieve game NPC's, toegankelijkheid lezers die beginnen te spreken op het moment dat een gebruiker klikt, en elke toepassing waar twee of drie seconden wachten voor audio zou traag voelen.

Ja. POST naar https://api.tts.ai/v1/tts/stream/met hetzelfde lichaam als het reguliere /v1/tts/-eindpunt. De respons is een SSE-stroom van basis64-gecodeerde WAV brokken. De gratis tier ondersteunt 10 generaties per dag per anonieme gebruiker; geauthentificeerde gebruikers krijgen de volledige per-account karakter vergoeding.

Kokoro gebruikt vooraf getrainde stemmen en kloont niet. MOSS-TTS-Realtime (wanneer geïntegreerd) ondersteunt nul-shot stemklonen vanuit een 3-seconde referentie. Voor het volledig klonen van stemmen vandaag, gebruik je de reguliere /text-to-speech/pagina met Chatterbox of GPT-SoVITS.Die zijn niet streaming-compatible maar produceren aangepaste stemmen.

Zelfde karakterkosten als het reguliere TTS-eindpunt. Kokoro is free-tier (1x kosten). MOSS-TTS-Realtime draait op het standaard niveau (2x kosten) wanneer ingeschakeld. Het streaming protocol voegt geen prijstoeslag toe.

Ja, koppel de streaming eindpunt met een Twilio voice webhook om live audio te voeden in een telefoongesprek. Ons voice agent platform doet dit al voor IVR en uitgaande bellen. End-to-end latency op een telefoongesprek is typisch 1-2 seconden, waaronder STT en LLM respons.

Als uw netwerk een brok in transit laat vallen, zal de streaming speler eerder vooruit springen dan stilzetten. Voor toepassingen die geen gaten kunnen verdragen, terugvallen op het reguliere niet-streaming eindpunt, of 500ms audio bufferen voordat u begint met afspelen.

5.0/5 (1)

Stream Speech in Real Time

Gratis voor de eerste 10 generaties per dag. Schrijf je in om de volledige karaktertoeslag en API toegang te ontgrendelen.

Gratis aanmelden Prijzen bekijken

Realtime TTS

Tekst

Spraakinstellingen

Live Latency

Uitvoer

Hoe Streaming TTS werkt

1. Tekst versturen

2. Model Generaties

3. Stream Chunks

4. Live luisteren

Cases gebruiken

Spraakmiddelen

Live Dubbing

Spelletjes

Toegankelijkheid

Realtime TTS-plannen

Veelgestelde vragen

Wat is real-time TTS?

Hoe verschilt real-time TTS van reguliere TTS?

Welk model bekrachtigt de real-time pagina?

Hoe snel is de eerste audio latentie?

Wat kan ik bouwen met realtime TTS?

Is er een API voor real-time TTS?

Ondersteunt het stemklonen?

Hoeveel kost real-time TTS?

Kan ik het gebruiken bij telefoontjes?

Waarom wordt de audio soms halverwege het woord afgesloten?

Stream Speech in Real Time