Realtime TTS

Streaming tekst-til-tale med sub-sekund første-audio latency. Bygget til voice agenter og live-applikationer.

Tekst

Streaming
0/5,000 tegn ~0.3s første lyd

Stemmeindstillinger

Kun modeller, der kan streames.

Live- latens

Klik på Stream for at måle første-audio latency

Output

Lydstykker vil spille her, mens de streamer ind.

0:00
Første stykke:
Stykker i alt: 0
Tid i alt:

Hvordan Streaming TTS virker

1. Send tekst

POST tekst til /v1/tts/stream/ som en Server-Sent Events anmodning.

2. Model Generer

Koko skærer teksten og gener lyd prøve-for-stikprøve på GPU'en.

3. Stream Chunks

Base64-kodede WAV stykker ankommer over SSE og begynde at spille med det samme.

4. Lyt levende

Brugeren hører starten af sætningen i under et sekund, selv på lange indgange.

Brugstilfælde

Hvor sub-second latency låser op for nye oplevelser.

Stemmeagenter

Konversationelle bots, der reagerer så hurtigt som et menneske ville.

Live- dybning

Oversæt og dub en strøm i realtid uden buffer pauser.

Spil

NPC- dialog, der reagerer på spillerens valg øjeblikkeligt, ingen præ-afsender VO.

Tilgængelighed

Skærmlæsere og hjælpeværktøjer, der begynder at tale det øjeblik, en bruger klikker.

Realtime TTS-planer

Start gratis, opgradere når du har brug for mere

Fri
  • Kokoro streaming (gratis model)
  • 500 tegn pr. generation
  • 10 gratis vandløb pr. dag pr. anonym bruger
  • Subsekundær first-audio latency
  • SSE streaming over HTTPS
Mest populære
Gratis konto
  • 15.000 tegn ved tilmelding
  • 5.000 tegn pr. strøm
  • API- nøgle til programmatisk adgang
  • Generationshistorik
  • Ingen daglig strømkapsel
Tilmeld dig gratis
Pro
  • MOSS-TTS-Realtime (når du bor)
  • 100.000 tegn pr. strøm
  • Prioriteret GPU-kø
  • Stemmeagent + Twilio integration
  • Højere rentegrænser
Opgradering

Ofte stillede spørgsmål

Realtime tekst-til-tale streams lydstykker, som de genereres, i stedet for at vente på hele sætningen til at fuldføre. Den første lydprøve ankommer under et sekund, hvilket gør det velegnet til live voice agenter, dubbing, og interaktive applikationer, hvor latency betyder noget.

Regelmæssige TTS gener den fulde lydfil, før du returnerer noget, du venter, så høre hele sætningen på én gang. Realtime TTS bruger Server-Sent Events (SSE) til at streame korte lydstykker som modellen producerer dem. Brugeren hører starten af sætningen næsten straks, selv på lange indgange.

Kokoro er standard backend! det gener lyd cirka 100x hurtigere end realtid på en moderne GPU. Vi integrerer MOSS-TTS-Realtime som en højere kvalitet alternativ; brugere vil være i stand til at vælge pr anmodning, når skibe.

Typisk first-audio latency på Kokoro er 300-800ms over en offentlig forbindelse. Netværket rundt-tur dominerer derefter. Siden overflader live målt tid-til-første-audio i UI, så du kan se præcis, hvor lang tid hver anmodning tog.

Stemme agenter, der reagerer samtalemæssigt, live dæmpning for streaming medier, interaktivt spil NPC'er, tilgængelighed læsere, der begynder at tale det øjeblik en bruger klik, og ethvert program, hvor venter to eller tre sekunder for lyd ville føle træg.

Ja. POST til https://api.tts.ai/v1/tts/stream/ med det samme organ som det almindelige /v1/tts/ endpoint. Responsen er en SSE- strøm af base64- kodede WAV- stykker. Det frie niveau understøtter 10 generationer pr. dag pr. anonym bruger; autentificerede brugere får det fulde antal tegn pr. konto.

Kokoro bruger prætrænede stemmer og kloner ikke. MOSS- TTS- Realtime (når integreret) understøtter nul-shot stemme kloning fra en 3- sekunders reference. For fuld voice kloning i dag, skal du bruge den regelmæssige / tekst-til-tale/ side med Chatterbox eller GPT-SoVITS ~ dem er ikke streaming-kompatible, men producere brugerdefinerede stemmer.

Samme karakteromkostning som det almindelige TTS- endpoint. Kokoro er fritid (1x cost). MOSS- TTS- Realtime vil køre på standard niveau (2x omkostninger), når aktiveret. streamingprotokollen tilføjer ikke noget pristillæg.

Ja! parre streaming endpoint med en Twilio stemme webhook til at fodre live lyd til et telefonopkald. Vores voice agent platform allerede gør dette for IVR og udgående opkald. End-to-end latency på et telefonopkald er typisk 1-2 sekunder, herunder STT og LLM svar.

Hvis dit netværk falder en bid i transit, vil streaming-afspilleren springe frem i stedet for at stå stille. For programmer, der ikke kan tolerere huller, falde tilbage til det almindelige ikke-streaming endpoint, eller buffer 500ms af lyd, før du starter afspilning.
5.0/5 (1)

Hvad kan vi forbedre? Din feedback hjælper os med at løse problemer.

Streamtalen i realtid

Gratis for de første 10 generationer om dagen. Tilmeld dig for at låse den fulde karakter godtgørelse og API adgang.