Rapportér fejl / funktionsanmodning

Realtime TTS

Streaming tekst-til-tale med sub-sekund første-audio latency. Bygget til voice agenter og live-applikationer.

Tilmeld dig gratis

Tekst

Streaming

0/5,000 tegn ~0.3s første lyd

Stemmeindstillinger

Model Kun modeller, der kan streames.

Stemme

Hastighed 1.0x

Live- latens

—

Klik på Stream for at måle første-audio latency

Output

Lydstykker vil spille her, mens de streamer ind.

Hvordan Streaming TTS virker

1. Send tekst

POST tekst til /v1/tts/stream/ som en Server-Sent Events anmodning.

2. Model Generer

Koko skærer teksten og gener lyd prøve-for-stikprøve på GPU'en.

3. Stream Chunks

Base64-kodede WAV stykker ankommer over SSE og begynde at spille med det samme.

4. Lyt levende

Brugeren hører starten af sætningen i under et sekund, selv på lange indgange.

Brugstilfælde

Hvor sub-second latency låser op for nye oplevelser.

Stemmeagenter

Konversationelle bots, der reagerer så hurtigt som et menneske ville.

Live- dybning

Oversæt og dub en strøm i realtid uden buffer pauser.

Spil

NPC- dialog, der reagerer på spillerens valg øjeblikkeligt, ingen præ-afsender VO.

Tilgængelighed

Skærmlæsere og hjælpeværktøjer, der begynder at tale det øjeblik, en bruger klikker.

Realtime TTS-planer

Start gratis, opgradere når du har brug for mere

Fri

Kokoro streaming (gratis model)
500 tegn pr. generation
10 gratis vandløb pr. dag pr. anonym bruger
Subsekundær first-audio latency
SSE streaming over HTTPS

Mest populære

Gratis konto

15.000 tegn ved tilmelding
5.000 tegn pr. strøm
API- nøgle til programmatisk adgang
Generationshistorik
Ingen daglig strømkapsel

Tilmeld dig gratis

Pro

MOSS-TTS-Realtime (når du bor)
100.000 tegn pr. strøm
Prioriteret GPU-kø
Stemmeagent + Twilio integration
Højere rentegrænser

Opgradering

Ofte stillede spørgsmål

Realtime tekst-til-tale streams lydstykker, som de genereres, i stedet for at vente på hele sætningen til at fuldføre. Den første lydprøve ankommer under et sekund, hvilket gør det velegnet til live voice agenter, dubbing, og interaktive applikationer, hvor latency betyder noget.

Regelmæssige TTS gener den fulde lydfil, før du returnerer noget, du venter, så høre hele sætningen på én gang. Realtime TTS bruger Server-Sent Events (SSE) til at streame korte lydstykker som modellen producerer dem. Brugeren hører starten af sætningen næsten straks, selv på lange indgange.

Kokoro er standard backend! det gener lyd cirka 100x hurtigere end realtid på en moderne GPU. Vi integrerer MOSS-TTS-Realtime som en højere kvalitet alternativ; brugere vil være i stand til at vælge pr anmodning, når skibe.

Typisk first-audio latency på Kokoro er 300-800ms over en offentlig forbindelse. Netværket rundt-tur dominerer derefter. Siden overflader live målt tid-til-første-audio i UI, så du kan se præcis, hvor lang tid hver anmodning tog.

Stemme agenter, der reagerer samtalemæssigt, live dæmpning for streaming medier, interaktivt spil NPC'er, tilgængelighed læsere, der begynder at tale det øjeblik en bruger klik, og ethvert program, hvor venter to eller tre sekunder for lyd ville føle træg.

Ja. POST til https://api.tts.ai/v1/tts/stream/ med det samme organ som det almindelige /v1/tts/ endpoint. Responsen er en SSE- strøm af base64- kodede WAV- stykker. Det frie niveau understøtter 10 generationer pr. dag pr. anonym bruger; autentificerede brugere får det fulde antal tegn pr. konto.

Kokoro bruger prætrænede stemmer og kloner ikke. MOSS- TTS- Realtime (når integreret) understøtter nul-shot stemme kloning fra en 3- sekunders reference. For fuld voice kloning i dag, skal du bruge den regelmæssige / tekst-til-tale/ side med Chatterbox eller GPT-SoVITS ~ dem er ikke streaming-kompatible, men producere brugerdefinerede stemmer.

Samme karakteromkostning som det almindelige TTS- endpoint. Kokoro er fritid (1x cost). MOSS- TTS- Realtime vil køre på standard niveau (2x omkostninger), når aktiveret. streamingprotokollen tilføjer ikke noget pristillæg.

Ja! parre streaming endpoint med en Twilio stemme webhook til at fodre live lyd til et telefonopkald. Vores voice agent platform allerede gør dette for IVR og udgående opkald. End-to-end latency på et telefonopkald er typisk 1-2 sekunder, herunder STT og LLM svar.

Hvis dit netværk falder en bid i transit, vil streaming-afspilleren springe frem i stedet for at stå stille. For programmer, der ikke kan tolerere huller, falde tilbage til det almindelige ikke-streaming endpoint, eller buffer 500ms af lyd, før du starter afspilning.

5.0/5 (1)

Streamtalen i realtid

Gratis for de første 10 generationer om dagen. Tilmeld dig for at låse den fulde karakter godtgørelse og API adgang.

Tilmeld dig gratis Vis priser

Realtime TTS

Tekst

Stemmeindstillinger

Live- latens

Output

Hvordan Streaming TTS virker

1. Send tekst

2. Model Generer

3. Stream Chunks

4. Lyt levende

Brugstilfælde

Stemmeagenter

Live- dybning

Spil

Tilgængelighed

Realtime TTS-planer

Ofte stillede spørgsmål

Hvad er realtime TTS?

Hvordan er realtime TTS forskellig fra almindelige TTS?

Hvilken model har indflydelse på realtime-siden?

Hvor hurtigt er første-audio latens?

Hvad kan jeg bygge med realtime TTS?

Er der en API for realtime TTS?

Støtter det stemmekloning?

Hvor meget koster realtime TTS?

Må jeg bruge den til telefonopkald?

Hvorfor afbryder lyden nogle gange midterordet?

Streamtalen i realtid