Rapportera fel/funktionsförfrågan

TTS i realtid

Streaming text-till-tal med sub-andra första-audio latency. Byggd för röst agenter och live-applikationer.

Registrera dig gratis

Texten

Strömma

0/5,000 tecken ~0.3s första ljud

Röstinställningar

Förlaga Endast strömavtagbara modeller.

Röst

Varvtal 1.0x

Levande latens

—

Klicka på Stream för att mäta första-audio latency

Utmatning

Ljudbitar kommer att spela här när de strömmar in.

Hur Streaming TTS fungerar

1. Skicka text

POST-text till /v1/tts/stream/ som begäran om server-Sent Events.

2. Modell skapar

Kokoro delar upp texten och genererar ljudprov-för-prov på GPU.

3. Strömma chunks

Base64-kodade WAV bitar anländer över SSE och börja spela omedelbart.

4. Lyssna Live

Användaren hör början av meningen i under en sekund, även på långa ingångar.

Användningsfall

Där latens under andra tiden öppnar upp nya upplevelser.

Röstagenter

Konversationsrobotar som reagerar lika snabbt som en människa skulle göra.

Live-dubbning

Översätt och dubba en ström i realtid utan att buffra pauser.

Spel

NPC dialogruta som reagerar på spelarens val omedelbart, ingen förrenderad VO.

Tillgänglighet

Skärmläsare och hjälpmedel som börjar tala det ögonblick en användare klickar.

TTS-planer i realtid

Starta gratis, uppgradera när du behöver mer

Avgiftsfri

Kokoro streaming (fri modell)
500 tecken per generation
10 gratisströmmar/dag per anonym användare
Underandra förstaaudio latensen
SSE streaming över HTTPS

Mest populära

Gratis konto

15 000 tecken vid registrering
5000 rödingar per bäck
API- nyckel för programmatisk åtkomst
Generationshistorik
Inget dagligt streamkapsyl

Registrera dig gratis

För

MOSS-TTS-Realtime (när du sänder)
100 000 tecken per bäck
Prioriterad GPU- kö
Röstagent + Twilio integration
Högre räntegränser

Uppgradera

Vanliga frågor

Realtid text-till-tal strömmar ljud bitar som de genereras, i stället för att vänta på hela meningen att slutföra. Det första ljudprovet anländer under en sekund, vilket gör det lämpligt för levande röst agenter, dubbning, och interaktiva program där latency spelar roll.

Regelbundna TTS genererar hela ljudfilen innan du returnerar något – du väntar, sedan hör hela meningen på en gång. Realtime TTS använder Server-Sent Events (SSE) för att strömma korta ljudbitar som modellen producerar dem. Användaren hör början av meningen nästan omedelbart, även på långa ingångar.

Kokoro är standard backend - det genererar ljud ungefär 100x snabbare än realtid på en modern GPU. Vi integrerar MOSS-TTS-Realtime som ett alternativ av högre kvalitet; användare kommer att kunna välja per begäran när som fartyg.

Typisk första-audio latency på Kokoro är 300-800 ms över en offentlig anslutning. Nätverk tur och retur dominerar efter det. Sidan täcker den levande uppmätta tid-till-första-audio i UI så att du kan se exakt hur lång tid varje begäran tog.

Röst agenter som svarar konverserande, live dubbing för strömmande media, interaktivt spel NPC, tillgänglighet läsare som börjar tala det ögonblick en användare klickar, och alla program där väntar två eller tre sekunder för ljud skulle känna trög.

Ja. POST till https://api.tts.ai/ v1/ tts/ stream/ med samma kropp som den vanliga /v1/ tts/ endpoint. Svaret är en SSE- ström av base64- kodade WAV- bitar. Den fria nivån stöder 10 generationer per dag per anonym användare; autentiserade användare får full tillgång per konto tecken.

Kokoro använder förtränade röster och klonar inte. MOSS-TTS-Realtime (när den är integrerad) stöder noll-shot röstkloning från en 3-sekunders referens. För fullröstkloning idag, använd den vanliga /text-till-tal/sidan med Chatterbox eller GPT-Sovits - de är inte strömmande-kapabel men producera anpassade röster.

Samma teckenkostnad som den vanliga TTS-slutpunkten. Kokoro är fri (1x kostnad). MOSS-TTS-Realtime körs på standardnivå (2x kostnad) när det är aktiverat. Strömningsprotokollet lägger inte till någon pristilläggsavgift.

Ja — para ihop streaming endpoint med en Twilio röst webbhook för att mata levande ljud till ett telefonsamtal. Vår röstagent plattform gör redan detta för IVR och utgående samtal. End-to-end latency på ett telefonsamtal är typiskt 1-2 sekunder inklusive STT och LLM svar.

Om ditt nätverk tappar en bit i transit, kommer den strömmande spelaren hoppa framåt snarare än stanna. För program som inte kan tolerera luckor, falla tillbaka till den vanliga icke-streaming endpoint, eller buffert 500ms ljud innan uppspelning.

5.0/5 (1)

Strömma tal i realtid

Gratis för de första 10 generationerna om dagen. Registrera dig för att låsa upp full karaktär utsläppsrätter och API-åtkomst.

Registrera dig gratis Visa Prissättning

TTS i realtid

Texten

Röstinställningar

Levande latens

Utmatning

Hur Streaming TTS fungerar

1. Skicka text

2. Modell skapar

3. Strömma chunks

4. Lyssna Live

Användningsfall

Röstagenter

Live-dubbning

Spel

Tillgänglighet

TTS-planer i realtid

Vanliga frågor

Vad är TTS i realtid?

Hur skiljer sig TTS i realtid från vanliga TTS?

Vilken modell driver realtidssidan?

Hur snabbt är första-audio latency?

Vad kan jag bygga med TTS i realtid?

Finns det ett API för TTS i realtid?

Stödjer den röstkloning?

Hur mycket kostar TTS i realtid?

Kan jag använda den på telefonsamtal?

Varför skär ljudet av mittordet ibland?

Strömma tal i realtid