TTS i realtid

Streaming text-till-tal med sub-andra första-audio latency. Byggd för röst agenter och live-applikationer.

Texten

Strömma
0/5,000 tecken ~0.3s första ljud

Röstinställningar

Endast strömavtagbara modeller.

Levande latens

Klicka på Stream för att mäta första-audio latency

Utmatning

Ljudbitar kommer att spela här när de strömmar in.

0:00
Första biten:
Totala bitar: 0
Sammanlagd tid:

Hur Streaming TTS fungerar

1. Skicka text

POST-text till /v1/tts/stream/ som begäran om server-Sent Events.

2. Modell skapar

Kokoro delar upp texten och genererar ljudprov-för-prov på GPU.

3. Strömma chunks

Base64-kodade WAV bitar anländer över SSE och börja spela omedelbart.

4. Lyssna Live

Användaren hör början av meningen i under en sekund, även på långa ingångar.

Användningsfall

Där latens under andra tiden öppnar upp nya upplevelser.

Röstagenter

Konversationsrobotar som reagerar lika snabbt som en människa skulle göra.

Live-dubbning

Översätt och dubba en ström i realtid utan att buffra pauser.

Spel

NPC dialogruta som reagerar på spelarens val omedelbart, ingen förrenderad VO.

Tillgänglighet

Skärmläsare och hjälpmedel som börjar tala det ögonblick en användare klickar.

TTS-planer i realtid

Starta gratis, uppgradera när du behöver mer

Avgiftsfri
  • Kokoro streaming (fri modell)
  • 500 tecken per generation
  • 10 gratisströmmar/dag per anonym användare
  • Underandra förstaaudio latensen
  • SSE streaming över HTTPS
Mest populära
Gratis konto
  • 15 000 tecken vid registrering
  • 5000 rödingar per bäck
  • API- nyckel för programmatisk åtkomst
  • Generationshistorik
  • Inget dagligt streamkapsyl
Registrera dig gratis
För
  • MOSS-TTS-Realtime (när du sänder)
  • 100 000 tecken per bäck
  • Prioriterad GPU- kö
  • Röstagent + Twilio integration
  • Högre räntegränser
Uppgradera

Vanliga frågor

Realtid text-till-tal strömmar ljud bitar som de genereras, i stället för att vänta på hela meningen att slutföra. Det första ljudprovet anländer under en sekund, vilket gör det lämpligt för levande röst agenter, dubbning, och interaktiva program där latency spelar roll.

Regelbundna TTS genererar hela ljudfilen innan du returnerar något – du väntar, sedan hör hela meningen på en gång. Realtime TTS använder Server-Sent Events (SSE) för att strömma korta ljudbitar som modellen producerar dem. Användaren hör början av meningen nästan omedelbart, även på långa ingångar.

Kokoro är standard backend - det genererar ljud ungefär 100x snabbare än realtid på en modern GPU. Vi integrerar MOSS-TTS-Realtime som ett alternativ av högre kvalitet; användare kommer att kunna välja per begäran när som fartyg.

Typisk första-audio latency på Kokoro är 300-800 ms över en offentlig anslutning. Nätverk tur och retur dominerar efter det. Sidan täcker den levande uppmätta tid-till-första-audio i UI så att du kan se exakt hur lång tid varje begäran tog.

Röst agenter som svarar konverserande, live dubbing för strömmande media, interaktivt spel NPC, tillgänglighet läsare som börjar tala det ögonblick en användare klickar, och alla program där väntar två eller tre sekunder för ljud skulle känna trög.

Ja. POST till https://api.tts.ai/ v1/ tts/ stream/ med samma kropp som den vanliga /v1/ tts/ endpoint. Svaret är en SSE- ström av base64- kodade WAV- bitar. Den fria nivån stöder 10 generationer per dag per anonym användare; autentiserade användare får full tillgång per konto tecken.

Kokoro använder förtränade röster och klonar inte. MOSS-TTS-Realtime (när den är integrerad) stöder noll-shot röstkloning från en 3-sekunders referens. För fullröstkloning idag, använd den vanliga /text-till-tal/sidan med Chatterbox eller GPT-Sovits - de är inte strömmande-kapabel men producera anpassade röster.

Samma teckenkostnad som den vanliga TTS-slutpunkten. Kokoro är fri (1x kostnad). MOSS-TTS-Realtime körs på standardnivå (2x kostnad) när det är aktiverat. Strömningsprotokollet lägger inte till någon pristilläggsavgift.

Ja — para ihop streaming endpoint med en Twilio röst webbhook för att mata levande ljud till ett telefonsamtal. Vår röstagent plattform gör redan detta för IVR och utgående samtal. End-to-end latency på ett telefonsamtal är typiskt 1-2 sekunder inklusive STT och LLM svar.

Om ditt nätverk tappar en bit i transit, kommer den strömmande spelaren hoppa framåt snarare än stanna. För program som inte kan tolerera luckor, falla tillbaka till den vanliga icke-streaming endpoint, eller buffert 500ms ljud innan uppspelning.
5.0/5 (1)

Vad kan vi förbättra? Din feedback hjälper oss att lösa problem.

Strömma tal i realtid

Gratis för de första 10 generationerna om dagen. Registrera dig för att låsa upp full karaktär utsläppsrätter och API-åtkomst.