Sanntids TTS

Streammer tekst- til- tale med subsekunders førstelyds latenstid. Byggt for taleagenter og levende programmer.

Tekst

Strømmer
0/5,000 tegn ~0.3s første lyd

Stemmeinnstillinger

Bare modeller som kan overføres.

Levende latenstid

Trykk på « Stream » for å måle førstelyds latenstid

Utdata

Lydblokker vil spilles her mens de strømmer inn.

0:00
Første blokk:
Totalt antall blokker: 0
Total tid:

Hvordan strømmende TTS virker

1. Send tekst

POST tekst til /v1/tts/ stream/ som en forespørsel om « Tjenersent » - hendelser.

2. Modellgenerasjoner

Kokoro blokkerer teksten og lager lyd- for- sampling på GPU.

3. Strømkrøller

Base64-kodede WAV- blokker ankommer SSE og begynner å spille med en gang.

4. Lytt levende

Bruker hører starten på setningen i løpet av et sekund, selv ved lange innganger.

Brukstilfeller

Dersom subsekunders latenstid åpner opp nye erfaringer.

Stemmeagenter

Samtalebotter som responderer så fort som et menneske ville.

Levende dubbing

Oversett og dubletter en strøm i sanntid uten mellomlagringspauser.

Spill

NPC- dialog som reagerer på spillervalg med en gang, ingen forhåndsinnsendt VO.

Tilgjengelighet

Skjermlesere og hjelpeverktøy som begynner å snakke det øyeblikket brukeren klikker.

Sanntids TTS- planer

Start ledig, oppgrader når du trenger mer

Ledig
  • Kokorstrøm (fri modell)
  • 500 tegn per generasjon
  • 10 frie strømmer per dag per anonym bruker
  • Delsekund førstelyds latenstid
  • SSE- strømmer over HTTPS
Mest populære
Fri konto
  • 15.000 tegn ved innlogging
  • 5000 tegn per strøm
  • API-nøkkel for programmatisk tilgang
  • Generasjonshistorie
  • Ingen dagstrømslokk
Registrer deg gratis
Pro
  • MOSS-TTS-Realtime (når i live)
  • 100.000 tegn per strøm
  • Prioritet GPU- kø
  • Stemmeagent + Twilio-integrasjon
  • Høyere satsgrenser
Oppgradering

Ofte stilte spørsmål

Sanntids tekst- til- tale strømmer lydblokker mens de lages, i stedet for å vente på at hele setningen skal fullføres. Det første lydutvalget kommer inn under ett sekund, slik at det passer for levende tale- agenter, dubbing og interaktive programmer der latens er viktig.

Vanlig TTS lager hele lydfila før du returnerer noe – du venter, og så hører hele setningen på en gang. Sanntid TTS bruker « Server- Sent Hendelser » (SSE) for å strømme korte lydstykker mens modellen produserer dem. Brukeren hører starten på setningen nesten med en gang, selv ved lange inndata.

Kokoro er standard bakgrunnsmotoren – den lager lyd omtrent 100 ganger raskere enn sanntid på en moderne GPU. Vi integrerer MOSS- TTS- Realtime som et alternativ av høyere kvalitet. Brukere vil kunne velge hver forespørsel når de skipene er tatt med.

Typisk førstelyds latenstid på Kokoro er 300- 800 ms over en offentlig forbindelse. Rundtur i nettverket dominerer etter det. Siden overflaten over målt tid- til- første lyd i grensesnittet, så du kan se nøyaktig hvor lang tid hver forespørsel tok.

Taleagenter som svarer konversasjonelt, lever dubbing for streaming media, interaktive spill NPCs, tilgjengelighet lesere som begynner å snakke øyeblikket en bruker klikker, og ethvert program der venter to eller tre sekunder på lyd ville føles treg.

Ja. POST til https://api.tts. ai/ v1/ ts/ stream/ med samme kropp som det vanlige / v1/ ts/ endpoints. Svaret er en SSE- strøm av base64- kodede WAV- blokker. Det frie nivået støtter 10 generasjoner per dag pr anonym bruker, autentiserte brukere får hele tegnkvoten for hver konto.

Kokoro bruker for- treede stemmer og kloner ikke. MOSS- TTS- Realtime (når den er integrert) støtter null- skudds- kloning fra en tresekunders referanse. Bruk den vanlige / text- to- tale/ side med Chatterbox eller GPT- SoVITS for full- stemmekloning i dag – de kan ikke strømmes inn, men gir selvvalgte stemmer.

Samme tegnkostnad som det vanlige TTS- endepunktet. Kokoro er free-tier (1x kostnad). MOSS- TTS- Realtime vil kjøre på standardnivå (2x kost) når dette er slått på. Strømningsprotokollen legger ikke til noe pristillegg.

Ja – parret streaming- endepunktet med en Twilio tale- netter for å gi live lyd til et telefonsamtale. Vår taleagentplattform gjør dette allerede for interrogator og utgående anrop. Slutt- til- slutt- latens på et telefonsamtale er typisk 1-2 sekunder inklusive STT og LLM- svar.

Hvis nettverket ditt slipper en bit i transitt, hopper spilleren forover i stedet for å stoppe. For programmer som ikke kan tolerere mellomrom, gå tilbake til det vanlige ikke- strømmende endepunktet, eller mellomlagre 500 ms lyd før avspilling starter.
5.0/5 (1)

Hva kan vi forbedre? din tilbakemelding hjelper oss med å løse problemer.

Strømmer tale i sanntid

Ledig for de første 10 generasjonene om dagen. Registrer deg for å låse opp full tegnkvote og API- tilgang.