Rapporter feil/ funksjonsforespørsel

Sanntids TTS

Streammer tekst- til- tale med subsekunders førstelyds latenstid. Byggt for taleagenter og levende programmer.

Registrer deg gratis

Tekst

Strømmer

0/5,000 tegn ~0.3s første lyd

Stemmeinnstillinger

Modell Bare modeller som kan overføres.

Stemme

Hastighet 1.0x

Levende latenstid

—

Trykk på « Stream » for å måle førstelyds latenstid

Utdata

Lydblokker vil spilles her mens de strømmer inn.

Hvordan strømmende TTS virker

1. Send tekst

POST tekst til /v1/tts/ stream/ som en forespørsel om « Tjenersent » - hendelser.

2. Modellgenerasjoner

Kokoro blokkerer teksten og lager lyd- for- sampling på GPU.

3. Strømkrøller

Base64-kodede WAV- blokker ankommer SSE og begynner å spille med en gang.

4. Lytt levende

Bruker hører starten på setningen i løpet av et sekund, selv ved lange innganger.

Brukstilfeller

Dersom subsekunders latenstid åpner opp nye erfaringer.

Stemmeagenter

Samtalebotter som responderer så fort som et menneske ville.

Levende dubbing

Oversett og dubletter en strøm i sanntid uten mellomlagringspauser.

Spill

NPC- dialog som reagerer på spillervalg med en gang, ingen forhåndsinnsendt VO.

Tilgjengelighet

Skjermlesere og hjelpeverktøy som begynner å snakke det øyeblikket brukeren klikker.

Sanntids TTS- planer

Start ledig, oppgrader når du trenger mer

Ledig

Kokorstrøm (fri modell)
500 tegn per generasjon
10 frie strømmer per dag per anonym bruker
Delsekund førstelyds latenstid
SSE- strømmer over HTTPS

Mest populære

Fri konto

15.000 tegn ved innlogging
5000 tegn per strøm
API-nøkkel for programmatisk tilgang
Generasjonshistorie
Ingen dagstrømslokk

Registrer deg gratis

Pro

MOSS-TTS-Realtime (når i live)
100.000 tegn per strøm
Prioritet GPU- kø
Stemmeagent + Twilio-integrasjon
Høyere satsgrenser

Oppgradering

Ofte stilte spørsmål

Sanntids tekst- til- tale strømmer lydblokker mens de lages, i stedet for å vente på at hele setningen skal fullføres. Det første lydutvalget kommer inn under ett sekund, slik at det passer for levende tale- agenter, dubbing og interaktive programmer der latens er viktig.

Vanlig TTS lager hele lydfila før du returnerer noe – du venter, og så hører hele setningen på en gang. Sanntid TTS bruker « Server- Sent Hendelser » (SSE) for å strømme korte lydstykker mens modellen produserer dem. Brukeren hører starten på setningen nesten med en gang, selv ved lange inndata.

Kokoro er standard bakgrunnsmotoren – den lager lyd omtrent 100 ganger raskere enn sanntid på en moderne GPU. Vi integrerer MOSS- TTS- Realtime som et alternativ av høyere kvalitet. Brukere vil kunne velge hver forespørsel når de skipene er tatt med.

Typisk førstelyds latenstid på Kokoro er 300- 800 ms over en offentlig forbindelse. Rundtur i nettverket dominerer etter det. Siden overflaten over målt tid- til- første lyd i grensesnittet, så du kan se nøyaktig hvor lang tid hver forespørsel tok.

Taleagenter som svarer konversasjonelt, lever dubbing for streaming media, interaktive spill NPCs, tilgjengelighet lesere som begynner å snakke øyeblikket en bruker klikker, og ethvert program der venter to eller tre sekunder på lyd ville føles treg.

Ja. POST til https://api.tts. ai/ v1/ ts/ stream/ med samme kropp som det vanlige / v1/ ts/ endpoints. Svaret er en SSE- strøm av base64- kodede WAV- blokker. Det frie nivået støtter 10 generasjoner per dag pr anonym bruker, autentiserte brukere får hele tegnkvoten for hver konto.

Kokoro bruker for- treede stemmer og kloner ikke. MOSS- TTS- Realtime (når den er integrert) støtter null- skudds- kloning fra en tresekunders referanse. Bruk den vanlige / text- to- tale/ side med Chatterbox eller GPT- SoVITS for full- stemmekloning i dag – de kan ikke strømmes inn, men gir selvvalgte stemmer.

Samme tegnkostnad som det vanlige TTS- endepunktet. Kokoro er free-tier (1x kostnad). MOSS- TTS- Realtime vil kjøre på standardnivå (2x kost) når dette er slått på. Strømningsprotokollen legger ikke til noe pristillegg.

Ja – parret streaming- endepunktet med en Twilio tale- netter for å gi live lyd til et telefonsamtale. Vår taleagentplattform gjør dette allerede for interrogator og utgående anrop. Slutt- til- slutt- latens på et telefonsamtale er typisk 1-2 sekunder inklusive STT og LLM- svar.

Hvis nettverket ditt slipper en bit i transitt, hopper spilleren forover i stedet for å stoppe. For programmer som ikke kan tolerere mellomrom, gå tilbake til det vanlige ikke- strømmende endepunktet, eller mellomlagre 500 ms lyd før avspilling starter.

5.0/5 (1)

Strømmer tale i sanntid

Ledig for de første 10 generasjonene om dagen. Registrer deg for å låse opp full tegnkvote og API- tilgang.

Registrer deg gratis Vis prisfastsettelse

Sanntids TTS

Tekst

Stemmeinnstillinger

Levende latenstid

Utdata

Hvordan strømmende TTS virker

1. Send tekst

2. Modellgenerasjoner

3. Strømkrøller

4. Lytt levende

Brukstilfeller

Stemmeagenter

Levende dubbing

Spill

Tilgjengelighet

Sanntids TTS- planer

Ofte stilte spørsmål

Hva er sanntid TTS?

Hvordan er sanntids TTS forskjellig fra vanlig TTS?

Hvilken modell gir kraft til sanntidssiden?

Hvor fort er første lyd latency?

Hva kan jeg bygge med sanntid TTS?

Finnes det et API for sanntids TTS?

Støtter den stemmekloning?

Hvor mye koster sanntid TTS?

Kan jeg bruke den på telefon?

Hvorfor er lyden avbrutt midt-ord noen ganger?

Strømmer tale i sanntid