Raporteer Fout / eienskap Versoek

Realtime TTS

Stroom teks-na-sech met ondertweede eerste-audio latency. Gebou vir stemagente en lewende toepassings.

Meld aan om vry te wees

Ons het nog nie TTS-stemme in jou taal nie, help ons om joune by te voeg! Verkoop jou stem

Teks

Stroomende

0/5,000 karakters ~0.3s eerste oudio

Stem Instellings

Model Stroom-deugsame modelle slegs.

Stem

Spoed 1.0x

Lewensversorging

—

Kliek Stroom na meet eerste- audio latency

Uitset

Oudiobrokke sal hier speel wanneer hulle instroom.

Hoe dit werk om TTS te maal

1. Stuur Teks

POS-teks na /v1/ts/stream/ as 'n Bediener-Sent events versoek.

2. Model Genereer

Kokoro stukke van die teks en genereer klankmonster-by-aples op die GPU.

3. Stroomkunks

Basis64-en-gekodeerde WAV-brokke kom oor SSE en begin dadelik speel.

4. Luister lewe

Gebruiker hoor die begin van die sin in onder 'n sekonde, selfs op lang invoere.

Gebruik letterkase

Waar sub-second latency nuwe ondervindinge ontsluit.

Stemagente

Gesprekke wat so vinnig soos'n mens reageer.

Lewende teistering

Vertaal en dub 'n stroom in' n regte tyd sonder bufferspouses.

Speletjies

NPC dialoog wat reageer op speler keuses onmiddellik, geen voorafverdrade VO nie.

Toeganklikheid

Skermlesers en helpende hulpmiddels wat begin praat die oomblik wat 'n gebruiker kliek.

Reële TTS - planne

Begin sonder, opgradering wanneer u meer nodig het

Beskikbaar

Kokoro - strooming (vrye model)
500 karakters per geslag
10 vrye strome/dag per anonieme gebruiker
Subtweede eerste- audio latency
SSE stroom oor HTTP's

Die gewildste

Vry rekening

15 000 karakters by ondertekening
5 000 karakters per stroom
API-sleutel vir programmemamatiese toegang
Geslaggeskiedenis
Geen dagstroommap nie

Meld aan om vry te wees

Pro

MOSS-TTS-Realtime (wanneer lewe)
100 000 chars per stroom
Prioriteit GPU wagtou
Stem agent + Twilio integrasie
Hoër tempo beperk

Gradeer op

Vrae wat dikwels gevra word

realtime teks- to-sech strome klankbroke as hulle word gegenereer, in plaas van te wag vir die hele sin om te voltooi. Die eerste klankmonster kom onder een sekonde in, wat dit geskik maak vir lewende stem agente, dubbing en interaktiewe programme waar laatncy sake.

Gewone TTS genereer die volle oudio lêer voordat jy enigiets terugverwys, dan hoor jy die hele sin dadelik. Realtime TTS gebruik Bediener-Sent events (SSE) om kort oudiobroke te stroom wanneer die model dit vervaardig. Die gebruiker hoor die begin van die sin byna onmiddellik, selfs op lang invoere.

Kokoro is die verstek agterkant aardwye dit genereer klank ongeveer 100x vinniger as regte tyd op 'n moderne GPU. Ons is integrawing MS-TTS-Raltime as' n hoër-kwaliteit alternatief; gebruikers sal kan kies per versoek een keer dat skepe.

Tipiese eerste-audio latency op Kokoro is 300-800's oor 'n openbare verbinding. Netwerk rond-turip oorheers daarna. Die bladsyoppervlakte het tyd-na-eerste-audio in die UI gemeet sodat jy kan sien presies hoe lank elke versoek geneem het.

Stemagente wat op 'n gesprek reageer, wat lewe terwyl hulle stroom media, interaktiewe speletjie NPC's, toeganklikheid lesers wat begin praat die oomblik 'n gebruiker klieke, en enige aansoek waar wag twee of drie sekondes vir oudio sal traag voel.

Ja. POST aan https://api.tts.ai/v1/tts/stream/met dieselfde liggaam as die gewone /v1/ts/ end point. Die antwoord is 'n SSE stroom van basis64-enkoded WAV-brokke. Die vry vlak ondersteun 10 geslagte per dag per anonieme gebruiker; bevestigde gebruikers kry die volle per-telling karaktertoe.

Kokoro gebruik voorafgeleide stemme en klon nie. MOSS-TTS-Realtime (wanneer geïntegreer) ondersteun nul- kie stem kloning van 'n 3-second verwysing. Vir volle stem kloning vandag, gebruik die gewone / text- to-Spech/ bladsy met Chatterbox of GPT-SoVITS aux diegene wat nie stroom-dic maar bring pasmaak stemme voort.

Dieselfde karakter kos as die gewone TTS-punt. Kokoro is vry-tier (1x cost). MOS-TTS-Realtime sal hardloop op die standaard vlak (2x cost) wanneer geaktiveer. Die stroom protokol voeg nie toe enige prikting surmatge nie.

Ja Giovanni paar die stroompunt met 'n Twilio stem webhoek om lewende klank in 'n telefoonoproep te voer. Ons stemagent platform doen dit reeds vir IVR en uitgebonde roep. End-na-end latency op 'n telefoonoproep is tipies 1-2 sekondes, insluitend STT en LLM-reaksie.

As jou netwerk val 'n stuk in vervoering, die stroom speler sal spring vorentoe eerder as stalletjie. Vir programme wat nie gapings kan duld nie, terugval na die gewone niestroompunt, of buffer 500ms van oudio voor begin terugspeel.

5.0/5 (1)

Stroom spraak in die regte tyd

Vry vir die eerste 10 geslagte per dag. Teken op om die volle karaktertoelae en API toegang te ontsluit.

Meld aan om vry te wees Besigtig Pen Program

Realtime TTS

Teks

Stem Instellings

Lewensversorging

Uitset

Hoe dit werk om TTS te maal

1. Stuur Teks

2. Model Genereer

3. Stroomkunks

4. Luister lewe

Gebruik letterkase

Stemagente

Lewende teistering

Speletjies

Toeganklikheid

Reële TTS - planne

Vrae wat dikwels gevra word

Wat is die werklike TTS?

Hoe verskil die werklike TTS van gewone TTS?

Watter model het die werklike bladsy?

Hoe vinnig is die eerste-audio laatncy?

Wat kan ek met werklike TTS bou?

Is daar'nPI vir werklike TTS?

Ondersteun dit stemkloning?

Hoeveel kos die werklike TTS?

Kan ek dit op telefoonoproepe gebruik?

Waarom sny die oudio die mid-woord soms af?

Stroom spraak in die regte tyd