Poročilo o napaki / Zahteva o lastnostih

TTS v realnem času

Streaming tekst-to-speech s sub-sekundo prve-audio latency. Zgrajen za glasovne agente in živo aplikacijo.

Prosto se prijavite

Nimamo še glasov TTS v vašem jeziku. Pomagajte nam dodati svoje! Prodaj svoj glas

Besedilo

Streaming

0/5,000 znaki ~0.3s prvi zvok

Nastavitve & glasu

Vzorec Samo modeli za streaming.

Glas

Hitrost 1.0x

Živa latencija

—

Kliknite Stream za merjenje prvo-audio latency

Izhod

Zvočni koščki se bodo predvajali tukaj, ko bodo prihajali.

Kako streaming TTS deluje

1. Pošlji besedilo

Besedilo POST na /v1/tts/stream/ kot zahteva za strežnik-Sent Dogodki.

2. Model ustvarja

Kokoro raztrga besedilo in ustvarja zvočni vzorec po vzorcu na GPU.

3. Stream Chunks

Base64 kodirani koščki WAV prispejo čez SSE in začnejo igrati takoj.

4. Poslušajte v živo

Uporabnik sliši začetek stavka v manj kot sekundi, celo na dolgih vhodih.

Uporabni primeri

Kjer podsekunda latency odpira nove izkušnje.

Glasovni agenti

Pogovorni roboti, ki se odzovejo tako hitro kot človek.

Živo klepetanje

Prevedite in potopite potok v realnem času brez pufring pavze.

Igre

Okno NPC, ki se takoj odzove na izbiro igralca, ni predanega VO.

Dostopnost

Bralci zaslona in pomočna orodja, ki začnejo govoriti takoj, ko uporabnik klikne.

Načrti TTS v realnem času

Začnite brezplačno, nadgradnja, ko potrebujete več

Prosto

Kokoro streaming (free model)
500 znakov na generacijo
10 brezplačnih tokov/dan na anonimnega uporabnika
Poddruga prva-audio latency
SSE streaming preko HTTPS

Najbolj priljubljeno

Brezplačni račun

15.000 znakov pri prijavi
5000 znakov na tok
API ključ za programski dostop
Zgodovina ustvarjanja
Ni dnevnega pokrovčka toka

Prosto se prijavite

Prof.

MOSS-TTS-Realtime (ko je v živo)
100.000 znakov na tok
Prednostna vrstica GPU
Glasovni agent + vključevanje Twilio
Mejne vrednosti višje stopnje

Nadgradnja

Pogosta vprašanja

Realnočasovni besedilni tokovi zvočnih koščkov, ko se ustvarjajo, namesto da čakajo, da se celoten stavek dokonča. Prvi zvočni vzorec pride v manj kot eni sekundi, zaradi česar je primeren za žive glasovne agente, dubbing in interaktivne aplikacije, kjer je pomembno latency.

Redna TTS ustvarja polno zvočno datoteko, preden karkoli vrnete – čakate, nato slišite celoten stavek naenkrat. Realnočasovni TTS uporablja Server-Sent Dogodki (SSE) za streaming kratkih zvočnih koščkov, kot jih model proizvaja. Uporabnik sliši začetek stavka skoraj takoj, tudi na dolgih vhodih.

Kokoro je privzeti background – ustvarja zvok približno 100x hitrejši od realnega časa na sodobnem GPU. Vključujemo MOSS-TTS-Realtime kot višjo kakovost alternative; uporabniki bodo lahko izbrali na zahtevo, ko ladje.

Tipično prvo-audio latency na Kokoro je 300-800ms nad javno povezavo. Okrogla pot omrežja prevladuje po tem. Stran površine živo izmerjen čas-do-prvo-audio v UI, tako da lahko vidite, koliko natančno je vsak zahtevek trajal.

Glasovni agenti, ki se odzovejo pogovorno, živi dubbing za streaming medijev, interaktivne igre NPCs, bralci dostopnosti, ki začnejo govoriti v trenutku, ko uporabnik klikne, in vsaka aplikacija, kjer čakanje dve ali tri sekunde na zvok bi se počutila počasno.

Da. POST na https://api.tts.ai/v1/tts/stream/ z istim telesom kot redni /v1/tts/ dogodek. Odziv je SSE tok baznih 64- kodiranih WAV koščkov. Brezplačna stopnja podpira 10 generacij na dan na anonimnega uporabnika; avtentikirani uporabniki dobijo polno dovoljenje za znake na račun.

Kokoro uporablja vnaprej urejene glasove in ne klonira. MOSS-TTS-Realtime (ko je integriran) podpira kloniranje glasu z 3 sekunde. Za polno kloniranje glasu danes uporabite redno /text-to-speech/ stran s Chatterbox ali GPT-SoviTS – to niso streaming-caping, ampak proizvajajo custom glasove.

Isti stroški znaka kot običajni opazovani cilj TTS. Kokoro je brezplačen (1x stroški). MOSS-TTS-Realtime bo tekel na standardni ravni (2x stroški) če je omogočen. Protokol streaming ne doda nobene doplačilne cene.

Da – par streaming opazovalni dogodek s Twilio glas webhook za prenos zvoka v živo v telefonski klic. Naša glasovni agent platforma že to počne za IVR in outbound klic. Končni do konca latency na telefonskem klicu je običajno 1-2 sekunde, vključno STT in LLM odziv.

Če vaše omrežje spusti kos v tranzitu, bo tokovni predvajalnik preskočil naprej namesto zavlačevanja. Za aplikacije, ki ne prenašajo vrzeli, pade nazaj na redno ne-streaming opazovanega dogodka, ali pufr 500m zvoka pred začetkom predvajanja.

5.0/5 (1)

Tok govora v realnem času

Brezplačen za prvih 10 generacij na dan. Prijavite se, da odklenete celoten lični dodatek in API dostop.

Prosto se prijavite Prikaži ceno

TTS v realnem času

Besedilo

Nastavitve & glasu

Živa latencija

Izhod

Kako streaming TTS deluje

1. Pošlji besedilo

2. Model ustvarja

3. Stream Chunks

4. Poslušajte v živo

Uporabni primeri

Glasovni agenti

Živo klepetanje

Igre

Dostopnost

Načrti TTS v realnem času

Pogosta vprašanja

Kaj je TTS v realnem času?

Kako se TTS v realnem času razlikuje od običajnih TTS?

Kateri model napaja stran v realnem času?

Kako hitro je prvi-audio latency?

Kaj lahko zgradim s TTS v realnem času?

Ali obstaja API za TTS v realnem času?

Ali podpira kloniranje glasu?

Koliko stane TTS v realnem času?

Ga lahko uporabim na telefonskih klicih?

Zakaj zvok včasih prekinja sredino besede?

Tok govora v realnem času