TTS v realnem času

Streaming tekst-to-speech s sub-sekundo prve-audio latency. Zgrajen za glasovne agente in živo aplikacijo.

Nimamo še glasov TTS v vašem jeziku. Pomagajte nam dodati svoje! Prodaj svoj glas

Besedilo

Streaming
0/5,000 znaki ~0.3s prvi zvok

Nastavitve & glasu

Samo modeli za streaming.

Živa latencija

Kliknite Stream za merjenje prvo-audio latency

Izhod

Zvočni koščki se bodo predvajali tukaj, ko bodo prihajali.

0:00
Prvi kos:
Skupni koščki: 0
Skupni čas:

Kako streaming TTS deluje

1. Pošlji besedilo

Besedilo POST na /v1/tts/stream/ kot zahteva za strežnik-Sent Dogodki.

2. Model ustvarja

Kokoro raztrga besedilo in ustvarja zvočni vzorec po vzorcu na GPU.

3. Stream Chunks

Base64 kodirani koščki WAV prispejo čez SSE in začnejo igrati takoj.

4. Poslušajte v živo

Uporabnik sliši začetek stavka v manj kot sekundi, celo na dolgih vhodih.

Uporabni primeri

Kjer podsekunda latency odpira nove izkušnje.

Glasovni agenti

Pogovorni roboti, ki se odzovejo tako hitro kot človek.

Živo klepetanje

Prevedite in potopite potok v realnem času brez pufring pavze.

Igre

Okno NPC, ki se takoj odzove na izbiro igralca, ni predanega VO.

Dostopnost

Bralci zaslona in pomočna orodja, ki začnejo govoriti takoj, ko uporabnik klikne.

Načrti TTS v realnem času

Začnite brezplačno, nadgradnja, ko potrebujete več

Prosto
  • Kokoro streaming (free model)
  • 500 znakov na generacijo
  • 10 brezplačnih tokov/dan na anonimnega uporabnika
  • Poddruga prva-audio latency
  • SSE streaming preko HTTPS
Najbolj priljubljeno
Brezplačni račun
  • 15.000 znakov pri prijavi
  • 5000 znakov na tok
  • API ključ za programski dostop
  • Zgodovina ustvarjanja
  • Ni dnevnega pokrovčka toka
Prosto se prijavite
Prof.
  • MOSS-TTS-Realtime (ko je v živo)
  • 100.000 znakov na tok
  • Prednostna vrstica GPU
  • Glasovni agent + vključevanje Twilio
  • Mejne vrednosti višje stopnje
Nadgradnja

Pogosta vprašanja

Realnočasovni besedilni tokovi zvočnih koščkov, ko se ustvarjajo, namesto da čakajo, da se celoten stavek dokonča. Prvi zvočni vzorec pride v manj kot eni sekundi, zaradi česar je primeren za žive glasovne agente, dubbing in interaktivne aplikacije, kjer je pomembno latency.

Redna TTS ustvarja polno zvočno datoteko, preden karkoli vrnete – čakate, nato slišite celoten stavek naenkrat. Realnočasovni TTS uporablja Server-Sent Dogodki (SSE) za streaming kratkih zvočnih koščkov, kot jih model proizvaja. Uporabnik sliši začetek stavka skoraj takoj, tudi na dolgih vhodih.

Kokoro je privzeti background – ustvarja zvok približno 100x hitrejši od realnega časa na sodobnem GPU. Vključujemo MOSS-TTS-Realtime kot višjo kakovost alternative; uporabniki bodo lahko izbrali na zahtevo, ko ladje.

Tipično prvo-audio latency na Kokoro je 300-800ms nad javno povezavo. Okrogla pot omrežja prevladuje po tem. Stran površine živo izmerjen čas-do-prvo-audio v UI, tako da lahko vidite, koliko natančno je vsak zahtevek trajal.

Glasovni agenti, ki se odzovejo pogovorno, živi dubbing za streaming medijev, interaktivne igre NPCs, bralci dostopnosti, ki začnejo govoriti v trenutku, ko uporabnik klikne, in vsaka aplikacija, kjer čakanje dve ali tri sekunde na zvok bi se počutila počasno.

Da. POST na https://api.tts.ai/v1/tts/stream/ z istim telesom kot redni /v1/tts/ dogodek. Odziv je SSE tok baznih 64- kodiranih WAV koščkov. Brezplačna stopnja podpira 10 generacij na dan na anonimnega uporabnika; avtentikirani uporabniki dobijo polno dovoljenje za znake na račun.

Kokoro uporablja vnaprej urejene glasove in ne klonira. MOSS-TTS-Realtime (ko je integriran) podpira kloniranje glasu z 3 sekunde. Za polno kloniranje glasu danes uporabite redno /text-to-speech/ stran s Chatterbox ali GPT-SoviTS – to niso streaming-caping, ampak proizvajajo custom glasove.

Isti stroški znaka kot običajni opazovani cilj TTS. Kokoro je brezplačen (1x stroški). MOSS-TTS-Realtime bo tekel na standardni ravni (2x stroški) če je omogočen. Protokol streaming ne doda nobene doplačilne cene.

Da – par streaming opazovalni dogodek s Twilio glas webhook za prenos zvoka v živo v telefonski klic. Naša glasovni agent platforma že to počne za IVR in outbound klic. Končni do konca latency na telefonskem klicu je običajno 1-2 sekunde, vključno STT in LLM odziv.

Če vaše omrežje spusti kos v tranzitu, bo tokovni predvajalnik preskočil naprej namesto zavlačevanja. Za aplikacije, ki ne prenašajo vrzeli, pade nazaj na redno ne-streaming opazovanega dogodka, ali pufr 500m zvoka pred začetkom predvajanja.
5.0/5 (1)

Kaj bi lahko izboljšali? Vaša povratna informacija nam pomaga rešiti vprašanja.

Tok govora v realnem času

Brezplačen za prvih 10 generacij na dan. Prijavite se, da odklenete celoten lični dodatek in API dostop.