Realnovremenska TTS

Streaming text-to-speech s sub-sekunde prve-audio latency. Izgrađen za glasovne agente i uživo aplikacije.

Još nemamo TTS glasove na vašem jeziku. Pomozite nam dodati svoje! Prodaj svoj glas

Tekst

Streaming
0/5,000 znakovi ~0.3s prvi zvuk

Postavke & glasa

Samo za streaming modele.

Live Latency

Kliknite stream za mjeru prvog audio latency

Izlaz

Zvučni komadi će svirati ovdje dok ulaze.

0:00
Prvi dio:
Ukupno komada: 0
Ukupno vrijeme:

Kako streaming TTS djeluje

1. Pošalji tekst

POST tekst na /v1/tts/stream/ kao zahtjev za dogadjaje poslužitelja-Sent.

2. Model generira

Kokoro dijeli tekst i generira uzorak zvuka po uzorku na GPU.

3. Stream Chunks

Base64 kodirani WAV komadi stižu preko SSE-a i počni odmah svirati.

4. Slušajte uživo

Korisnik čuje početak rečenice u manje od sekunde, čak i na dugim ulazima.

Slučaji korištenja

Gdje podsekundni latency otključava nova iskustva.

Glasovni agenti

Razgovorni roboti koji reagiraju brzo kao čovjek.

Live Dubbing

Prevedite i dub struja u realnom vremenu bez buffering pauze.

Igre

NCC dijalog koji odmah reagira na izbor igrača, bez predanih VO.

Pristupačnost

Čitatelji ekrana i pomoćni alat koji počinju govoriti čim korisnik klikne.

Planovi TTS-a u realnom vremenu

Započnite besplatno, nadogradnja kada trebate više

Slobodno
  • Kokoro streaming (free model)
  • 500 znakova po generaciji
  • 10 slobodnih tokova/dan po anonimnom korisniku
  • Podsekundni prvi-audio latency
  • SSE streaming preko HTTPS
Najpopularnije
Besplatan korisnički račun
  • 15.000 znakova pri prijavljivanju
  • 5000 znakova po toku
  • API ključ za programski pristup
  • Povijest generacije
  • Nema dnevnog zatvarača toka
Slobodno se prijavite
Profesionalno
  • MOSS-TTS-Realtime (kada je živo)
  • 100.000 znakova po toku
  • Prioritet GPU reda
  • Glasovni agent + integracija Twilio
  • Ograničenja veće stope
Nadogradi

Česta pitanja

Realno vrijeme tekst-to-speech tokovi audio komada kako se stvaraju, umjesto da čeka da se cijela rečenica završi. Prvi audio uzorak stiže u manje od jedne sekunde, što ga čini pogodnim za živo glasovne agente, dubbing, i interaktivne aplikacije gdje je latency važno.

Redoviti TTS generira punu audio datoteku prije povratka bilo čega — čekate, zatim čujete cijelu rečenicu odjednom. Realno vrijeme TTS koristi Server-Sent Events (SSE) za stream kratke audio komade kao što ih model proizvodi. Korisnik čuje početak rečenice gotovo odmah, čak i na dugim ulazima.

Kokoro je zadana pozadina – generira zvuk otprilike 100x brže od realnog vremena na modernom GPU-u. Iнтегрiramo MOSS-TTS-Realtime kao kvalitetnu alternativu; korisnici će moći odabrati po zahtjevu nakon što brodovi.

Tipičan prvi-audio latency na Kokoro je 300-800ms preko javne veze. Mrežni krug-trip dominira nakon toga. Stranica površine uživo izmjereno vrijeme-na-prvi-audio u UI tako da možete vidjeti točno koliko je svaki zahtjev trajao.

Glasovni agenti koji reagiraju razgovorno, uživo dubbing za streaming medija, interaktivne igre NPC-ovi, čitatelji pristupačnosti koji počinju govoriti čim korisnik klikne, i svaka aplikacija gdje čekanje dvije ili tri sekunde za zvuk bi se osjećati sporo.

Da. POST na https://api.tts.ai/v1/tts/stream/ s istim tijelom kao i redoviti /v1/tts/ ishod. Odgovor je SSE stream base64- encoded WAV komada. Besplatan stupanj podržava 10 generacija dnevno po anonimnom korisniku; autentificirani korisnici dobivaju punu dopunu za karakter po računu.

Kokoro koristi unaprijed obučene glasove i ne klonira. MOSS-TTS-Realtime (kada je integriran) podržava kloniranje glasa od 3 sekunde. Za kloniranje glasa danas koristite redoviti /text-to-speech/ stranicu s Chatterbox ili GPT-SoviTS – oni nisu streaming-caping, nego proizvode vlastite glasove.

Isti troškovi znaka kao i redoviti TTS ishod. Kokoro je besplatno-tier (1x trošak). MOSS-TTS-Realtime će pokrenuti na standardni nivo (2x troškovi) kada je omogućeno. Protokol streaming ne dodaje nikakvu nadoplatu cijene.

Da – par streaming ishoda s Twilio glas webhook za unos uživo audio u telefonski poziv. Naša glasovni agent platforma već to radi za IVR i outbound poziv. Kraj-to-end latency na telefonskom pozivu je obično 1-2 sekunde uključujući STT i LLM odgovor.

Ako vaša mreža ispadne dio u tranzitu, streaming igrač će preskočiti naprijed umjesto odugovlačiti. Za aplikacije koji ne mogu tolerirati praznine, pad natrag na redoviti ne-streaming ishod, ili bafer 500ms zvuka prije početka reprodukcije.
5.0/5 (1)

Što možemo poboljšati? Vaša povratna informacija nam pomaže riješiti probleme.

Tok govora u realnom vremenu

Besplatno za prvih 10 generacija dnevno. Prijavite se kako bi otključali puni dodatak karaktera i API pristup.