Zahtjev za greškom / osobinama

Realnovremenska TTS

Streaming text-to-speech s sub-sekunde prve-audio latency. Izgrađen za glasovne agente i uživo aplikacije.

Slobodno se prijavite

Još nemamo TTS glasove na vašem jeziku. Pomozite nam dodati svoje! Prodaj svoj glas

Tekst

Streaming

0/5,000 znakovi ~0.3s prvi zvuk

Postavke & glasa

Uzorak Samo za streaming modele.

Glas

Brzina 1.0x

Live Latency

—

Kliknite stream za mjeru prvog audio latency

Izlaz

Zvučni komadi će svirati ovdje dok ulaze.

Kako streaming TTS djeluje

1. Pošalji tekst

POST tekst na /v1/tts/stream/ kao zahtjev za dogadjaje poslužitelja-Sent.

2. Model generira

Kokoro dijeli tekst i generira uzorak zvuka po uzorku na GPU.

3. Stream Chunks

Base64 kodirani WAV komadi stižu preko SSE-a i počni odmah svirati.

4. Slušajte uživo

Korisnik čuje početak rečenice u manje od sekunde, čak i na dugim ulazima.

Slučaji korištenja

Gdje podsekundni latency otključava nova iskustva.

Glasovni agenti

Razgovorni roboti koji reagiraju brzo kao čovjek.

Live Dubbing

Prevedite i dub struja u realnom vremenu bez buffering pauze.

Igre

NCC dijalog koji odmah reagira na izbor igrača, bez predanih VO.

Pristupačnost

Čitatelji ekrana i pomoćni alat koji počinju govoriti čim korisnik klikne.

Planovi TTS-a u realnom vremenu

Započnite besplatno, nadogradnja kada trebate više

Slobodno

Kokoro streaming (free model)
500 znakova po generaciji
10 slobodnih tokova/dan po anonimnom korisniku
Podsekundni prvi-audio latency
SSE streaming preko HTTPS

Najpopularnije

Besplatan korisnički račun

15.000 znakova pri prijavljivanju
5000 znakova po toku
API ključ za programski pristup
Povijest generacije
Nema dnevnog zatvarača toka

Slobodno se prijavite

Profesionalno

MOSS-TTS-Realtime (kada je živo)
100.000 znakova po toku
Prioritet GPU reda
Glasovni agent + integracija Twilio
Ograničenja veće stope

Nadogradi

Česta pitanja

Realno vrijeme tekst-to-speech tokovi audio komada kako se stvaraju, umjesto da čeka da se cijela rečenica završi. Prvi audio uzorak stiže u manje od jedne sekunde, što ga čini pogodnim za živo glasovne agente, dubbing, i interaktivne aplikacije gdje je latency važno.

Redoviti TTS generira punu audio datoteku prije povratka bilo čega — čekate, zatim čujete cijelu rečenicu odjednom. Realno vrijeme TTS koristi Server-Sent Events (SSE) za stream kratke audio komade kao što ih model proizvodi. Korisnik čuje početak rečenice gotovo odmah, čak i na dugim ulazima.

Kokoro je zadana pozadina – generira zvuk otprilike 100x brže od realnog vremena na modernom GPU-u. Iнтегрiramo MOSS-TTS-Realtime kao kvalitetnu alternativu; korisnici će moći odabrati po zahtjevu nakon što brodovi.

Tipičan prvi-audio latency na Kokoro je 300-800ms preko javne veze. Mrežni krug-trip dominira nakon toga. Stranica površine uživo izmjereno vrijeme-na-prvi-audio u UI tako da možete vidjeti točno koliko je svaki zahtjev trajao.

Glasovni agenti koji reagiraju razgovorno, uživo dubbing za streaming medija, interaktivne igre NPC-ovi, čitatelji pristupačnosti koji počinju govoriti čim korisnik klikne, i svaka aplikacija gdje čekanje dvije ili tri sekunde za zvuk bi se osjećati sporo.

Da. POST na https://api.tts.ai/v1/tts/stream/ s istim tijelom kao i redoviti /v1/tts/ ishod. Odgovor je SSE stream base64- encoded WAV komada. Besplatan stupanj podržava 10 generacija dnevno po anonimnom korisniku; autentificirani korisnici dobivaju punu dopunu za karakter po računu.

Kokoro koristi unaprijed obučene glasove i ne klonira. MOSS-TTS-Realtime (kada je integriran) podržava kloniranje glasa od 3 sekunde. Za kloniranje glasa danas koristite redoviti /text-to-speech/ stranicu s Chatterbox ili GPT-SoviTS – oni nisu streaming-caping, nego proizvode vlastite glasove.

Isti troškovi znaka kao i redoviti TTS ishod. Kokoro je besplatno-tier (1x trošak). MOSS-TTS-Realtime će pokrenuti na standardni nivo (2x troškovi) kada je omogućeno. Protokol streaming ne dodaje nikakvu nadoplatu cijene.

Da – par streaming ishoda s Twilio glas webhook za unos uživo audio u telefonski poziv. Naša glasovni agent platforma već to radi za IVR i outbound poziv. Kraj-to-end latency na telefonskom pozivu je obično 1-2 sekunde uključujući STT i LLM odgovor.

Ako vaša mreža ispadne dio u tranzitu, streaming igrač će preskočiti naprijed umjesto odugovlačiti. Za aplikacije koji ne mogu tolerirati praznine, pad natrag na redoviti ne-streaming ishod, ili bafer 500ms zvuka prije početka reprodukcije.

5.0/5 (1)

Tok govora u realnom vremenu

Besplatno za prvih 10 generacija dnevno. Prijavite se kako bi otključali puni dodatak karaktera i API pristup.

Slobodno se prijavite Pogledaj cijene

Realnovremenska TTS

Tekst

Postavke & glasa

Live Latency

Izlaz

Kako streaming TTS djeluje

1. Pošalji tekst

2. Model generira

3. Stream Chunks

4. Slušajte uživo

Slučaji korištenja

Glasovni agenti

Live Dubbing

Igre

Pristupačnost

Planovi TTS-a u realnom vremenu

Česta pitanja

Što je TTS u realnom vremenu?

Kako se TTS u realnom vremenu razlikuje od uobičajenog TTS?

Koji model pokreće stranicu u realnom vremenu?

Koliko brzo je prvi-audio latency?

Što mogu izgraditi s TTS-om u realnom vremenu?

Postoji li API za TTS u realnom vremenu?

Podržava li kloniranje glasa?

Koliko košta TTS u realnom vremenu?

Mogu li ga koristiti na telefonskim pozivima?

Zašto zvuk ponekad odsječe srednju riječ?

Tok govora u realnom vremenu