Prijavi grešku / Zahtjev za značajkom

Realtime TTS

Stream tekst-u-govor sa sub-sekundičnim prvim audio zakašnjenjem. Napravljeno za glasovne agente i live aplikacije.

Prijavite se besplatno

Još nemamo TTS glasove na vašem jeziku. Pomozite nam da dodamo vaše! Prodaj svoj glas

Tekst

Stream

0/5,000 znakovi ~0.3s prvi audio

Postavke glasa

Model Samo modeli sa mogućnostima streaminga.

Glas

Brzina 1.0x

Latencija uživo

—

Kliknite na Stream da biste izmjerili latenciju prvog zvuka

Izlaz

Audio komadi će se reproducirati ovdje dok se struju u.

Kako radi streaming TTS

Pošalji tekst

POST tekst na /v1/tts/stream/ kao zahtjev za događaje poslane sa servera.

2. Model generira

Kokoro razbija tekst i generira audio uzorak po uzorku na GPU-u.

3. Stream Chunks

1964. godine, tvrtka "Sigma" je počela sa proizvodnjom 64-bitnih procesora i počela je sa proizvodnjom 64-bitnih računara.

Slušaj uživo

Korisnik čuje početak rečenice za manje od sekunde, čak i na dugim ulazima.

Slučajevi upotrebe

Gdje sub-sekunda latencija otključava nova iskustva.

Voice Agents

Konverzacijski roboti koji odgovaraju brzo kao što bi to učinio čovjek.

Live Dub

Prevodi i sinkronizira stream u realnom vremenu bez pauzama.

Igre

NPC dijalog koji reagira na izbore igrača odmah, bez prethodnog renderiranja VO.

Dostupnost

Čitači ekrana i pomoćni alati koji počinju govoriti u trenutku kada korisnik klikne.

Realtime TTS Plans

Počnite besplatno, nadogradite kada vam treba više

Slobodan

Kokoro streaming (free model)
500 znakova po generaciji
10 besplatnih streamova/dan po anonimnom korisniku
Sub-sekunda prvo-audio zakašnjenje
SSE strujanje preko HTTPS

Najpopularnije

Slobodan račun

15.000 znakova pri registraciji
5000 znakova po toku
API ključ za programski pristup
Historija generacija
Nema dnevnog ograničenja strujanja

Prijavite se besplatno

Pro

MOSS-TTS-Realtime (kada je živ)
100.000 znakova po toku
Prioritet GPU reda
Voice agent + Twilio integracija
Viša ograničenja stope

Nadogradi

Često postavljana pitanja

Tekst-u-govor u stvarnom vremenu prenosi audio komade dok se generišu, umjesto čekanja da se cijela rečenica završi. Prvi audio uzorak stiže za manje od jedne sekunde, što ga čini pogodnim za glasovne agente uživo, sinkronizaciju i interaktivne aplikacije gdje je latencija važna.

Regularni TTS generira cijelu audio datoteku prije nego što vrati bilo šta — čekate, a onda odjednom čujete cijelu rečenicu. TTS u stvarnom vremenu koristi događaje poslane sa servera (SSE) za strujanje kratkih audio komada dok ih model proizvodi. Korisnik čuje početak rečenice skoro odmah, čak i na dugim ulazima.

Kokoro je uobičajeni backend — on generira zvuk otprilike 100x brže nego u stvarnom vremenu na modernom GPU-u. Mi integriramo MOSS-TTS-Realtime kao alternativu boljeg kvaliteta; korisnici će moći birati po zahtjevu kada se isporuči.

Tipično vrijeme čekanja prvog zvuka na Kokoro je 300-800ms preko javne veze. Nakon toga prevladava povratni put preko mreže. Stranica prikazuje vrijeme čekanja prvog zvuka u korisničkom sučelju tako da možete tačno vidjeti koliko je trajao svaki zahtjev.

Glasovni agenti koji odgovaraju konverzacijski, live dubliranje za streaming medija, interaktivne igre NPC-a, pristupačnost čitača koji počinju govoriti u trenutku kada korisnik klikne, i bilo koja aplikacija gdje čekanje dvije ili tri sekunde za zvuk će se osjećati sporo.

Da. POST na https://api.tts.ai/v1/tts/stream/ sa istim tijelom kao i redovna krajnja tačka /v1/tts/. Odgovor je SSE tok base64-kodiranih WAV komada. Besplatni nivo podržava 10 generacija dnevno po anonimnom korisniku; autentificirani korisnici dobivaju puni broj znakova po računu.

Kokoro koristi unaprijed trenirane glasove i ne klonira. MOSS-TTS-Realtime (kada je integriran) podržava kloniranje glasa bez snimanja iz 3-sekundi reference. Za potpuno kloniranje glasa danas, koristite redovnu /text-to-speech/ stranicu sa Chatterbox-om ili GPT-SoVITS-om — oni ne mogu da prenose, ali proizvode prilagođene glasove.

Ista cijena znaka kao i kod redovne TTS krajnje tačke. Kokoro je besplatni nivo (1x cijena). MOSS-TTS-Realtime će raditi na standardnom nivou (2x cijena) kada je omogućen. Protokol streaminga ne dodaje nikakvu nadoplatu.

Da — uparite krajnju tačku strujanja sa Twilio glasovnim webhook-om da biste usmjerili zvuk uživo u telefonski poziv. Naša platforma glasovnog agenta već to radi za IVR i odlazne pozive. Latencija od kraja do kraja na telefonskom pozivu je tipično 1-2 sekunde uključujući STT i LLM odgovor.

Ako vaša mreža izgubi dio u tranzitu, stream player će preskočiti naprijed umjesto da se zaustavi. Za aplikacije koje ne mogu tolerirati praznine, vratite se na redovnu krajnju tačku bez streaminga, ili stavite 500ms zvuka u bufer prije početka reprodukcije.

5.0/5 (1)

Stream govor u stvarnom vremenu

Besplatno za prvih 10 generacija dnevno. Prijavite se da otključate puni broj znakova i API pristup.

Prijavite se besplatno Prikaži cijene

Realtime TTS

Tekst

Postavke glasa

Latencija uživo

Izlaz

Kako radi streaming TTS

Pošalji tekst

2. Model generira

3. Stream Chunks

Slušaj uživo

Slučajevi upotrebe

Voice Agents

Live Dub

Igre

Dostupnost

Realtime TTS Plans

Često postavljana pitanja

Šta je realtime TTS?

Kako se realtime TTS razlikuje od redovnog TTS-a?

Koji model pokreće stranicu u stvarnom vremenu?

Koliko je brzo kasnjenje prvog zvuka?

Šta mogu da napravim sa realtime TTS?

Postoji li API za realtime TTS?

Da li podržava kloniranje glasa?

Koliko košta realtime TTS?

Mogu li ga koristiti za telefonske pozive?

Zašto se zvuk ponekad prekida usred riječi?

Stream govor u stvarnom vremenu