Realtime TTS

Stream tekst-u-govor sa sub-sekundičnim prvim audio zakašnjenjem. Napravljeno za glasovne agente i live aplikacije.

Još nemamo TTS glasove na vašem jeziku. Pomozite nam da dodamo vaše! Prodaj svoj glas

Tekst

Stream
0/5,000 znakovi ~0.3s prvi audio

Postavke glasa

Samo modeli sa mogućnostima streaminga.

Latencija uživo

Kliknite na Stream da biste izmjerili latenciju prvog zvuka

Izlaz

Audio komadi će se reproducirati ovdje dok se struju u.

0:00
Prvi komad:
Ukupno komada: 0
Ukupno vrijeme:

Kako radi streaming TTS

Pošalji tekst

POST tekst na /v1/tts/stream/ kao zahtjev za događaje poslane sa servera.

2. Model generira

Kokoro razbija tekst i generira audio uzorak po uzorku na GPU-u.

3. Stream Chunks

1964. godine, tvrtka "Sigma" je počela sa proizvodnjom 64-bitnih procesora i počela je sa proizvodnjom 64-bitnih računara.

Slušaj uživo

Korisnik čuje početak rečenice za manje od sekunde, čak i na dugim ulazima.

Slučajevi upotrebe

Gdje sub-sekunda latencija otključava nova iskustva.

Voice Agents

Konverzacijski roboti koji odgovaraju brzo kao što bi to učinio čovjek.

Live Dub

Prevodi i sinkronizira stream u realnom vremenu bez pauzama.

Igre

NPC dijalog koji reagira na izbore igrača odmah, bez prethodnog renderiranja VO.

Dostupnost

Čitači ekrana i pomoćni alati koji počinju govoriti u trenutku kada korisnik klikne.

Realtime TTS Plans

Počnite besplatno, nadogradite kada vam treba više

Slobodan
  • Kokoro streaming (free model)
  • 500 znakova po generaciji
  • 10 besplatnih streamova/dan po anonimnom korisniku
  • Sub-sekunda prvo-audio zakašnjenje
  • SSE strujanje preko HTTPS
Najpopularnije
Slobodan račun
  • 15.000 znakova pri registraciji
  • 5000 znakova po toku
  • API ključ za programski pristup
  • Historija generacija
  • Nema dnevnog ograničenja strujanja
Prijavite se besplatno
Pro
  • MOSS-TTS-Realtime (kada je živ)
  • 100.000 znakova po toku
  • Prioritet GPU reda
  • Voice agent + Twilio integracija
  • Viša ograničenja stope
Nadogradi

Često postavljana pitanja

Tekst-u-govor u stvarnom vremenu prenosi audio komade dok se generišu, umjesto čekanja da se cijela rečenica završi. Prvi audio uzorak stiže za manje od jedne sekunde, što ga čini pogodnim za glasovne agente uživo, sinkronizaciju i interaktivne aplikacije gdje je latencija važna.

Regularni TTS generira cijelu audio datoteku prije nego što vrati bilo šta — čekate, a onda odjednom čujete cijelu rečenicu. TTS u stvarnom vremenu koristi događaje poslane sa servera (SSE) za strujanje kratkih audio komada dok ih model proizvodi. Korisnik čuje početak rečenice skoro odmah, čak i na dugim ulazima.

Kokoro je uobičajeni backend — on generira zvuk otprilike 100x brže nego u stvarnom vremenu na modernom GPU-u. Mi integriramo MOSS-TTS-Realtime kao alternativu boljeg kvaliteta; korisnici će moći birati po zahtjevu kada se isporuči.

Tipično vrijeme čekanja prvog zvuka na Kokoro je 300-800ms preko javne veze. Nakon toga prevladava povratni put preko mreže. Stranica prikazuje vrijeme čekanja prvog zvuka u korisničkom sučelju tako da možete tačno vidjeti koliko je trajao svaki zahtjev.

Glasovni agenti koji odgovaraju konverzacijski, live dubliranje za streaming medija, interaktivne igre NPC-a, pristupačnost čitača koji počinju govoriti u trenutku kada korisnik klikne, i bilo koja aplikacija gdje čekanje dvije ili tri sekunde za zvuk će se osjećati sporo.

Da. POST na https://api.tts.ai/v1/tts/stream/ sa istim tijelom kao i redovna krajnja tačka /v1/tts/. Odgovor je SSE tok base64-kodiranih WAV komada. Besplatni nivo podržava 10 generacija dnevno po anonimnom korisniku; autentificirani korisnici dobivaju puni broj znakova po računu.

Kokoro koristi unaprijed trenirane glasove i ne klonira. MOSS-TTS-Realtime (kada je integriran) podržava kloniranje glasa bez snimanja iz 3-sekundi reference. Za potpuno kloniranje glasa danas, koristite redovnu /text-to-speech/ stranicu sa Chatterbox-om ili GPT-SoVITS-om — oni ne mogu da prenose, ali proizvode prilagođene glasove.

Ista cijena znaka kao i kod redovne TTS krajnje tačke. Kokoro je besplatni nivo (1x cijena). MOSS-TTS-Realtime će raditi na standardnom nivou (2x cijena) kada je omogućen. Protokol streaminga ne dodaje nikakvu nadoplatu.

Da — uparite krajnju tačku strujanja sa Twilio glasovnim webhook-om da biste usmjerili zvuk uživo u telefonski poziv. Naša platforma glasovnog agenta već to radi za IVR i odlazne pozive. Latencija od kraja do kraja na telefonskom pozivu je tipično 1-2 sekunde uključujući STT i LLM odgovor.

Ako vaša mreža izgubi dio u tranzitu, stream player će preskočiti naprijed umjesto da se zaustavi. Za aplikacije koje ne mogu tolerirati praznine, vratite se na redovnu krajnju tačku bez streaminga, ili stavite 500ms zvuka u bufer prije početka reprodukcije.
5.0/5 (1)

Šta možemo da poboljšamo? Vaše povratne informacije nam pomažu da riješimo probleme.

Stream govor u stvarnom vremenu

Besplatno za prvih 10 generacija dnevno. Prijavite se da otključate puni broj znakova i API pristup.