Nahlásit chybu / žádost o funkci

TTS v reálném čase

Streaming text-to-speech s sub-sekundou první-audio latency. Postaven pro hlasové agenty a živé aplikace.

Zaregistrovat se zdarma

Text

Streamování

0/5,000 znaky ~0.3s první zvuk

Nastavení hlasu

Vzor Pouze modely umožňující streamování.

Hlas

Rychlost 1.0x

Live Latency

—

Klikněte na Stream pro měření první-audio latence

Výstup

Audio kousky budou hrát tady, když proudí dovnitř.

Jak funguje streamování TTS

1. Odeslat text

POST text do /v1/tts/stream/ jako požadavek Server-Sent Events.

2. Model generuje

Kokoro zablokuje text a generuje audio vzorek po vzorku na GPU.

3. Stream Chunks

Base64-kódované WAV kusy dorazí přes SSE a začít hrát okamžitě.

4. Poslouchejte živě

Uživatel slyší začátek věty pod sekundu, dokonce i na dlouhých vstupech.

Pouzdra na použití

Kde sub-sekundová latence odemkne nové zážitky.

Hlasové agenty

Konverzační roboti, kteří reagují tak rychle jako lidé.

Živé dabování

Přelož a dub potok v reálném čase bez buffering pauzy.

Hry

Dialog NPC, který reaguje na volbu hráče okamžitě, žádné předrenderované VO.

Přístupnost

Čtečky obrazovek a pomocné nástroje, které začnou mluvit okamžikem, kdy uživatel klikne.

Plány TTS v reálném čase

Start zdarma, upgrade, když potřebujete více

Volné

Kokoro streaming (free model)
500 znaků na generaci
10 volných proudů/den na anonymního uživatele
Subsekunda první-audio latence
SSE streamování přes HTTPS

Nejoblíbenější

Volný účet

15 000 znaků při přihlášení
5,000 znaků na jeden proud
API klíč pro programmatický přístup
Historie generování
Žádný uzávěr denního proudu

Zaregistrovat se zdarma

Pro

MOSS-TTS-Realtime (když žije)
100 000 znaků na jeden proud
Prioritní fronta GPU
Voice agent + Twilio integrace
Vyšší limity sazeb

Upgrade

Často kladené otázky

V reálném čase text-to-speech proudy audio kousky, jak jsou generovány, místo čekání na celou větu dokončit. První zvukový vzorek dorazí do jedné sekundy, takže je vhodný pro živé hlasové agenty, dabing, a interaktivní aplikace, kde latence záleží.

Pravidelné TTS generuje celý zvukový soubor před vrácením čehokoliv, co počkáte, pak uslyšíte celou větu najednou. Realtime TTS používá Server-Sent Events (SSE) pro streamování krátkých zvukových kousků, jak je model produkuje. Uživatel slyší začátek věty téměř okamžitě, a to i na dlouhých vstupech.

Kokoro je výchozím backendem, který generuje zvuk zhruba 100x rychleji než v reálném čase na moderním GPU. Integrujeme MOSS-TTS-Realtime jako vysoce kvalitní alternativu; uživatelé si budou moci vybrat na žádost, jakmile budou lodě.

Typické první-audio latence na Kokoro je 300-800ms přes veřejné připojení. Síť kolo-výlet dominuje poté. Stránka povrchy živé měřené čas-k-první-audio v UI, takže můžete vidět, jak přesně dlouho každý požadavek trvalo.

Hlasové agenty, které reagují konverzálně, živé dabing pro streaming média, interaktivní hry NPC, přístupnost čtečky, které začnou mluvit okamžikem, kdy uživatel klikne, a každá aplikace, kde čeká dvě nebo tři sekundy na audio by se cítila pomalý.

Ano. POST to https://api.tts.ai/v1/tts/stream/ with the same body as the regular /v1/tts/ endpoint. The response is an SSE stream of base64-encoded WAV chunks. The free tier supports 10 generations per day per anonym user; authored users get the full per-account character addition.

Kokoro používá předtrénované hlasy a neklonuje se. MOSS-TTS-Realtime (pokud je integrovaný) podporuje klonování nulovacího hlasu z 3-sekundové reference. Pro klonování plného hlasu dnes použijte pravidelnou /text-to-speech/ stránku s Chatterboxem nebo GPT-Sovits dírky, které nejsou streaming-capitable, ale produkují vlastní hlasy.

Stejné náklady na charakter jako běžný cílový bod TTS. Kokoro je free-tier (1x náklady). MOSS-TTS-Realtime bude probíhat na standardní úrovni (2x náklady) pokud je povoleno. Streamovací protokol nepřidává žádný cenový příplatek.

Ano, spárování koncového streaming s Twilio hlasový webhook k napájení živého zvuku do telefonního hovoru. Naše hlasový agent platforma již dělá to pro IVR a odchozí volání. Konec-konec latency na telefonní hovor je obvykle 1-2 sekundy včetně STT a LLM odezvy.

Pokud vaše síť klesne kus v tranzitu, streamovací hráč přeskočí dopředu, spíše než zdržovat. Pro aplikace, které nemohou tolerovat mezery, stáhněte se do pravidelného non-streamování koncového bodu, nebo buffer 500ms zvuku před spuštěním přehrávání.

5.0/5 (1)

Proslov v reálném čase

Zdarma pro prvních 10 generací denně. Zaregistrujte se k odemknutí plného příspěvku na charakter a API přístup.

Zaregistrovat se zdarma Zobrazit ceny

TTS v reálném čase

Text

Nastavení hlasu

Live Latency

Výstup

Jak funguje streamování TTS

1. Odeslat text

2. Model generuje

3. Stream Chunks

4. Poslouchejte živě

Pouzdra na použití

Hlasové agenty

Živé dabování

Hry

Přístupnost

Plány TTS v reálném čase

Často kladené otázky

Co je TTS v reálném čase?

Jak se v reálném čase TTS liší od běžných TTS?

Který model pohání stránku v reálném čase?

Jak rychle je první audio latency?

Co mohu stavět s TTS v reálném čase?

Existuje API pro TTS v reálném čase?

Podporuje to klonování hlasu?

Kolik stojí TTS v reálném čase?

Můžu to použít na telefonáty?

Proč někdy zvuk přeruší střední slovo?

Proslov v reálném čase