TTS v reálném čase

Streaming text-to-speech s sub-sekundou první-audio latency. Postaven pro hlasové agenty a živé aplikace.

Text

Streamování
0/5,000 znaky ~0.3s první zvuk

Nastavení hlasu

Pouze modely umožňující streamování.

Live Latency

Klikněte na Stream pro měření první-audio latence

Výstup

Audio kousky budou hrát tady, když proudí dovnitř.

0:00
První kus:
Celkové kusy: 0
Celkový čas:

Jak funguje streamování TTS

1. Odeslat text

POST text do /v1/tts/stream/ jako požadavek Server-Sent Events.

2. Model generuje

Kokoro zablokuje text a generuje audio vzorek po vzorku na GPU.

3. Stream Chunks

Base64-kódované WAV kusy dorazí přes SSE a začít hrát okamžitě.

4. Poslouchejte živě

Uživatel slyší začátek věty pod sekundu, dokonce i na dlouhých vstupech.

Pouzdra na použití

Kde sub-sekundová latence odemkne nové zážitky.

Hlasové agenty

Konverzační roboti, kteří reagují tak rychle jako lidé.

Živé dabování

Přelož a dub potok v reálném čase bez buffering pauzy.

Hry

Dialog NPC, který reaguje na volbu hráče okamžitě, žádné předrenderované VO.

Přístupnost

Čtečky obrazovek a pomocné nástroje, které začnou mluvit okamžikem, kdy uživatel klikne.

Plány TTS v reálném čase

Start zdarma, upgrade, když potřebujete více

Volné
  • Kokoro streaming (free model)
  • 500 znaků na generaci
  • 10 volných proudů/den na anonymního uživatele
  • Subsekunda první-audio latence
  • SSE streamování přes HTTPS
Nejoblíbenější
Volný účet
  • 15 000 znaků při přihlášení
  • 5,000 znaků na jeden proud
  • API klíč pro programmatický přístup
  • Historie generování
  • Žádný uzávěr denního proudu
Zaregistrovat se zdarma
Pro
  • MOSS-TTS-Realtime (když žije)
  • 100 000 znaků na jeden proud
  • Prioritní fronta GPU
  • Voice agent + Twilio integrace
  • Vyšší limity sazeb
Upgrade

Často kladené otázky

V reálném čase text-to-speech proudy audio kousky, jak jsou generovány, místo čekání na celou větu dokončit. První zvukový vzorek dorazí do jedné sekundy, takže je vhodný pro živé hlasové agenty, dabing, a interaktivní aplikace, kde latence záleží.

Pravidelné TTS generuje celý zvukový soubor před vrácením čehokoliv, co počkáte, pak uslyšíte celou větu najednou. Realtime TTS používá Server-Sent Events (SSE) pro streamování krátkých zvukových kousků, jak je model produkuje. Uživatel slyší začátek věty téměř okamžitě, a to i na dlouhých vstupech.

Kokoro je výchozím backendem, který generuje zvuk zhruba 100x rychleji než v reálném čase na moderním GPU. Integrujeme MOSS-TTS-Realtime jako vysoce kvalitní alternativu; uživatelé si budou moci vybrat na žádost, jakmile budou lodě.

Typické první-audio latence na Kokoro je 300-800ms přes veřejné připojení. Síť kolo-výlet dominuje poté. Stránka povrchy živé měřené čas-k-první-audio v UI, takže můžete vidět, jak přesně dlouho každý požadavek trvalo.

Hlasové agenty, které reagují konverzálně, živé dabing pro streaming média, interaktivní hry NPC, přístupnost čtečky, které začnou mluvit okamžikem, kdy uživatel klikne, a každá aplikace, kde čeká dvě nebo tři sekundy na audio by se cítila pomalý.

Ano. POST to https://api.tts.ai/v1/tts/stream/ with the same body as the regular /v1/tts/ endpoint. The response is an SSE stream of base64-encoded WAV chunks. The free tier supports 10 generations per day per anonym user; authored users get the full per-account character addition.

Kokoro používá předtrénované hlasy a neklonuje se. MOSS-TTS-Realtime (pokud je integrovaný) podporuje klonování nulovacího hlasu z 3-sekundové reference. Pro klonování plného hlasu dnes použijte pravidelnou /text-to-speech/ stránku s Chatterboxem nebo GPT-Sovits dírky, které nejsou streaming-capitable, ale produkují vlastní hlasy.

Stejné náklady na charakter jako běžný cílový bod TTS. Kokoro je free-tier (1x náklady). MOSS-TTS-Realtime bude probíhat na standardní úrovni (2x náklady) pokud je povoleno. Streamovací protokol nepřidává žádný cenový příplatek.

Ano, spárování koncového streaming s Twilio hlasový webhook k napájení živého zvuku do telefonního hovoru. Naše hlasový agent platforma již dělá to pro IVR a odchozí volání. Konec-konec latency na telefonní hovor je obvykle 1-2 sekundy včetně STT a LLM odezvy.

Pokud vaše síť klesne kus v tranzitu, streamovací hráč přeskočí dopředu, spíše než zdržovat. Pro aplikace, které nemohou tolerovat mezery, stáhněte se do pravidelného non-streamování koncového bodu, nebo buffer 500ms zvuku před spuštěním přehrávání.
5.0/5 (1)

Co bychom mohli zlepšit? Vaše zpětná vazba nám pomáhá řešit problémy.

Proslov v reálném čase

Zdarma pro prvních 10 generací denně. Zaregistrujte se k odemknutí plného příspěvku na charakter a API přístup.