Realtime TTS

Streamovanie prevodu textu na reč s latenciou prvého zvuku nižšou ako sekunda. Vytvorené pre hlasových agentov a živé aplikácie.

Text

Streamovanie
0/5,000 znaky ~0.3s Prvýkrát audio

Hlas & nastavenia

Len modely s možnosťou streamovania.

Živá latencia

Kliknite na položku Stream na meranie latencie prvého zvuku

Výstup

Audio kusy sa tu budú prehrávať, keď sa budú prehrávať.

0:00
Prvý kus:
Celkový počet kusov: 0
Celkový čas:

Ako funguje streamovanie TTS

1. Odoslať text

POST text na /v1/tts/stream/ ako požiadavka na odosielanie udalostí zo servera.

2. Model generuje

Kokoro rozdeľuje text na kúsky a generuje zvuk vzorku po vzorke na GPU.

Softvér podobný softvéru Stream Chunks:

Base64-kódované WAV kusy dorazí cez SSE a začať hrať okamžite.

Počúvať naživo

Užívateľ počuje začiatok vety za menej ako sekundu, a to aj pri dlhých vstupoch.

Prípady použitia

Kde latencia nižšia ako sekunda otvára nové možnosti.

Hlasové agenti

Konverzačné roboty, ktoré reagujú tak rýchlo, ako by to urobil človek.

Živé dabingové vystúpenia

Preklad a nahrávanie streamu v reálnom čase bez prestávok v vyrovnávacej pamäti.

Hry

NPC dialóg, ktorý reaguje na voľby hráčov okamžite, žiadne pred-rendered VO.

Prístupnosť

Čítačky obrazovky a pomocné nástroje, ktoré začnú hovoriť v okamihu, keď používateľ klikne.

Realtime TTS plány

Začnite zdarma, inovujte, keď budete potrebovať viac

Voľný
  • Kokoro streaming (free model)
  • 500 znakov na generáciu
  • 10 bezplatných streamov/deň na anonymného používateľa
  • Sub-sekundové first-audio oneskorenie
  • SSE streamovanie cez HTTPS
Striptease Najobľúbenejší
Vytvoriť bezplatný účet
  • 15 000 znakov pri registrácii
  • 5 000 znakov na stream
  • API kľúč pre programový prístup
  • História generácií
  • Žiadny denný limit streamu
Zaregistrujte sa zdarma
Pre
  • MOSS-TTS-Realtime (ak je živý)
  • 100 000 znakov na stream
  • Prioritná fronta GPU
  • Hlasový agent + Twilio integrácia
  • Vyššie sadzbové limity
Aktualizácia

Často kladené otázky

Prevod textu na reč v reálnom čase streamuje zvukové fragmenty priamo pri generovaní namiesto čakania na dokončenie celej vety. Prvá zvuková vzorka sa zobrazí za menej ako jednu sekundu. Je vhodná pre živých hlasových agentov, dabing a interaktívne aplikácie, kde je latencia dôležitá.

Bežný TTS generuje celý zvukový súbor predtým, ako vráti čokoľvek – počkáte a potom počujete celú vetu naraz. Realtime TTS používa Server-Sent Events (SSE) na streamovanie krátkych zvukových kúskov, ako ich model produkuje.Používateľ počuje začiatok vety takmer okamžite, a to aj pri dlhých vstupoch.

Kokoro je predvolený backend. Generuje zvuk približne 100x rýchlejšie ako v reálnom čase na moderných GPU. Integrujeme MOSS-TTS-Realtime ako alternatívu s vyššou kvalitou.

Typická latencia prvého zvuku na Kokoro je 300-800 ms cez verejné pripojenie, potom dominuje sieťový okruh. Stránka zobrazuje v používateľskom rozhraní nameraný čas do prvého zvuku, takže môžete presne vidieť, ako dlho trvala každá požiadavka.

Hlasoví agenti, ktorí reagujú konverzačne, živé dabing pre streamované médiá, interaktívne herné NPC, čítačky prístupnosti, ktoré začnú hovoriť v okamihu, keď používateľ klikne, a akákoľvek aplikácia, kde čakanie na dve alebo tri sekundy na zvuk by sa cítilo pomalé.

Áno. POST na https://api.tts.ai/v1/tts/stream/ s rovnakým telom ako bežný koncový bod /v1/tts/. Odpoveďou je SSE prúd WAV kusov kódovaných base64. Bezplatná úroveň podporuje 10 generácií za deň na anonymného používateľa; overení používatelia získajú plný počet povolených znakov na účet.

Kokoro používa vopred natrénované hlasy a neklonuje. MOSS-TTS-Realtime (ak je integrovaný) podporuje klonovanie hlasu bez použitia záberu z 3-sekundovej referencie. Pre úplné klonovanie hlasu dnes použite bežnú stránku /text-to-speech/ s Chatterboxom alebo GPT-SoVITS — tie nedokážu streamovať, ale produkujú vlastné hlasy.

Rovnaká cena za znak ako za bežný koncový bod TTS. Kokoro je bezplatná úroveň (1x cena). MOSS-TTS-Realtime bude fungovať na štandardnej úrovni (2x cena), ak je povolený.

Áno – spárujte koncový bod streamovania s hlasovým webhook Twilio, aby ste do telefónneho hovoru priniesli živý zvuk. Naša platforma hlasového agenta to už robí pre IVR a odchádzajúce hovory.Latencia koncového bodu pri telefonáte je zvyčajne 1-2 sekundy vrátane odpovede STT a LLM.

Ak vaša sieť počas prenosu stratí časť dát, prehrávač streamovania bude skôr preskakovať dopredu ako sa zastaví.Pre aplikácie, ktoré nemôžu tolerovať medzery, sa vráťte späť na bežný koncový bod bez streamovania alebo pred spustením prehrávania vytvorte vyrovnávaciu pamäť s 500 ms zvuku.
5.0/5 (1)

Čo by sme mohli zlepšiť? Vaše pripomienky nám pomáhajú riešiť problémy.

Streamovanie reči v reálnom čase

Zaregistrujte sa a odomknite si plný počet znakov a prístup k rozhraniu API.