Nahlásiť chybu / požiadavku na funkciu

Realtime TTS

Streamovanie prevodu textu na reč s latenciou prvého zvuku nižšou ako sekunda. Vytvorené pre hlasových agentov a živé aplikácie.

Zaregistrujte sa zdarma

Text

Streamovanie

0/5,000 znaky ~0.3s Prvýkrát audio

Hlas & nastavenia

Model Len modely s možnosťou streamovania.

Hlas

Rýchlosť 1.0x

Živá latencia

—

Kliknite na položku Stream na meranie latencie prvého zvuku

Výstup

Audio kusy sa tu budú prehrávať, keď sa budú prehrávať.

Ako funguje streamovanie TTS

1. Odoslať text

POST text na /v1/tts/stream/ ako požiadavka na odosielanie udalostí zo servera.

2. Model generuje

Kokoro rozdeľuje text na kúsky a generuje zvuk vzorku po vzorke na GPU.

Softvér podobný softvéru Stream Chunks:

Base64-kódované WAV kusy dorazí cez SSE a začať hrať okamžite.

Počúvať naživo

Užívateľ počuje začiatok vety za menej ako sekundu, a to aj pri dlhých vstupoch.

Prípady použitia

Kde latencia nižšia ako sekunda otvára nové možnosti.

Hlasové agenti

Konverzačné roboty, ktoré reagujú tak rýchlo, ako by to urobil človek.

Živé dabingové vystúpenia

Preklad a nahrávanie streamu v reálnom čase bez prestávok v vyrovnávacej pamäti.

Hry

NPC dialóg, ktorý reaguje na voľby hráčov okamžite, žiadne pred-rendered VO.

Prístupnosť

Čítačky obrazovky a pomocné nástroje, ktoré začnú hovoriť v okamihu, keď používateľ klikne.

Realtime TTS plány

Začnite zdarma, inovujte, keď budete potrebovať viac

Voľný

Kokoro streaming (free model)
500 znakov na generáciu
10 bezplatných streamov/deň na anonymného používateľa
Sub-sekundové first-audio oneskorenie
SSE streamovanie cez HTTPS

Striptease Najobľúbenejší

Vytvoriť bezplatný účet

15 000 znakov pri registrácii
5 000 znakov na stream
API kľúč pre programový prístup
História generácií
Žiadny denný limit streamu

Zaregistrujte sa zdarma

Pre

MOSS-TTS-Realtime (ak je živý)
100 000 znakov na stream
Prioritná fronta GPU
Hlasový agent + Twilio integrácia
Vyššie sadzbové limity

Aktualizácia

Často kladené otázky

Prevod textu na reč v reálnom čase streamuje zvukové fragmenty priamo pri generovaní namiesto čakania na dokončenie celej vety. Prvá zvuková vzorka sa zobrazí za menej ako jednu sekundu. Je vhodná pre živých hlasových agentov, dabing a interaktívne aplikácie, kde je latencia dôležitá.

Bežný TTS generuje celý zvukový súbor predtým, ako vráti čokoľvek – počkáte a potom počujete celú vetu naraz. Realtime TTS používa Server-Sent Events (SSE) na streamovanie krátkych zvukových kúskov, ako ich model produkuje.Používateľ počuje začiatok vety takmer okamžite, a to aj pri dlhých vstupoch.

Kokoro je predvolený backend. Generuje zvuk približne 100x rýchlejšie ako v reálnom čase na moderných GPU. Integrujeme MOSS-TTS-Realtime ako alternatívu s vyššou kvalitou.

Typická latencia prvého zvuku na Kokoro je 300-800 ms cez verejné pripojenie, potom dominuje sieťový okruh. Stránka zobrazuje v používateľskom rozhraní nameraný čas do prvého zvuku, takže môžete presne vidieť, ako dlho trvala každá požiadavka.

Hlasoví agenti, ktorí reagujú konverzačne, živé dabing pre streamované médiá, interaktívne herné NPC, čítačky prístupnosti, ktoré začnú hovoriť v okamihu, keď používateľ klikne, a akákoľvek aplikácia, kde čakanie na dve alebo tri sekundy na zvuk by sa cítilo pomalé.

Áno. POST na https://api.tts.ai/v1/tts/stream/ s rovnakým telom ako bežný koncový bod /v1/tts/. Odpoveďou je SSE prúd WAV kusov kódovaných base64. Bezplatná úroveň podporuje 10 generácií za deň na anonymného používateľa; overení používatelia získajú plný počet povolených znakov na účet.

Kokoro používa vopred natrénované hlasy a neklonuje. MOSS-TTS-Realtime (ak je integrovaný) podporuje klonovanie hlasu bez použitia záberu z 3-sekundovej referencie. Pre úplné klonovanie hlasu dnes použite bežnú stránku /text-to-speech/ s Chatterboxom alebo GPT-SoVITS — tie nedokážu streamovať, ale produkujú vlastné hlasy.

Rovnaká cena za znak ako za bežný koncový bod TTS. Kokoro je bezplatná úroveň (1x cena). MOSS-TTS-Realtime bude fungovať na štandardnej úrovni (2x cena), ak je povolený.

Áno – spárujte koncový bod streamovania s hlasovým webhook Twilio, aby ste do telefónneho hovoru priniesli živý zvuk. Naša platforma hlasového agenta to už robí pre IVR a odchádzajúce hovory.Latencia koncového bodu pri telefonáte je zvyčajne 1-2 sekundy vrátane odpovede STT a LLM.

Ak vaša sieť počas prenosu stratí časť dát, prehrávač streamovania bude skôr preskakovať dopredu ako sa zastaví.Pre aplikácie, ktoré nemôžu tolerovať medzery, sa vráťte späť na bežný koncový bod bez streamovania alebo pred spustením prehrávania vytvorte vyrovnávaciu pamäť s 500 ms zvuku.

5.0/5 (1)

Streamovanie reči v reálnom čase

Zaregistrujte sa a odomknite si plný počet znakov a prístup k rozhraniu API.

Zaregistrujte sa zdarma Zobraziť cenové ponuky

Realtime TTS

Text

Hlas & nastavenia

Živá latencia

Výstup

Ako funguje streamovanie TTS

1. Odoslať text

2. Model generuje

Softvér podobný softvéru Stream Chunks:

Počúvať naživo

Prípady použitia

Hlasové agenti

Živé dabingové vystúpenia

Hry

Prístupnosť

Realtime TTS plány

Často kladené otázky

Čo je to realtime TTS?

Ako sa realtime TTS líši od bežného TTS?

Ktorý model poháňa stránku v reálnom čase?

Aká je latencia prvého zvuku?

Čo môžem vytvoriť s realtime TTS?

Existuje API pre realtime TTS?

Podporuje klonovanie hlasu?

Koľko stojí realtime TTS?

Môžem ho použiť na telefonovanie?

Prečo sa zvuk niekedy preruší uprostred slova?

Streamovanie reči v reálnom čase