Reaalajas TTS

Streaming teksti kõne-kõne sub-second esimese-audio latency. Ehitatud hääl agendid ja live rakendused.

Meil pole veel TTS-hääli sinu keeles. Müü oma hääl

Tekst

Streaming
0/5,000 märgid ~0.3s esimene audio

Hääle & seadistused

Streaming-peab olema ainult mudelid.

Elav puhkus

Vajuta Stream mõõtmiseks esimese-audio latency

Väljund

Audio tükid mängivad siin, kui nad sisse voolavad.

0:00
Esimene tükk:
Kokku tükid: 0
Koguaeg:

Kuidas trimmimine TTS toimib

1. Saada tekst

POST: /v1/tts/stream/ kui serveri saadetud Sündmuste päring.

2. Mudel genereerib

Kokoro tükeldab teksti ja genereerib GPU-l audionäidise.

3. Stream Tükid

Base64 kodeeritud WAV tükid saabuvad üle SSE ja alustada mängimist kohe.

4. Kuula otse-eetris

Kasutaja kuuleb lause algust sekundi jooksul, isegi pikkadel sisenditel.

Kasutusklassid

Kui sub-sekund latency avab uusi kogemusi.

Hääleesindajad

Vestlusrobotid, mis reageerivad nii kiiresti kui inimene.

Live Dubbing

Tõlgi ja dub oja reaalajas ilma puhverdatud pausid.

Mängud

NPC dialoog, mis reageerib mängija valikutele koheselt, eelnevalt muudetud VO.

Ligipääsetavus

Screen lugejad ja abivahendid, mis hakkavad rääkima hetkel kasutaja klõpsab.

Reaalajas TTS plaanid

Alusta tasuta, uuenda, kui vajad rohkem

Vaba
  • Kokoro streaming (vaba mudel)
  • 500 tähemärki generatsiooni kohta
  • 10 vaba voolu päevas anonüümse kasutaja kohta
  • Sub- second first-audio latency
  • SSE streaming üle HTTPS
Kõige populaarsem
Vaba konto
  • 15 000 tähemärki registreerumisel
  • 5000 märki voolu kohta
  • API võti programmaalseks juurdepääsuks
  • Põlvnemislugu
  • Päevane voolukate puudub
Registreeru tasuta
Pro
  • MOSS-TTS-Realtime (elus olles)
  • 100 000 märki voolu kohta
  • Prioriteetne GPU järjekord
  • Häälagent + Twilio integratsioon
  • Kõrgemad maksumäärad
Uuendamine

Korduma kippuvad küsimused

Reaalajas tekstilt kõnele voolud audio tükid, sest nad on loodud, selle asemel, et oodata kogu lause lõpetada. Esimene audio näidis saabub alla ühe sekundi, muutes selle sobivaks live hääl agendid, dubleerimine ja interaktiivne rakendused, kus latency loeb.

Regulaarne TTS genereerib täieliku audiofaili enne, kui tagastad midagi, mida ootad, siis kuuled kogu lause korraga. Reaalajas TTS kasutab Server- Saadetud Sündmused (SSE), et vooge lühikese audio tükid nagu mudel toodab neid. Kasutaja kuuleb lause algust peaaegu kohe, isegi pikkade sisendite.

Kokoro on vaikimisi backend ® see toodab audio umbes 100x kiiremini kui reaalajas tänapäeva GPU. Me integreerime MOSS-TTS-Realtime kui kvaliteetsem alternatiiv; kasutajad saavad valida ühe taotluse, kui see laevad.

Tüüpiline esimese-audio latency kohta Kokoro on 300-800ms üle avaliku ühenduse. Võrgu ümarreis domineerib pärast seda. Lehe pindade live mõõdetud aeg- kuni-esma-audio UI, nii et näete täpselt, kui kaua iga taotluse võttis.

Hääle agendid, kes reageerivad vestluslikult, live dubbing streaming meedia, interaktiivne mäng NPCs, ligipääsetavus lugejad, kes hakkavad rääkima hetkel kasutaja klõpsab, ja iga rakendus, kus ootamine kaks või kolm sekundit heli tunneks loid.

Jah. Post to https://api.tts.ai/v1/tts/stream/ with same body as the Regulaar /v1/tts/ ending. Reaktsioon on SSE stream of base64-encoded WAV chunks. Vaba tase toetab 10 põlvkonda päevas ühe anonüümse kasutaja kohta; autentitud kasutajad saavad täieliku kontopõhise märgivaru.

Kokoro kasutab eeltreenitud hääli ega klooni. MOSS- TTS- Realtime (kui see on integreeritud) toetab 3- sekundisest viitest nullkuuma hääle kloonimist. Täishäälte kloonimiseks kasuta täna Chatterbox' i või GPT- Sovits' i korral tavalist/teksti kõneks/ lehte, mis ei ole streaming- capaable, vaid tekitab kohandatud hääli.

Sama märk kulu nagu regulaarne TTS tulemusnäitaja. Kokoro on vaba tase (1x kulu). MOSS- TTS-Realtime töötab standardtasemel (2x kulu), kui see on lubatud. Salvestusprotokoll ei lisa mingit hinnalisa.

Jah ® paari streaming tulemusnäitaja koos Twilio hääl webhook sööta live audio telefonikõne. Meie hääl agent platvorm juba teeb seda IVR ja väljaminev kõne. Lõpp latency telefonikõne on tavaliselt 1-2 sekundit sealhulgas STT ja LLM vastus.

Kui sinu võrk kukub tükk transiidi, streaming mängija vahele, mitte venitada. Rakendused, mis ei talu lünki, tagasi regulaarselt mitte- streaming tulemusnäitaja, või puhver 500ms heli enne alustamist taasesitus.
5.0/5 (1)

Mida me võiks parandada? Teie tagasiside aitab meil lahendada küsimusi.

Stream Kõne reaalajas

Tasuta esimese 10 generatsiooni päevas. Registreeru, et avada täielik märgivarusid ja API juurdepääsu.