Realtime TTS

Fluturimi i tekstit në fjalë me një vonesë të parë të zërit prej nën një sekonde. I ndërtuar për agjentë zëri dhe aplikacione të drejtpërdrejta.

Ende nuk kemi zëra TTS në gjuhën tuaj. Na ndihmoni të shtojmë të tuajat! Shit zërin tënd

Teksti

Fluturimi
0/5,000 gërma ~0.3s audio

Rregullimet e zërit

Vetëm modelet e aftë për transmetim.

Latency

Kliko në Flux për të matur kohëzgjatjen e parë të audios

Rezultati

Kokat e audios do të luhen këtu ndërsa ato hyjnë.

0:00
Koha e parë:
Totali i copëzave: 0
Koha totale:

Si funksionon Streaming TTS

Dërgo tekst

POST tekst në /v1/tts/stream/ si një kërkesë për ngjarje të dërguar nga serveri.

2. Modeli gjeneron

Kokoro copëton tekstin dhe gjeneron audio shembulli-me-shembulli në GPU.

3. Fluksi i fragmenteve

Base64-encoded WAV copëza arrijnë mbi SSE dhe fillojnë të luajnë menjëherë.

Dëgjo

Përdoruesi dëgjon fillimin e fjalisë në më pak se një sekond, edhe në hyrje të gjata.

Përdorimi

Ku vonesat e shkurtra të sekundit të hapin përvoja të reja.

Zëri

Botët bisedues që përgjigjen aq shpejt sa një njeri.

Dublimi i drejtpërdrejtë

Përkthe dhe dublojë një rrjedhje në kohë reale pa pushimet e buferit.

Lojra

Dialogu NPC që reagon menjëherë ndaj zgjedhjeve të lojtarit, pa VO të parapara.

Açesibiliteti

Lexues ekrani dhe mjete ndihmëse që fillojnë të flasin në momentin që një përdorues klikon.

Plani i TTS në kohë reale

Fillo falas, përmirëso kur të duash më shumë

I lirë
  • Kokoro streaming (model i lirë)
  • 500 karakterë për gjeneratë
  • 10 streams falas/ditë për përdorues anonim
  • Latency e audios së parë sub-second
  • SSE streaming mbi HTTPS
Popullariteti
Profili i lirë
  • 15,000 karaktere në regjistrim
  • 5,000 karakterë për stream
  • Kyçi API për hyrjen me program
  • Gjenerata
  • Pa kufizim të përditshëm të rrjedhjes
Regjistrohu
Pro
  • MOSS-TTS-Realtime (kur në jetë)
  • 100,000 karakterë për stream
  • Prioriteti i GPU
  • Agjenti i zërit + integrimi i Twilio
  • Limitet e normave më të larta
Përmirëso

Pyetje të shpeshta

Teksti në fjalë në kohë reale transmeton copëza audio ndërsa ato gjenerohen, në vend të pritjes për të gjithë fjalinë për t'u përfunduar. Shembulli i parë i audios arrin në më pak se një sekond, duke e bërë të përshtatshëm për agjentë të zërit të drejtpërdrejtë, dublim dhe aplikacione interaktive ku vonesa ka rëndësi.

TTS i rregullt gjeneron file audio të plotë para se të kthehet ndonjë gjë - ju prisni, pastaj dëgjoni të gjithë fjalinë menjëherë. TTS në kohë reale përdor Server-Send Events (SSE) për të transmetuar copëza të shkurtra audio ndërsa modeli i prodhon ato. Përdoruesi dëgjon fillimin e fjalisë pothuajse menjëherë, edhe në hyrje të gjata.

Kokoro është backend i prezgjedhur — gjeneron audion rreth 100 herë më shpejt se sa në kohë reale në një GPU moderne. Ne po integrojmë MOSS-TTS-Realtime si një alternativë me cilësi më të lartë; përdoruesit do të jenë në gjendje të zgjedhin sipas kërkesës sapo të jetë në dispozicion.

Kokoro është 300-800ms mbi një lidhje publike. Rrjeti dominon pas kësaj. Faqja shfaq kohën e matur drejtpërdrejt deri tek audio e parë në UI kështu që mund të shihni saktësisht sa kohë mori çdo kërkesë.

Agjentët e zërit që përgjigjen bisedave, dublimi i drejtpërdrejtë për mediat e rrjetit, NPC-të interaktive të lojës, lexuesit e açesibilitetit që fillojnë të flasin në momentin që një përdorues klikon, dhe çdo aplikim ku pritja dy ose tre sekonda për audio do të ndihej e ngadalshme.

Po. POST tek https://api.tts.ai/v1/tts/stream/ me të njëjtin trup si pika e fundit e rregullt /v1/tts/. Përgjigjia është një rrjedhje SSE e copëzave WAV të koduara me base64. Niveli i lirë suporton 10 gjenerata në ditë për përdorues anonim; përdoruesit e autentifikuar marrin të gjithë karakterët për llogari.

Kokoro përdor zëra të para-trenuar dhe nuk klonon. MOSS-TTS-Realtime (kur është i integruar) mbështet klonimin e zërit zero-shot nga një referencë 3-sekondare. Për klonimin e plotë të zërit sot, përdor faqen e rregullt /text-to-speech/ me Chatterbox ose GPT-SoVITS — këto nuk janë të aftë për streaming por prodhojnë zëra të personalizuar.

E njëjta kosto e karakterit si pika e fundit e rregullt e TTS. Kokoro është nivel i lirë (1x kosto). MOSS-TTS-Realtime do të funksionojë në nivelin standard (2x kosto) kur të jetë aktivuar. Protokolli i transmetimit nuk shton asnjë pagesë shtesë.

Po — çifto pikën e fundit të transmetimit me një webhook zëri Twilio për të furnizuar audion në një thirrje telefonike. Platforma jonë e agjentit të zërit e bën këtë tashmë për IVR dhe thirrjet në dalje. Latenti i një thirrje telefonike nga fundi në fund është zakonisht 1-2 sekonda duke përfshirë përgjigjen STT dhe LLM.

Nëse rrjeti juaj lëshon një copë gjatë tranzitit, stream player do të kalojë përpara në vend të bllokimit. Për aplikativët që nuk mund të tolerojnë hapësirat, kthehuni tek pika e fundit e rregullt jo-streaming, ose mbuloni 500ms audio para se të filloni riprodhimin.
5.0/5 (1)

Çfarë mund të përmirësojmë? Feedback-i juaj na ndihmon të zgjidhim problemet.

Flukso fjalët në kohë reale

Pa pagesë për 10 gjeneratat e para në ditë. Regjistrohu për të zhbllokuar të gjithë karakterët dhe hyrjen në API.