Raporto një gabim / kërkesë për funksion

Realtime TTS

Fluturimi i tekstit në fjalë me një vonesë të parë të zërit prej nën një sekonde. I ndërtuar për agjentë zëri dhe aplikacione të drejtpërdrejta.

Regjistrohu pa pagesë

Ende nuk kemi zëra TTS në gjuhën tuaj. Na ndihmoni të shtojmë të tuajat! Shit zërin tënd

Teksti

Fluturimi

0/5,000 gërma ~0.3s audio

Rregullimet e zërit

Modeli Vetëm modelet e aftë për transmetim.

Zëri

Shpejtësia 1.0x

Latency

—

Kliko në Flux për të matur kohëzgjatjen e parë të audios

Rezultati

Kokat e audios do të luhen këtu ndërsa ato hyjnë.

Si funksionon Streaming TTS

Dërgo tekst

POST tekst në /v1/tts/stream/ si një kërkesë për ngjarje të dërguar nga serveri.

2. Modeli gjeneron

Kokoro copëton tekstin dhe gjeneron audio shembulli-me-shembulli në GPU.

3. Fluksi i fragmenteve

Base64-encoded WAV copëza arrijnë mbi SSE dhe fillojnë të luajnë menjëherë.

Dëgjo

Përdoruesi dëgjon fillimin e fjalisë në më pak se një sekond, edhe në hyrje të gjata.

Përdorimi

Ku vonesat e shkurtra të sekundit të hapin përvoja të reja.

Zëri

Botët bisedues që përgjigjen aq shpejt sa një njeri.

Dublimi i drejtpërdrejtë

Përkthe dhe dublojë një rrjedhje në kohë reale pa pushimet e buferit.

Lojra

Dialogu NPC që reagon menjëherë ndaj zgjedhjeve të lojtarit, pa VO të parapara.

Açesibiliteti

Lexues ekrani dhe mjete ndihmëse që fillojnë të flasin në momentin që një përdorues klikon.

Plani i TTS në kohë reale

Fillo falas, përmirëso kur të duash më shumë

I lirë

Kokoro streaming (model i lirë)
500 karakterë për gjeneratë
10 streams falas/ditë për përdorues anonim
Latency e audios së parë sub-second
SSE streaming mbi HTTPS

Popullariteti

Profili i lirë

15,000 karaktere në regjistrim
5,000 karakterë për stream
Kyçi API për hyrjen me program
Gjenerata
Pa kufizim të përditshëm të rrjedhjes

Regjistrohu

Pro

MOSS-TTS-Realtime (kur në jetë)
100,000 karakterë për stream
Prioriteti i GPU
Agjenti i zërit + integrimi i Twilio
Limitet e normave më të larta

Përmirëso

Pyetje të shpeshta

Teksti në fjalë në kohë reale transmeton copëza audio ndërsa ato gjenerohen, në vend të pritjes për të gjithë fjalinë për t'u përfunduar. Shembulli i parë i audios arrin në më pak se një sekond, duke e bërë të përshtatshëm për agjentë të zërit të drejtpërdrejtë, dublim dhe aplikacione interaktive ku vonesa ka rëndësi.

TTS i rregullt gjeneron file audio të plotë para se të kthehet ndonjë gjë - ju prisni, pastaj dëgjoni të gjithë fjalinë menjëherë. TTS në kohë reale përdor Server-Send Events (SSE) për të transmetuar copëza të shkurtra audio ndërsa modeli i prodhon ato. Përdoruesi dëgjon fillimin e fjalisë pothuajse menjëherë, edhe në hyrje të gjata.

Kokoro është backend i prezgjedhur — gjeneron audion rreth 100 herë më shpejt se sa në kohë reale në një GPU moderne. Ne po integrojmë MOSS-TTS-Realtime si një alternativë me cilësi më të lartë; përdoruesit do të jenë në gjendje të zgjedhin sipas kërkesës sapo të jetë në dispozicion.

Kokoro është 300-800ms mbi një lidhje publike. Rrjeti dominon pas kësaj. Faqja shfaq kohën e matur drejtpërdrejt deri tek audio e parë në UI kështu që mund të shihni saktësisht sa kohë mori çdo kërkesë.

Agjentët e zërit që përgjigjen bisedave, dublimi i drejtpërdrejtë për mediat e rrjetit, NPC-të interaktive të lojës, lexuesit e açesibilitetit që fillojnë të flasin në momentin që një përdorues klikon, dhe çdo aplikim ku pritja dy ose tre sekonda për audio do të ndihej e ngadalshme.

Po. POST tek https://api.tts.ai/v1/tts/stream/ me të njëjtin trup si pika e fundit e rregullt /v1/tts/. Përgjigjia është një rrjedhje SSE e copëzave WAV të koduara me base64. Niveli i lirë suporton 10 gjenerata në ditë për përdorues anonim; përdoruesit e autentifikuar marrin të gjithë karakterët për llogari.

Kokoro përdor zëra të para-trenuar dhe nuk klonon. MOSS-TTS-Realtime (kur është i integruar) mbështet klonimin e zërit zero-shot nga një referencë 3-sekondare. Për klonimin e plotë të zërit sot, përdor faqen e rregullt /text-to-speech/ me Chatterbox ose GPT-SoVITS — këto nuk janë të aftë për streaming por prodhojnë zëra të personalizuar.

E njëjta kosto e karakterit si pika e fundit e rregullt e TTS. Kokoro është nivel i lirë (1x kosto). MOSS-TTS-Realtime do të funksionojë në nivelin standard (2x kosto) kur të jetë aktivuar. Protokolli i transmetimit nuk shton asnjë pagesë shtesë.

Po — çifto pikën e fundit të transmetimit me një webhook zëri Twilio për të furnizuar audion në një thirrje telefonike. Platforma jonë e agjentit të zërit e bën këtë tashmë për IVR dhe thirrjet në dalje. Latenti i një thirrje telefonike nga fundi në fund është zakonisht 1-2 sekonda duke përfshirë përgjigjen STT dhe LLM.

Nëse rrjeti juaj lëshon një copë gjatë tranzitit, stream player do të kalojë përpara në vend të bllokimit. Për aplikativët që nuk mund të tolerojnë hapësirat, kthehuni tek pika e fundit e rregullt jo-streaming, ose mbuloni 500ms audio para se të filloni riprodhimin.

5.0/5 (1)

Flukso fjalët në kohë reale

Pa pagesë për 10 gjeneratat e para në ditë. Regjistrohu për të zhbllokuar të gjithë karakterët dhe hyrjen në API.

Regjistrohu pa pagesë Shiko çmimin

Realtime TTS

Teksti

Rregullimet e zërit

Latency

Rezultati

Si funksionon Streaming TTS

Dërgo tekst

2. Modeli gjeneron

3. Fluksi i fragmenteve

Dëgjo

Përdorimi

Zëri

Dublimi i drejtpërdrejtë

Lojra

Açesibiliteti

Plani i TTS në kohë reale

Pyetje të shpeshta

Çfarë është TTS në kohë reale?

Si është realtime TTS ndryshe nga TTS e rregullt?

Cili model e bën faqen në kohë reale?

Sa shpejt është vonesa e parë e zërit?

Çfarë mund të ndërtoj me TTS në kohë reale?

A ka një API për TTS në kohë reale?

A e mbështet klonimin e zërit?

Sa kushton TTS në kohë reale?

Mund ta përdor për telefonata?

Pse zëri ndërpritet ndonjëherë në mes të fjalës?

Flukso fjalët në kohë reale