Realaus laiko TTS

Srautinis tekstas-į-speech su sub-antro pirmojo-audio latentiškumas. Pastatytas balso agentų ir gyvų programų.

Mes dar neturime TTS balsų jūsų kalba. Padėk mums pridėti savo! Parduoti savo balsą

Tekstas

Srautas
0/5,000 simboliai ~0.3s pirmasis garsas

Balso & nustatymai

Tik srautinio fiksavimo modeliai.

Gyvoji laisvė

Spustelėkite Srautas, norėdami išmatuoti pirmojo garso latentiškumą

Išvestis

Garso gabalai bus žaisti čia, kaip jie srautas.

0:00
Pirmas gabalas:
Iš viso gabalų: 0
Visas laikas:

Kaip srautinis TTS veikia

1. Siųsti tekstą

Po/v1/tts/srautas/ kaip serverio-siųstų įvykių užklausą.

2. Modelis generuoja

Kokoro išstumia tekstą ir generuoja garso imtį pagal GPU.

3. Srauto gabalai

Base64-užkoduotas WAV chunks atvykti per SSE ir pradėti žaisti nedelsiant.

4. Klausyti gyvai

Vartotojas girdi sakinio pradžią po sekunde, net dėl ilgos įvesties.

Naudojimo atvejai

Kur poantrinė latentinė atrakina naują patirtį.

Balso agentai

Pokalbių robotai, kurie reaguoja taip pat greitai, kaip ir žmogus nori.

Gyvas dubbavimas

Išversti ir iškasti srautą realiu laiku be buferinių pauzių.

Žaidimai

NPC dialogas, kuris reaguoja į žaidėjo pasirinkimus iš karto, jokių iš anksto VO.

Prieinamumas

Ekrano skaitytuvai ir pagalbiniai įrankiai, kurie pradeda kalbėti momentą, kai vartotojas paspaudžia.

Realaus laiko TTS planai

Pradėti nemokamai, atnaujinti, kai jums reikia daugiau

Neapmuitinama
  • Kokoro transliacija (laisvas modelis)
  • 500 simbolių vienai kartai
  • 10 laisvų srautų per dieną vienam anoniminiam vartotojui
  • Poantrinė pirmojo audio latentiškumas
  • SSE transliacija per HTTPS
Populiariausi
Nemokama paskyra
  • 15 000 simbolių pasirašymo metu
  • 5 000 chars vienam srautui
  • API raktas programinei prieigai
  • Generacijos istorija
  • Nėra dienos srauto dangtelio
Užsiregistruoti nemokamai
Pro
  • MOSS-TTS-Realtime (jei gyva)
  • 100 000 chars vienam srautui
  • Prioritetinis GPU eilė
  • Balso agentas + Twilio integracija
  • Didesnio tarifo ribos
Atnaujinti

Dažnai užduodami klausimai

Realaus laiko tekstas-į-į-speech srautus, kaip jie yra generuojami, užuot laukti, kol visas sakinys bus baigtas. Pirmasis garso mėginys atvyksta per vieną sekundę, todėl jis tinka gyvų balso agentų, dubbingo, ir interaktyvių programų, kur latentinis svarbus.

Reguliarūs TTS generuoja visą garso failą prieš grąžindami ką nors – jūs laukiate, tada išgirsti visą sakinį iš karto. Realtime TTS naudoja Server-Sent Events (SSE) srautui trumpus garso gabalų, kaip modelis juos gamina. Vartotojas girdi sakinio pradžią beveik iš karto, net ant ilgų įėjimų.

Kokoro yra numatytoji programinė sąsaja – ji generuoja garsą maždaug 100x greičiau nei realus laikas šiuolaikinėje GPU. Mes integruojame MOSS-TTS-Realtime kaip aukštesnės kokybės alternatyva; vartotojai galės pasirinkti vieną užklausą, kai tik laivai.

Tipiškas pirmasis-audio latentiškumas Kokoro yra 300-800ms per viešąjį ryšį. Tinklo apvalus triukšmas dominuoja po to. Puslapis paviršiai gyvai išmatuotas laiko-į-pirmą-audio UI, todėl jūs galite pamatyti, kiek laiko kiekvienas prašymas užtruko.

Balso agentai, kurie reaguoja pokalbiu, gyvai dubbing transliuojančios žiniasklaidos, interaktyvus žaidimas NPCs, prieinamumo skaitytojai, kurie pradeda kalbėti momentą vartotojas paspaudimai, ir bet kokia programa, kur laukti dviejų ar trijų sekundžių garso jaustųsi lėtai.

Taip. Podėlis https://api.tts.ai/v1/tts/stream/ su tuo pačiu kūnu, kaip ir reguliarus /v1/tts/termine. Atsakas yra SSE srautas bazės64-encoded WAV chunks. Laisva pakopa palaiko 10 kartų per dieną vienam anoniminiam vartotojui; autentiški vartotojai gauna visą už sąskaitą charakterio dydžio.

Kokoro naudoja iš anksto apmokytus balsus ir ne klonuoja. MOSS-TTS-Realtime (jei integruota) palaiko nulinio atspalvio balso klonavimą iš 3 sekundžių nuorodos. Pilno balso klonavimui šiandien, naudokite reguliarų / teksto- į- speech/ puslapį su Chatterbox arba GPT- SoVITS - tie nėra transliuojamas- capable, bet gamina pasirinktinius balsus.

Tas pats, kaip ir įprastas TTS rezultatas. Kokoro yra nemokamas lygis (1x kaina). MOSS-TTS-Realtime bus paleisti standartinis lygis (2x kaina) kai įjungta. Srauto protokolas neprideda kainų antkainis.

Taip — sujungti transliuojamąją vertinamąją baigtį su Twilio balso webhook, kad pamaitintų gyvą garsą į telefono skambutį. Mūsų balso agentas platforma jau daro tai IVR ir išeinamasis skambutis. Visiškai latentinis telefono skambučio paprastai yra 1-2 sekundžių, įskaitant STT ir LLM atsaką.

Jei jūsų tinklas numeta gabalą tranzito, srautinis grotuvas praleis į priekį, o ne įstrigti. Tai taikoma programoms, kurios netoleruoja spragų, prieš pradėdamos groti, grįžkite į įprastą ne srautinę vertinamąją baigtį arba 500 m buferį garso.
5.0/5 (1)

Ką mes galėtume pagerinti? Jūsų atsiliepimai padeda mums išspręsti problemas.

Srauto kalba realiu laiku

Nemokami pirmosios 10 kartų per dieną. Užsiregistruoti atrakinti visą charakterio pašalpa ir API prieiga.