Realtempa TTS

Flua teksto-al-parolo kun subsekunda unua-aŭda latenteco. Konstruita por voĉaj agentoj kaj realaj aplikaĵoj.

Teksto

Fluo
0/5,000 signoj ~0.3s unua aŭdo

& Voĉagordo

Nur la skeletaj partoj estas videblaj.

Nivela latenteco

Klaku Fluo por mezuri la unuan sonon

Eligo

Sonaj fragmentoj estos ludataj ĉi tie dum ili fluas.

0:00
Unua peco:
Totala nombro da pecoj: 0
Totala tempo:

Kiel funkcias la flua TTS

1. Sendi tekston

POST text to /v1/tts/stream/ as a Server-Sent Events request.

2. Modelo generas

Kokoro tranĉas la tekston kaj generas aŭd-ekzemplon-post-ekzemplon sur la GPU.

3. Fluo- partoj

La 64-bita kodo de la DOS-a operaciumo estas DOS-64, kaj ĝi estas uzata en la plej multaj operaciumoj.

4. Aŭskultu rekte

La vortoj de la unua frazo estas en la unua linio, la vortoj de la dua frazo en la dua linio.

Uzkazoj

La subaj partoj de la folioj estas senfoliaj.

Voĉaj agentoj

La ĉasado okazas per rapidaj paŝoj, kiuj similas al tiuj de homo.

Rete

Traduki kaj dubli fluon en reala tempo sen bufraj paŭzoj.

LudojName

La NPC-dialogo kiu reagas al la ludantoj-elektoj tuj, sen antaŭ-renderigita VO.

Alirebleco

Ekranlegiloj kaj helpiloj kiuj komencas paroli kiam uzanto klakadas.

Realtempaj TTS-planoj

Komencu senpage, ĝisdatigu kiam vi bezonas pli

Libera
  • Kokoro fluanta (libera modelo)
  • 500 signoj po generacio
  • 10 liberaj fluoj/tago por anonima uzanto
  • Subsekunda unua-aŭda prokrasto
  • SSE fluado tra HTTPS
Plej populara
Libera konto
  • 15, 000 signoj ĉe enskribo
  • 5000 signoj po fluo
  • API-ŝlosilo por programa aliro
  • Genera historio
  • Neniu ĉiutaga flulimigo
Aliĝi senpage
Pro
  • MOSS- TTS- Realtime (se viva)
  • 100, 000 signoj po fluo
  • GPU- prioritata vico
  • Voĉa agento + Twilio-integriĝo
  • Pli altaj limoj de rapideco
Ĝisdatigi

Oftaj demandoj

Realtempa tekst-al-vorta transdono fluigas aŭdfragmentojn dum ili estas generataj, anstataŭ atendi la kompletiĝon de la tuta frazo. La unua aŭdspecimenado okazas en malpli ol unu sekundo, kio faras ĝin taŭga por viva voĉo, dublado kaj interagaj aplikaĵoj, kie la prokrasto gravas.

Normala TTS generas la plenan sondosieron antaŭ ol redoni ion ajn - vi atendas, tiam aŭdas la tutan frazon samtempe. Realtempa TTS uzas Servile senditajn eventojn (SSE) por fluigi mallongajn sonajn pecojn dum la modelo produktas ilin. La uzanto aŭdas la komencon de la frazo preskaŭ tuj, eĉ ĉe longaj enigoj.

Kokoro estas la defaŭlta interna programo — ĝi generas sonon proksimume 100-oble pli rapide ol realtempe per moderna grafika procesoro. Ni integrigas MOSS-TTS-Realtime kiel pli altkvalitan alternativon; uzantoj povos elekti laŭ peto post kiam tio estos havebla.

Tipa unua-aŭda prokrasto ĉe Kokoro estas 300-800 ms super publika konekto. Ret-revenvojaĝo dominas post tio. La paĝo montras la realtempe mezuritan tempon ĝis la unua-aŭdo en la UI tiel ke vi povas vidi precize kiom longe ĉiu peto daŭris.

Voĉaj agentoj kiuj respondas konversacieme, viva dublado por fluanta amaskomunikilaro, interagaj lud-NPCoj, alireblecaj legantoj kiuj komencas paroli la momenton kiam uzanto klakadas, kaj ajna aplikaĵo kie atendi du aŭ tri sekundojn por aŭdo sentus malrapide.

Jes. POST al https://api.tts.ai/v1/tts/stream/ kun la sama korpo kiel la regula /v1/tts/ finpunkto. La respondo estas SSE fluo de base64-kodaj WAV-fragmentoj. La libera nivelo subtenas 10 generaciojn tage por anonima uzanto; aŭtentigitaj uzantoj ricevas la plenan signo-permeson por ĉiu konto.

Kokoro uzas antaŭtrenitajn voĉojn kaj ne klonas. MOSS- TTS- Realtime (se integrita) subtenas nulan voĉan klonadon de 3- sekunda referenco. Por plena voĉklonado nuntempe, uzu la regulan /text-to-speech/ paĝon kun Chatterbox aŭ GPT- SoVITS — tiuj ne estas flueblaj sed produktas proprajn voĉojn.

Same sign- kostoj kiel la regula TTS finopunkto. Kokoro estas libera- nivelo (1x kosto). MOSS- TTS- Realtime ruliĝos ĉe la norma nivelo (2x kosto) kiam ebligita. La fluanta protokolo ne aldonas ajnan prezon.

Jes — parigi la fluantan finpunkton kun voĉa retejo de Twilio por enigi la realajn sonojn en telefonvokon. Nia voĉagenteja platformo jam faras tion por IVR kaj elirantaj telefonvokoj. La fin-al-fina prokrasto de telefonvoko estas tipe 1-2 sekundoj inkluzive de STT kaj LLM-respondo.

Se via reto perdas parton dum la transsendo, la flua legilo saltos antaŭen anstataŭ halti. Por aplikaĵoj kiuj ne povas toleri interrompojn, reiru al la normala neflua fino, aŭ bufru 500 ms da sono antaŭ ol komenci la ludadon.
5.0/5 (1)

Kion ni povus plibonigi? Via reago helpas nin solvi problemojn.

Fluigi parolon en realtempaComment

Senpage por la unuaj 10 generacioj tage. Aliĝi por malŝlosi la plenan signo- permeson kaj API- aliron.