Raporti cimon / funkcipeton

Realtempa TTS

Flua teksto-al-parolo kun subsekunda unua-aŭda latenteco. Konstruita por voĉaj agentoj kaj realaj aplikaĵoj.

Aliĝi senpage

Ni faris Vendu vian voĉon

Teksto

Fluo

0/5,000 signoj ~0.3s unua aŭdo

& Voĉagordo

& Modelo: Nur la skeletaj partoj estas videblaj.

Voĉo

Rapideco 1.0x

Nivela latenteco

—

Klaku Fluo por mezuri la unuan sonon

Eligo

Sonaj fragmentoj estos ludataj ĉi tie dum ili fluas.

Kiel funkcias la flua TTS

1. Sendi tekston

POST text to /v1/tts/stream/ as a Server-Sent Events request.

2. Modelo generas

Kokoro tranĉas la tekston kaj generas aŭd-ekzemplon-post-ekzemplon sur la GPU.

3. Fluo- partoj

La 64-bita kodo de la DOS-a operaciumo estas DOS-64, kaj ĝi estas uzata en la plej multaj operaciumoj.

4. Aŭskultu rekte

La vortoj de la unua frazo estas en la unua linio, la vortoj de la dua frazo en la dua linio.

Uzkazoj

La subaj partoj de la folioj estas senfoliaj.

Voĉaj agentoj

La ĉasado okazas per rapidaj paŝoj, kiuj similas al tiuj de homo.

Rete

Traduki kaj dubli fluon en reala tempo sen bufraj paŭzoj.

LudojName

La NPC-dialogo kiu reagas al la ludantoj-elektoj tuj, sen antaŭ-renderigita VO.

Alirebleco

Ekranlegiloj kaj helpiloj kiuj komencas paroli kiam uzanto klakadas.

Realtempaj TTS-planoj

Komencu senpage, ĝisdatigu kiam vi bezonas pli

Libera

Kokoro fluanta (libera modelo)
500 signoj po generacio
10 liberaj fluoj/tago por anonima uzanto
Subsekunda unua-aŭda prokrasto
SSE fluado tra HTTPS

Plej populara

Libera konto

15, 000 signoj ĉe enskribo
5000 signoj po fluo
API-ŝlosilo por programa aliro
Genera historio
Neniu ĉiutaga flulimigo

Aliĝi senpage

Pro

MOSS- TTS- Realtime (se viva)
100, 000 signoj po fluo
GPU- prioritata vico
Voĉa agento + Twilio-integriĝo
Pli altaj limoj de rapideco

Ĝisdatigi

Oftaj demandoj

Realtempa tekst-al-vorta transdono fluigas aŭdfragmentojn dum ili estas generataj, anstataŭ atendi la kompletiĝon de la tuta frazo. La unua aŭdspecimenado okazas en malpli ol unu sekundo, kio faras ĝin taŭga por viva voĉo, dublado kaj interagaj aplikaĵoj, kie la prokrasto gravas.

Normala TTS generas la plenan sondosieron antaŭ ol redoni ion ajn - vi atendas, tiam aŭdas la tutan frazon samtempe. Realtempa TTS uzas Servile senditajn eventojn (SSE) por fluigi mallongajn sonajn pecojn dum la modelo produktas ilin. La uzanto aŭdas la komencon de la frazo preskaŭ tuj, eĉ ĉe longaj enigoj.

Kokoro estas la defaŭlta interna programo — ĝi generas sonon proksimume 100-oble pli rapide ol realtempe per moderna grafika procesoro. Ni integrigas MOSS-TTS-Realtime kiel pli altkvalitan alternativon; uzantoj povos elekti laŭ peto post kiam tio estos havebla.

Tipa unua-aŭda prokrasto ĉe Kokoro estas 300-800 ms super publika konekto. Ret-revenvojaĝo dominas post tio. La paĝo montras la realtempe mezuritan tempon ĝis la unua-aŭdo en la UI tiel ke vi povas vidi precize kiom longe ĉiu peto daŭris.

Voĉaj agentoj kiuj respondas konversacieme, viva dublado por fluanta amaskomunikilaro, interagaj lud-NPCoj, alireblecaj legantoj kiuj komencas paroli la momenton kiam uzanto klakadas, kaj ajna aplikaĵo kie atendi du aŭ tri sekundojn por aŭdo sentus malrapide.

Jes. POST al https://api.tts.ai/v1/tts/stream/ kun la sama korpo kiel la regula /v1/tts/ finpunkto. La respondo estas SSE fluo de base64-kodaj WAV-fragmentoj. La libera nivelo subtenas 10 generaciojn tage por anonima uzanto; aŭtentigitaj uzantoj ricevas la plenan signo-permeson por ĉiu konto.

Kokoro uzas antaŭtrenitajn voĉojn kaj ne klonas. MOSS- TTS- Realtime (se integrita) subtenas nulan voĉan klonadon de 3- sekunda referenco. Por plena voĉklonado nuntempe, uzu la regulan /text-to-speech/ paĝon kun Chatterbox aŭ GPT- SoVITS — tiuj ne estas flueblaj sed produktas proprajn voĉojn.

Same sign- kostoj kiel la regula TTS finopunkto. Kokoro estas libera- nivelo (1x kosto). MOSS- TTS- Realtime ruliĝos ĉe la norma nivelo (2x kosto) kiam ebligita. La fluanta protokolo ne aldonas ajnan prezon.

Jes — parigi la fluantan finpunkton kun voĉa retejo de Twilio por enigi la realajn sonojn en telefonvokon. Nia voĉagenteja platformo jam faras tion por IVR kaj elirantaj telefonvokoj. La fin-al-fina prokrasto de telefonvoko estas tipe 1-2 sekundoj inkluzive de STT kaj LLM-respondo.

Se via reto perdas parton dum la transsendo, la flua legilo saltos antaŭen anstataŭ halti. Por aplikaĵoj kiuj ne povas toleri interrompojn, reiru al la normala neflua fino, aŭ bufru 500 ms da sono antaŭ ol komenci la ludadon.

5.0/5 (1)

Fluigi parolon en realtempaComment

Senpage por la unuaj 10 generacioj tage. Aliĝi por malŝlosi la plenan signo- permeson kaj API- aliron.

Aliĝi senpage Rigardi prezojn

Realtempa TTS

Teksto

& Voĉagordo

Nivela latenteco

Eligo

Kiel funkcias la flua TTS

1. Sendi tekston

2. Modelo generas

3. Fluo- partoj

4. Aŭskultu rekte

Uzkazoj

Voĉaj agentoj

Rete

LudojName

Alirebleco

Realtempaj TTS-planoj

Oftaj demandoj

Kio estas realtempa TTS?

Kiel realtempa TTS diferencas de regula TTS?

Kiu modelo funkciigas la realtempan paĝon?

Kiom rapide estas la unua aŭda prokrasto?

Kion mi povas konstrui per realtempa TTS?

Ĉu ekzistas API por realtempa TTS?

Ĉu ĝi subtenas voĉan klonadon?

Kiom kostas realtempa TTS?

Ĉu mi povas uzi ĝin por telefonvokoj?

Kial la aŭdo foje interrompiĝas meze de vorto?

Fluigi parolon en realtempaComment