TTS amser real

Llif testun-i-farn gyda chynnydd sain cyntaf is-eiliadau. Adeiladwyd ar gyfer asiantau llais a rhaglenni byw.

Testun

Llif
0/5,000 Nodau ~0.3s Sain gyntaf

Gosodiadau Llywio

Modelau galluog llif-yn unig.

Goramser Lefel

Cliciwch Llif i fesur y dirywiad sain cyntaf

Allbwn

Bydd darnau sain yn chwarae yma wrth iddynt lifo i mewn.

0:00
Darn cyntaf:
Cyfanswm y darnau: 0
Cyfanswm amser:

Sut mae TTS Llif yn Gweithio

1. Anfon Testun

Testun POST i /v1/tts/stream/ fel cais Digwyddiad a Anfonwyd gan y Gweinydd.

2. Model yn Creu

Kokoro yn torri'r testun a chreu sain sampl-yn-sampl ar y GPU.

3. Darnau Llif

Mae darnau WAV wedi'u hamgodio Base64 yn cyrraedd dros SSE a dechrau chwarae yn syth.

4. gwrando'n fyw

Mae' r defnyddiwr yn clywed dechrau' r ymadrodd mewn llai na eiliad, hyd yn oed ar fewnbwn hir.

Casgliadau

Lle mae diffyg ymateb o dan eiliad yn datgloi profiadau newydd.

Cyfreithwyr Llythrennedd

Bots cyfathrebu sy'n ymateb mor gyflym â dyn.

Dyblygu Byw

Cyfieithu a dyblygu llif yn real-time heb seibio byfferi.

Gemau

Ymgom NPC sy'n ymateb i ddewisiadau chwaraewyr yn syth, dim VO wedi'i lunio ymlaen llaw.

Hygyrchedd

Darllenwyr sgrin ac offer cynorthwyol sy'n dechrau siarad pan mae defnyddiwr yn clicio.

Planau TTS amser real

Dechrau am ddim, uwchraddio pan fo angen mwy

Rhydd
  • Kokoro streaming (model am ddim)
  • 500 nod y genhedlaeth
  • 10 llif am ddim/diwrnod i bob defnyddiwr anhysbys
  • Goramser sain gyntaf is-eiliadau
  • Llif SSE dros HTTPS
Poblogaf
Cyfrif Rhydd
  • 15,000 o nodau wrth gofrestru
  • 5,000 o nodau y llif
  • Allwedd API ar gyfer cyrchu rhaglennol
  • Hanes creu
  • Dim terfyn llif diwrnod
Cofrestru
Proffesiynol
  • MOSS-TTS-Realtime (pan yn fyw)
  • 100,000 o nodau y llif
  • Ciw blaenoriaeth GPU
  • Cyfathrebu
  • Terfynau Cyfradd Uwch
Uwchraddio

Cwestiynau a Ofynnir yn Aml

Mae llif testun-i-farn amser real yn creu darnau sain wrth iddynt gael eu creu, yn hytrach na disgwyl i'r frawddeg gyfan gael ei chwblhau. Mae'r sampl sain cyntaf yn cyrraedd mewn llai na eiliad, gan ei wneud yn addas ar gyfer asiantau llais byw, dyblygu, a rhaglenni rhyngweithiol lle mae'r diffyg amser yn bwysig.

Mae TTS rheolaidd yn creu'r ffeil sain gyfan cyn dychwelyd unrhyw beth - rydych yn aros, yna'n clywed y frawddeg gyfan ar unwaith. Defnyddia TTS gwir-amser Digwyddiadau a Anfonwyd gan y Gweinydd (SSE) i ffrydio darnau sain byr wrth i'r model eu cynhyrchu. Clywa'r defnyddiwr ddechrau'r frawddeg bron yn syth, hyd yn oed ar fewnbwn hir.

Kokoro yw'r ochr gefn rhagosodedig — mae'n creu sain tua 100 gwaith yn gyflymach na gwir amser ar GPU modern. Rydym yn integreiddio MOSS-TTS-Realtime fel dewis arall o ansawdd uwch; bydd defnyddwyr yn gallu dewis ar sail cais unwaith y bydd yn cael ei anfon.

Mae'r amser aros arferol ar gyfer y sain gyntaf ar Kokoro yn 300-800ms dros gysylltiad cyhoeddus. Mae teithio-dros-rwydwaith yn rhagori ar ôl hynny. Mae'r dudalen yn dangos yr amser i'r sain gyntaf wedi ei fesur yn fyw yn y rhyngwyneb defnyddiwr fel y gallwch weld yn union faint o amser a gymerodd pob cais.

Gweithredwyr llais sy'n ymateb yn gyfathrebu, dyblygu byw ar gyfer cyfryngau llif, NPCs gêm rhyngweithiol, darllenwyr hygyrchedd sy'n dechrau siarad y funud mae defnyddiwr yn clicio, a phob cymhwysiad lle byddai aros am ddau neu dri eiliad am sain yn teimlo'n araf.

Ie. POST i https://api.tts.ai/v1/tts/stream/ gyda'r un corff â'r diwedd-bwynt /v1/tts/ arferol. Llif SSE o ddarnau WAV wedi'u hamgodio base64 yw'r ymateb. Mae'r lefel am ddim yn cynnal 10 cenedl bob dydd ar gyfer defnyddiwr di-enw; mae defnyddwyr dilysu yn cael y caniatâd nod llawn ar gyfer pob cyfrif.

Kokoro yn defnyddio lleisiau wedi'u rhag-hyfforddi ac nid yw'n clonio. MOSS-TTS-Realtime (pan yn integredig) yn cynnal clonio lleisiau zero-shot o gyfeiriad 3 eiliad. I glonio lleisiau llawn heddiw, defnyddiwch y dudalen /text-to-speech/ arferol gyda Chatterbox neu GPT-SoVITS — nid ydynt yn galluogi llif-ddarlledu ond maent yn cynhyrchu lleisiau addasiedig.

Y un cost nodau â'r diwedd-bwynt TTS rheolaidd. Mae Kokoro yn haen rhad (cost 1x). Bydd MOSS-TTS-Realtime yn rhedeg ar y haen safonol (cost 2x) pan yn alluog. Nid yw'r protocol llif yn ychwanegu unrhyw gost ychwanegol.

Ie — cymysgu'r diwedd-bwynt llif gyda gwe-hook llais Twilio i fwydo sain fyw i mewn i alwad ffôn. Mae ein platfform aelod llais yn gwneud hyn eisoes ar gyfer IVR a galwadau allanol. Mae'r amser aros o ddiwedd i ddiwedd ar alwad ffôn yn 1-2 eiliad yn gyffredinol, gan gynnwys ymateb STT a LLM.

Os yw'ch rhwydwaith yn colli darn wrth deithio, bydd y chwaraewr llif yn mynd ymlaen yn hytrach na stopio. Ar gyfer rhaglenni nad ydynt yn gallu tolereiddio bylchau, dylech ddychwelyd i'r diwedd-bwynt arferol heb llif, neu byffer 500ms o sain cyn dechrau chwarae.
5.0/5 (1)

Beth allwn ni ei wella? Mae eich adborth yn ein helpu i ddatrys problemau.

Llif Lleferydd mewn Amser RealName

Am ddim am y 10 cenedl gyntaf bob dydd. Cofrestru i ddatgloi'r caniatâd nod llawn a mynediad API.