Adrodd Nam / Cais Nodweddion

Creuwr Fideo Cydamseru Llygaid AIName

Llwytho llun wyneb a clip sain i fyny - cael fideo o ben yn siarad gyda chysylltiad llais realistig, sefyllfa'r pen, a chlecio. Cynhyrchir gan SadTalker (MIT). Defnydd masnachol OK.

Lanlwytho wyneb + sain

1,000 o nodau yr eiliad

Llusgwch a gollyngwch eich ffeil yma, neu Pori

JPG, PNG, or short MP4/WebM. Max 10MB. One clear, well-lit face works best.

ffeil.mp3

0 MB

Llusgwch a gollyngwch eich ffeil yma, neu Pori

MP3, WAV, M4A, or FLAC. Max 10MB. Free: up to 30 sec. Pro: up to 5 min.

ffeil.mp3

0 MB

Prosesu...

Yn llunio eich fideo. Mae hyn yn cymryd 30 eiliad i 2 funud fel arfer.

Eich Fideo Talking- HeadName

Lawrlwytho

Am SadTalker

SadTalker (CVPR 2023, Tencent ARC) yw model pen siaradol ffynhonnell agored sy'n bywlunio llun wyneb sengl i siarad unrhyw sain. Heblaw am wahanol fersiynau Wav2Lip, mae SadTalker hefyd yn bywlunio sefyllfa'r pen, cwympo, a mynegiant er mwyn cael canlyniad mwy naturiol.

Code and weights are MIT-licensed end to end — no Llama, Gemma, or non-commercial backbone — so the videos you generate are safe for commercial use.

Cynghorion ar gyfer y Canlyniadau Gorau

  • Defnyddio portread o ansawdd uchel, wedi'i oleuo'n dda - gweladwyr llygaid, caewyd y geg
  • Mae wyneb wedi'i ganoli, sgwâr neu cydran agwedd 4:5 yn gweithio orau
  • Mae sain siarad clir (dim cerddoriaeth) yn cynhyrchu cydweddiad llais mwy llyfn
  • Galluogi GFPGAN ar gyfer lluniau arwr - dyblu'r amser arlunio ond lleihau manylion
  • Defnyddio'r rhagosodiadau Sefydlog pan ydych am gael llun avatar sefydlog

Planau Fideo Cysoni Llygaid

Dechrau am ddim, uwchraddio pan fo angen mwy

Rhydd
  • Terfyn sain 30 eiliad
  • Allbwn 256 px
  • Rhagosod "Still" yn unig
  • Dim gwella wyneb
Poblogaf
Cyfrif Rhydd
  • Terfyn sain 30 eiliad
  • Rhagosodiadau "llenwi" a "stacio"
  • 256 / 512 px allbwn
  • Cynyddu wyneb GFPGAN
Cofrestru
Proffesiynol
  • Terfyn sain 5 munud
  • Ciw blaenoriaeth GPU
  • API access (multipart upload)
  • Ail- alwadau cwblhau gwe- hoci
  • Defnydd masnachol (trwydded MIT)
Uwchraddio

Cwestiynau a Ofynnir yn Aml

Llwythwch i fyny llun wyneb a clip sain, a bydd y AI yn creu fideo o'r wyneb yn siarad y sain gyda symudiadau llais, sefyllfa'r pen, a chliciadau gwirioneddol. Adeiladwyd ar SadTalker (CVPR 2023), model pen siarad gyda thrwydded MIT sy'n animeiddio mynegiant yn ogystal â siâp y geg.

Gall y mewnbwn wyneb fod yn ddelwedd JPG neu PNG (hyd at 10 MB) neu fideo gyrru MP4/WebM byr (rydym yn defnyddio'r ffrâm gyntaf). Gall y sain gyrru fod yn MP3, WAV, M4A, neu FLAC hyd at 10 MB. Rydym yn ail-ddangos sain i 16 kHz yn fewnol.

Cyfrifon am ddim: hyd at 30 eiliad y clip. Defnyddwyr sy'n talu: hyd at 5 munud y cais. Mae sain hirach yn golygu amser arlunio hirach a chostau nodau uwch.

Mae fideo cydweddu llais yn defnyddio 1,000 o nodau bob eiliad o fideo a gynhyrchir. Clipio 30 eiliad = 30,000 o nodau. Mae'r gost yn cael ei bilio o flaen llaw o'ch balans nodau ac yn cael ei ad-dalu'n awtomatig os mae'r creu yn methu.

Ydy - Mae cod a phwysau SadTalker yn cael eu trwyddedu gan MIT o ddiwedd i ddiwedd (dim Llama, Gemma, neu ddarn gwaelod di-fasnach). Y fideos rydych chi'n eu creu yw eich rhai chi i'w defnyddio'n fasnachol. Rydych chi'n gyfrifol am gael y hawliau i'r ddelwedd wyneb ffynhonnell a'r sain rydych chi'n eu lawrlwytho.

Amcangyfrifir bod 30 eiliad ar gyfer clip 5 eiliad ar ein gweinydd A100, yn graddio'n llai na llinell gyda hyd y sain. Galluogi'r gwellawr wyneb GFPGAN yn llai na daufaint o amser arlunio ond yn cynhyrchu allbwn mwy cryf, o ansawdd uwch.

Mae'r rhagosodiadau llawn (rhagosodedig) yn bywogi sefyllfa'r pen, cwympo, ac wynebau ynghyd â'r llygaid, gan gynhyrchu fideo pen siarad mwy naturiol. Mae rhagosodiadau dal yn cloi'r pen yn ei le ac yn bywogi'r geg yn unig - defnyddiol pan ydych chi eisiau llun avatar sefydlog.

Model adfer wyneb yw GFPGAN sy'n torri manylion wynebau ar ôl arlunio cydweddu llais. Mae'n glanhau arteffactau a gwneud i allbwn 256 picsel edrych yn agosach at 512. Mae'n dyblu'r amser arlunio ond mae'n werth ei wneud ar gyfer lluniau arwr.

Mae SadTalker yn lunio ar 256 px yn rhagosodedig. Newid i faint 512 px am allbwn mwy cryf (VRAM yn araf, mwy) neu alluogi'r gwellawr GFPGAN i uwchraddio manylion wynebau. Am y canlyniadau gorau, lanlwythwch llun portread o ansawdd uchel, wedi ei oleuo'n dda.

Ydy. Llwythwch MP4 neu WebM fel mewnbwn wyneb a byddwn yn defnyddio'r ffrâm gyntaf fel y dynodiad gyrru. Am ail-ddiddanu fideo llawn (amnewid llygaid bob ffrâm), gweler y pibell fideo Dubbing Studio sydd ar ddod.

Ie. Postio cais aml-ran i /api/v1/lipsync/ gyda meysydd wyneb a sain, yna holi /api/v1/lipsync/result/?uuid= nes bod y statws yn "cymhwyso". Mae'r ymateb yn cynnwys URL i'r MP4 a gynhyrchwyd. Mae angen cynllun talu ar gyfer mynediad i'r API.

Defnyddia SadTalker alinio wynebau i ganfod a torri'r wynebau mwyaf amlwg. Am y canlyniadau gorau, lawrlwythwch lun gydag un person wedi'i ganoli, llygaid yn weladwy, a lleiafswm o occlusion. Gall lluniau grŵp gynhyrchu canlyniadau anrhagweladwy.
5.0/5 (1)

Beth allwn ni ei wella? Mae eich adborth yn ein helpu i ddatrys problemau.

Barod i ddechrau?

Cofrestru am ddim a chael 50 credyd. Dim angen cerdyn credyd.