ВИ Лип Синхронизатор видео генератора

Пошаљите фотографију лица и аудио клип — добијте видео са говорном главом са реалистичном синхронизацијом усана, позицијом главе и трепћућим трепћућима. СадТалкер (МИТ). Комерцијална употреба ОК.

Слање лица + аудио

1000 знакова у секунди

Довуците и испустите фајл овде, или прегледај

JPG, PNG, or short MP4/WebM. Max 10MB. One clear, well-lit face works best.

фајл. mp3

0 MB

Довуците и испустите фајл овде, или прегледај

MP3, WAV, M4A, or FLAC. Max 10MB. Free: up to 30 sec. Pro: up to 5 min.

фајл. mp3

0 MB

Опраштам...

Ово обично траје 30 секунди до 2 минута.

Ваш говорно-главни видео

Преузми

О садталкеру

СадТалкер (CVPR 2023, Tencent ARC) је модел отвореног извора који анимира једну слику лица да говори било који аудио. За разлику од Wav2Lip варијанте, СадТалкер такође анимира позу главе, трепће и израз за природнији резултат.

Код и тегови су до краја - нема Ламе, Џеме, или комерцијалне кичме - тако да су снимци које стварате безбедни за комерцијалну употребу.

Савети за најбоље резултате

  • Користи висококвалитетан, добро осв› јећен портрет — очи видљиве, уста затворена
  • Центарно лице, квадрат или 4:5 однос односа најбоље функционише
  • Чисти говор аудио (без музике) доноси тешку усну синхронизацију
  • Укључи ГФПГАН за јуначке ињекције — удвостручава време, али оштри детаље
  • Користи и даље претподешавање када желите стабилан аватар снимак

Лип Синхронизација видео планова

Покрени бесплатно, надогради када ти затреба више

слободни
  • 30-секундинско ограничење звука
  • 256 px излаз
  • Само предподешавање „ и даље “
  • Без појачавача лица
Најпопуларнији
слободни налог
  • 30-секундинско ограничење звука
  • Оба „ пуна “ и „ и даље “ претподешавања
  • 256 / 512 px излаз
  • ГФПГАН појачавач лица
Слободно се пријави
Проф.
  • 5 минута ограничења звука
  • Приоритетан ГПУ редослед
  • АПИ приступ (мултипартално слање)
  • Повратак позива за довршавање ~@ ¦Вебхука¦Webhooka¦
  • Комерцијална употреба (МИТ лиценца)
Надогради

Често постављана питања

Пошаљите фотографију лица и аудио клип, и ВИ генерише снимак тог лица говорећи аудио са реалистичким покретима усне, позицијом главе и трепћући. Изграђен је на СадТалкеру (CVPR 2023), моделу говорне главе са МИТ‐ ом који анимира израз поред облика уста.

Улаз лица може бити ЈПГ или СМП слика (до 10 МБ) или кратак ~@ ¦МП4/ВебМ¦WebM¦ возачки видео (користимо први оквир). Управљачки аудио може бити МП3, ВАВ, М4А или ФЛАЦ до 10 МБ. Унутрашње узоркујемо звук на 16 кХз.

Бесплатни налоги: до 30 секунди по клипу. Плаћање корисника: до 5 минута по захт› јеву. Дужи аудио значи дуже време и виши трошкови знакова.

Синхронизациони видео користи 1.000 знакова у секунди генерисаног видеа. 30- секундни клип = 30.000 знакова. Трошкови се плаћају унапред од равнотеже знака и аутоматски се враћају ако генерација не успе.

Да — СадТалкеров код и тегови су МИТ дозволени крај до краја (нема Ламе, Џеме или некомерцијалне кичме). Видео снимке које генеришете су ваши за комерцијално коришћење. Ви сте одговорни за право на изворну слику лица и аудио слику коју постављате.

Око 30 секунди за 5 секунди снимак на нашем серверу А100, скалирајући приближно линеарно са аудио дужином. Укључујући ГФПГАН појачавач лица, приближно удвостручава време, али производи оштрију, већи квалитет излаз.

Потпуно предефинисано (подразум› ијевано) анимира позу главе, трепће и израз заједно са уснама, стварајући природнији снимак говореће главе. Још увек предефинисано закључава главу на месту и анимира само уста — корисно када желите стабилан снимак аватара.

GFPGAN је модел рестауре лица који оштри детаље лица после исцртавања усана. Чисти артефакте и чини да 256 пиксела изгледају ближе 512. Приближно удвостручава време, али је вредно за јуначке снимке.

Подразум› ијевано СадТалкер исцртава 256 px. Пребаците на 512 px за оштрији излаз (спорији, виши VRAM) или омогућите појачавач ГФПГАН‐ а да увећа детаље лица. За најбоље резултате, убаците висококвалитетну, добро осв› јећену портретну фотографију.

Да. Слање МП4 или ВебМ као улаз лица и користићемо први оквир као идентитет вожње.

Да. ПОСТАВИ захт› јев за више делова на /api/v1/lipsync/ са лицем и аудио пољима, затим анкету /api/v1/lipsync/ result/?uid= док статус није „ довршен “. Одговор садржи УРЛ на наслов МП4. АПИ приступ захт› ијева плаћен план.

СадТалкер користи лице- поклапање за откривање и посев најистакнутије лице. За најбоље резултате, учитавање портрета са једном особом концентрисаном, видљивим очима и минималним оклузијом. Групне фотографије могу донети непредвидљиве резултате.
5.0/5 (1)

Твоја повратна реакција нам помаже да решимо проблеме.

Спремни да почнемо?

Упишите се бесплатно и добијте 15.000 знакова.