Генэратар відэа з сінхранізацыяй губ

Загрузіць фота і аўдыё- фільм - атрымаць відэа з размовай галавы з рэалістычным сінхранізацыяй губ, пазой галавы і мігаценнем. Праграма SadTalker (MIT). Камерцыйнае выкарыстанне дазволена.

Перазапісаць файл?

1000 знакаў у секунду

Перацягніце файл сюды, або прагляд

JPG, PNG, or short MP4/WebM. Max 10MB. One clear, well-lit face works best.

файл.mp3

0 MB

Перацягніце файл сюды, або прагляд

MP3, WAV, M4A, or FLAC. Max 10MB. Free: up to 30 sec. Pro: up to 5 min.

файл.mp3

0 MB

Апрацоўка...

Рэндынг відэа. Звычайна гэта займае ад 30 секунд да 2 хвілін.

Ваша відэа Talking- Head

Сцягнуць

Пра SadTalker

SadTalker (CVPR 2023, Tencent ARC) — гэта мадэлі размаўляючай галавы з адкрытым зыходным кодам, якія анімуюць адзінае выяву твару для размаўляння любога гуку. У адрозненне ад варыянтаў Wav2Lip, SadTalker таксама анімуе пазіцыю галавы, мігценні і выраз твару для больш натуральнага выніку.

Код і вагі ліцэнзаваны MIT end-to-end — не Llama, Gemma, або некаммерцыйны backbone — так што відэа, якія вы ствараеце, бяспечныя для камерцыйнага выкарыстання.

Парады для лепшых вынікаў

  • Выкарыстоўваць высокакваліфікаваны, добра асветлены партрэт - вочы бачны, рот зачынены
  • Найбольш падыходзіць па цэнтры, квадратная або 4: 5
  • Праца з гукам (без музыкі) дае большую сінхранізацыю губ
  • Уключыць GFPGAN для выбухаў герояў - удвая павялічыць час рэндрынгу, але павялічыць дэталі
  • Выкарыстоўвайце налады стабільнасці, калі вы хочаце стабільны здымак аватара

Сінхранізацыя губ

Пачаць бясплатна, абнавіць, калі спатрэбіцца больш

Вольна
  • 30-секундны аўдыё-абмежаванне
  • Вывад 256 px
  • Толькі "Стойкі" набор
  • Без падсвятлення твару
Самыя папулярныя
Вольны рахунак
  • 30-секундны аўдыё-абмежаванне
  • Абедзве налады "full" і "still"
  • Вывад 256 / 512 px
  • Падвышальнік выявы GFPGAN
Падпісацца бясплатна
Прафесійны
  • 5- хвілінны аўдыё- абмежаванне
  • Чарга прыярытэтнага GPU
  • Даступ да API (загрузка некалькіх частак)
  • Зваротныя выклікі дапаўнення Webhook
  • Камэрцыйнае выкарыстанне (ліцэнзія MIT)
Абнавіць

Частыя пытанні

Загрузіце фота твару і аўдыякліп, і машынны інтэлект створыць відэа з гэтым тварам, які гаворыць з рэалістычнымі рухамі губ, пазой галавы і мігаценнем. Пабудаваны на SadTalker (CVPR 2023), ліцэнзаванай MIT мадэлі размаўляючай галавы, якая анімуе выраз асобы дадаткова да формы рта.

Уводам для выявы можа быць JPG або PNG малюнак (да 10 Мб) або кароткае відэа MP4/ WebM (мы выкарыстоўваем першы кадр). Аудыа можа быць MP3, WAV, M4A або FLAC да 10 Мб. Мы рэдыспеплюем аўдыё да 16 кГц унутрана.

Бездакорны

Відэа з сінхранізацыяй губ выкарыстоўвае 1000 знакаў на секунду. 30- секундны фільм = 30 000 знакаў. Кошт фільма будзе зараней улічаны ў вашым балансе знакаў і аўтаматычна вярнуты, калі стварэнне не атрымаецца.

Так — код і вага SadTalker падлягаюць ліцэнзіі MIT (няма Llama, Gemma, або некамэрцыйнага backbone). Відэа, якія вы ствараеце, могуць быць выкарыстаны вамі для камерцыйнага выкарыстання. Вы адказныя за правы на зыходны здымак твару і гук, якія вы загружаеце.

Прыблізна 30 секунд для 5- секунднага клипов на нашым серверы A100, з лінейным змяненнем памеру ў залежнасці ад даўжыні аўдыё. Уключэнне пашыральнікаў GFPGAN амаль удвая павялічвае час рэндрынгу, але дае больш рэзкі і якасны вывад.

Па змаўчанні анімацыя галавы, мігаценне і выраз твару анімуюцца разам з губамі, што дае больш натуральны выгляд гаворчай галавы. Па змаўчанні галава застаецца на месцы, анімуецца толькі рот. Гэта карысна, калі вы хочаце, каб аватар быў стабільна анімаваны.

GFPGAN - гэта мадэль аднаўлення твару, якая заганяе дэталі твару пасля рэндрынгу з сінхранізацыяй губ. Яна чысціць артэфакты і робіць 256- піксельны вывад больш падобным на 512. Гэта амаль удвая скарачае час рэндрынгу, але варта таго для кадраў герояў.

Па змаўчанні SadTalker паказвае малюнак у памеры 256 пікселяў. Пераключыцеся на памер 512 пікселяў для больш выразнага вываду (павольней, больш VRAM) або уключыце пашырачальнік GFPGAN для павышэння памеру дэталяў твару. Для лепшых вынікаў загрузіце высокакаштоўную, добра асветленую партрэтную фатаграфію.

Так. Загрузіце файл MP4 або WebM як увод для твару, і мы будзем выкарыстоўваць першы кадр як ідэнтыфікатар. Для поўнага перадублікавання відэа (замена вуснаў па кадрах), глядзіце будучы відэа канвеер Dubbing Studio.

Так. POST шматчасткавы запыт у /api/v1/lipsync/ з полямі для твару і гуку, затым праверце /api/v1/lipsync/result/?uuid=, пакуль стан не стане "завершаны". Адказ змяшчае URL да рэндраванага MP4. Для доступу да API патрабуецца платны план.

SadTalker выкарыстоўвае выраўноўванне асобы для выяўлення і абрэзкі найбольш выразнага твару. Для лепшых вынікаў загружайце партрэт з адным чалавекам у цэнтры, з відавочнымі вачыма і мінімальным захопам. Групавыя фатаграфіі могуць мець неасцярожныя вынікі.
5.0/5 (1)

Што мы можам палепшыць? Ваша ацэнка дапаможа нам выправіць праблемы.

Вы гатовыя пачаць?

Зарэгіструйцеся бясплатна і атрымайце 50 крэдытных балаў. Крэдытная карта не патрабуецца.