Паведаміць пра памылку / запыт на магчымасць

Генэратар відэа з сінхранізацыяй губ

Загрузіць фота і аўдыё- фільм - атрымаць відэа з размовай галавы з рэалістычным сінхранізацыяй губ, пазой галавы і мігаценнем. Праграма SadTalker (MIT). Камерцыйнае выкарыстанне дазволена.

Падпісацца бясплатна

Мы Прадавай свой голас

Перазапісаць файл?

1000 знакаў у секунду

1. Відэа з выявай твару або кіравання

Перацягніце файл сюды, або прагляд

JPG, PNG, or short MP4/WebM. Max 10MB. One clear, well-lit face works best.

2. Аўдыё

Перацягніце файл сюды, або прагляд

MP3, WAV, M4A, or FLAC. Max 10MB. Free: up to 30 sec. Pro: up to 5 min.

Анімацыя

Памер вываду

Падсвятленне твару

GFPGAN (больш рэзкі, павольны)

Пра SadTalker

SadTalker (CVPR 2023, Tencent ARC) — гэта мадэлі размаўляючай галавы з адкрытым зыходным кодам, якія анімуюць адзінае выяву твару для размаўляння любога гуку. У адрозненне ад варыянтаў Wav2Lip, SadTalker таксама анімуе пазіцыю галавы, мігценні і выраз твару для больш натуральнага выніку.

Код і вагі ліцэнзаваны MIT end-to-end — не Llama, Gemma, або некаммерцыйны backbone — так што відэа, якія вы ствараеце, бяспечныя для камерцыйнага выкарыстання.

Парады для лепшых вынікаў

Выкарыстоўваць высокакваліфікаваны, добра асветлены партрэт - вочы бачны, рот зачынены
Найбольш падыходзіць па цэнтры, квадратная або 4: 5
Праца з гукам (без музыкі) дае большую сінхранізацыю губ
Уключыць GFPGAN для выбухаў герояў - удвая павялічыць час рэндрынгу, але павялічыць дэталі
Выкарыстоўвайце налады стабільнасці, калі вы хочаце стабільны здымак аватара

Сінхранізацыя губ

Пачаць бясплатна, абнавіць, калі спатрэбіцца больш

Вольна

30-секундны аўдыё-абмежаванне
Вывад 256 px
Толькі "Стойкі" набор
Без падсвятлення твару

Самыя папулярныя

Вольны рахунак

30-секундны аўдыё-абмежаванне
Абедзве налады "full" і "still"
Вывад 256 / 512 px
Падвышальнік выявы GFPGAN

Падпісацца бясплатна

Прафесійны

5- хвілінны аўдыё- абмежаванне
Чарга прыярытэтнага GPU
Даступ да API (загрузка некалькіх частак)
Зваротныя выклікі дапаўнення Webhook
Камэрцыйнае выкарыстанне (ліцэнзія MIT)

Абнавіць

Частыя пытанні

Загрузіце фота твару і аўдыякліп, і машынны інтэлект створыць відэа з гэтым тварам, які гаворыць з рэалістычнымі рухамі губ, пазой галавы і мігаценнем. Пабудаваны на SadTalker (CVPR 2023), ліцэнзаванай MIT мадэлі размаўляючай галавы, якая анімуе выраз асобы дадаткова да формы рта.

Уводам для выявы можа быць JPG або PNG малюнак (да 10 Мб) або кароткае відэа MP4/ WebM (мы выкарыстоўваем першы кадр). Аудыа можа быць MP3, WAV, M4A або FLAC да 10 Мб. Мы рэдыспеплюем аўдыё да 16 кГц унутрана.

Бездакорны

Відэа з сінхранізацыяй губ выкарыстоўвае 1000 знакаў на секунду. 30- секундны фільм = 30 000 знакаў. Кошт фільма будзе зараней улічаны ў вашым балансе знакаў і аўтаматычна вярнуты, калі стварэнне не атрымаецца.

Так — код і вага SadTalker падлягаюць ліцэнзіі MIT (няма Llama, Gemma, або некамэрцыйнага backbone). Відэа, якія вы ствараеце, могуць быць выкарыстаны вамі для камерцыйнага выкарыстання. Вы адказныя за правы на зыходны здымак твару і гук, якія вы загружаеце.

Прыблізна 30 секунд для 5- секунднага клипов на нашым серверы A100, з лінейным змяненнем памеру ў залежнасці ад даўжыні аўдыё. Уключэнне пашыральнікаў GFPGAN амаль удвая павялічвае час рэндрынгу, але дае больш рэзкі і якасны вывад.

Па змаўчанні анімацыя галавы, мігаценне і выраз твару анімуюцца разам з губамі, што дае больш натуральны выгляд гаворчай галавы. Па змаўчанні галава застаецца на месцы, анімуецца толькі рот. Гэта карысна, калі вы хочаце, каб аватар быў стабільна анімаваны.

GFPGAN - гэта мадэль аднаўлення твару, якая заганяе дэталі твару пасля рэндрынгу з сінхранізацыяй губ. Яна чысціць артэфакты і робіць 256- піксельны вывад больш падобным на 512. Гэта амаль удвая скарачае час рэндрынгу, але варта таго для кадраў герояў.

Па змаўчанні SadTalker паказвае малюнак у памеры 256 пікселяў. Пераключыцеся на памер 512 пікселяў для больш выразнага вываду (павольней, больш VRAM) або уключыце пашырачальнік GFPGAN для павышэння памеру дэталяў твару. Для лепшых вынікаў загрузіце высокакаштоўную, добра асветленую партрэтную фатаграфію.

Так. Загрузіце файл MP4 або WebM як увод для твару, і мы будзем выкарыстоўваць першы кадр як ідэнтыфікатар. Для поўнага перадублікавання відэа (замена вуснаў па кадрах), глядзіце будучы відэа канвеер Dubbing Studio.

Так. POST шматчасткавы запыт у /api/v1/lipsync/ з полямі для твару і гуку, затым праверце /api/v1/lipsync/result/?uuid=, пакуль стан не стане "завершаны". Адказ змяшчае URL да рэндраванага MP4. Для доступу да API патрабуецца платны план.

SadTalker выкарыстоўвае выраўноўванне асобы для выяўлення і абрэзкі найбольш выразнага твару. Для лепшых вынікаў загружайце партрэт з адным чалавекам у цэнтры, з відавочнымі вачыма і мінімальным захопам. Групавыя фатаграфіі могуць мець неасцярожныя вынікі.

5.0/5 (1)

Вы гатовыя пачаць?

Зарэгіструйцеся бясплатна і атрымайце 50 крэдытных балаў. Крэдытная карта не патрабуецца.

Падпісацца бясплатна Прагляд цаны

Генэратар відэа з сінхранізацыяй губ

Перазапісаць файл?

Ваша відэа Talking- Head

Пра SadTalker

Парады для лепшых вынікаў

Сінхранізацыя губ

Частыя пытанні

Што робіць інструмент сінхранізацыі губ AI?

Якія фарматы ўводу падтрымліваюцца?

Як доўга можа доўжыцца гук?

Колькі гэта каштуе?

Ці магу я выкарыстоўваць відэа ў камерцыйных мэтах?

Колькі часу займае генерацыя?

У чым розніца паміж "поўнай" і "стабільнай" наладамі?

Што такое эфектыўная абарона?

Чаму мой вывад выглядае з нізкім раздзяленнем?

Ці магу я сінхранізаваць відэа з новым гукам?

Ці ёсць API?

Што, калі на маім фота з'яўляецца некалькі людзей?

Вы гатовыя пачаць?