Надіслати звіт про помилку / запит на можливості

Програма для створення відео-відтворення AILap

Вивантажити фото обличчя і звуковий кліп, щоб отримати відео з розмовною головою з реалістичною синхронізацією губ, головою і морганням. Powered by Sadtricker (IT). Комерційне використання OK.

Вільний підпис

Вивантаження лицьового боку + аудіо

1000 символів на секунду

1. Обличчя на обличчі або відеозапис з рухом

Перетягніть і скиньте ваш файл сюди або перегляд

JPG, PNG, or short MP4/WebM. Max 10MB. One clear, well-lit face works best.

2. Звук на дорозі

Перетягніть і скиньте ваш файл сюди або перегляд

MP3, WAV, M4A, or FLAC. Max 10MB. Free: up to 30 sec. Pro: up to 5 min.

Шаблон анімації

Розмір виводу

Enhancer Face

GFPGAN (ширіша, повільніша)

Про Саддика

Sadtricker (CVPR 2023, Tencent ARC) - це модель з відкритим кодом, яка анімує окреме зображення обличчя для вимовляння будь- якого звуку. На відміну від варіантів Wav2Lip, Sadtricker також оживляє позу, блимання і вираз для більш природного результату.

Код і вага - це МТІ- license end } Ні Ллама, Джемма, або некомерційна поверхня, так що відео, які ви створюєте є безпечними для комерційного використання.

Поради для найкращих результатів

Використовувати високоякісну, добре освітлену п'єсу очі видимі, рот закрито
Найкраще працює централізоване обличчя, співвідношення квадрата або 4:5
Чистий звук мовлення (без музики) дає тіснішу синхронізацію губ
Уможливити GFPGAN для героїв, які влучають у подвійне виконання часу, але гострять деталі.
Використовувати набір Till, якщо ви бажаєте, щоб сталий удар аватара

Ліп Синхронізувати відеоплани

Запустити вільний, оновити, якщо потрібно більше

Вільно

Обмеження звуку в 30 секундах
256 пк вивід
Лише конфігурація " Still "
Не покращувати обличчя

Найпоширеніша

Вільний рахунок

Обмеження звуку в 30 секундах
Конфігурації " full " і " все ж "
256 / 512 вивід px
Вдосконалення обличчя GFPGAN

Вільний підпис

Pro

5- хвилинне обмеження звуку
Черга пріоритету GPU
Доступ до API (багаточастине вивантаження)
Зворотні виклики завершення веб- сторінок
Комерційне використання (МТУТ)

Оновити

Часті запитання

Вивантажити фото обличчя і аудіозапис, а комп' ютер створює відео з цього обличчя, що говорить звук з реалістичними рухами губ, головою і блиманням. Вбудований на SaddTalker (CVPR 2023), модель MIT- license-head, яка анімує вираз на додачу до форми роту.

Ввід обличчя може бути зображення JPG або PNG (до 10 МБ) або коротке відео, що водить MP4/ WebM (ми використовуємо перший кадр). Звук, що керує, може бути MP3, WAV, M4AC або FLAC до 10 МБ. Ми перенаходимо від 16 кГц внутрішньо.

Вільні рахунки: до 30 секунд на кліп. Користувачі оплачують: до 5 хвилин на запит. Довші аудіо означають довшу вартість відтворення часу і вищого символу.

Відео про синхронізацію клавіш використовує 1000 символів на секунду від створеного відео. У 30- секундному відео = 30 000 символів. Ціну буде оцінено на початку з вашого балансу символів і автоматично змінено, якщо спроба створення зазнає невдачі.

Так, коди і ваги Sad} є ліцензованими на кінець (без Llama, Джемми або некомерційної бази). Відео, які ви створюєте, є вашими для комерційного використання. Ви несете відповідальність за те, що маєте права на зображення- джерело і аудіо, які ви ви звантажили.

Близько 30 секунд на п' ять секунд на нашому сервері A100, приблизно лінійно зі зміною довжини звукових даних. Увімкнення обличчя GFPGAN приблизно подвоює час відтворення, але створює різкіший і високоякісний вивід.

Повна демонстрація (типова) голова, моргання, і вираз разом з губами, створення більш природного відео з розмовною головою.

GFPGAN - це модель відновлення обличчя, яка загострює деталі обличчя після відображення звукової синхронізації. Ця модель вичищає артефакти і робить вигляд даних з 256 пікселів ближче до 512. Вона приблизно подвоює час, але вартує пострілів героя.

Типово, sadkuler виконує відтворення з 256 px. Перемкнутися на розмір px 512 для збільшення різкості виводу (повільніше, вище VRAM) або увімкнути збільшення GFPGAN для зміни розмірів обличчя. Для найкращих результатів вивантажуйте високоякісну, добре освітлену фотографію портрета.

Так. Вивантажте MP4 або WebM як вхідні дані обличчя і ми використаємо перший кадр як рушійну особу. Повне відео перевищення (на блокі для заміни ротової порожнини) можна знайти на наступній каналі відеострічності.

Так. POST - запит на / api/ v1/lipsync / з полями обличчя і звуку, а потім запит / api/ v1/lipsync/ result /? uuid=, аж доки не буде " завершено." Відповідь містить адресу URL для відображеного MP4. Для доступу до API потрібен сплачений план.

Для того, щоб виявити і обрізати найвідоміше обличчя, Саддикер використовує особу- вимову. Найкращі результати: вивантажте портрет з однією особою у центрі уваги, видимими очима і мінімальним включенням. Фотографії групи можуть призвести до непередбачуваних результатів.

5.0/5 (1)

Готові починати?

Підписатися безкоштовно і отримати 15 000 символів. Не потрібно жодної кредитної картки.

Вільний підпис Перегляд Приоритет

Програма для створення відео-відтворення AILap

Вивантаження лицьового боку + аудіо

Відеозапис "Голод" object name (optional)

Про Саддика

Поради для найкращих результатів

Ліп Синхронізувати відеоплани

Часті запитання

Що робить інструмент синхронізації губ комп' ютерного гравця?

Які формати вхідних даних підтримуються?

Скільки часу може бути аудіо?

Скільки це коштує?

Чи можу я використовувати відео комерційно?

Скільки часу займає покоління?

Яка різниця між шаблоном " full " і " все ж "?

Що таке GFPGAN і покращувач GFPGAN?

Чому мій результат виглядає низькою роздільною здатністю?

Чи можна синхронізувати відео з новим аудіо?

Чи існує API?

Что, если у моей фото на лице много людей?

Готові починати?