Програма для створення відео-відтворення AILap

Вивантажити фото обличчя і звуковий кліп, щоб отримати відео з розмовною головою з реалістичною синхронізацією губ, головою і морганням. Powered by Sadtricker (IT). Комерційне використання OK.

Вивантаження лицьового боку + аудіо

1000 символів на секунду

Перетягніть і скиньте ваш файл сюди або перегляд

JPG, PNG, or short MP4/WebM. Max 10MB. One clear, well-lit face works best.

file.mp3

0 MB

Перетягніть і скиньте ваш файл сюди або перегляд

MP3, WAV, M4A, or FLAC. Max 10MB. Free: up to 30 sec. Pro: up to 5 min.

file.mp3

0 MB

Обробка...

Зазвичай, це займає 30 секунд до 2 хвилин.

Відеозапис "Голод" object name (optional)

Звантажити MP4

Про Саддика

Sadtricker (CVPR 2023, Tencent ARC) - це модель з відкритим кодом, яка анімує окреме зображення обличчя для вимовляння будь- якого звуку. На відміну від варіантів Wav2Lip, Sadtricker також оживляє позу, блимання і вираз для більш природного результату.

Код і вага - це МТІ- license end } Ні Ллама, Джемма, або некомерційна поверхня, так що відео, які ви створюєте є безпечними для комерційного використання.

Поради для найкращих результатів

  • Використовувати високоякісну, добре освітлену п'єсу очі видимі, рот закрито
  • Найкраще працює централізоване обличчя, співвідношення квадрата або 4:5
  • Чистий звук мовлення (без музики) дає тіснішу синхронізацію губ
  • Уможливити GFPGAN для героїв, які влучають у подвійне виконання часу, але гострять деталі.
  • Використовувати набір Till, якщо ви бажаєте, щоб сталий удар аватара

Ліп Синхронізувати відеоплани

Запустити вільний, оновити, якщо потрібно більше

Вільно
  • Обмеження звуку в 30 секундах
  • 256 пк вивід
  • Лише конфігурація " Still "
  • Не покращувати обличчя
Найпоширеніша
Вільний рахунок
  • Обмеження звуку в 30 секундах
  • Конфігурації " full " і " все ж "
  • 256 / 512 вивід px
  • Вдосконалення обличчя GFPGAN
Вільний підпис
Pro
  • 5- хвилинне обмеження звуку
  • Черга пріоритету GPU
  • Доступ до API (багаточастине вивантаження)
  • Зворотні виклики завершення веб- сторінок
  • Комерційне використання (МТУТ)
Оновити

Часті запитання

Вивантажити фото обличчя і аудіозапис, а комп' ютер створює відео з цього обличчя, що говорить звук з реалістичними рухами губ, головою і блиманням. Вбудований на SaddTalker (CVPR 2023), модель MIT- license-head, яка анімує вираз на додачу до форми роту.

Ввід обличчя може бути зображення JPG або PNG (до 10 МБ) або коротке відео, що водить MP4/ WebM (ми використовуємо перший кадр). Звук, що керує, може бути MP3, WAV, M4AC або FLAC до 10 МБ. Ми перенаходимо від 16 кГц внутрішньо.

Вільні рахунки: до 30 секунд на кліп. Користувачі оплачують: до 5 хвилин на запит. Довші аудіо означають довшу вартість відтворення часу і вищого символу.

Відео про синхронізацію клавіш використовує 1000 символів на секунду від створеного відео. У 30- секундному відео = 30 000 символів. Ціну буде оцінено на початку з вашого балансу символів і автоматично змінено, якщо спроба створення зазнає невдачі.

Так, коди і ваги Sad} є ліцензованими на кінець (без Llama, Джемми або некомерційної бази). Відео, які ви створюєте, є вашими для комерційного використання. Ви несете відповідальність за те, що маєте права на зображення- джерело і аудіо, які ви ви звантажили.

Близько 30 секунд на п' ять секунд на нашому сервері A100, приблизно лінійно зі зміною довжини звукових даних. Увімкнення обличчя GFPGAN приблизно подвоює час відтворення, але створює різкіший і високоякісний вивід.

Повна демонстрація (типова) голова, моргання, і вираз разом з губами, створення більш природного відео з розмовною головою.

GFPGAN - це модель відновлення обличчя, яка загострює деталі обличчя після відображення звукової синхронізації. Ця модель вичищає артефакти і робить вигляд даних з 256 пікселів ближче до 512. Вона приблизно подвоює час, але вартує пострілів героя.

Типово, sadkuler виконує відтворення з 256 px. Перемкнутися на розмір px 512 для збільшення різкості виводу (повільніше, вище VRAM) або увімкнути збільшення GFPGAN для зміни розмірів обличчя. Для найкращих результатів вивантажуйте високоякісну, добре освітлену фотографію портрета.

Так. Вивантажте MP4 або WebM як вхідні дані обличчя і ми використаємо перший кадр як рушійну особу. Повне відео перевищення (на блокі для заміни ротової порожнини) можна знайти на наступній каналі відеострічності.

Так. POST - запит на / api/ v1/lipsync / з полями обличчя і звуку, а потім запит / api/ v1/lipsync/ result /? uuid=, аж доки не буде " завершено." Відповідь містить адресу URL для відображеного MP4. Для доступу до API потрібен сплачений план.

Для того, щоб виявити і обрізати найвідоміше обличчя, Саддикер використовує особу- вимову. Найкращі результати: вивантажте портрет з однією особою у центрі уваги, видимими очима і мінімальним включенням. Фотографії групи можуть призвести до непередбачуваних результатів.
5.0/5 (1)

Ваші відгуки допомагають нам вирішити проблеми.

Готові починати?

Підписатися безкоштовно і отримати 15 000 символів. Не потрібно жодної кредитної картки.