AI Синхронизатор видеомагнитофона Lip

Загрузить фото лица и аудиоклип — получить видеоролик с реалистической синхронизацией губ, головной позы и моргами.

Загрузить лицо + звук

1 000 знаков в секунду

Перетащите свой файл здесь, или Просмотр

JPG, PNG, or short MP4/WebM. Max 10MB. One clear, well-lit face works best.

файл mp3

0 MB

Перетащите свой файл здесь, или Просмотр

MP3, WAV, M4A, or FLAC. Max 10MB. Free: up to 30 sec. Pro: up to 5 min.

файл mp3

0 MB

Обработка...

Как правило, это занимает от 30 секунд до 2 минут.

Твоё видео-голову-голову-голову

Загрузка MP4

О Сад-Талкере

SadTalker (CVPR 2023, Tencent ARC) — модель с открытым исходным кодом, которая анимирует одно лицо, чтобы сказать любой звук. В отличие от Wav2Lip, SadTalker также анимирует позу головы, мигает и выражение для более естественного результата.

Код и вес - это конец MIT-лицензии — нет Ламы, Джеммы или некоммерческой опоры — так что видео, которое вы создаете, безопасно для коммерческого использования.

Рекомендации в отношении наилучших результатов

  • Использовать высококачественный, хорошо освещенный портрет: видимые глаза, закрытый рот
  • Скрытое лицо, квадратное или 4:5 соотношение сторон работает лучше всего
  • Чистая речь звук (без музыки) дает более жесткий синхронизм губ
  • Включите GFPGAN для героев — удваивает время, но уточняет детали
  • Используйте все еще сетку, когда хотите, чтобы аватар был снят.

Синхронные видеопланы Lip

Начать бесплатно, обновить, когда нужно больше

Свободные
  • 30-секундный предел звука
  • 256 px выходных
  • Только "по-прежнему"
  • Никакого усилителя лица
Самые популярные
Свободный счет
  • 30-секундный предел звука
  • Как "полные", так и "по-прежнему"
  • 256 / 512 вывода px
  • Усилитель лица GFPAN
Не подписываться
Про
  • 5-минутное ограничение звука
  • Приоритетная очередь GPU
  • Доступ к API (многоразрядная загрузка)
  • Обратные звонки в Webhook
  • Коммерческое использование (лицензия МТИ)
Модернизация

Часто задаваемые вопросы

Загрузите фото лица и аудиоклип, и AI создадут видео, на котором это лицо произносит звук с реалистичными движениями губ, головной позы и моргами. Постройте на SadTalker (CVPR 2023), модель MIT-лицензированная говорящей головой, которая анимирует выражение в дополнение к форме рта.

Вводом может быть изображение JPG или PNG (до 10 MB) или короткое видео вождения MP4/WebM (мы используем первую рамку). Звуковой звук может быть MP3, WAV, M4A или FLAC до 10 MB. Мы перепроверяем звук до 16 кГц.

Свободные счета: до 30 секунд за клип. Платящие пользователи: до 5 минут за запрос. Более длинный звук означает больше времени и более высокую стоимость персонажа.

В видео Lip синхронизируется 1 000 символов в секунду генерируемого видео. 30-секундный клип = 30 000 персонажей. Стоимость выставлена спереди из баланса персонажей и возмещается автоматически в случае провала поколения.

Да — Код и вес SadTalker — это лицензированный концерт MIT (не Llama, Gemma или некоммерческая магистраль). Видео, которые вы снимаете, являются вашими, чтобы использовать их на коммерческой основе. Вы отвечаете за получение прав на изображение лица источника и аудио, которое вы загружаете.

Примерно 30 секунд для 5-секундного клипа на нашем сервере A100, масштабируется примерно линейно с помощью аудиодлины.

Полная предупредительная (по умолчанию) анимация головы анимирует позу, моргает и выражение вместе с губами, производя более естественное видео с говорящей головой.

GFPGAN представляет собой модель реставрации лица, которая точит детали лица после синтетического отображения губ. Она очищает артефакты и делает вывод 256 пикселей ближе к 512.

SadTalker дает 256 px по умолчанию. Переключите на 512 px размер для более резкой выходной мощности (медленнее, выше VRAM) или позвоните усилителю GFPGAN увеличить количество деталей лица. Для наилучших результатов загрузите высококачественную, хорошо освещенную портретную фотографию.

Да. Загрузить MP4 или WebM в качестве входа в лицо, и мы используем первую раму в качестве водительского удостоверения. Для полного просмотра видео (замена рта на фрейме) посмотрите предстоящий видеопровод Dabbing Studio.

Да. POST несколько частей запроса на /api/v1/lipsync/ с лицом и аудиополями, затем опрос /api/v1/lipsync/ result/?uuid = до завершения статуса. Ответ содержит URL на переведенный MP4. Доступ к API требует оплачиваемого плана.

SadTalker использует локацию лица, чтобы обнаружить и посадить наиболее заметное лицо. Для наилучших результатов загрузите портрет с одним человеком в центре, видимыми глазами и минимальным оккультизмом. Групповые фотографии могут дать непредсказуемые результаты.
5.0/5 (1)

Твоя обратная связь помогает нам решать проблемы.

Готов начать?

Запишитесь бесплатно и получите 15 000 символов.