Доклад " Bugg " / " Особенности запроса "

AI Синхронизатор видеомагнитофона Lip

Загрузить фото лица и аудиоклип — получить видеоролик с реалистической синхронизацией губ, головной позы и моргами.

Не подписываться

Загрузить лицо + звук

1 000 знаков в секунду

1. Видеозапись лица или вождение

Перетащите свой файл здесь, или Просмотр

JPG, PNG, or short MP4/WebM. Max 10MB. One clear, well-lit face works best.

2. Звук управления

Перетащите свой файл здесь, или Просмотр

MP3, WAV, M4A, or FLAC. Max 10MB. Free: up to 30 sec. Pro: up to 5 min.

Анимационное преобразование

Размер вывода

Улучшение лица

GFPGAN (ускорение, замедление)

О Сад-Талкере

SadTalker (CVPR 2023, Tencent ARC) — модель с открытым исходным кодом, которая анимирует одно лицо, чтобы сказать любой звук. В отличие от Wav2Lip, SadTalker также анимирует позу головы, мигает и выражение для более естественного результата.

Код и вес - это конец MIT-лицензии — нет Ламы, Джеммы или некоммерческой опоры — так что видео, которое вы создаете, безопасно для коммерческого использования.

Синхронные видеопланы Lip

Начать бесплатно, обновить, когда нужно больше

Свободные

30-секундный предел звука
256 px выходных
Только "по-прежнему"
Никакого усилителя лица

Самые популярные

Свободный счет

30-секундный предел звука
Как "полные", так и "по-прежнему"
256 / 512 вывода px
Усилитель лица GFPAN

Не подписываться

Про

5-минутное ограничение звука
Приоритетная очередь GPU
Доступ к API (многоразрядная загрузка)
Обратные звонки в Webhook
Коммерческое использование (лицензия МТИ)

Модернизация

Часто задаваемые вопросы

Загрузите фото лица и аудиоклип, и AI создадут видео, на котором это лицо произносит звук с реалистичными движениями губ, головной позы и моргами. Постройте на SadTalker (CVPR 2023), модель MIT-лицензированная говорящей головой, которая анимирует выражение в дополнение к форме рта.

Вводом может быть изображение JPG или PNG (до 10 MB) или короткое видео вождения MP4/WebM (мы используем первую рамку). Звуковой звук может быть MP3, WAV, M4A или FLAC до 10 MB. Мы перепроверяем звук до 16 кГц.

Свободные счета: до 30 секунд за клип. Платящие пользователи: до 5 минут за запрос. Более длинный звук означает больше времени и более высокую стоимость персонажа.

В видео Lip синхронизируется 1 000 символов в секунду генерируемого видео. 30-секундный клип = 30 000 персонажей. Стоимость выставлена спереди из баланса персонажей и возмещается автоматически в случае провала поколения.

Да — Код и вес SadTalker — это лицензированный концерт MIT (не Llama, Gemma или некоммерческая магистраль). Видео, которые вы снимаете, являются вашими, чтобы использовать их на коммерческой основе. Вы отвечаете за получение прав на изображение лица источника и аудио, которое вы загружаете.

Примерно 30 секунд для 5-секундного клипа на нашем сервере A100, масштабируется примерно линейно с помощью аудиодлины.

Полная предупредительная (по умолчанию) анимация головы анимирует позу, моргает и выражение вместе с губами, производя более естественное видео с говорящей головой.

GFPGAN представляет собой модель реставрации лица, которая точит детали лица после синтетического отображения губ. Она очищает артефакты и делает вывод 256 пикселей ближе к 512.

SadTalker дает 256 px по умолчанию. Переключите на 512 px размер для более резкой выходной мощности (медленнее, выше VRAM) или позвоните усилителю GFPGAN увеличить количество деталей лица. Для наилучших результатов загрузите высококачественную, хорошо освещенную портретную фотографию.

Да. Загрузить MP4 или WebM в качестве входа в лицо, и мы используем первую раму в качестве водительского удостоверения. Для полного просмотра видео (замена рта на фрейме) посмотрите предстоящий видеопровод Dabbing Studio.

Да. POST несколько частей запроса на /api/v1/lipsync/ с лицом и аудиополями, затем опрос /api/v1/lipsync/ result/?uuid = до завершения статуса. Ответ содержит URL на переведенный MP4. Доступ к API требует оплачиваемого плана.

SadTalker использует локацию лица, чтобы обнаружить и посадить наиболее заметное лицо. Для наилучших результатов загрузите портрет с одним человеком в центре, видимыми глазами и минимальным оккультизмом. Групповые фотографии могут дать непредсказуемые результаты.

5.0/5 (1)

Готов начать?

Запишитесь бесплатно и получите 15 000 символов.

Не подписываться Вид Ценообразование

AI Синхронизатор видеомагнитофона Lip

Загрузить лицо + звук

Твоё видео-голову

О Сад-Талкере

Рекомендации в отношении наилучших результатов

Синхронные видеопланы Lip

Часто задаваемые вопросы

Готов начать?

AI Синхронизатор видеомагнитофона Lip

Загрузить лицо + звук

Твоё видео-голову

О Сад-Талкере

Рекомендации в отношении наилучших результатов

Синхронные видеопланы Lip

Часто задаваемые вопросы

Что делает инструмент синхронизации губ?

Какие форматы ввода поддерживаются?

Как долго может быть звук?

Сколько это стоит?

Могу я использовать видео на коммерческой основе?

Сколько времени займёт поколение?

Какая разница между "полным" и "по-прежнему" предваряемым?

Что такое усилитель GFPGAN?

Почему мой выход выглядит низким разрешением?

Могу я записать видео на новый звук?

Есть API?

Что, если в фото моего лица много людей?

Готов начать?