Докладване на грешка / заявка за функция

AI Лип Синхронизира видео генератор

Качете снимка на лицето и аудио клип — получите разговор-глава видео с реалистична синхронизация на устните, главата поза и мигане. Захранва от SadTalker (MIT). Търговска употреба OK.

Запишете се безплатно

Все още нямаме ТТС гласове на вашия език. Помогнете ни да добавим вашия! Продажби на гласа си

Качване на лицето + аудио

1000 символа в секунда

1. Лице образ или шофиране видео

Изтегляне и изтегляне на файла тук, или преглеждане

JPG, PNG, or short MP4/WebM. Max 10MB. One clear, well-lit face works best.

2. Шофиране аудио

Изтегляне и изтегляне на файла тук, или преглеждане

MP3, WAV, M4A, or FLAC. Max 10MB. Free: up to 30 sec. Pro: up to 5 min.

Предназначение на анимация

Размер на изхода

Повишаване на лицето

GFPGAN (остри, по-бавно)

За СадТалкър.

SadTalker (CVPR 2023, Tencent ARC) е модел за говорене с отворен източник, който анимира единичен образ на лицето, за да говори всеки аудио. За разлика от Wav2Lip варианти, SadTalker също анимира главата поза, мига и израз за по-естествен резултат.

Код и тежести са лицензирани от MIT край до край — без Llama, Gemma, или некоммерчески гръбначници — така че видеото, което генерирате, е безопасно за търговска употреба.

Съвети за най-добри резултати

Използвайте висококачествен, добре осветен портрет — видими очи, затворени уста
Центърирано лице, квадрат или 4:5 съотношение аспект работи най-добре
Чиста реч аудио (без музика) дава по-тесна устна синхронизация
Включете GFPGAN за геройски изстрели — двойни излъчване на времето, но остри подробности
Използвайте все още настройки, когато искате стабилен изстрел от аватар

Лип Синхронизация видео планове

Стартиране безплатно, ъпгрейд, когато се нуждаете от повече

Безплатен

30-секунда ограничение на звука
256 px изход
Само "все още" настройки
Без повишаване на лицето

Най-популярното

Безплатна сметка

30-секунда ограничение на звука
И "пълна" и "все още" настройки
256 / 512 px изход
GFPGAN усилвател на лицето

Запишете се безплатно

Професионален

5-минутно ограничение на звука
Приоритетна опашка на GPU
Достъп на API (многочастно качване)
Обратно обаждане за завършване на Webhook
Търговско използване (лиценза MIT)

Надграждане

Често задавани въпроси

Публикувайте снимка на лицето и аудио клип, и ВИ генерира видео на това лице говорейки звука с реалистично движение на устните, позата на главата и мигане. Построен на SadTalker (CVPR 2023), на MIT-лицензиран разговор-главен модел, който анимира израза в допълнение към формата на устата.

Входът на лицето може да бъде JPG или PNG изображение (до 10 MB) или късо MP4/WebM видео за шофиране (ние използваме първата рамка). Водещият аудио може да бъде MP3, WAV, M4A или FLAC до 10 MB. Вътрешно пробваме звук до 16 kHz.

Безплатни сметки: до 30 секунди на клип. Плащане на потребители: до 5 минути на заявка. По-дълго аудио означава по-дълго време и по-високи разходи за характер.

Устната синхронизация видео използва 1000 символа на секунда от генерираното видео. 30-секунди клип = 30 000 символа. Цената се изчислява напред от вашия характерен баланс и се възстановява автоматично, ако генерирането се провали.

Да — Кодът на SadTalker и теглото са лицензирани MIT край до края (няма Llama, Gemma или некоммерчески гръбнач). Видеото, които генерирате, са ваши, за да използвате търговски. Вие сте отговорни за това, че имате правата на източника лице изображение и аудио, които качвате.

Около 30 секунди за 5-секунди клип на нашия A100 сървър, скалиране приблизително линейно с аудио дължина. Включване на GFPGAN лице засилва приблизително двойно време, но произвежда по-остри, по-високо качество изход.

Пълна преднастройка (по подразбиране) анимира главата поза, мигане и изразяване заедно с устните, произвеждайки по-естествено говорещо-главно видео. Все още настройка заключва главата на място и анимира само устата - полезен, когато искате стабилно изстрелване на аватар.

GFPGAN е модел за възстановяване на лицето, който изостри детайлите на лицето след синхронизиране на устните. Тя почиства артефакти и прави 256-пикселен изход изглежда по-близо до 512. Тя приблизително удвоява време, но си струва за герои изстрели.

SadTalker излъчва при 256 px по подразбиране. Превключете на 512 px размер за по-остри изход (по-малък, по-висок VRAM) или позволявайте на GFPGAN засилвател да увеличи данните за лицето. За най-добри резултати, качване на висококачествена, добре осветена портретна снимка.

Да. Качете MP4 или WebM като вход на лицето и ние ще използваме първата рамка като шофиране идентичност. За пълно видео преобработване (замяна на устата на рамка), вижте предстоящата Dubbing Studio видео тръбопровод.

Да. ПОСТ мултичастно искане до /api/v1/lipsync/ с лице и аудио полета, след това анкета /api/v1/lipsync/result/?uuid= докато статутът е "завършен". Отговорът съдържа URL към преработен MP4. API достъп изисква платен план.

За най-добрите резултати, качване портрет с едно лице, видими очи и минимална оклузия. Груповите снимки могат да дадат непредсказуеми резултати.

5.0/5 (1)

Готов ли си да започнеш?

Запишете се безплатно и получавате 15 000 символа. Няма нужда от кредитна карта.

Запишете се безплатно Преглед на цените

AI Лип Синхронизира видео генератор

Качване на лицето + аудио

Твоето видео говорещо-главно видео

За СадТалкър.

Съвети за най-добри резултати

Лип Синхронизация видео планове

Често задавани въпроси

Какво прави инструментът за синхронизация на устните?

Какви входни формати са подкрепени?

Колко време може да е звукът?

Колко струва?

Мога ли да използвам видеото на реклама?

Колко време отнема поколението?

Каква е разликата между "пълна" и "все още" настройка?

Какво е GFPGAN засилвател?

Защо изходът ми изглежда с ниска резолюция?

Мога ли да синхронизирам видео на нов звук?

Има ли API?

Ами ако снимката ми има много хора?

Готов ли си да започнеш?