АИ Лип Синхронизација видео генератор

Пуштете слика од лицето и аудио клип — добиете видео со зборувачка глава со реалистична синхронизација на усни, поза на главата и трепка.

Сеуште немаме ТТС гласови на твојот јазик. Продај го гласот

Качи го лицето + аудио

1000 знаци во секунда

Довлечи и пушти ја тука вашата датотека, или прегледај

JPG, PNG, or short MP4/WebM. Max 10MB. One clear, well-lit face works best.

file. mp3

0 MB

Довлечи и пушти ја тука вашата датотека, или прегледај

MP3, WAV, M4A, or FLAC. Max 10MB. Free: up to 30 sec. Pro: up to 5 min.

file. mp3

0 MB

Обработувам...

Тоа обично трае 30 секунди до 2 минути.

Твоето видео со говорна глава

Симнување

За Тажниот Талер

SadTalker (CVPR 2023, Tencent ARC) е модел на говорење со отворен извор кој анимира една слика со лице за да зборува каков било аудио. За разлика од Wav2Lip варијанти, SadTalker исто така анимира позиција на главата, трепка и израз за поприроден резултат.

Кодот и теговите се ограничувани од MIT до крај — без Лама, Џема или некомерцијален грб — така што видеата што ги генерирате се безбедни за комерцијална употреба.

Совети за најдобри резултати

  • Користете висококвалитетен, добро осветлен портрет — очи видливи, уста затворена
  • Центарот на лицето, квадратот или 4:5 односот на аспектот е најдобар
  • Чист говор аудио (без музика) дава потесна синхронизација на усни
  • Овозможи GFPGAN за истрели од херојот — двојно го прикажува времето, но го остри деталите
  • Користи го претпоставувањето на Сѐ уште кога сакаш стабилно снимање со аватар

Видео планови за Лип Синхронизација

Стартувај бесплатно, надоградете кога ќе ви треба повеќе

Слободен
  • Ограничување на звукот од 30 секунди
  • 256 px излез
  • Само претпоставување на „ и понатаму “
  • Нема појачување на лицето
Најпопуларно
Слободна сметка
  • Ограничување на звукот од 30 секунди
  • И „ полн “ и „ сеуште “ поставувања
  • 256 / 512 px излез
  • GFPGAN појачувач на лицето
Слободно потпиши се
Проф.
  • Ограничување на звукот од 5 минути
  • Приоритетна GPU- редица
  • Пристап на API (многу делови)
  • Повратен повик за довршување на веб- куќи
  • Комерцијална употреба (дозвола за МИТ)
Надоградба

Често поставувани прашања

Внесете слика од лицето и аудио клип, и ВИ генерира видео од тоа лице кое зборува на аудио со реални движења на усни, позиција на главата и трепка. Изграден на SadTalker (CVPR 2023), модел на зборувачка глава на МИТ кој анимира израз, покрај обликот на устата.

Влезот на лицето може да биде JPG или PNG слика (до 10 MB) или кратко возачко видео MP4/WebM (го користиме првата рамка). Управниот аудио може да биде MP3, WAV, M4A или FLAC до 10 MB. Внатрешна проба на аудио на 16 kHz.

Бесплатни сметки: до 30 секунди по клип. Плаќање на корисниците: до 5 минути по барање. Подолго аудио значи подолго време и повисока цена на знаците.

Видеото за синхронизација на липсата користи 1.000 знаци во секунда од генерираното видео. 30-секунди клип = 30.000 знаци. Цената се плаќа однапред од балансот на вашиот карактер и се враќа автоматски ако генерацијата не успее.

Да — кодот и теговите на ТадТалкер се дозволени за MIT крај до крај (нема Llama, Gemma или некомерцијален грб). Видеоте што ги генерирате се ваши за да ги користите комерцијално. Вие сте одговорни за тоа што имате правата на изворната слика на лицето и аудио снимката што ја качувате.

Околу 30 секунди за 5-секунди клип на нашиот сервер A100, скалирање приближно линеарно со аудио должина. Овозможување на GFPGAN лице подобрувач приближно двојно го прикажува времето, но произведува поостри, повисок квалитет на излезот.

Целосна претпоставка (стандардно) анимира позиција на главата, трепка и израз заедно со усните, создавајќи поприродно видео со зборувачка глава. Сеуште ја заклучува главата на место и ја анимира само устата — корисна кога сакате стабилно снимање на аватарот.

GFPGAN е модел за реставрација на лицето кој ги изостри деталите на лицето по исцртувањето на усните и ги исчистува артефактите и прави 256 пиксели да изгледаат поблиску до 512.

SadTalker го прикажува стандардно 256 px. Префрлете на 512 px големина за поостриот излез (помал, повисок VRAM) или овозможете му на GFPGAN подобрување на деталите за лицето. За најдобри резултати, внесете висококвалитетна, добро осветлена портретна фотографија.

Да. Внесете MP4 или WebM како влез на лицето и ние ќе ја искористиме првата рамка како идентитет на возење.

Да. ПОСТ мултиделно барање до /api/v1/lipsync/ со лице и аудио полиња, потоа анкета / api/ v1/lipsync/ result/?uid= додека статусот не биде „ завршен “. Одговорот содржи URL до пренесениот MP4. API пристапот бара платен план.

За најдобри резултати, поставете портрет со една личност, видливи очи и минимална оклузија. Групните фотографии можат да дадат непредвидливи резултати.
5.0/5 (1)

Твоите повратни информации ни помагаат да ги решиме проблемите.

Подготвен си да почнеш?

Пријавете се бесплатно и добиете 15.000 знаци.