AI тешләрне синхронлаштыру видео генераторы

Йөз фотосын һәм аудио клибын куегыз - реалистик авыз синхронизациясе, баш кую һәм күзләр йомылу белән сөйләшүче баш видеосын алыгыз. SadTalker (MIT) тарафыннан эшләнә. Коммерцияле куллану өчен яраклы.

Җавапны җибәрү

Бер секундта 1000 символ

Файлды монда күчереп куегыз яки карау

JPG, PNG, or short MP4/WebM. Max 10MB. One clear, well-lit face works best.

файл.mp3

0 MB

Файлды монда күчереп куегыз яки карау

MP3, WAV, M4A, or FLAC. Max 10MB. Free: up to 30 sec. Pro: up to 5 min.

файл.mp3

0 MB

Эшләнү...

Видеогызны күрсәтү. Бу гадәттә 30 секундтан 2 минутка кадәр вакытны ала.

Сезнең сөйләшүче баш видеосы

Җибәрү

СадТокер турында

SadTalker (CVPR 2023, Tencent ARC) — ачык чыганаклы сөйләшүче баш моделе, ул бер йөз сурәтен анимацияли һәм теләсә нинди аудионы сөйли. Wav2Lip вариантларыннан аермалы буларак, SadTalker шулай ук баш тору, күзләр йому һәм йөз билгеләрен анимацияли, нәтиҗәсе табигыйрәк булсын өчен.

Code and weights are MIT-licensed end to end — no Llama, Gemma, or non-commercial backbone — so the videos you generate are safe for commercial use.

Иң яхшы нәтиҗәләр өчен киңәшләр

  • Югары сыйфатлы, яхшы яктыртылган портретны кулланыгыз - күзләр күренеп тора, авыз ябык
  • Үзәккә юнәлтелгән, квадрат яки 4:5 киңлек мөнәсәбәте иң яхшы эшли
  • Чиста сөйләм тавышы (музыка юк) тешләрне синхронлаштыруны яхшырта
  • ГФПГАНны геройлар өчен куллану - рендер вакытын ике тапкыр арттыра, ләкин детальне яхшырта
  • Аватарны бер урында тотып төшерергә теләсәгез, "Тиз" параметрын кулланыгыз

Лип Синхронизациясе Видео Планнары

Бушлай башлагыз, күбрәк кирәк булганда яңартыгыз

Бушлай
  • Аудио чикләү
  • 256 px чыганак
  • "Стой" алдан билгеләнгән генә
  • Күзләрне яхшырту юк
Иң популяр
Акчасыз исәп
  • Аудио чикләү
  • "Төп" һәм "Төз" алдан билгеләнмәләре
  • 256 / 512 px чыганак
  • GFPGAN йөзләрне яхшырту
Бушлай теркәлү
Про
  • Аудио чикләү
  • Графика процессоры чираты
  • APIга керү (бөтенлеген йөкләү)
  • Веб-җыйнакны тәмамлау чакырулары
  • Коммерцияле куллану (MIT лицензиясе)
Яңарту

Кайвакыт бирелә торган сораулар

Юз фотосын һәм аудио клибын куегыз, һәм ИИ бу йөзнең реалистик авыз хәрәкәтләре, баш кую һәм күз йому белән сөйләшкән видеосын ясый. SadTalker (CVPR 2023) нигезендә төзелгән, MIT-лицензияләнгән сөйләшүче баш моделе, авыз формасына өстәп, йөз хәрәкәтләрен анимацияли.

Бу битләр JPG яки PNG форматындагы (10 МБ кадәр) яки кыска MP4/WebM видеосы (беренче кадр кулланыла) булырга мөмкин. Аудио MP3, WAV, M4A яки FLAC форматында 10 МБ кадәр булырга мөмкин. Без аудионы эчке яктан 16 кГцга кадәр күчерәбез.

Бушлай кулланучылар өчен: клипка 30 секундка кадәр. Акча түләүче кулланучылар өчен: клипка 5 минутка кадәр. Аудионың озынлыгы рендер вакытын озайта һәм символ бәясен арттыра.

Лип синхронизациясе видеосы секундына 1000 символ куллана. 30 секундлык клип = 30 000 символ. Бу бәя сезнең символ балансыннан алдан исәпләнә һәм генерация уңышсыз булса автоматик рәвештә кире кайтарыла.

Әйе — SadTalker коды һәм авырлыклары MIT лицензиясе белән чикләнми (Лама, Джемма яки коммерцияле булмаган нигезсез). Сез ясаган видеолар сезнең коммерцияле куллану өчен. Сез йөкләгән йөз сурәте һәм аудио өчен хокуклар өчен җаваплысыз.

Безнең A100 серверында 5 секундлы клип өчен якынча 30 секунд, аудио озынлыгы белән турыдан-туры масштаблау. GFPGAN йөз яхшыртуын активлаштыру якынча ике тапкыр рендеринг вакытын арттыра, ләкин төгәлрәк, югары сыйфатлы чыганак бирә.

Төп алдан билгеләнгән (стандарт) анимацияләр баш тору, күз йому һәм йөз хәрәкәтләрен, авыз белән бергә, сөйләүче баш видеосын табигыйрәк итеп ясый. Шулай да алдан билгеләнгән анимацияләр башны урынында тота һәм авызны гына анимацияли - анимацияләнгән аватарны бер урында тотарга теләгәндә файдалы.

GFPGAN - бу йөзләрне торгызу моделе, ул теш-синхронлаштыру рендерингыннан соң йөз деталләрен ныгыта. Ул артефактларны чистарта һәм 256 пикселле чыганакны 512-кә якынрак итеп ясый. Бу рендеринг вакытын ике тапкырга арттыра, ләкин геройлар өчен бу бик файдалы.

SadTalker 256 px зурлыгында рәсем ясый. Тизрәк чыгару өчен 512 px зурлыгына күчегез (яңгыраурак, күбрәк VRAM) яки GFPGAN яхшыртуын активлаштырыгыз йөз деталләрен зурайтырга. Иң яхшы нәтиҗәләр өчен, яхшы сыйфатлы, яхшы яктыртылган портрет фотосын куегыз.

Әйе. MP4 яки WebM файлын йөз кертем итеп куегыз һәм без беренче кадрны йөртүче идентификатор буларак кулланачакбыз. Видеоны тулы күләмдә кабат дубллау өчен (кадр буенча авыз алмаштыру), Dubbing Studio видео каналын карагыз.

Әйе. /api/v1/lipsync/ адресына күп өлешле сорауны POST итеп җибәрегез, анда йөз һәм аудио кырлары күрсәтелсен, аннары /api/v1/lipsync/result/?uuid= адресына сорау җибәрегез, хәтта хәл "комплект" булганчы. Җавап MP4 форматына URLны күрсәтә. APIга керү өчен түләүле план кирәк.

SadTalker иң күренекле йөзләрне ачыклау һәм кисү өчен йөз турылаштыруын куллана. Иң яхшы нәтиҗәләр өчен, бер кеше үзәгендә, күзләре күренеп торган һәм минималь каплау белән портретны урнаштырыгыз. Бер төркем фотолар көтелмәгән нәтиҗәләргә китерергә мөмкин.
5.0/5 (1)

Без нәрсәне яхшыртырга мөмкин? Сезнең фикерләрегез безгә проблемаларны чишәргә ярдәм итә.

Башларга әзерме?

Бушлай теркәлегез һәм 15,000 символны алыгыз. Кредит картасы кирәкми.