AI Lip Sync видео генератори

Юз сурати ва аудио клипни юклаб олинг - реалистик лаб синхронизацияси, бош ҳолати ва кўз қисишлари билан гапираётган бош видеосини олинг. SadTalker (MIT) томонидан қўллаб-қувватланади. Тижорат мақсадларида фойдаланиш мумкин.

Бизда сизнинг тилингизда TTS овозлари ҳали йўқ. Бизга ўзингизникини қўшишимизга ёрдам беринг! Ўз овозингизни сотинг

Юклаш

Ҳар секундда 1000 аломат

Файлингизни бу ерга кўчириб қўйинг ёки кўриш

JPG, PNG, or short MP4/WebM. Max 10MB. One clear, well-lit face works best.

файл.mp3

0 MB

Файлингизни бу ерга кўчириб қўйинг ёки кўриш

MP3, WAV, M4A, or FLAC. Max 10MB. Free: up to 30 sec. Pro: up to 5 min.

файл.mp3

0 MB

Ишлаб чиқилмоқда...

Видеонгиз тасвирланмоқда. Бу одатда 30 сониядан 2 дақиқагача вақтни олади.

Сўзлашувчи бошингиз видеоси

Юклаб олиш

SadTalker ҳақида

SadTalker (CVPR 2023, Tencent ARC) - бу бир юз тасвирини анимация қилиб, ҳар қандай аудиони гапирадиган очиқ манбали гапирувчи бош модели. Wav2Lip вариантларидан фарқли ўлароқ, SadTalker бош ҳолатини, кўз қисишни ва юз ифодасини ҳам анимация қилади, бу эса натижани янада табиийлаштиради.

Код ва вазн MIT лицензияси билан таъминланган — Llama, Gemma ёки бошқа нотижорат дастурлар йўқ — шунинг учун сиз яратган видеолар тижорат мақсадларида фойдаланиш учун хавфсиз.

Энг яхши натижалар учун маслаҳатлар

  • Юқори сифатли, яхши ёритилган портретни қўллаш - кўзлар кўриниб турибди, оғиз ёпиқ
  • Марказий юза, квадрат ёки 4:5 кўриниш нисбати энг яхши ишлайди
  • Тиш синхронизациясини яхшилайдиган тоза сўзлашув аудиоси (мусиқа йўқ)
  • Қаҳрамонлар суратлари учун GFPGAN'ни ишга тушириш - тасвирлаш вақтини икки баробар оширади, аммо деталларни аниқлаштиради
  • Агар сиз анимацияни сақловчи суратни хоҳласангиз, "Стабил" олдинги танлашни қўлланг

Лип синхронлаш видео режалари

Бепул бошланг, яна кўпроқ керак бўлса янгиланг

Оқ
  • 30-сониялик аудио чегараси
  • 256 px чиқим
  • Фақат "Still" олдиндан белгиланган
  • Юзни кучайтириш йўқ
Энг машҳур
Бепул ҳисоб
  • 30-сониялик аудио чегараси
  • Иккала "тоза" ва "тўхтаб қолган" олдинги мослама
  • 256 / 512 px чиқим
  • GFPGAN юзни яхшиловчи
Бепул рўйхатдан ўтиш
Про
  • 5 дақиқалик аудио чегараси
  • Авваллик GPU навбати
  • APIга кириш (кўп қисмли юклаш)
  • Webhook тугатиш қўнғироқлари
  • Тижорат мақсадларида фойдаланиш (MIT лицензияси)
Янгилаш

Кўп бериладиган саволлар

Юз сурати ва аудио клипни юкланг, AI бу юзнинг видеосини реалистик лаб ҳаракатлари, бош ҳолати ва кўз қисишлари билан гапираётган аудиони яратади. SadTalker (CVPR 2023) устида қурилган, оғиз шаклига қўшимча равишда анимацияланган юз ифодасини кўрсатувчи MIT лицензияли гапирувчи бош модели.

Юз киритмаси JPG ёки PNG тасвири (10 МБ гача) ёки қисқа MP4/WebM видеоси бўлиши мумкин (биз биринчи кадрни ишлатамиз). Аудио киритмаси MP3, WAV, M4A ёки 10 МБ гача FLAC бўлиши мумкин. Биз аудиони 16 кГц гача қайта намуналаймиз.

Бепул ҳисоблар: ҳар бир клип учун 30 секундгача. Умумий фойдаланувчилар: ҳар бир талаб учун 5 дақиқагача. Қанчалик узун аудио бўлса, шунчалик узоқ вақтни олиши ва кўпроқ характер қийматини талаб қилиши мумкин.

Лаб синхронизацияси видеоси сониясига 1000 та белгидан фойдаланади. 30 сониялик клип = 30 000 та белги. Бу харажатлар сизнинг белгилар балансингиздан олдиндан ҳисоблаб чиқилади ва яратиш муваффақиятсиз тугаганида автоматик равишда қайтарилади.

Ҳа — SadTalker коди ва вазнлари MIT лицензияси билан тўлиқ ҳимояланган (Llama, Gemma ёки нотижорат backbone'лар йўқ). Сиз яратган видеолар сизнинг бизнес учун фойдаланишингиз учун. Сиз юклаб олган манба юз тасвири ва аудио учун ҳақларингиз борлиги учун жавобгарсиз.

Бизнинг A100 серверимизда 5 сониялик клип учун 30 сония, аудио узунлиги билан тўғри чизиқ бўйлаб ўлчаш. GFPGAN юзни кучайтиришни ишга тушириш тасвирлаш вақтини икки баробарга оширади, аммо аниқроқ, юқори сифатли натижани беради.

Тўлиқ олдиндан белгилаш (стандарт) юз ҳолати, кўз қисиши ва юз ифодасини анимация қилади, бу эса юзнинг гапиришини табиийроқ қилади. Яна олдиндан белгилаш бошни жойида сақлайди ва фақат оғиз анимациясини бажаради - бу анимацияланган аватар суратини олишни хоҳлаганда фойдали.

GFPGAN - бу лаб синхронлаштирилган рендердан кейин юз деталларини аниқлаштирадиган юз тиклаш моделидир. У артефактларни тозалайди ва 256 пикселли чиқиндини 512 га яқинроқ кўринишга келтиради. Бу рендер вақтини икки баробарга оширади, аммо қаҳрамон суратлари учун бунга арзийди.

SadTalker аввалдан 256 пикселда кўрсатади. Тўғрироқ чиқиш учун 512 пикселга ўтинг (тезроқ, юқори VRAM) ёки юз деталларини катталаштириш учун GFPGAN кучайтиргичини ишга туширинг. Энг яхши натижалар учун юқори сифатли, яхши ёритилган портрет суратини юкланг.

Ҳа. Юз киритмаси сифатида MP4 ёки WebM юкланг ва биз биринчи кадрни бошқарув шахси сифатида фойдаланамиз. Видеони тўлиқ қайта дубл қилиш учун (ҳар бир кадр учун оғиз алмаштириш), Dubbing Studio'нинг яқинда чиқадиган видео каналини кўринг.

Ҳа. /api/v1/lipsync/га юз ва аудио майдонлари билан кўп қисмли талабни POST қилинг, сўнгра "комплект" ҳолатига етгунча /api/v1/lipsync/result/?uuid= ни сўровга юборинг. Жавобда MP4 тасвири URL'и мавжуд. API'га кириш учун тўловли план талаб этилади.

SadTalker энг кўзга кўринган юзни аниқлаш ва кесиш учун юз-тўлиқлашни қўллайди. Энг яхши натижалар учун, бир киши марказида, кўзлар кўринадиган ва минимал ёпиқлик билан суратни юклаб олинг. Гурух фотосуратлари кутилмаган натижаларни келтириши мумкин.
5.0/5 (1)

Биз нимани яхшилашимиз мумкин? Сизнинг фикрингиз бизга муаммоларни ҳал қилишга ёрдам беради.

Бошлашга тайёрмисиз?

Бепул рўйхатдан ўтинг ва 15,000 та белгини олинг. Кредит картаси талаб этилмайди.