د AI د پاڼې د ویډیو جوړونکی

د مخ عکس او غږیز کلیپ پورته کړئ - د ریښتیني لپ سینک ، سر پوز او بلیک سره د خبرو اترو سر ویډیو ترلاسه کړئ. د SadTalker (MIT) لخوا ځواکمن شوی. سوداګریز کارولو OK.

مخ + غږيز لېږل

په سېکېنډ کې ۱۰۰۰ لوښه

خپل دوتنه دلته ځغلول او پرېښودل، يا لټول

JPG, PNG, or short MP4/WebM. Max 10MB. One clear, well-lit face works best.

دوتنه.mp3

0 MB

خپل دوتنه دلته ځغلول او پرېښودل، يا لټول

MP3, WAV, M4A, or FLAC. Max 10MB. Free: up to 30 sec. Pro: up to 5 min.

دوتنه.mp3

0 MB

...زېرمه کيږي

ستاسو د ویډیو د ښودلو. دا معمولا 30 ثانیې 2 دقیقې نیسي.

ستاسو خبرې کول-سر ويډيو

رالېښنې

په اړه SadTalker

SadTalker (CVPR 2023، Tencent ARC) یو خلاص سرچینه خبرې کول-سر ماډل دی چې د یو واحد مخ انځور د هر ډول غږیز خبرې کولو لپاره ژوندي کوي. د Wav2Lip ډولونو برعکس، SadTalker هم د ډیر طبیعي پایلې لپاره سر پوزې، بلیکونه او څرګندونه ژوندي کوي.

کوډ او وزنونه د MIT-لیکسین پای ته رسیدلي - نه د لام، جیما، یا غیر سوداګریز ستون - نو تاسو تولید شوي ویډیوګانې د سوداګریز کارولو لپاره خوندي دي.

د غوره پایلو لپاره لارښوونې

  • د لوړ کیفیت، ښه روښانه عکس کاروئ - سترګې ښکاري، خوله تړل شوې
  • مرکزي مخ، مربع یا 4: 5 اړخ نسبت غوره کار کوي
  • پاک خبرې آډیو (نه موسیقي) توليدات tighter لپ sync
  • د قهرمان عکسونو لپاره GFPGAN فعال کړئ - دوه ځله وخت رامینځته کوي مګر تفصیلات sharpens
  • کله چې تاسو يو ثبات لرونکی انځورن انځور غواړﺉ، د سټېلېټ مخکوت کارول

د پاڼې د سمون ويډيو پلانونه

وړیا پیل کړئ، تازه کړئ کله چې تاسو ډیر اړتیا لرئ

وړیا
  • غږيزه کچه ۳۰ سېکېنډه
  • وتۍ ٢٥٦ پکسلز
  • يوازې "هغه هم" مخکوت
  • هېڅ مخ زياتوونکی
تر ټولو مشهور
وړیا ګڼون
  • غږيزه کچه ۳۰ سېکېنډه
  • دواړه "پورې" او "ناڅاپي" مخکوتونه
  • ۲۵۶ / ۵۰۱ پکسله وتۍ
  • GFPGAN مخ زياتونکی
په وړیا ډول راجستر شئ
د
  • ۵-منۍ غږيزه کچه
  • د GPU د اوليت لړۍ
  • API لاسرسي (ډير برخې پورته کول)
  • د وېب هوک بشپړولو اړيکنيو
  • سوداګريزه کارونه (MIT منښتليک)
اوسمهالول

ډېرې پوښتنې

د مخ عکس او آډیو کلیپ پورته کړئ، او AI د دې مخ ویډیو تولیدوي چې د ریښتیني لپ حرکتونو، سر پوزې، او بلیکونو سره آډیو خبرې کوي. د SadTalker (CVPR 2023) په جوړولو کې، د MIT-لیکس شوي خبرې کولو سر ماډل چې د خولې شکل سربیره بیانونه ژوندي کوي.

د مخ ننوتل کولی شي د JPG یا PNG انځور وي (تر 10 MB پورې) یا یو لنډ MP4 / WebM چلولو ویډیو (موږ لومړی فریم کاروو). د چلولو غږ کولی شي MP3، WAV، M4A، یا FLAC تر 10 MB پورې وي. موږ په داخلي توګه 16 kHz ته غږ راټول کوو.

وړیا حسابونه: تر 30 ثانیو پورې په هر کلیپ کې. د کاروونکو تادیه: تر 5 دقیقو پورې په هر غوښتنلیک کې. اوږده غږ د اوږدې مودې او لوړې کرکټرونو لګښت معنی لري.

د لیپ سینک ویډیو د تولید شوي ویډیو په ثانیه کې د 1,000 کرکټرونو کاروي. د 30 ثانیې کلیپ = 30,000 کرکټرونه. لګښت ستاسو د کرکټرونو توازن څخه مخکې بلل کیږي او په اتوماتيک ډول بیرته ورکول کیږي که نسل ناکام شي.

هو - SadTalker کوډ او وزنونه د MIT لخوا د پای ته رسیدو لپاره اجازه لري (نه د لام، جیما، یا غیر سوداګریز ستون). هغه ویډیوګانې چې تاسو یې تولید کوئ ستاسو دي چې په سوداګریز ډول وکاروئ. تاسو د سرچینې مخ عکس او غږیز فایل ته د حقونو د درلودو مسؤل یاست.

زموږ د A100 سرور کې د 5 ثانیې کلیپ لپاره د 30 ثانیو په اړه، د آډیو اوږدوالي سره په خطي ډول اندازه کول. د GFPGAN مخ زیاتولو توان ورکول په عمده توګه د رینډر وخت دوه چنده کوي مګر تیز، لوړ کیفیت محصول تولیدوي.

بشپړ preset (د تل لپاره) د سر پوزه، بلیکونه، او د لپونو سره سره څرګندونه، د ډیر طبیعي خبرې کولو سر ویډیو تولیدوي. لاهم preset په ځای کې سر قفل کوي او یوازې د خولې ژوند کوي - ګټور کله چې تاسو یو ثابت اېواټر شوټ غواړئ.

GFPGAN د مخ د بیارغونې ماډل دی چې د لپ-سینک رینډر وروسته د مخ جزییات تیزوي. دا هنرونه پاکوي او د 256-پیکسل محصول د 512 ته نږدې ښکاري. دا په نږدې توګه دوه چنده کوي مګر د هیرو شوټونو لپاره ارزښت لري.

SadTalker په 256 px کې د تل لپاره ندي. د تیز محصول لپاره د 512 px اندازې ته بدل کړئ (ورو، لوړ VRAM) یا د GFPGAN انکشاف کونکي ته اجازه ورکړئ چې د مخ توضیحاتو ته وده ورکړي. د غوره پایلو لپاره، د لوړ کیفیت، ښه روښانه عکس عکس پورته کړئ.

هو. د مخ انټيګیټ په توګه د MP4 یا WebM ډاونلوډ کړئ او موږ به لومړی فریم د چلولو هویت په توګه وکاروو. د بشپړ ویډیو بیا ډوب کولو لپاره (د هر فریم د خولې ځای په ځای کول)، د راتلوونکي ډوبنګ سټډیو ویډیو پایپ لاین وګورئ.

هو. د /api/v1/lipsync / سره د مخ او غږیز ساحو سره د څو برخو غوښتنه ، بیا د پوښتنې /api/v1/lipsync/result/؟ uuid = تر هغه چې وضعیت " بشپړ شوی " وي. ځواب د MP4 ته یو URL لري. API ته لاسرسی د تادیې پلان ته اړتیا لري.

SadTalker د مخ-alignment کاروي چې کشف او د تر ټولو مشهور مخ فصل. د غوره پایلو لپاره، د يو شخص مرکزي، سترګې ښکاره، او لږ تر لږه occlusion سره د انځور پورته. د ډلې انځورونه کولای شي د ناڅرګند پایلې توليد کړي.
5.0/5 (1)

موږ څه کولای شي چې ښه شي؟ ستاسو د نظر موږ سره مرسته کوي د ستونزو د حل.

د پېلولو لپاره چمتو ياست؟

وړيا راجستر او 50 کریډیټ ترلاسه کړئ. د کریډیټ کارت اړتیا نشته.