AI لپ سنڪ وڊيو پيدا ڪندڙ

هڪ چهرو تصوير ۽ هڪ آڊيو ڪلپ اپ لوڊ ڪريو - هڪ ڳالهائيندڙ-سر ويڊيو حاصل ڪريو حقيقي لپ سنڪ، سر جي پوزي ۽ ڦوڪڻ سان. SadTalker (MIT) پاران هلايو ويو. تجارتي استعمال صحيح.

آڊيو اپ لوڊ ڪريو

1,000 نشان في سيڪنڊ

پنھنجي فائل ھتي ڌڪيو ۽ ھيٺ لايو، يا برائوزر

JPG, PNG, or short MP4/WebM. Max 10MB. One clear, well-lit face works best.

فائل.mp3

0 MB

پنھنجي فائل ھتي ڌڪيو ۽ ھيٺ لايو، يا برائوزر

MP3, WAV, M4A, or FLAC. Max 10MB. Free: up to 30 sec. Pro: up to 5 min.

فائل.mp3

0 MB

عمل ۾...

وڊيو رندرنگ ۾. عام طور تي 30 سيڪنڊن کان 2 منٽن تائين لڳندو.

توھان جو ڳالھائيندڙ-سر وڊيو

ڊائون لوڊ

SadTalker بابت

SadTalker (CVPR 2023, Tencent ARC) هڪ مفت-سورس ڳالهائيندڙ-سر ماڊل آهي جيڪو ڪنهن به آڊيو ڳالهائڻ لاءِ هڪ چهري جي تصوير کي متحرڪ ڪري ٿو. Wav2Lip جي مختلفن جي برعڪس، SadTalker پڻ مٿي جي پوزي، ڦوڪن ۽ اظهار کي وڌيڪ قدرتي نتيجي لاءِ متحرڪ ڪري ٿو.

ڪوڊ ۽ وزن ايم آءِ ٽي جي لائسنس سان گڏ آهن - لاما، جيما يا غير تجارتي بيلٽ نه - تنهنڪري وڊيوز جيڪي توهان پيدا ڪندا آهيو سي تجارتي استعمال لاءِ محفوظ آهن.

بهترين نتيجن لاءِ صلاحون

  • اعليٰ معياري، سٺي روشني وارو تصوير استعمال ڪريو - اکيون ڏسڻ ۾ اچن ٿيون، منھن بند
  • وچولي چهري وارو، مربعو يا 4:5 ابعاد وارو نسبت بهترين ڪم ڪندو آھي
  • صاف ڳالهائڻ جي آڊيو (ڪا ميڊيا) وڌيڪ مضبوط لپ سنڪ حاصل ڪري ٿي
  • هيرو شوٽس لاءِ GFPGAN کي فعال ڪريو - رندر وقت ٻه ڀيرا ڪري ٿو پر تفصيل کي تيز ڪري ٿو
  • جڏهن ته اوھان ھڪ سڌو آٽوگرافڪ شاٽ گھرو ٿا تڏھن سسٽم اڳ- ٺاھيل استعمال ڪريو

ليپ سنڪ وڊيو منصوبا

مفت شروع ڪريو، جڏھن توھان کي وڌيڪ گھرجي تڏھن اپ گريڊ ڪريو

مفت
  • 30 سيڪنڊن جي آڊيو حد
  • 256 پيڪسل آءوٽپوٽ
  • صرف "Still" اڳيون ٺاھيو
  • ڪوبه چهرو وڌائيندڙ نه
تمام مشهور
اڪائونٽ
  • 30 سيڪنڊن جي آڊيو حد
  • "پورو" ۽ "سٺو" ٻهئي اڳيون ترتيب
  • 256 / 512 پيڪسل آءوٽپوٽ
  • GFPGAN چهرو وڌائيندڙ
رجسٽر ڪريو
پرو
  • آڊيو حد
  • GPU جي ترجيح واري قطار
  • API رسائي (ٻئي حصا اپ لوڊ)
  • Webhook مڪمل ڪرڻ جي ڪالمن
  • واپاري استعمال (MIT لائسنس)
اپ گريڊ

گھڻا پڇيا ويندا سوال

نڪ جي تصوير ۽ آڊيو ڪلپ اپ لوڊ ڪريو، ۽ ائ اي ان نڪ جي وڊيو پيدا ڪري ٿو، جنهن ۾ آواز کي حقيقي هٿن جي حرڪتن، سر جي پوز ۽ ڦوڪ سان ڳالهائي ٿو. SadTalker (CVPR 2023) تي ٺهيل، هڪ MIT-ليزنٽ ٿيل ڳالهائيندڙ سر ماڊل جيڪو من جي شڪل کان علاوه اظهار کي به متحرڪ ڪري ٿو.

Face Input هڪ JPG يا PNG تصوير (10 MB تائين) يا هڪ مختصر MP4/WebM ڊرائيو ويڊيو (پھريون فريم استعمال ڪيو ويو آهي) ٿي سگهي ٿو. ڊرائيو آڊيو MP3, WAV, M4A, يا FLAC 10 MB تائين ٿي سگهي ٿو. آڊيو کي اندروني طور 16 kHz تائين ريسمپل ڪيو ويو آهي.

مفت اڪائونٽ: 30 سيڪنڊن تائين هر ڪلپ. ادا ڪندڙ صارفين: 5 منٽن تائين هر درخواست. ڊگهي آڊيو جو مطلب ڊگهو رندر وقت ۽ وڌيڪ ڪردار جي قيمت آهي.

لپ سنڪ ويڊيو 1,000 نشانن کي هر سيڪنڊ ۾ استعمال ڪري ٿي. 30 سيڪنڊن جي ڪلپ = 30,000 نشان. قيمت اڳ ۾ ئي توهان جي نشانن جي توازن مان بلڊ ڪئي ويندي ۽ جيڪڏھن پيدا ڪرڻ ۾ ناڪام ٿي وڃي ته خودڪار طرح واپس ڪئي ويندي.

ھائو — سڊ ٽوڪر ڪوڊ ۽ وزن MIT جي لاڳاپيل آهي (نه لاما، نه گيما، نه غير تجارتي بيلٽ). جيڪي وڊيوز توھان پيدا ڪريو ٿا سي توھان جي تجارتي استعمال لاءِ آھن. توھان ذميوار آھيو ته توھان جي چہرے جي تصوير ۽ اوزار جي حقن جا حق رکون جيڪي توھان اپ لوڊ ڪيو آھيو.

اسان جي A100 سرور تي 5 سيڪنڊن جي ڪلپ لاءِ تقريباً 30 سيڪنڊ، تقريباً اوڊيو جي ڊگهي سان گڏ خطي طور ماپڻ. GFPGAN جي چهري کي وڌائڻ جي قابل بڻائڻ تقريباً رنڊنگ وقت ٻه ڀيرا وڌائي ٿو پر وڌيڪ تيز، اعليٰ معيار جي خروجي پيدا ڪري ٿو.

مڪمل اڳ- ٺھرايل (درآمد) مٿي جي حالت، اکيون ڦاٽيون ۽ اکين جي تعبير کي هٿن سان گڏ متحرڪ ڪري ٿو، وڌيڪ قدرتي ڳالهائيندڙ مٿي وڊيو پيدا ڪري ٿو. اڃا تائين اڳ- ٺھرايل مٿي کي جاءِ تي بند ڪري ٿو ۽ صرف منھن کي متحرڪ ڪري ٿو - فائديمند جڏھن ته توھان ھڪ سڌو آٽوگراف شوٽ گھرو ٿا.

GFPGAN هڪ چهرو بحال ڪرڻ وارو ماڊل آھي جيڪو چپن سان سنئين رنڊنگ کانپوءِ چهري جي تفصيلن کي تيز ڪري ٿو. اھو آرٽيفڪٽ صاف ڪري ٿو ۽ 256-پڪسل جي نڪتو کي 512 جي ويجهو ڏسڻ ۾ آڻي ٿو. اھو تقريبن رنڊنگ وقت کي ٻه ڀيرا وڌائي ٿو پر هيرو شوٽس لاءِ ان جي قيمت آھي.

SadTalker 256 پيڪسلز تي اڻ سڌو رندر ڪندو آھي. وڌيڪ صاف نڪتو (ھلڪو، وڌيڪ VRAM) لاءِ 512 پيڪسلز جي سائز تي تبديل ڪريو يا GFPGAN enhancer کي فعال ڪريو ته جيئن چهري جي تفصيل کي وڌي سگهجي. بهترين نتيجن لاءِ، اعليٰ معياري، سٺي روشني واري تصوير اپ لوڊ ڪريو.

ھائو. MP4 يا WebM کي چہرے کے انپٽ کے طور اپ لوڈ کرو اور ہم پہلی فریم کو چلنے کے شناخت کے طور استعمال کریں گے. مکمل ویڈیو ری-دابنگ کے لئے (پر فریم منہ کی جانشینی کے لئے)، آندھن Dubbing Studio ویڈیو پائپ لائن دیکھو.

ھائو. /api/v1/lipsync/ ڏانهن هڪ ملٽي پارٽ درخواست پوسٽ ڪريو جنهن ۾ نڪ ۽ آڊيو ميدان شامل آهن، پوءِ /api/v1/lipsync/result/?uuid= کي پوسٽ ڪريو جيستائين حالت "ڪمال" نه ٿئي. جواب ۾ رينڊڊ MP4 جو URL شامل آهي. API رسائي لاءِ ادا ڪيل منصوبو گهربل آهي.

سڊ ٽوڪر چهري جي برابري استعمال ڪري ٿو ته سڀ کان وڌيڪ نمايان چهرو ڳولي ۽ ڪٽي. بهترين نتيجن لاءِ، هڪ شخص جي وچ ۾ هڪ تصوير اپ لوڊ ڪريو، اکيون ڏسڻ ۾ اچن ٿيون، ۽ گهٽ ۾ گهٽ ڍڪڻ. گروپ جون تصويرون نامعلوم نتيجا پيدا ڪري سگھن ٿيون.
5.0/5 (1)

ڇا بهتر ڪري سگھون ٿا؟ توھان جي راءِ اسان کي مسئلا حل ڪرڻ ۾ مدد ڏيندي.

شروع ڪرڻ لاءِ تيار آھيو؟

مفت ۾ رجسٽر ٿيو ۽ 50 ڪريڊٽس حاصل ڪريو. ڪوبه ڪريڊٽ ڪارڊ گهربل ناهي.