مولد فيديو ذا شفتين
تحميل صورة الوجه ومقطع صوت - الحصول على فيديو رأس الكلام مع تزامن الشفاه الواقعية، وضع الرأس، ورمشة.
تحميل الوجه + الصوت
000 1 حرف في الثانيةاسحب و أسقط ملفك هنا، أو تصفح
JPG, PNG, or short MP4/WebM. Max 10MB. One clear, well-lit face works best.ملف.mp3
0 MBاسحب و أسقط ملفك هنا، أو تصفح
MP3, WAV, M4A, or FLAC. Max 10MB. Free: up to 30 sec. Pro: up to 5 min.ملف.mp3
0 MBإعادة عرض الفيديو الخاص بك، وهذا عادة ما يستغرق 30 ثانية إلى دقيقتين.
فيديو رأسك المتكلم
عن ساد تاكر
SadTalker (CVPR 2023، Tencent ARC) هو نموذج مفتوح المصدر لرأس متحدث يقوم بتنشيط صورة وجه واحدة للتحدث بأي صوت. على عكس متغيرات Wav2Lip، يقوم SadTalker أيضا بتنشيط وضع الرأس، والرمشة، والتعبير لتحقيق نتيجة أكثر طبيعية.
الشفرة والأوزان مرخصة من MIT من النهاية إلى النهاية - لا لاما، جيما، أو العمود الفقري غير التجاري - لذلك الفيديوهات التي تنتجها آمنة للاستخدام التجاري.
نصائح لتحقيق أفضل النتائج
- استخدام صورة عالية الجودة ومضاءة إضاءة جيدة - العينان مرئيتان والفم مغلق
- الوجه المركزي، أو المربع أو نسبة العرض إلى الارتفاع 4:5
- صوت الكلام النظيف (لا موسيقى) ينتج تزامناً أكثر إحكاماً للشفتين
- تفعيل GFPGAN لصور الأبطال - مضاعفة وقت العرض ولكن يشدد التفاصيل
- استخدم الوضع الثابت عندما تريد صورة ثابتة للصورة الافتراضية
خطط الفيديو
ابدأ مجانا، وارتفع عندما تحتاج إلى المزيد
- مدة 30 ثانية كحد أقصى للصوت
- 256 نقطة في البوصة
- "لا يزال" مسبقاً فقط
- لا يوجد محسن للوجه
- مدة 30 ثانية كحد أقصى للصوت
- كل من "كامل" و "الثابت" مسبقة الصنع
- 256/512 نقطة في البوصة
- جهاز تعزيز الوجه GFPGAN
- مدة قصوى للتسجيلات الصوتية 5 دقائق
- صف أولوية وحدة المعالجة الرسومية
- الوصول إلى واجهة البرمجة التطبيقية (تحميل أجزاء متعددة)
- استدعاءات استكمال Webhook
- الاستخدام التجاري (ترخيص معهد ماساتشوستس للتكنولوجيا)
الأسئلة المتكررة
ما الذي يمكننا تحسينه؟ تساعدنا تعليقاتكم على حل المشاكل.