إبلاغ عن خطأ/طلب خاصية

مولد فيديو ذا شفتين

تحميل صورة الوجه ومقطع صوت - الحصول على فيديو رأس الكلام مع تزامن الشفاه الواقعية، وضع الرأس، ورمشة.

انضم مجاناً

تحميل الوجه + الصوت

000 1 حرف في الثانية

1 - صورة الوجه أو فيديو القيادة

اسحب و أسقط ملفك هنا، أو تصفح

JPG, PNG, or short MP4/WebM. Max 10MB. One clear, well-lit face works best.

2 - القيادة السمعية

اسحب و أسقط ملفك هنا، أو تصفح

MP3, WAV, M4A, or FLAC. Max 10MB. Free: up to 30 sec. Pro: up to 5 min.

الحركة

حجم الناتج

محسن الوجه

GFPGAN (أكثر حدة، أبطأ)

عن ساد تاكر

SadTalker (CVPR 2023، Tencent ARC) هو نموذج مفتوح المصدر لرأس متحدث يقوم بتنشيط صورة وجه واحدة للتحدث بأي صوت. على عكس متغيرات Wav2Lip، يقوم SadTalker أيضا بتنشيط وضع الرأس، والرمشة، والتعبير لتحقيق نتيجة أكثر طبيعية.

الشفرة والأوزان مرخصة من MIT من النهاية إلى النهاية - لا لاما، جيما، أو العمود الفقري غير التجاري - لذلك الفيديوهات التي تنتجها آمنة للاستخدام التجاري.

نصائح لتحقيق أفضل النتائج

استخدام صورة عالية الجودة ومضاءة إضاءة جيدة - العينان مرئيتان والفم مغلق
الوجه المركزي، أو المربع أو نسبة العرض إلى الارتفاع 4:5
صوت الكلام النظيف (لا موسيقى) ينتج تزامناً أكثر إحكاماً للشفتين
تفعيل GFPGAN لصور الأبطال - مضاعفة وقت العرض ولكن يشدد التفاصيل
استخدم الوضع الثابت عندما تريد صورة ثابتة للصورة الافتراضية

خطط الفيديو

ابدأ مجانا، وارتفع عندما تحتاج إلى المزيد

مجاني

مدة 30 ثانية كحد أقصى للصوت
256 نقطة في البوصة
"لا يزال" مسبقاً فقط
لا يوجد محسن للوجه

الأكثر شعبية

حساب مجاني

مدة 30 ثانية كحد أقصى للصوت
كل من "كامل" و "الثابت" مسبقة الصنع
256/512 نقطة في البوصة
جهاز تعزيز الوجه GFPGAN

انضم مجانا

المؤيدون

مدة قصوى للتسجيلات الصوتية 5 دقائق
صف أولوية وحدة المعالجة الرسومية
الوصول إلى واجهة البرمجة التطبيقية (تحميل أجزاء متعددة)
استدعاءات استكمال Webhook
الاستخدام التجاري (ترخيص معهد ماساتشوستس للتكنولوجيا)

التحسين

الأسئلة المتكررة

لقد قامت شركة مايكروسوفت بتطوير تطبيق جديد يسمى "سام" (Sad). وهو عبارة عن تطبيق فيديو يقوم بتحميل صورة وجه ومقطع صوت، ثم يقوم الذكاء الاصطناعي بإنشاء فيديو لهذا الوجه وهو يتحدث بالصوت مع حركات شفوية واقعية، ووضع الرأس، والرمشة. وهو مبني على نموذج "سادتوكر" (CVPR 2023)، وهو نموذج رأس متحدث مرخص من قبل معهد ماساتشوستس للتكنولوجيا والذي يقوم بتنشيط التعبير بالإضافة إلى شكل الفم.

يمكن أن يكون مدخل الوجه صورة JPG أو PNG (حتى 10 ميغابايت) أو فيديو قصير MP4/WebM للقيادة (نستخدم الإطار الأول). ويمكن أن يكون الصوت القيادة MP3، WAV، M4A، أو FLAC حتى 10 ميغابايت. نحن نعيد اختبار الصوت إلى 16 كيلوهرتز داخليا.

حسابات مجانية: حتى 30 ثانية لكل مقطع.المستخدمون المدفوعون: حتى 5 دقائق لكل طلب.الصوت الأطول يعني وقت عرض أطول وتكلفة أعلى للكائنات.

يستخدم فيديو التزامن الشفوي 1000 كلمة في الثانية من الفيديو المولد. مقطع فيديو مدته 30 ثانية = 30 كلمة. يتم تحميل التكلفة مقدما من رصيد كلمتك ويتم ردها تلقائيا إذا فشل توليد.

نعم — شفرة SadTalker وأوزانها مرخصة من النهاية إلى النهاية من قبل معهد ماساتشوستس للتكنولوجيا (لا توجد لاما أو جيما أو ركيزة غير تجارية). الفيديوهات التي تنتجها هي لديك لاستخدامها تجاريا. أنت مسؤول عن امتلاك حقوق صورة الوجه المصدر والصوت الذي ترفعه.

حوالي 30 ثانية لمقطع فيديو 5 ثوان على خادمنا A100، يتغير بشكل خطي تقريبا مع طول الصوت. تمكين معزز الوجه GFPGAN تقريبا يضاعف وقت العرض ولكنه ينتج خروجية أكثر حدة وأعلى جودة.

يقوم الوضع المسبق الكامل (الافتراضي) بتحريك وضع الرأس، والرمشة، والتعبير إلى جانب الشفاه، مما ينتج فيديو أكثر طبيعية للرأس المتكلم. يقوم الوضع المسبق المتبقي بتثبيت الرأس في مكانه ويحريك الفم فقط - مفيد عندما تريد صورة صورة ثابتة.

GFPGAN هو نموذج لترميم الوجه الذي يجعل تفاصيل الوجه أكثر حدة بعد عرض الشفاه المتزامنة. إنه ينظف القطع الفنية ويجعل مخرج 256 بكسل يبدو أقرب إلى 512. إنه تقريبا ضعف وقت العرض ولكنه يستحق ذلك لصور الأبطال.

يعرض SadTalker بحجم 256 بكسل بشكل افتراضي. انتقل إلى حجم 512 بكسل لعرض صورة أكثر وضوحاً (بطء، ذاكرة عرض أعلى) أو قم بتفعيل محسن GFPGAN لزيادة تفاصيل الوجه. لتحقيق أفضل النتائج، قم بتحميل صورة شخصية عالية الجودة ومضاءة جيداً.

نعم، قم بتحميل ملف MP4 أو WebM كمدخل للوجه وسنستخدم الإطار الأول كهوية القيادة. للحصول على إعادة دبلجة الفيديو الكاملة (استبدال الفم في كل إطار)، انظر قناة الفيديو المقبلة في استوديو الدبلجة.

نعم. ضع طلبًا متعدد الأجزاء إلى /api/v1/lipsync/ مع حقول الوجه والصوت، ثم استطلع /api/v1/lipsync/result/?uuid= حتى يتم الانتهاء من الوضع. وتحتوي الاستجابة على عنوان URL إلى MP4 المعروض. يتطلب الوصول إلى API خطة مدفوعة.

يستخدم SadTalker تطابق الوجه للكشف عن الوجه الأكثر بروزاً وقطعه. ولأفضل النتائج، قم بتحميل صورة شخصية بشخص واحد في المركز، والعيون مرئية، والحد الأدنى من الإغلاق. قد تنتج صور المجموعة نتائج لا يمكن التنبؤ بها.

5.0/5 (1)

جاهز للبدء؟

انضم مجاناً واحصل على 50 نقطة لا تحتاج لبطاقة ائتمان

انضم مجاناً عرض التسعير

مولد فيديو ذا شفتين

تحميل الوجه + الصوت

فيديو رأسك المتكلم

عن ساد تاكر

نصائح لتحقيق أفضل النتائج

خطط الفيديو

الأسئلة المتكررة

ماذا يفعل أداة الذكاء الاصطناعي لتزامن الشفاه؟

ما هي أشكال المدخلات المدعومة؟

كم يمكن أن يستمر الصوت؟

كم تكلف؟

هل يمكنني استخدام الفيديوهات تجارياً؟

كم يستغرق توليد الطاقة؟

ما هو الفرق بين "كامل" و"لا يزال" مسبقة الصنع؟

ما هو المعزِّز الخاص بشبكة GFPGAN؟

لماذا يبدو مخرجي منخفض الدقة؟

هل يمكنني أن أقوم بعمل صوت جديد للفيديو؟

هل هناك اختبار دقيق؟

ماذا لو كانت صورة وجهي تحتوي على أشخاص عديدين؟

جاهز للبدء؟