مولد فيديو ذا شفتين

تحميل صورة الوجه ومقطع صوت - الحصول على فيديو رأس الكلام مع تزامن الشفاه الواقعية، وضع الرأس، ورمشة.

تحميل الوجه + الصوت

000 1 حرف في الثانية

اسحب و أسقط ملفك هنا، أو تصفح

JPG, PNG, or short MP4/WebM. Max 10MB. One clear, well-lit face works best.

ملف.mp3

0 MB

اسحب و أسقط ملفك هنا، أو تصفح

MP3, WAV, M4A, or FLAC. Max 10MB. Free: up to 30 sec. Pro: up to 5 min.

ملف.mp3

0 MB

تجهيز...

إعادة عرض الفيديو الخاص بك، وهذا عادة ما يستغرق 30 ثانية إلى دقيقتين.

فيديو رأسك المتكلم

تنزيل MP4

عن ساد تاكر

SadTalker (CVPR 2023، Tencent ARC) هو نموذج مفتوح المصدر لرأس متحدث يقوم بتنشيط صورة وجه واحدة للتحدث بأي صوت. على عكس متغيرات Wav2Lip، يقوم SadTalker أيضا بتنشيط وضع الرأس، والرمشة، والتعبير لتحقيق نتيجة أكثر طبيعية.

الشفرة والأوزان مرخصة من MIT من النهاية إلى النهاية - لا لاما، جيما، أو العمود الفقري غير التجاري - لذلك الفيديوهات التي تنتجها آمنة للاستخدام التجاري.

نصائح لتحقيق أفضل النتائج

  • استخدام صورة عالية الجودة ومضاءة إضاءة جيدة - العينان مرئيتان والفم مغلق
  • الوجه المركزي، أو المربع أو نسبة العرض إلى الارتفاع 4:5
  • صوت الكلام النظيف (لا موسيقى) ينتج تزامناً أكثر إحكاماً للشفتين
  • تفعيل GFPGAN لصور الأبطال - مضاعفة وقت العرض ولكن يشدد التفاصيل
  • استخدم الوضع الثابت عندما تريد صورة ثابتة للصورة الافتراضية

خطط الفيديو

ابدأ مجانا، وارتفع عندما تحتاج إلى المزيد

مجاني
  • مدة 30 ثانية كحد أقصى للصوت
  • 256 نقطة في البوصة
  • "لا يزال" مسبقاً فقط
  • لا يوجد محسن للوجه
الأكثر شعبية
حساب مجاني
  • مدة 30 ثانية كحد أقصى للصوت
  • كل من "كامل" و "الثابت" مسبقة الصنع
  • 256/512 نقطة في البوصة
  • جهاز تعزيز الوجه GFPGAN
انضم مجانا
المؤيدون
  • مدة قصوى للتسجيلات الصوتية 5 دقائق
  • صف أولوية وحدة المعالجة الرسومية
  • الوصول إلى واجهة البرمجة التطبيقية (تحميل أجزاء متعددة)
  • استدعاءات استكمال Webhook
  • الاستخدام التجاري (ترخيص معهد ماساتشوستس للتكنولوجيا)
التحسين

الأسئلة المتكررة

لقد قامت شركة مايكروسوفت بتطوير تطبيق جديد يسمى "سام" (Sad). وهو عبارة عن تطبيق فيديو يقوم بتحميل صورة وجه ومقطع صوت، ثم يقوم الذكاء الاصطناعي بإنشاء فيديو لهذا الوجه وهو يتحدث بالصوت مع حركات شفوية واقعية، ووضع الرأس، والرمشة. وهو مبني على نموذج "سادتوكر" (CVPR 2023)، وهو نموذج رأس متحدث مرخص من قبل معهد ماساتشوستس للتكنولوجيا والذي يقوم بتنشيط التعبير بالإضافة إلى شكل الفم.

يمكن أن يكون مدخل الوجه صورة JPG أو PNG (حتى 10 ميغابايت) أو فيديو قصير MP4/WebM للقيادة (نستخدم الإطار الأول). ويمكن أن يكون الصوت القيادة MP3، WAV، M4A، أو FLAC حتى 10 ميغابايت. نحن نعيد اختبار الصوت إلى 16 كيلوهرتز داخليا.

حسابات مجانية: حتى 30 ثانية لكل مقطع.المستخدمون المدفوعون: حتى 5 دقائق لكل طلب.الصوت الأطول يعني وقت عرض أطول وتكلفة أعلى للكائنات.

يستخدم فيديو التزامن الشفوي 1000 كلمة في الثانية من الفيديو المولد. مقطع فيديو مدته 30 ثانية = 30000 كلمة. يتم تحميل التكلفة مقدما من رصيد كلمتك ويتم ردها تلقائيا إذا فشل توليد.

نعم — شفرة SadTalker وأوزانها مرخصة من النهاية إلى النهاية من قبل معهد ماساتشوستس للتكنولوجيا (لا توجد لاما أو جيما أو ركيزة غير تجارية). الفيديوهات التي تنتجها هي لديك لاستخدامها تجاريا. أنت مسؤول عن امتلاك حقوق صورة الوجه المصدر والصوت الذي ترفعه.

حوالي 30 ثانية لمقطع فيديو 5 ثوان على خادمنا A100، يتغير بشكل خطي تقريبا مع طول الصوت. تمكين معزز الوجه GFPGAN تقريبا يضاعف وقت العرض ولكنه ينتج خروجية أكثر حدة وأعلى جودة.

يقوم الوضع المسبق الكامل (الافتراضي) بتحريك وضع الرأس، والرمشة، والتعبير إلى جانب الشفاه، مما ينتج فيديو أكثر طبيعية للرأس المتكلم. يقوم الوضع المسبق المتبقي بتثبيت الرأس في مكانه ويحريك الفم فقط - مفيد عندما تريد صورة صورة ثابتة.

GFPGAN هو نموذج لترميم الوجه الذي يجعل تفاصيل الوجه أكثر حدة بعد عرض الشفاه المتزامنة. إنه ينظف القطع الفنية ويجعل مخرج 256 بكسل يبدو أقرب إلى 512. إنه تقريبا ضعف وقت العرض ولكنه يستحق ذلك لصور الأبطال.

يعرض SadTalker بحجم 256 بكسل بشكل افتراضي. انتقل إلى حجم 512 بكسل لعرض صورة أكثر وضوحاً (بطء، ذاكرة عرض أعلى) أو قم بتفعيل محسن GFPGAN لزيادة تفاصيل الوجه. لتحقيق أفضل النتائج، قم بتحميل صورة شخصية عالية الجودة ومضاءة جيداً.

نعم، قم بتحميل ملف MP4 أو WebM كمدخل للوجه وسنستخدم الإطار الأول كهوية القيادة. للحصول على إعادة دبلجة الفيديو الكاملة (استبدال الفم في كل إطار)، انظر قناة الفيديو المقبلة في استوديو الدبلجة.

نعم. ضع طلبًا متعدد الأجزاء إلى /api/v1/lipsync/ مع حقول الوجه والصوت، ثم استطلع /api/v1/lipsync/result/?uuid= حتى يتم الانتهاء من الوضع. وتحتوي الاستجابة على عنوان URL إلى MP4 المعروض. يتطلب الوصول إلى API خطة مدفوعة.

يستخدم SadTalker تطابق الوجه للكشف عن الوجه الأكثر بروزاً وقطعه. ولأفضل النتائج، قم بتحميل صورة شخصية بشخص واحد في المركز، والعيون مرئية، والحد الأدنى من الإغلاق. قد تنتج صور المجموعة نتائج لا يمكن التنبؤ بها.
5.0/5 (1)

ما الذي يمكننا تحسينه؟ تساعدنا تعليقاتكم على حل المشاكل.

جاهز للبدء؟

انضم مجاناً واحصل على 50 نقطة لا تحتاج لبطاقة ائتمان