گزارش اشکال / درخواست ویژگی

مولد ویدئوی همگام‌سازی لب هوش مصنوعی

یک عکس صورت و یک کلیپ صوتی را بارگذاری کنید — یک ویدئو از سر صحبت‌کننده با همگام‌سازی لب واقعی، حالت سر و پلک زدن را دریافت کنید. با قدرت SadTalker (MIT). استفاده تجاری OK.

هنوز صداهای TTS برای زبان شما نداریم. به ما کمک کنید تا صداهای خودتان را اضافه کنیم! فروش صدای خود

بارگذاری چهره + صدا

هزار نویسۀ در ثانیه

پروندۀ خود را به اینجا بکشید و بگذارید ، یا مرور

JPG, PNG, or short MP4/WebM. Max 10MB. One clear, well-lit face works best.

پرونده.mp3

0 MB

پروندۀ خود را به اینجا بکشید و بگذارید ، یا مرور

MP3, WAV, M4A, or FLAC. Max 10MB. Free: up to 30 sec. Pro: up to 5 min.

پرونده.mp3

0 MB

در حال پردازش...

در حال رندر کردن ویدئو. این معمولاً ۳۰ ثانیه تا ۲ دقیقه طول می‌کشد.

ویدئو سر حرف‌زن شما

بارگیری MP4

درباره SadTalker

SadTalker (CVPR 2023, Tencent ARC) یک مدل سر صحبت کنندهٔ منبع باز است که یک تصویر یک چهره را برای صحبت کردن هر صدای دیگری پویانمایی می‌کند.

کد و وزن‌ها از ابتدا تا انتها تحت مجوز ام‌آی‌تی هستند - بدون لامای، گما یا ستون فقرات غیر تجاری - بنابراین ویدئوهایی که تولید می‌کنید برای استفاده تجاری ایمن هستند.

نکات برای بهترین نتایج

  • از پرتره با کیفیت بالا و نوردهی خوب استفاده کنید — چشم‌ها قابل مشاهده، دهان بسته
  • چهره مرکزی، مربع یا نسبت ابعاد ۴: ۵ بهترین کار را می‌کند
  • صدای گفتار تمیز (بدون موسیقی) باعث همگام‌سازی لب‌های محکم‌تر می‌شود
  • فعال کردن GFPGAN برای شلیک قهرمانان — زمان رندر را دو برابر می‌کند اما جزئیات را تیزتر می‌کند
  • از پیش‌فرض ثابت برای گرفتن عکس ثابت آواتار استفاده کنید

برنامه‌های ویدئویی همگام‌سازی لب

شروع مجانی، ارتقاء وقتی که بیشتر نیاز دارید

آزاد
  • محدودیت صوتی ۳۰ ثانیه
  • خروجی ۲۵۶ پیکسل
  • فقط پیش‌فرض » همچنان «
  • بدون بهبود دهنده چهره
محبوب‌ترین
حساب آزاد
  • محدودیت صوتی ۳۰ ثانیه
  • هر دو پیش‌فرض » کامل « و » بی‌حرکت «
  • خروجی ۲۵۶ / ۵۱۲ پیکسل
  • تقویت‌کننده چهره GFPGAN
ثبت نام
حرفه اي
  • محدودیت صوتی ۵ دقیقه
  • صف اولویت GPU
  • دسترسی API (بارگذاری چندبخشی)
  • فراخوانهای بازگشتی تکمیل Webhook
  • استفاده تجاری (مجوز MIT)
ارتقا

پرسشهای متداول

یک عکس صورت و یک کلیپ صوتی را آپلود کنید و هوش مصنوعی یک ویدئو از آن صورت را تولید می‌کند که صدا را با حرکت لب‌های واقعی، حالت سر و پلک زدن صحبت می‌کند.

ورودی چهره می‌تواند یک تصویر JPG یا PNG (تا ۱۰ مگابایت) یا یک ویدئوی رانندگی کوتاه MP4/WebM (ما از فریم اول استفاده می‌کنیم) باشد. صدای رانندگی می‌تواند MP3، WAV، M4A، یا FLAC تا ۱۰ مگابایت باشد. ما صدا را به ۱۶ کیلوهرتز در داخل بازنمایش می‌دهیم.

حساب‌های رایگان: تا ۳۰ ثانیه برای هر کلیپ. کاربران پرداختی: تا ۵ دقیقه برای هر درخواست. صدای طولانی‌تر به معنای زمان رندر طولانی‌تر و هزینه کاراکتر بالاتر است.

ویدئو همگام‌سازی لب از ۱۰۰۰ کاراکتر در ثانیه از ویدئو تولید شده استفاده می‌کند. یک کلیپ ۳۰ ثانیه‌ای = ۳۰۰۰۰ کاراکتر. هزینه از پیش از حساب کاراکتر شما محاسبه می‌شود و در صورت شکست تولید به صورت خودکار بازپرداخت می‌شود.

بله — کد و وزن‌های SadTalker از ابتدا تا انتهای خود تحت مجوز MIT هستند (نه Lama، Gemma، یا ستون فقرات غیر تجاری). ویدئوهایی که تولید می‌کنید برای استفاده تجاری شما هستند. شما مسئول داشتن حقوق تصویر چهره منبع و صدایی هستید که بارگذاری می‌کنید.

حدود ۳۰ ثانیه برای یک کلیپ ۵ ثانیه ای در سرور A100 ما، مقیاس‌بندی تقریباً خطی با طول صدا. فعال کردن تقویت‌کننده چهره GFPGAN تقریباً زمان رندر را دو برابر می‌کند اما خروجی با کیفیت بالاتر و تیزتر تولید می‌کند.

پیش‌فرض کامل (به صورت پیش‌فرض) حالت سر، پلک زدن و حالت چهره را همراه با لب‌ها پویانمایی می‌کند ، و یک ویدئو طبیعی‌تر از سر صحبت‌کننده تولید می‌کند. پیش‌فرض همچنان سر را در جای خود قفل می‌کند و فقط دهان را پویانمایی می‌کند — هنگامی که می‌خواهید یک عکس آواتار ثابت بگیرید مفید است.

GFPGAN یک مدل بازسازی چهره است که جزئیات چهره را پس از رندر lip-sync تیز می‌کند. این مدل ، اشیاء را پاک می‌کند و خروجی ۲۵۶ پیکسلی را به ۵۱۲ نزدیک‌تر می‌کند. این زمان رندر را تقریباً دو برابر می‌کند ، اما برای شلیک قهرمانان ارزش آن را دارد.

SadTalker به‌طور پیش‌فرض ۲۵۶ پیکسل را نمایش می‌دهد. برای خروجی تیزتر (آهسته‌تر، VRAM بالاتر) به اندازه ۵۱۲ پیکسل تغییر دهید یا تقویت‌کننده GFPGAN را برای مقیاس‌بندی جزئیات چهره فعال کنید. برای بهترین نتایج، یک عکس پرتره با کیفیت بالا و روشن را بارگذاری کنید.

بله. یک MP4 یا WebM را به عنوان ورودی صورت بارگذاری کنید و ما از فریم اول به عنوان هویت رانندگی استفاده خواهیم کرد. برای بازنویسی کامل ویدئو (جایگزینی دهان بر اساس فریم)، خط لوله ویدئو آینده استودیوی بازنویسی را ببینید.

بله. یک درخواست چندبخشی را به /api/v1/lipsync/ با فیلدهای صورت و صدا ارسال کنید، سپس /api/v1/lipsync/result/?uuid= را بررسی کنید تا وضعیت «تمام» شود. پاسخ شامل یک نشانی وب برای MP4 رندر شده است. دسترسی به API نیازمند یک برنامه پرداختی است.

SadTalker از هم‌تراز کردن چهره برای شناسایی و برش برجسته‌ترین چهره استفاده می‌کند. برای بهترین نتایج، پرتره را با یک شخص در مرکز، چشم‌های قابل مشاهده و حداقل پوشش بارگذاری کنید. عکس‌های گروهی ممکن است نتایج غیرقابل پیش‌بینی تولید کنند.
5.0/5 (1)

چه چیزی میتونیم بهتر کنیم؟ بازخورد شما به ما کمک میکنه مشکلات رو حل کنیم.

آماده اي که شروع کني؟

ثبت نام مجاني کن و 50 کرید بگیر کارت اعتباری لازم نیست