مولد ویدئوی همگام‌سازی لب هوش مصنوعی

Q: چه قالبهای ورودی پشتیبانی میشوند؟

ورودی چهره میتواند یک تصویر JPG یا PNG (تا ۱۰ مگابایت) یا یک ویدئوی رانندگی کوتاه MP4/WebM (ما از فریم اول استفاده میکنیم) باشد. صدای رانندگی میتواند MP3، WAV، M4A، یا FLAC تا ۱۰ مگابایت باشد. ما صدا را به ۱۶ کیلوهرتز در داخل بازنمایش میدهیم.

Q: چقدر طول ميکشه؟

حسابهای رایگان: تا ۳۰ ثانیه برای هر کلیپ. کاربران پرداختی: تا ۵ دقیقه برای هر درخواست. صدای طولانیتر به معنای زمان رندر طولانیتر و هزینه کاراکتر بالاتر است.

Q: چقدر ميشه؟

ویدئو همگامسازی لب از ۱۰۰۰ کاراکتر در ثانیه از ویدئو تولید شده استفاده میکند. یک کلیپ ۳۰ ثانیهای = ۳۰۰۰۰ کاراکتر. هزینه از پیش از حساب کاراکتر شما محاسبه میشود و در صورت شکست تولید به صورت خودکار بازپرداخت میشود.

Q: مي تونم از ويدئوها براي تجارت استفاده کنم؟

بله — کد و وزنهای SadTalker از ابتدا تا انتهای خود تحت مجوز MIT هستند (نه Lama، Gemma، یا ستون فقرات غیر تجاری). ویدئوهایی که تولید میکنید برای استفاده تجاری شما هستند. شما مسئول داشتن حقوق تصویر چهره منبع و صدایی هستید که بارگذاری میکنید.

Q: تفاوت بین پیشفرض "تمام" و "پایدار" چیست؟

پیشفرض کامل (به صورت پیشفرض) حالت سر، پلک زدن و حالت چهره را همراه با لبها پویانمایی میکند ، و یک ویدئو طبیعیتر از سر صحبتکننده تولید میکند. پیشفرض همچنان سر را در جای خود قفل میکند و فقط دهان را پویانمایی میکند — هنگامی که میخواهید یک عکس آواتار ثابت بگیرید مفید است.

Q: چرا خروجي من رزولوشن پايين داره؟

SadTalker بهطور پیشفرض ۲۵۶ پیکسل را نمایش میدهد. برای خروجی تیزتر (آهستهتر، VRAM بالاتر) به اندازه ۵۱۲ پیکسل تغییر دهید یا تقویتکننده GFPGAN را برای مقیاسبندی جزئیات چهره فعال کنید. برای بهترین نتایج، یک عکس پرتره با کیفیت بالا و روشن را بارگذاری کنید.

یک عکس صورت و یک کلیپ صوتی را بارگذاری کنید — یک ویدئو از سر صحبت‌کننده با همگام‌سازی لب واقعی، حالت سر و پلک زدن را دریافت کنید. با قدرت SadTalker (MIT). استفاده تجاری OK.

ثبت نام

هنوز صداهای TTS برای زبان شما نداریم. به ما کمک کنید تا صداهای خودتان را اضافه کنیم! فروش صدای خود

بارگذاری چهره + صدا

هزار نویسۀ در ثانیه

1. عکس صورت يا ويدئو رانندگی

پروندۀ خود را به اینجا بکشید و بگذارید ، یا مرور

JPG, PNG, or short MP4/WebM. Max 10MB. One clear, well-lit face works best.

2. رانندگی صدا

پروندۀ خود را به اینجا بکشید و بگذارید ، یا مرور

MP3, WAV, M4A, or FLAC. Max 10MB. Free: up to 30 sec. Pro: up to 5 min.

پیش‌فرض پویانمایی

اندازه خروجی

تقویت‌کننده چهره

GFPGAN) تیزتر، آهسته‌تر (

درباره SadTalker

SadTalker (CVPR 2023, Tencent ARC) یک مدل سر صحبت کنندهٔ منبع باز است که یک تصویر یک چهره را برای صحبت کردن هر صدای دیگری پویانمایی می‌کند.

کد و وزن‌ها از ابتدا تا انتها تحت مجوز ام‌آی‌تی هستند - بدون لامای، گما یا ستون فقرات غیر تجاری - بنابراین ویدئوهایی که تولید می‌کنید برای استفاده تجاری ایمن هستند.

نکات برای بهترین نتایج

از پرتره با کیفیت بالا و نوردهی خوب استفاده کنید — چشم‌ها قابل مشاهده، دهان بسته
چهره مرکزی، مربع یا نسبت ابعاد ۴: ۵ بهترین کار را می‌کند
صدای گفتار تمیز (بدون موسیقی) باعث همگام‌سازی لب‌های محکم‌تر می‌شود
فعال کردن GFPGAN برای شلیک قهرمانان — زمان رندر را دو برابر می‌کند اما جزئیات را تیزتر می‌کند
از پیش‌فرض ثابت برای گرفتن عکس ثابت آواتار استفاده کنید

برنامه‌های ویدئویی همگام‌سازی لب

شروع مجانی، ارتقاء وقتی که بیشتر نیاز دارید

آزاد

محدودیت صوتی ۳۰ ثانیه
خروجی ۲۵۶ پیکسل
فقط پیش‌فرض » همچنان «
بدون بهبود دهنده چهره

محبوب‌ترین

حساب آزاد

محدودیت صوتی ۳۰ ثانیه
هر دو پیش‌فرض » کامل « و » بی‌حرکت «
خروجی ۲۵۶ / ۵۱۲ پیکسل
تقویت‌کننده چهره GFPGAN

ثبت نام

حرفه اي

محدودیت صوتی ۵ دقیقه
صف اولویت GPU
دسترسی API (بارگذاری چندبخشی)
فراخوانهای بازگشتی تکمیل Webhook
استفاده تجاری (مجوز MIT)

ارتقا

پرسشهای متداول

یک عکس صورت و یک کلیپ صوتی را آپلود کنید و هوش مصنوعی یک ویدئو از آن صورت را تولید می‌کند که صدا را با حرکت لب‌های واقعی، حالت سر و پلک زدن صحبت می‌کند.

ورودی چهره می‌تواند یک تصویر JPG یا PNG (تا ۱۰ مگابایت) یا یک ویدئوی رانندگی کوتاه MP4/WebM (ما از فریم اول استفاده می‌کنیم) باشد. صدای رانندگی می‌تواند MP3، WAV، M4A، یا FLAC تا ۱۰ مگابایت باشد. ما صدا را به ۱۶ کیلوهرتز در داخل بازنمایش می‌دهیم.

حساب‌های رایگان: تا ۳۰ ثانیه برای هر کلیپ. کاربران پرداختی: تا ۵ دقیقه برای هر درخواست. صدای طولانی‌تر به معنای زمان رندر طولانی‌تر و هزینه کاراکتر بالاتر است.

ویدئو همگام‌سازی لب از ۱۰۰۰ کاراکتر در ثانیه از ویدئو تولید شده استفاده می‌کند. یک کلیپ ۳۰ ثانیه‌ای = ۳۰۰۰۰ کاراکتر. هزینه از پیش از حساب کاراکتر شما محاسبه می‌شود و در صورت شکست تولید به صورت خودکار بازپرداخت می‌شود.

بله — کد و وزن‌های SadTalker از ابتدا تا انتهای خود تحت مجوز MIT هستند (نه Lama، Gemma، یا ستون فقرات غیر تجاری). ویدئوهایی که تولید می‌کنید برای استفاده تجاری شما هستند. شما مسئول داشتن حقوق تصویر چهره منبع و صدایی هستید که بارگذاری می‌کنید.

حدود ۳۰ ثانیه برای یک کلیپ ۵ ثانیه ای در سرور A100 ما، مقیاس‌بندی تقریباً خطی با طول صدا. فعال کردن تقویت‌کننده چهره GFPGAN تقریباً زمان رندر را دو برابر می‌کند اما خروجی با کیفیت بالاتر و تیزتر تولید می‌کند.

پیش‌فرض کامل (به صورت پیش‌فرض) حالت سر، پلک زدن و حالت چهره را همراه با لب‌ها پویانمایی می‌کند ، و یک ویدئو طبیعی‌تر از سر صحبت‌کننده تولید می‌کند. پیش‌فرض همچنان سر را در جای خود قفل می‌کند و فقط دهان را پویانمایی می‌کند — هنگامی که می‌خواهید یک عکس آواتار ثابت بگیرید مفید است.

GFPGAN یک مدل بازسازی چهره است که جزئیات چهره را پس از رندر lip-sync تیز می‌کند. این مدل ، اشیاء را پاک می‌کند و خروجی ۲۵۶ پیکسلی را به ۵۱۲ نزدیک‌تر می‌کند. این زمان رندر را تقریباً دو برابر می‌کند ، اما برای شلیک قهرمانان ارزش آن را دارد.

SadTalker به‌طور پیش‌فرض ۲۵۶ پیکسل را نمایش می‌دهد. برای خروجی تیزتر (آهسته‌تر، VRAM بالاتر) به اندازه ۵۱۲ پیکسل تغییر دهید یا تقویت‌کننده GFPGAN را برای مقیاس‌بندی جزئیات چهره فعال کنید. برای بهترین نتایج، یک عکس پرتره با کیفیت بالا و روشن را بارگذاری کنید.

بله. یک MP4 یا WebM را به عنوان ورودی صورت بارگذاری کنید و ما از فریم اول به عنوان هویت رانندگی استفاده خواهیم کرد. برای بازنویسی کامل ویدئو (جایگزینی دهان بر اساس فریم)، خط لوله ویدئو آینده استودیوی بازنویسی را ببینید.

بله. یک درخواست چندبخشی را به /api/v1/lipsync/ با فیلدهای صورت و صدا ارسال کنید، سپس /api/v1/lipsync/result/?uuid= را بررسی کنید تا وضعیت «تمام» شود. پاسخ شامل یک نشانی وب برای MP4 رندر شده است. دسترسی به API نیازمند یک برنامه پرداختی است.

SadTalker از هم‌تراز کردن چهره برای شناسایی و برش برجسته‌ترین چهره استفاده می‌کند. برای بهترین نتایج، پرتره را با یک شخص در مرکز، چشم‌های قابل مشاهده و حداقل پوشش بارگذاری کنید. عکس‌های گروهی ممکن است نتایج غیرقابل پیش‌بینی تولید کنند.

5.0/5 (1)

آماده اي که شروع کني؟

ثبت نام مجاني کن و 50 کرید بگیر کارت اعتباری لازم نیست

ثبت نام نمایش قیمت

مولد ویدئوی همگام‌سازی لب هوش مصنوعی

بارگذاری چهره + صدا

ویدئو سر حرف‌زن شما

درباره SadTalker

نکات برای بهترین نتایج

برنامه‌های ویدئویی همگام‌سازی لب

پرسشهای متداول

ابزار هماهنگ‌کننده لب هوش مصنوعی چه کار می‌کند؟

چه قالب‌های ورودی پشتیبانی می‌شوند؟

چقدر طول ميکشه؟

چقدر ميشه؟

مي تونم از ويدئوها براي تجارت استفاده کنم؟

تولید چقدر طول میکشه؟

تفاوت بین پیش‌فرض "تمام" و "پایدار" چیست؟

تابع

چرا خروجي من رزولوشن پايين داره؟

مي تونم يه ويدئو رو با صداي جديد هماهنگ کنم؟

یک API وجود دارد؟

اگه عکس صورتم چند نفر رو توش داشته باشه چي؟

آماده اي که شروع کني؟