AI লিপ সিনক ভিডিঅ' জেনাৰেৰ

মুখৰ ফ'টো আৰু অডিঅ' ক্লিপ আপলোড কৰক - এটা কথা কোৱা-মস্তিষ্কৰ ভিডিঅ' প্ৰাপ্ত কৰক য'ত বাস্তবিক লিপ সিনক, মাথাৰ পোজ, আৰু ব্ৰিংকিং আছে। SadTalker (MIT) দ্বাৰা শক্তি প্ৰদান কৰা হৈছে। বাণিজ্যিক ব্যৱহাৰ ঠিক আছে।

বিনামূল্যে নিবন্ধন কৰক

মুখ + অডিঅ' আপলোড কৰক

প্ৰতি ছেকেণ্ডে ১,০০০ আখৰ

১. মুখৰ ছবি অথবা চালনা ভিডিঅ'

আপোনাৰ নথিপত্ৰ এখানে টানি আনুন, অথবা ব্ৰাউছ কৰক

JPG, PNG, or short MP4/WebM. Max 10MB. One clear, well-lit face works best.

২. অডিঅ' চালনা

আপোনাৰ নথিপত্ৰ এখানে টানি আনুন, অথবা ব্ৰাউছ কৰক

MP3, WAV, M4A, or FLAC. Max 10MB. Free: up to 30 sec. Pro: up to 5 min.

এনিমেশন প্ৰিসেট

আউটপুটৰ আকাৰ

মুখৰ উন্নয়নকাৰী

GFPGAN (শীতল, ধীর)

SadTalker ৰ বিষয়ে

SadTalker (CVPR 2023, Tencent ARC) এটা মুক্ত উৎসৰ কথা ক'ব পৰা মডেল যি কোনো অডিঅ' ক'বলৈ এটা মুখৰ ছবিক এনিমেট কৰে। Wav2Lip ৰ বিকল্পৰ বিপৰীতে, SadTalker এও মাথাৰ পোজ, উলটি যোৱা আৰু অধিক প্ৰাকৃতিক ফলাফলৰ বাবে অভিব্যক্তিক এনিমেট কৰে।

কোড আৰু ওজন MIT-ৰ দ্বাৰা লাইচেঞ্চ কৰা হৈছে — কোনো লামা, গেমা বা বাণিজ্যিক উদ্দেশ্যহীন বেকবোন নাই — গতিকে আপুনি নিৰ্মাণ কৰা ভিডিঅ'সমূহ বাণিজ্যিক ব্যৱহাৰৰ বাবে নিৰাপদ।

সৰ্বোত্তম ফলাফলৰ বাবে টিপ

উচ্চমানৰ, ভালে আলোকিত প'ৰ্ট্ৰেট ব্যৱহাৰ কৰক - চকু দেখা যায়, মুখ বন্ধ
কেন্দ্ৰস্থিত মুখ, বৰ্গ বা ৪:৫ আকৃতিৰ অনুপাত সৰ্বোত্তমভাবে কাম কৰে
স্বচ্ছ বাক্য অডিঅ' (কোনো সঙ্গীত নাই) দ্বাৰা অধিক মজবুত লিপ সিনক প্ৰাপ্ত কৰা হয়
হিৰো শটৰ বাবে GFPGAN সক্ৰিয় কৰক - ৰেন্ডাৰ সময় দ্বিগুণ কৰে কিন্তু বিৱৰণ তীক্ষ্ণ কৰে
স্থিৰ আভাৰ্স্ট শ্বট বিচাৰিলে Still প্ৰিসেট ব্যৱহাৰ কৰক

লিপ সিনক ভিডিঅ' প্ল্যানসমূহ

বিনামূল্যে আৰম্ভ কৰক, আরো প্ৰয়োজন হ'লে উন্নত কৰক

মুক্ত

৩০-ছেকেণ্ড অডিঅ' সীমা
২৫৬ পিক্সেল আউটপুট
কেৱল "Still" প্ৰিসেট
মুখৰ উন্নয়নকাৰী নাই

সৰ্বাধিক জনপ্ৰিয়

মুক্ত একাওন্ট

৩০-ছেকেণ্ড অডিঅ' সীমা
দুয়োটা "পূৰ্ণ" আৰু "স্থিৰ" প্ৰিসেট
২৫৬ / ৫১২ পিক্সেল আউটপুট
GFPGAN মুখৰ উন্নয়নকাৰী

বিনামূল্যে নিবন্ধন কৰক

প্ৰো

৫ মিনিটৰ অডিঅ' সীমা
অগ্ৰাধিকাৰ GPU লাইন
API অভিগম (বহু অংশ আপলোড)
Webhook সম্পূৰ্ণ কলবেকসমূহ
বাণিজ্যিক ব্যৱহাৰ (MIT লাইচেঞ্চ)

উন্নত কৰক

সদায় সোধা প্ৰশ্নসমূহ

মুখৰ ফ'টো আৰু অডিঅ' ক্লিপ আপলোড কৰক, আৰু AI এ সেই মুখৰ অডিঅ'ক বাস্তবিক লিপ নেভিগেচন, মাথাৰ পোজ, আৰু ব্ৰেকিংৰ সৈতে ক'ব পৰা এটা ভিডিঅ' সৃষ্টি কৰে। SadTalker (CVPR 2023) ত নিৰ্মিত, এটা MIT-লাইচেঞ্চিত ক'ব পৰা-মাথা মডেল যি মুখৰ আকৃতিৰ উপৰিও অভিব্যক্তিক এনিমেট কৰে।

মুখৰ ইনপুট এটা JPG অথবা PNG ছবি (১০ মেগাবাইটলৈকে) অথবা এটা সংক্ষিপ্ত MP4/WebM চালিত ভিডিঅ' (আমি প্ৰথম ফ্ৰেম ব্যৱহাৰ কৰোঁ) হব পাৰে। চালিত অডিঅ' ১০ মেগাবাইটলৈকে MP3, WAV, M4A, অথবা FLAC হব পাৰে। আমি অডিঅ'ক অভ্যন্তৰীণভাৱে ১৬ kHz লৈ পুনৰসামগ্ৰী কৰোঁ।

বিনামূলীয়া একাওন্ট: প্ৰতি ক্লিপ ৩০ ছেকেণ্ডৰ ভিতৰত। পৰিশোধ কৰা ব্যৱহাৰকাৰী: প্ৰতি অনুৰোধ ৫ মিনিটৰ ভিতৰত। দীঘল অডিঅ' মানে দীঘল ৰেন্ডাৰিং সময় আৰু উচ্চ আখৰ মূল্য।

লিপ সিনক ভিডিঅ'ত প্ৰতি ছেকেণ্ডত ১,০০০ আখৰ ব্যৱহাৰ কৰা হয়। ৩০-ছেকেণ্ডৰ এটা ক্লিপ = ৩০,০০০ আখৰ। এই ব্যয় আপোনাৰ আখৰ ভাৰসাম্যৰ পৰা আগতে বিল কৰা হয় আৰু সৃষ্টি কৰিবলৈ ব্যৰ্থ হলে স্বয়ংক্ৰিয়ভাৱে পৰিশোধ কৰা হয়।

হ'ব — SadTalker কোড আৰু ওজন MIT লাইচেঞ্চৰ অন্তিম পৰ্যায়ৰ (Llama, Gemma, অথবা কোনো বাণিজ্যিক বেকবোন নহয়)। আপুনি নিৰ্মাণ কৰা ভিডিঅ'সমূহ বাণিজ্যিকভাৱে ব্যৱহাৰ কৰাৰ বাবে আপোনাৰ। আপুনি আপলোড কৰা উৎস মুখৰ ছবি আৰু অডিঅ'ৰ অধিকাৰ থকাৰ বাবে আপুনি দায়ী।

আমাৰ A100 চাৰ্ভাৰত ৫ ছেকেণ্ডৰ এটা ক্লিপ প্ৰায় ৩০ ছেকেণ্ড, অডিঅ' দৈৰ্ঘ্যৰ সৈতে প্ৰায় ৰেখাকাৰে স্কেলিং কৰা। GFPGAN মুখ উন্নতকাৰীক সামৰ্থবান কৰা প্ৰায় দ্বিগুণ কৰে ৰণ্ডাৰ সময় কিন্তু তীক্ষ্ণ, উচ্চমানৰ আউটপুট প্ৰদান কৰে।

সম্পূৰ্ণ প্ৰি-সেট (অবিকল্পিত) হাঁটুৰ সৈতে মাথাৰ পোজ, গ্লানি, আৰু অভিব্যক্তিক এনিমেট কৰে, যিয়ে এটা অধিক প্ৰাকৃতিক কথোপকথন-হাঁটু ভিডিঅ' প্ৰস্তুত কৰে। প্ৰি-সেটত মাথা স্থানত লক কৰা থাকে আৰু কেৱল মুখক এনিমেট কৰে - আপুনি এটা স্থায়ী আভাটাৰ শ্বট বিচাৰিলে ব্যৱহাৰযোগ্য।

GFPGAN এটা মুখ পুনৰুদ্ধাৰ মডেল যি লিপ-সিনক ৰণ্ডাৰৰ পিছত মুখৰ বিৱৰণসমূহ তীক্ষ্ণ কৰে। ই কৰ্কটক পৰিষ্কাৰ কৰে আৰু ২৫৬-পিক্সেল আউটপুটক ৫১২ ৰ নিকটলৈ দেখুৱায়। ই প্ৰায় দুগুণ ৰণ্ডাৰ সময় কিন্তু হিৰোশ্বটৰ বাবে ইয়াৰ মূল্য আছে।

SadTalker অবিকল্পিতভাৱে ২৫৬ পিক্সেলত প্ৰদৰ্শন কৰে। তীক্ষ্ণ আউটপুটৰ বাবে ৫১২ পিক্সেল আকাৰলৈ পৰিবৰ্তন কৰক (ধীৰ, উচ্চ VRAM) অথবা মুখৰ বিৱৰণসমূহ আপস্কেল কৰিবলৈ GFPGAN উন্নতকৰণক সামৰ্থবান কৰক। সৰ্বোত্তম ফলাফলৰ বাবে, উচ্চ মানৰ, ভালেকৈ আলোকিত প'ৰ্ট্ৰেট ফ'টো আপলোড কৰক।

হ'ব। মুখৰ ইনপুট হিচাপে এটা MP4 অথবা WebM আপলোড কৰক আৰু আমি প্ৰথম ফ্ৰেমক চালক পৰিচয় হিচাপে ব্যৱহাৰ কৰম। সম্পূৰ্ণ ভিডিঅ' পুনৰ-ডাবিং (প্ৰতি-ফ্ৰেইম মুখৰ প্ৰতিস্থাপন) ৰ বাবে, আগন্তুক ডাবিং স্টুডিঅ' ভিডিঅ' পাইপলাইন চাওক।

হ'ব। মুখ আৰু অডিঅ' ক্ষেত্ৰসমূহৰ সৈতে /api/v1/lipsync/ লৈ এটা বহু-অংশ অনুৰোধ POST কৰক, তাৰ পিছত অৱস্থা "সম্পন্ন" হ'বলৈকে /api/v1/lipsync/result/?uuid= প'ল কৰক। উত্তৰত MP4 ৰ URL উপস্থিত আছে। API অভিগম কৰিবলৈ এটা পৰিশোধিত প্ল্যানৰ প্ৰয়োজন।

SadTalker এ মুখৰ আনুভূমিকতা ব্যৱহাৰ কৰি সৰ্বাধিক প্ৰধান মুখ চিনাক্ত আৰু কাট কৰে। সৰ্বোত্তম ফলাফলৰ বাবে, এটা ব্যক্তিকে কেন্দ্ৰস্থিত, চকু দৃশ্যমান, আৰু সৰ্বনিম্ন অক্লুচন থকা এটা প'ৰ্ট্ৰেট আপলোড কৰক। দলৰ ফ'টোসমূহে অপ্ৰত্যাশিত ফলাফল প্ৰদান কৰিব পাৰে।

5.0/5 (1)

আৰম্ভ কৰিবলৈ প্ৰস্তুত?

বিনামূলীয়াকৈ নিবন্ধন কৰক আৰু ৫০ ক্রেডিট লাভ কৰক। কোনো ক্ৰেডিট কাৰ্ডৰ প্ৰয়োজন নাই।

বিনামূল্যে নিবন্ধন কৰক মূল্য দেখুৱাওক

AI লিপ সিনক ভিডিঅ' জেনাৰেৰ

মুখ + অডিঅ' আপলোড কৰক

আপোনাৰ ট্যাকিঙ-হেড ভিডিঅ'

SadTalker ৰ বিষয়ে

সৰ্বোত্তম ফলাফলৰ বাবে টিপ

লিপ সিনক ভিডিঅ' প্ল্যানসমূহ

সদায় সোধা প্ৰশ্নসমূহ

AI লিপ সিনক টুল কি কৰে?

কোন ইনপুট বিন্যাস সমৰ্থিত?

অডিঅ' কত সময়ৰ বাবে থাকিব পাৰে?

ইয়াৰ মূল্য কিমান?

ভিডিঅ’সমূহ বাণিজ্যিকভাৱে ব্যৱহাৰ কৰিব পাৰিমনে?

প্ৰজনন কৰিবলৈ কিমান সময় লাগে?

"পূৰ্ণ" আৰু "অবিচল" প্ৰিসেটৰ মাজত পাৰ্থক্য কি?

GFPGAN উন্নতকাৰী কি?

মোৰ আউটপুট কিয় কম-ৰিজলিউচন দেখা যায়?

মই এটা ভিডিঅ'ক নতুন অডিঅ'লৈ লিপ-সিনক কৰিব পাৰিম নে?

API আছে নে?

যদি মোৰ মুখৰ ফ'টোত একাধিক লোক আছে?

আৰম্ভ কৰিবলৈ প্ৰস্তুত?