AI লিপ সিঙ্ক ভিডিও উৎপাদক

মুখের ছবি এবং অডিও ক্লিপ আপলোড করুন - বাস্তবসম্মত লিপ সিঙ্ক, মাথার অবস্থান এবং ঝলক সহ একটি কথা বলা মাথার ভিডিও পান। স্যাডটোলকার (এমআইটি) দ্বারা চালিত। বাণিজ্যিক ব্যবহার ঠিক আছে।

নিবন্ধন করুন

মুখ + অডিও আপলোড করো

প্রতি সেকেন্ডে ১,০০০ অক্ষর

১. মুখের ছবি অথবা চালানোর ভিডিও

আপনার ফাইল এখানে টেনে নিয়ে যান, অথবা ব্রাউজ

JPG, PNG, or short MP4/WebM. Max 10MB. One clear, well-lit face works best.

২. অডিও চালানো

আপনার ফাইল এখানে টেনে নিয়ে যান, অথবা ব্রাউজ

MP3, WAV, M4A, or FLAC. Max 10MB. Free: up to 30 sec. Pro: up to 5 min.

অ্যানিমেশনের প্রাক- নির্ধারিত মান

আউটপুট মাপ

মুখের উন্নতিকারী

GFPGAN (তীক্ষ্ণ, ধীর)

SadTalker পরিচিতি

স্যাডটোলকার (CVPR ২০২৩, টেনসেন্ট আরসি) একটি মুক্ত উৎস মুখের কথা বলার মডেল যা একটি মুখের ছবিকে অডিও বলার জন্য অ্যানিমেট করে। ওয়াভ২লিপ-এর মত না, স্যাডটোলকার মাথার অবস্থান, ঝলক এবং অভিব্যক্তিকেও আরো প্রাকৃতিক ফলাফল প্রদানের জন্য অ্যানিমেট করে।

কোড এবং ওজন এমআইটি-এর লাইসেন্সের অধীনে আছে - কোন লামা, জেমা বা বাণিজ্যিক উদ্দেশ্যহীন ব্যাকবোন নেই - তাই আপনি যে ভিডিও তৈরি করবেন তা বাণিজ্যিক ব্যবহারের জন্য নিরাপদ।

সেরা ফলাফল পাওয়ার জন্য টিপস

উচ্চমানের, ভাল আলোকিত পোর্ট্রেট ব্যবহার করুন - চোখ দেখা যাচ্ছে, মুখ বন্ধ
কেন্দ্রস্থিত মুখ, বর্গক্ষেত্র অথবা ৪:৫ আকৃতির অনুপাত সবচেয়ে ভাল কাজ করে
পরিষ্কার বক্তৃতা অডিও (কোন সঙ্গীত নেই) ঠোঁট সমন্বয়কে আরো মজবুত করে
হিরো শট-এর জন্য GFPGAN সক্রিয় করুন - দ্বিগুণ রেন্ডারিং সময় কিন্তু বিস্তারিত বিবরণ
যখন আপনি একটি স্থিতিশীল অ্যাভাটার চিত্র নিতে চান তখন স্থির প্রাক-সেট ব্যবহার করুন

লিপ সিঙ্ক ভিডিও পরিকল্পনা

বিনামূল্যে শুরু করুন, আরো প্রয়োজন হলে আপগ্রেড করুন

মুক্ত

৩০ সেকেন্ডের অডিও সীমা
২৫৬ পিক্সেল আউটপুট
শুধুমাত্র "অবশিষ্ট" প্রাক- নির্ধারিত
মুখের উন্নতিকারী নেই

সবচেয়ে জনপ্রিয়

ফ্রি অ্যাকাউন্ট

৩০ সেকেন্ডের অডিও সীমা
"পূর্ণ" এবং "স্থির" উভয় প্রসেট
২৫৬ / ৫১২ পিক্সেল আউটপুট
GFPGAN মুখের উন্নতকারী

নিবন্ধন করুন

প্রফেশনাল

৫ মিনিটের অডিও সীমা
অগ্রাধিকারযুক্ত GPU কলাম
API প্রবেশাধিকার (মাল্টিপার্শ্ব আপলোড)
Webhook সম্পূর্ণতা কলব্যাক
বাণিজ্যিক ব্যবহার (MIT লাইসেন্স)

উন্নীতকরণ

প্রায়শ জিজ্ঞাসিত প্রশ্ন

মুখের ছবি এবং অডিও ক্লিপ আপলোড করুন, এবং এআই সেই মুখের ভিডিও তৈরি করবে, যে মুখে অডিও বলা হচ্ছে, বাস্তবসম্মত ঠোঁট নাড়াচাড়া, মাথার অবস্থান এবং ঝলকানোর সাথে। এটি সাডটোলকার (সিভিপিআর ২০২৩)-এর উপর ভিত্তি করে তৈরি করা হয়েছে, যা এমআইটি-এর লাইসেন্সপ্রাপ্ত কথা বলা মাথার মডেল, যা মুখের আকৃতির পাশাপাশি মুখের ইঙ্গিতকেও অ্যানিমেট করে।

মুখের ইনপুট JPG অথবা PNG ছবি (১০ মেগাবাইট পর্যন্ত) অথবা একটি সংক্ষিপ্ত MP4/WebM চালানোর ভিডিও হতে পারে (আমরা প্রথম ফ্রেম ব্যবহার করব)। চালানোর অডিও হতে পারে MP3, WAV, M4A, অথবা FLAC ১০ মেগাবাইট পর্যন্ত। আমরা অডিওকে অভ্যন্তরীণভাবে ১৬ kHz এ পুনরায় সাম্পল করব।

ফ্রি অ্যাকাউন্ট: প্রতি ক্লিপে ৩০ সেকেন্ড পর্যন্ত। প্ল্যান ব্যবহারকারী: প্রতি অনুরোধে ৫ মিনিট পর্যন্ত। দীর্ঘ অডিও মানে দীর্ঘ রেন্ডারিং সময় এবং উচ্চ অক্ষর খরচ।

লিপ সিঙ্ক ভিডিও প্রতি সেকেন্ডে ১,০০০ অক্ষর ব্যবহার করে। ৩০ সেকেন্ডের একটি ক্লিপ = ৩০,০০০ অক্ষর। এই খরচটি আপনার অক্ষর ভারসাম্য থেকে পূর্বে বিল করা হয় এবং সৃজন করতে ব্যর্থ হলে স্বয়ংক্রিয়ভাবে ফেরত দেওয়া হয়।

হ্যাঁ — SadTalker কোড এবং ওজন MIT লাইসেন্সের অধীনে (Llama, Gemma বা কোন বাণিজ্যিক উদ্দেশ্যে নয়)। আপনি যে ভিডিও তৈরি করবেন তা বাণিজ্যিকভাবে ব্যবহারের জন্য আপনার জন্য। আপনি যে মুখের ছবি এবং অডিও আপলোড করবেন তার জন্য আপনিই দায়ী।

আমাদের A100 সার্ভারে ৫ সেকেন্ডের একটি ক্লিপের জন্য প্রায় ৩০ সেকেন্ড, অডিও দৈর্ঘ্যের সাথে প্রায় লাইনগতভাবে স্কেল করা হচ্ছে। GFPGAN মুখের উন্নতিকারী সক্রিয় করা হলে প্রায় দ্বিগুণ রেন্ডারিং সময় কিন্তু স্পষ্ট, উচ্চমানের আউটপুট তৈরি করা হবে।

পূর্ণ প্রাক-নির্ধারিত (ডিফল্ট) মাথার অবস্থান, ঝলক এবং মুখের অভিব্যক্তির সাথে সাথে ঠোঁটকে অ্যানিমেট করে, যা একটি আরও প্রাকৃতিক কথা বলা মাথার ভিডিও তৈরি করে। স্থির প্রাক-নির্ধারিত মাথাকে স্থানে লক করে এবং শুধুমাত্র মুখকে অ্যানিমেট করে - আপনি যখন একটি স্থিতিশীল অ্যাভাটার শ্যুটিং চান তখন এটি ব্যবহারযোগ্য।

GFPGAN একটি মুখ পুনরুদ্ধার মডেল যা লিপ-সিনক রেন্ডারিং এর পরে মুখের বিবরণকে সুস্পষ্ট করে। এটি আর্টিফেকট পরিষ্কার করে এবং ২৫৬-পিক্সেল আউটপুটকে ৫১২ এর কাছাকাছি দেখায়। এটি প্রায় দ্বিগুণ রেন্ডারিং সময় নেয় কিন্তু হিরো শ্যুটিং এর জন্য এটি মূল্যবান।

SadTalker ডিফল্টভাবে ২৫৬ পিক্সেলের মাপ ব্যবহার করে। আরও স্পষ্ট আউটপুট (ধীর, উচ্চতর VRAM) পেতে ৫১২ পিক্সেলের মাপ ব্যবহার করুন অথবা GFPGAN enhancer সক্রিয় করে মুখের বিবরণকে আরো বড় আকারে প্রদর্শন করুন। সর্বোত্তম ফলাফল পেতে একটি উচ্চমানের, ভালভাবে আলোকিত পোর্ট্রেট ছবি আপলোড করুন।

হ্যাঁ। মুখের ইনপুট হিসেবে একটি এমপি৪ অথবা ওয়েবএম আপলোড করুন এবং আমরা প্রথম ফ্রেমটিকে চালকের পরিচয় হিসেবে ব্যবহার করব। পূর্ণ ভিডিও পুনরায় ডাবিং করার জন্য (প্রতি ফ্রেম মুখ প্রতিস্থাপন), আগামী ডাবিং স্টুডিও ভিডিও পাইপলাইন দেখুন।

হ্যাঁ। মুখ ও অডিও ক্ষেত্র সহ /api/v1/lipsync/-এ একটি বহু-অংশের অনুরোধ POST করুন, তারপর অবস্থা "সম্পন্ন" হওয়া পর্যন্ত /api/v1/lipsync/result/?uuid=-কে পোল করুন। প্রতিক্রিয়ায় MP4-র URL উপস্থিত থাকবে। API ব্যবহারের জন্য একটি পরিশোধিত পরিকল্পনা প্রয়োজন।

SadTalker মুখের আনুভূমিকতা ব্যবহার করে সবচেয়ে উল্লেখযোগ্য মুখ সনাক্ত করে এবং কাট করে। সর্বোত্তম ফলাফল পেতে, একটি পোর্ট্রেট আপলোড করুন যেখানে একজন ব্যক্তিকে কেন্দ্রে রাখা হয়েছে, চোখ দৃশ্যমান এবং অল্প অন্ধকার। গ্রুপ ফটো অপ্রত্যাশিত ফলাফল তৈরি করতে পারে।

5.0/5 (1)

শুরু করার জন্য প্রস্তুত?

বিনামূল্যে নিবন্ধন করুন এবং ৫০ ক্রেডিট পাবেন। কোন ক্রেডিট কার্ডের প্রয়োজন নেই।

নিবন্ধন করুন মূল্য প্রদর্শন

AI লিপ সিঙ্ক ভিডিও উৎপাদক

মুখ + অডিও আপলোড করো

আপনার কথা বলা-মস্তিষ্ক ভিডিও

SadTalker পরিচিতি

সেরা ফলাফল পাওয়ার জন্য টিপস

লিপ সিঙ্ক ভিডিও পরিকল্পনা

প্রায়শ জিজ্ঞাসিত প্রশ্ন

এআই লিপ সিঙ্ক টুল কি করে?

কোন ধরনের ইনপুট ফরম্যাট সমর্থিত?

অডিও কতক্ষণের হতে পারে?

এর দাম কত?

আমি কি ভিডিওগুলো বাণিজ্যিকভাবে ব্যবহার করতে পারি?

কতক্ষণ লাগবে?

"পূর্ণ" এবং "অবশিষ্ট" প্রাক-নির্ধারিত মানগুলির মধ্যে পার্থক্য কি?

জিএফপিজিএএন এনহ্যান্সর কি?

আমার আউটপুট কেন কম রেজোলিউশনের দেখাচ্ছে?

আমি কি একটি ভিডিওকে নতুন অডিওতে লিপ-সিনক করতে পারি?

কোন API আছে?

যদি আমার মুখের ছবিতে একাধিক মানুষ থাকে তাহলে কি হবে?

শুরু করার জন্য প্রস্তুত?