AI লিপ সিঙ্ক ভিডিও উৎপাদক

মুখের ছবি এবং অডিও ক্লিপ আপলোড করুন - বাস্তবসম্মত লিপ সিঙ্ক, মাথার অবস্থান এবং ঝলক সহ একটি কথা বলা মাথার ভিডিও পান। স্যাডটোলকার (এমআইটি) দ্বারা চালিত। বাণিজ্যিক ব্যবহার ঠিক আছে।

আপনার ভাষায় এখনো TTS শব্দ নেই। আমাদের আপনার শব্দ যোগ করতে সাহায্য করুন! আপনার কণ্ঠ বিক্রি করুন

মুখ + অডিও আপলোড করো

প্রতি সেকেন্ডে ১,০০০ অক্ষর

আপনার ফাইল এখানে টেনে নিয়ে যান, অথবা ব্রাউজ

JPG, PNG, or short MP4/WebM. Max 10MB. One clear, well-lit face works best.

ফাইল.mp3

0 MB

আপনার ফাইল এখানে টেনে নিয়ে যান, অথবা ব্রাউজ

MP3, WAV, M4A, or FLAC. Max 10MB. Free: up to 30 sec. Pro: up to 5 min.

ফাইল.mp3

0 MB

প্রসেস করা হচ্ছে...

আপনার ভিডিও রেন্ডার করা হচ্ছে। সাধারণত ৩০ সেকেন্ড থেকে ২ মিনিট সময় লাগে।

আপনার কথা বলা-মস্তিষ্ক ভিডিও

MP4 ডাউনলোড করুন

SadTalker পরিচিতি

স্যাডটোলকার (CVPR ২০২৩, টেনসেন্ট আরসি) একটি মুক্ত উৎস মুখের কথা বলার মডেল যা একটি মুখের ছবিকে অডিও বলার জন্য অ্যানিমেট করে। ওয়াভ২লিপ-এর মত না, স্যাডটোলকার মাথার অবস্থান, ঝলক এবং অভিব্যক্তিকেও আরো প্রাকৃতিক ফলাফল প্রদানের জন্য অ্যানিমেট করে।

কোড এবং ওজন এমআইটি-এর লাইসেন্সের অধীনে আছে - কোন লামা, জেমা বা বাণিজ্যিক উদ্দেশ্যহীন ব্যাকবোন নেই - তাই আপনি যে ভিডিও তৈরি করবেন তা বাণিজ্যিক ব্যবহারের জন্য নিরাপদ।

সেরা ফলাফল পাওয়ার জন্য টিপস

  • উচ্চমানের, ভাল আলোকিত পোর্ট্রেট ব্যবহার করুন - চোখ দেখা যাচ্ছে, মুখ বন্ধ
  • কেন্দ্রস্থিত মুখ, বর্গক্ষেত্র অথবা ৪:৫ আকৃতির অনুপাত সবচেয়ে ভাল কাজ করে
  • পরিষ্কার বক্তৃতা অডিও (কোন সঙ্গীত নেই) ঠোঁট সমন্বয়কে আরো মজবুত করে
  • হিরো শট-এর জন্য GFPGAN সক্রিয় করুন - দ্বিগুণ রেন্ডারিং সময় কিন্তু বিস্তারিত বিবরণ
  • যখন আপনি একটি স্থিতিশীল অ্যাভাটার চিত্র নিতে চান তখন স্থির প্রাক-সেট ব্যবহার করুন

লিপ সিঙ্ক ভিডিও পরিকল্পনা

বিনামূল্যে শুরু করুন, আরো প্রয়োজন হলে আপগ্রেড করুন

মুক্ত
  • ৩০ সেকেন্ডের অডিও সীমা
  • ২৫৬ পিক্সেল আউটপুট
  • শুধুমাত্র "অবশিষ্ট" প্রাক- নির্ধারিত
  • মুখের উন্নতিকারী নেই
সবচেয়ে জনপ্রিয়
ফ্রি অ্যাকাউন্ট
  • ৩০ সেকেন্ডের অডিও সীমা
  • "পূর্ণ" এবং "স্থির" উভয় প্রসেট
  • ২৫৬ / ৫১২ পিক্সেল আউটপুট
  • GFPGAN মুখের উন্নতকারী
নিবন্ধন করুন
প্রফেশনাল
  • ৫ মিনিটের অডিও সীমা
  • অগ্রাধিকারযুক্ত GPU কলাম
  • API প্রবেশাধিকার (মাল্টিপার্শ্ব আপলোড)
  • Webhook সম্পূর্ণতা কলব্যাক
  • বাণিজ্যিক ব্যবহার (MIT লাইসেন্স)
উন্নীতকরণ

প্রায়শ জিজ্ঞাসিত প্রশ্ন

মুখের ছবি এবং অডিও ক্লিপ আপলোড করুন, এবং এআই সেই মুখের ভিডিও তৈরি করবে, যে মুখে অডিও বলা হচ্ছে, বাস্তবসম্মত ঠোঁট নাড়াচাড়া, মাথার অবস্থান এবং ঝলকানোর সাথে। এটি সাডটোলকার (সিভিপিআর ২০২৩)-এর উপর ভিত্তি করে তৈরি করা হয়েছে, যা এমআইটি-এর লাইসেন্সপ্রাপ্ত কথা বলা মাথার মডেল, যা মুখের আকৃতির পাশাপাশি মুখের ইঙ্গিতকেও অ্যানিমেট করে।

মুখের ইনপুট JPG অথবা PNG ছবি (১০ মেগাবাইট পর্যন্ত) অথবা একটি সংক্ষিপ্ত MP4/WebM চালানোর ভিডিও হতে পারে (আমরা প্রথম ফ্রেম ব্যবহার করব)। চালানোর অডিও হতে পারে MP3, WAV, M4A, অথবা FLAC ১০ মেগাবাইট পর্যন্ত। আমরা অডিওকে অভ্যন্তরীণভাবে ১৬ kHz এ পুনরায় সাম্পল করব।

ফ্রি অ্যাকাউন্ট: প্রতি ক্লিপে ৩০ সেকেন্ড পর্যন্ত। প্ল্যান ব্যবহারকারী: প্রতি অনুরোধে ৫ মিনিট পর্যন্ত। দীর্ঘ অডিও মানে দীর্ঘ রেন্ডারিং সময় এবং উচ্চ অক্ষর খরচ।

লিপ সিঙ্ক ভিডিও প্রতি সেকেন্ডে ১,০০০ অক্ষর ব্যবহার করে। ৩০ সেকেন্ডের একটি ক্লিপ = ৩০,০০০ অক্ষর। এই খরচটি আপনার অক্ষর ভারসাম্য থেকে পূর্বে বিল করা হয় এবং সৃজন করতে ব্যর্থ হলে স্বয়ংক্রিয়ভাবে ফেরত দেওয়া হয়।

হ্যাঁ — SadTalker কোড এবং ওজন MIT লাইসেন্সের অধীনে (Llama, Gemma বা কোন বাণিজ্যিক উদ্দেশ্যে নয়)। আপনি যে ভিডিও তৈরি করবেন তা বাণিজ্যিকভাবে ব্যবহারের জন্য আপনার জন্য। আপনি যে মুখের ছবি এবং অডিও আপলোড করবেন তার জন্য আপনিই দায়ী।

আমাদের A100 সার্ভারে ৫ সেকেন্ডের একটি ক্লিপের জন্য প্রায় ৩০ সেকেন্ড, অডিও দৈর্ঘ্যের সাথে প্রায় লাইনগতভাবে স্কেল করা হচ্ছে। GFPGAN মুখের উন্নতিকারী সক্রিয় করা হলে প্রায় দ্বিগুণ রেন্ডারিং সময় কিন্তু স্পষ্ট, উচ্চমানের আউটপুট তৈরি করা হবে।

পূর্ণ প্রাক-নির্ধারিত (ডিফল্ট) মাথার অবস্থান, ঝলক এবং মুখের অভিব্যক্তির সাথে সাথে ঠোঁটকে অ্যানিমেট করে, যা একটি আরও প্রাকৃতিক কথা বলা মাথার ভিডিও তৈরি করে। স্থির প্রাক-নির্ধারিত মাথাকে স্থানে লক করে এবং শুধুমাত্র মুখকে অ্যানিমেট করে - আপনি যখন একটি স্থিতিশীল অ্যাভাটার শ্যুটিং চান তখন এটি ব্যবহারযোগ্য।

GFPGAN একটি মুখ পুনরুদ্ধার মডেল যা লিপ-সিনক রেন্ডারিং এর পরে মুখের বিবরণকে সুস্পষ্ট করে। এটি আর্টিফেকট পরিষ্কার করে এবং ২৫৬-পিক্সেল আউটপুটকে ৫১২ এর কাছাকাছি দেখায়। এটি প্রায় দ্বিগুণ রেন্ডারিং সময় নেয় কিন্তু হিরো শ্যুটিং এর জন্য এটি মূল্যবান।

SadTalker ডিফল্টভাবে ২৫৬ পিক্সেলের মাপ ব্যবহার করে। আরও স্পষ্ট আউটপুট (ধীর, উচ্চতর VRAM) পেতে ৫১২ পিক্সেলের মাপ ব্যবহার করুন অথবা GFPGAN enhancer সক্রিয় করে মুখের বিবরণকে আরো বড় আকারে প্রদর্শন করুন। সর্বোত্তম ফলাফল পেতে একটি উচ্চমানের, ভালভাবে আলোকিত পোর্ট্রেট ছবি আপলোড করুন।

হ্যাঁ। মুখের ইনপুট হিসেবে একটি এমপি৪ অথবা ওয়েবএম আপলোড করুন এবং আমরা প্রথম ফ্রেমটিকে চালকের পরিচয় হিসেবে ব্যবহার করব। পূর্ণ ভিডিও পুনরায় ডাবিং করার জন্য (প্রতি ফ্রেম মুখ প্রতিস্থাপন), আগামী ডাবিং স্টুডিও ভিডিও পাইপলাইন দেখুন।

হ্যাঁ। মুখ ও অডিও ক্ষেত্র সহ /api/v1/lipsync/-এ একটি বহু-অংশের অনুরোধ POST করুন, তারপর অবস্থা "সম্পন্ন" হওয়া পর্যন্ত /api/v1/lipsync/result/?uuid=-কে পোল করুন। প্রতিক্রিয়ায় MP4-র URL উপস্থিত থাকবে। API ব্যবহারের জন্য একটি পরিশোধিত পরিকল্পনা প্রয়োজন।

SadTalker মুখের আনুভূমিকতা ব্যবহার করে সবচেয়ে উল্লেখযোগ্য মুখ সনাক্ত করে এবং কাট করে। সর্বোত্তম ফলাফল পেতে, একটি পোর্ট্রেট আপলোড করুন যেখানে একজন ব্যক্তিকে কেন্দ্রে রাখা হয়েছে, চোখ দৃশ্যমান এবং অল্প অন্ধকার। গ্রুপ ফটো অপ্রত্যাশিত ফলাফল তৈরি করতে পারে।
5.0/5 (1)

আমরা কি উন্নতি করতে পারি? আপনার ফিডব্যাক আমাদের সমস্যা সমাধানে সাহায্য করে।

শুরু করার জন্য প্রস্তুত?

বিনামূল্যে নিবন্ধন করুন এবং ৫০ ক্রেডিট পাবেন। কোন ক্রেডিট কার্ডের প্রয়োজন নেই।