AI লিপ সিনক ভিডিঅ' জেনাৰেৰ

মুখৰ ফ'টো আৰু অডিঅ' ক্লিপ আপলোড কৰক - এটা কথা কোৱা-মস্তিষ্কৰ ভিডিঅ' প্ৰাপ্ত কৰক য'ত বাস্তবিক লিপ সিনক, মাথাৰ পোজ, আৰু ব্ৰিংকিং আছে। SadTalker (MIT) দ্বাৰা শক্তি প্ৰদান কৰা হৈছে। বাণিজ্যিক ব্যৱহাৰ ঠিক আছে।

মুখ + অডিঅ' আপলোড কৰক

প্ৰতি ছেকেণ্ডে ১,০০০ আখৰ

আপোনাৰ নথিপত্ৰ এখানে টানি আনুন, অথবা ব্ৰাউছ কৰক

JPG, PNG, or short MP4/WebM. Max 10MB. One clear, well-lit face works best.

ফাইল.mp3

0 MB

আপোনাৰ নথিপত্ৰ এখানে টানি আনুন, অথবা ব্ৰাউছ কৰক

MP3, WAV, M4A, or FLAC. Max 10MB. Free: up to 30 sec. Pro: up to 5 min.

ফাইল.mp3

0 MB

প্ৰক্ৰিয়া কৰা হৈছে...

আপোনাৰ ভিডিঅ' ৰেন্ডাৰ কৰা হৈছে। এইটোক সাধাৰণতে ৩০ ছেকেণ্ডৰ পৰা ২ মিনিট সময় লাগে।

আপোনাৰ ট্যাকিঙ-হেড ভিডিঅ'

ডাউনলোড কৰক

SadTalker ৰ বিষয়ে

SadTalker (CVPR 2023, Tencent ARC) এটা মুক্ত উৎসৰ কথা ক'ব পৰা মডেল যি কোনো অডিঅ' ক'বলৈ এটা মুখৰ ছবিক এনিমেট কৰে। Wav2Lip ৰ বিকল্পৰ বিপৰীতে, SadTalker এও মাথাৰ পোজ, উলটি যোৱা আৰু অধিক প্ৰাকৃতিক ফলাফলৰ বাবে অভিব্যক্তিক এনিমেট কৰে।

কোড আৰু ওজন MIT-ৰ দ্বাৰা লাইচেঞ্চ কৰা হৈছে — কোনো লামা, গেমা বা বাণিজ্যিক উদ্দেশ্যহীন বেকবোন নাই — গতিকে আপুনি নিৰ্মাণ কৰা ভিডিঅ'সমূহ বাণিজ্যিক ব্যৱহাৰৰ বাবে নিৰাপদ।

সৰ্বোত্তম ফলাফলৰ বাবে টিপ

  • উচ্চমানৰ, ভালে আলোকিত প'ৰ্ট্ৰেট ব্যৱহাৰ কৰক - চকু দেখা যায়, মুখ বন্ধ
  • কেন্দ্ৰস্থিত মুখ, বৰ্গ বা ৪:৫ আকৃতিৰ অনুপাত সৰ্বোত্তমভাবে কাম কৰে
  • স্বচ্ছ বাক্য অডিঅ' (কোনো সঙ্গীত নাই) দ্বাৰা অধিক মজবুত লিপ সিনক প্ৰাপ্ত কৰা হয়
  • হিৰো শটৰ বাবে GFPGAN সক্ৰিয় কৰক - ৰেন্ডাৰ সময় দ্বিগুণ কৰে কিন্তু বিৱৰণ তীক্ষ্ণ কৰে
  • স্থিৰ আভাৰ্স্ট শ্বট বিচাৰিলে Still প্ৰিসেট ব্যৱহাৰ কৰক

লিপ সিনক ভিডিঅ' প্ল্যানসমূহ

বিনামূল্যে আৰম্ভ কৰক, আরো প্ৰয়োজন হ'লে উন্নত কৰক

মুক্ত
  • ৩০-ছেকেণ্ড অডিঅ' সীমা
  • ২৫৬ পিক্সেল আউটপুট
  • কেৱল "Still" প্ৰিসেট
  • মুখৰ উন্নয়নকাৰী নাই
সৰ্বাধিক জনপ্ৰিয়
মুক্ত একাওন্ট
  • ৩০-ছেকেণ্ড অডিঅ' সীমা
  • দুয়োটা "পূৰ্ণ" আৰু "স্থিৰ" প্ৰিসেট
  • ২৫৬ / ৫১২ পিক্সেল আউটপুট
  • GFPGAN মুখৰ উন্নয়নকাৰী
বিনামূল্যে নিবন্ধন কৰক
প্ৰো
  • ৫ মিনিটৰ অডিঅ' সীমা
  • অগ্ৰাধিকাৰ GPU লাইন
  • API অভিগম (বহু অংশ আপলোড)
  • Webhook সম্পূৰ্ণ কলবেকসমূহ
  • বাণিজ্যিক ব্যৱহাৰ (MIT লাইচেঞ্চ)
উন্নত কৰক

সদায় সোধা প্ৰশ্নসমূহ

মুখৰ ফ'টো আৰু অডিঅ' ক্লিপ আপলোড কৰক, আৰু AI এ সেই মুখৰ অডিঅ'ক বাস্তবিক লিপ নেভিগেচন, মাথাৰ পোজ, আৰু ব্ৰেকিংৰ সৈতে ক'ব পৰা এটা ভিডিঅ' সৃষ্টি কৰে। SadTalker (CVPR 2023) ত নিৰ্মিত, এটা MIT-লাইচেঞ্চিত ক'ব পৰা-মাথা মডেল যি মুখৰ আকৃতিৰ উপৰিও অভিব্যক্তিক এনিমেট কৰে।

মুখৰ ইনপুট এটা JPG অথবা PNG ছবি (১০ মেগাবাইটলৈকে) অথবা এটা সংক্ষিপ্ত MP4/WebM চালিত ভিডিঅ' (আমি প্ৰথম ফ্ৰেম ব্যৱহাৰ কৰোঁ) হব পাৰে। চালিত অডিঅ' ১০ মেগাবাইটলৈকে MP3, WAV, M4A, অথবা FLAC হব পাৰে। আমি অডিঅ'ক অভ্যন্তৰীণভাৱে ১৬ kHz লৈ পুনৰসামগ্ৰী কৰোঁ।

বিনামূলীয়া একাওন্ট: প্ৰতি ক্লিপ ৩০ ছেকেণ্ডৰ ভিতৰত। পৰিশোধ কৰা ব্যৱহাৰকাৰী: প্ৰতি অনুৰোধ ৫ মিনিটৰ ভিতৰত। দীঘল অডিঅ' মানে দীঘল ৰেন্ডাৰিং সময় আৰু উচ্চ আখৰ মূল্য।

লিপ সিনক ভিডিঅ'ত প্ৰতি ছেকেণ্ডত ১,০০০ আখৰ ব্যৱহাৰ কৰা হয়। ৩০-ছেকেণ্ডৰ এটা ক্লিপ = ৩০,০০০ আখৰ। এই ব্যয় আপোনাৰ আখৰ ভাৰসাম্যৰ পৰা আগতে বিল কৰা হয় আৰু সৃষ্টি কৰিবলৈ ব্যৰ্থ হলে স্বয়ংক্ৰিয়ভাৱে পৰিশোধ কৰা হয়।

হ'ব — SadTalker কোড আৰু ওজন MIT লাইচেঞ্চৰ অন্তিম পৰ্যায়ৰ (Llama, Gemma, অথবা কোনো বাণিজ্যিক বেকবোন নহয়)। আপুনি নিৰ্মাণ কৰা ভিডিঅ'সমূহ বাণিজ্যিকভাৱে ব্যৱহাৰ কৰাৰ বাবে আপোনাৰ। আপুনি আপলোড কৰা উৎস মুখৰ ছবি আৰু অডিঅ'ৰ অধিকাৰ থকাৰ বাবে আপুনি দায়ী।

আমাৰ A100 চাৰ্ভাৰত ৫ ছেকেণ্ডৰ এটা ক্লিপ প্ৰায় ৩০ ছেকেণ্ড, অডিঅ' দৈৰ্ঘ্যৰ সৈতে প্ৰায় ৰেখাকাৰে স্কেলিং কৰা। GFPGAN মুখ উন্নতকাৰীক সামৰ্থবান কৰা প্ৰায় দ্বিগুণ কৰে ৰণ্ডাৰ সময় কিন্তু তীক্ষ্ণ, উচ্চমানৰ আউটপুট প্ৰদান কৰে।

সম্পূৰ্ণ প্ৰি-সেট (অবিকল্পিত) হাঁটুৰ সৈতে মাথাৰ পোজ, গ্লানি, আৰু অভিব্যক্তিক এনিমেট কৰে, যিয়ে এটা অধিক প্ৰাকৃতিক কথোপকথন-হাঁটু ভিডিঅ' প্ৰস্তুত কৰে। প্ৰি-সেটত মাথা স্থানত লক কৰা থাকে আৰু কেৱল মুখক এনিমেট কৰে - আপুনি এটা স্থায়ী আভাটাৰ শ্বট বিচাৰিলে ব্যৱহাৰযোগ্য।

GFPGAN এটা মুখ পুনৰুদ্ধাৰ মডেল যি লিপ-সিনক ৰণ্ডাৰৰ পিছত মুখৰ বিৱৰণসমূহ তীক্ষ্ণ কৰে। ই কৰ্কটক পৰিষ্কাৰ কৰে আৰু ২৫৬-পিক্সেল আউটপুটক ৫১২ ৰ নিকটলৈ দেখুৱায়। ই প্ৰায় দুগুণ ৰণ্ডাৰ সময় কিন্তু হিৰোশ্বটৰ বাবে ইয়াৰ মূল্য আছে।

SadTalker অবিকল্পিতভাৱে ২৫৬ পিক্সেলত প্ৰদৰ্শন কৰে। তীক্ষ্ণ আউটপুটৰ বাবে ৫১২ পিক্সেল আকাৰলৈ পৰিবৰ্তন কৰক (ধীৰ, উচ্চ VRAM) অথবা মুখৰ বিৱৰণসমূহ আপস্কেল কৰিবলৈ GFPGAN উন্নতকৰণক সামৰ্থবান কৰক। সৰ্বোত্তম ফলাফলৰ বাবে, উচ্চ মানৰ, ভালেকৈ আলোকিত প'ৰ্ট্ৰেট ফ'টো আপলোড কৰক।

হ'ব। মুখৰ ইনপুট হিচাপে এটা MP4 অথবা WebM আপলোড কৰক আৰু আমি প্ৰথম ফ্ৰেমক চালক পৰিচয় হিচাপে ব্যৱহাৰ কৰম। সম্পূৰ্ণ ভিডিঅ' পুনৰ-ডাবিং (প্ৰতি-ফ্ৰেইম মুখৰ প্ৰতিস্থাপন) ৰ বাবে, আগন্তুক ডাবিং স্টুডিঅ' ভিডিঅ' পাইপলাইন চাওক।

হ'ব। মুখ আৰু অডিঅ' ক্ষেত্ৰসমূহৰ সৈতে /api/v1/lipsync/ লৈ এটা বহু-অংশ অনুৰোধ POST কৰক, তাৰ পিছত অৱস্থা "সম্পন্ন" হ'বলৈকে /api/v1/lipsync/result/?uuid= প'ল কৰক। উত্তৰত MP4 ৰ URL উপস্থিত আছে। API অভিগম কৰিবলৈ এটা পৰিশোধিত প্ল্যানৰ প্ৰয়োজন।

SadTalker এ মুখৰ আনুভূমিকতা ব্যৱহাৰ কৰি সৰ্বাধিক প্ৰধান মুখ চিনাক্ত আৰু কাট কৰে। সৰ্বোত্তম ফলাফলৰ বাবে, এটা ব্যক্তিকে কেন্দ্ৰস্থিত, চকু দৃশ্যমান, আৰু সৰ্বনিম্ন অক্লুচন থকা এটা প'ৰ্ট্ৰেট আপলোড কৰক। দলৰ ফ'টোসমূহে অপ্ৰত্যাশিত ফলাফল প্ৰদান কৰিব পাৰে।
5.0/5 (1)

আমি কি উন্নত কৰিব পাৰো? আপোনাৰ মতামত আমাক সমস্যা সমাধানত সহায় কৰে।

আৰম্ভ কৰিবলৈ প্ৰস্তুত?

বিনামূলীয়াকৈ নিবন্ধন কৰক আৰু ৫০ ক্রেডিট লাভ কৰক। কোনো ক্ৰেডিট কাৰ্ডৰ প্ৰয়োজন নাই।