AI ଲିପ ସମକାଳୀନ ଭିଡିଓ ନିର୍ମାତାName

ଗୋଟିଏ ମୁଖ ଫଟୋ ଏବଂ ଗୋଟିଏ ଧ୍ୱନି କଲିପକୁ ଅପଲୋଡ କରନ୍ତୁ - ବାସ୍ତବ ଲିପ ସିଙ୍କ ସହିତ ଗୋଟିଏ କଥାବାର୍ତ୍ତା-ମସ୍ତକ ଭିଡ଼ିଓ, ମସ୍ତକ ସ୍ଥାପନ ଏବଂ ବ୍ଲିଙ୍କସ ପାଇବେ। SadTalker (MIT) ଦ୍ୱାରା ଶକ୍ତିପ୍ରଦାନ କରାଯାଏ। ବାଣିଜ୍ୟିକ ବ୍ୟବହାର ଠିକ ଅଛି।

ଆପଣଙ୍କ ଭାଷାରେ ଆମ ପାଖରେ ବର୍ତ୍ତମାନ TTS ଧ୍ୱନି ନାହିଁ । ଆମକୁ ଆପଣଙ୍କର ଯୋଗ କରିବାରେ ସହାୟତା କରନ୍ତୁ! ଆପଣଙ୍କର ସ୍ୱର ବିକ୍ରି କରନ୍ତୁ

ଆଭାସ + ଧ୍ୱନିକୁ ଅଦ୍ୟତନ କରନ୍ତୁ

ପ୍ରତି ସେକଣ୍ଡରେ 1,000 ଅକ୍ଷର

ଆପଣଙ୍କର ଫାଇଲକୁ ଏଠାରେ ଟାଣି ନିଅନ୍ତୁ ଏବଂ ଛାଡିଦିଅନ୍ତୁ, କିମ୍ବା ବ୍ରାଉଜ କରନ୍ତୁ

JPG, PNG, or short MP4/WebM. Max 10MB. One clear, well-lit face works best.

ଫାଇଲ.mp3

0 MB

ଆପଣଙ୍କର ଫାଇଲକୁ ଏଠାରେ ଟାଣି ନିଅନ୍ତୁ ଏବଂ ଛାଡିଦିଅନ୍ତୁ, କିମ୍ବା ବ୍ରାଉଜ କରନ୍ତୁ

MP3, WAV, M4A, or FLAC. Max 10MB. Free: up to 30 sec. Pro: up to 5 min.

ଫାଇଲ.mp3

0 MB

ପ୍ରକ୍ରିୟାକରଣ କରୁଅଛି...

ଆପଣଙ୍କର ଭିଡିଓକୁ ରେଣ୍ଡର କରୁଅଛି। ଏହା ସାଧାରଣତଃ 30 ସେକଣ୍ଡରୁ2ମିନିଟ ସମୟ ଗ୍ରହଣ କରିଥାଏ।

ଆପଣଙ୍କର କଥାବାର୍ତ୍ତା-ମସ୍ତକ ଭିଡିଓ

MP4 ଆହରଣ କରନ୍ତୁ

SadTalker ବିଷୟରେ

SadTalker (CVPR 2023, Tencent ARC) ଗୋଟିଏ ମୁକ୍ତ ଉତ୍ସ କଥାବାର୍ତ୍ତା-ମସ୍ତକ ମଡେଲ ଯାହାକି କୌଣସି ଧ୍ୱନିକୁ କହିବା ପାଇଁ ଗୋଟିଏ ମୁଖ ପ୍ରତିଛବିକୁ ଜୀବନାୟନ କରେ। Wav2Lip ର ବିକଳ୍ପ ଭଳି, SadTalker ମଧ୍ୟ ଅଧିକ ପ୍ରାକୃତିକ ଫଳାଫଳ ପାଇଁ ମସ୍ତକ ସ୍ଥାପନ, ଆଙ୍ଗୁଠି ଚୁମ୍ବନ ଏବଂ ଅଭିବ୍ୟକ୍ତିକୁ ଜୀବନାୟନ କରେ।

କୋଡ ଏବଂ ଓଜନ MIT-ଲାଏସନ୍ସିତ ଅଂଶରୁ ଅଂଶ ପର୍ଯ୍ୟନ୍ତ - କୌଣସି ଲମା, ଜେମା, କିମ୍ବା ବାଣିଜ୍ୟିକ-ନଥିବା ପେଣ୍ଠସ୍ଥଳୀ ନାହିଁ - ତେଣୁ ଆପଣ ନିର୍ମାଣ କରିଥିବା ଭିଡିଓଗୁଡ଼ିକ ବାଣିଜ୍ୟିକ ବ୍ୟବହାର ପାଇଁ ସୁରକ୍ଷିତ।

ଉତ୍ତମ ଫଳାଫଳ ପାଇଁ ଉପାୟ

  • ଉଚ୍ଚ ଗୁଣବତ୍ତା, ଭଲ ଭାବରେ ଆଲୋକିତ ପୋର୍ଟରେଟ ବ୍ୟବହାର କରନ୍ତୁ - ଆଖି ଦୃଶ୍ୟମାନ, ମୁହଁ ବନ୍ଦ
  • କେନ୍ଦ୍ରିତ ମୁଖ, ବର୍ଗ କିମ୍ବା 4:5 ଆକାର ଅନୁପାତ ସବୁଠାରୁ ଭଲ ଭାବରେ କାମ କରେ
  • ସ୍ୱଚ୍ଛ ଭାଷଣ ଧ୍ୱନି (କୌଣସି ସଂଗୀତ ନାହିଁ) ସ୍ପଷ୍ଟ ଲିପ ସମକାଳନକୁ ପ୍ରଦାନ କରେ
  • ହିରୋ ଶଟଗୁଡ଼ିକ ପାଇଁ GFPGANକୁ ସକ୍ରିୟ କରନ୍ତୁ - ଦୁଇଗୁଣ ରେଣ୍ଡର ସମୟ କିନ୍ତୁ ବିବରଣୀକୁ ତୀବ୍ର କରନ୍ତୁ
  • ଗୋଟିଏ ସ୍ଥିର ଆବରଣ ଶଟ ଚାହୁଁଥିଲେ ସ୍ଥିର ପୂର୍ବନିର୍ଦ୍ଧାରିତକୁ ବ୍ୟବହାର କରନ୍ତୁ

ଲିପ ସମକାଳୀନ ଭିଡିଓ ଯୋଜନାଗୁଡ଼ିକ

ମୁକ୍ତ ଭାବରେ ଆରମ୍ଭ କରନ୍ତୁ, ଅଧିକ ଆବଶ୍ୟକ ହେଲେ ଅଗ୍ରଗତି କରନ୍ତୁ

ମୁକ୍ତ
  • 30-ସେକଣ୍ଡ ଧ୍ୱନି ସୀମା
  • 256 px ନିର୍ଗମ
  • କେବଳ "ଅନୁପସ୍ଥିତ" ପୂର୍ବନିର୍ଦ୍ଧାରିତ
  • କୌଣସି ମୁଖ ବଢ଼ାଉ ନାହିଁ
ସବୁଠାରୁ ଲୋକପ୍ରିୟ
ମୁକ୍ତ ଖାତା
  • 30-ସେକଣ୍ଡ ଧ୍ୱନି ସୀମା
  • ଉଭୟ "ପୂର୍ଣ୍ଣ" ଏବଂ "ସ୍ଥିର" ପୂର୍ବନିର୍ଦ୍ଧାରିତ
  • 256 / 512 px ନିର୍ଗମ
  • GFPGAN ମୁଖ ବଢ଼ାଉଥିବା
ମୁକ୍ତ ଭାବରେ ପଞ୍ଜୀକୃତ ହୁଅନ୍ତୁ
ପ୍ରୋ
  • 5-ମିନିଟ ଧ୍ୱନି ସୀମା
  • ଅଗ୍ରତା GPU ଧାଡ଼ି
  • API ସୁଗମତା (ବହୁଭାଗ ଅଦ୍ୟତନ)
  • Webhook ସମ୍ପୂର୍ଣ୍ଣତା callbacks
  • ବାଣିଜ୍ୟିକ ବ୍ୟବହାର (MIT ଲାଇସେନ୍ସ)
ଅଦ୍ୟତନ କରନ୍ତୁ

ପ୍ରାୟ ପଚରାଯାଉଥିବା ପ୍ରଶ୍ନName

ଗୋଟିଏ ମୁଖ ଫଟୋ ଏବଂ ଗୋଟିଏ ଧ୍ୱନି କଲିପକୁ ଅପଲୋଡ କରନ୍ତୁ, ଏବଂ AI ସେହି ମୁଖର ଏକ ଭିଡିଓ ସୃଷ୍ଟି କରେ ଯାହା ବାକ୍ୟକୁ ବାସ୍ତବ ଲିପ ଗତି, ମସ୍ତିଷ୍କ ସ୍ଥାପନ ଏବଂ ବ୍ଲିଙ୍କ ସହିତ କହିଥାଏ। SadTalker (CVPR 2023) ଉପରେ ନିର୍ମିତ, ଗୋଟିଏ MIT-ଲାଇନସେଟ କଥାବାର୍ତ୍ତା-ମସ୍ତିଷ୍କ ମଡେଲ ଯାହା ମୁହଁ ଆକାର ବ୍ୟତୀତ ଆନିମେସନ ଅଭିବ୍ୟକ୍ତିକୁ ମଧ୍ୟ ଧାରଣ କରିଥାଏ।

ମୁଖ ନିବେଶ JPG କିମ୍ବା PNG ପ୍ରତିଛବି (10 MB ପର୍ଯ୍ୟନ୍ତ) କିମ୍ବା ଗୋଟିଏ ସଂକ୍ଷିପ୍ତ MP4/WebM ଚାଳନା ଭିଡିଓ (ଆମମାନେ ପ୍ରଥମ ଫ୍ରେମକୁ ବ୍ୟବହାର କରୁଅଛୁ) ହୋଇପାରିବ। ଚାଳନା ଧ୍ୱନି MP3, WAV, M4A, କିମ୍ବା FLAC ହୋଇପାରିବ ଯାହାକି 10 MB ପର୍ଯ୍ୟନ୍ତ। ଆମେ ଧ୍ୱନିକୁ ଆଭ୍ୟନ୍ତରୀଣ ଭାବରେ 16 kHz କୁ ପୁନଃସମ୍ପାଦନ କରୁଅଛୁ।

ମୁକ୍ତ ଖାତା: ପ୍ରତି କ୍ଲିପ ପାଇଁ 30 ସେକଣ୍ଡ ପର୍ଯ୍ୟନ୍ତ. ପୈଠ କରୁଥିବା ଚାଳକ: ପ୍ରତି ଅନୁରୋଧ ପାଇଁ5ମିନିଟ ପର୍ଯ୍ୟନ୍ତ। ଦୀର୍ଘ ଧ୍ୱନି ଅର୍ଥ ଦୀର୍ଘ ରେଣ୍ଡର ସମୟ ଏବଂ ଉଚ୍ଚ ଅକ୍ଷର ମୂଲ୍ୟ।

ଲିପ ସମକାଳୀନ ଭିଡିଓ ପ୍ରତି ସେକେଣ୍ଡରେ 1,000 ଅକ୍ଷର ଉତ୍ପନ୍ନ ଭିଡିଓ ବ୍ୟବହାର କରିଥାଏ। ଗୋଟିଏ 30-ସେକେଣ୍ଡର କଲିପ = 30,000 ଅକ୍ଷର। ଏହି ଖର୍ଚ୍ଚଟି ଆପଣଙ୍କର ଅକ୍ଷର ବଳକାରୁ ଆଗରୁ ବିଲ୍ଡ କରାଯାଏ ଏବଂ ଯଦି ଉତ୍ପାଦନ ବିଫଳ ହୁଏ ତେବେ ସ୍ୱୟଂଚାଳିତ ଭାବରେ ପୁନଃପ୍ରଦାନ କରାଯାଏ।

ହଁ — SadTalker ସଂକେତ ଏବଂ ଓଜନ MIT ଲାଇସେନ୍ସିତ ଶେଷରୁ ଶେଷ ପର୍ଯ୍ୟନ୍ତ (ନୂତନ ଲମା, ଜେମା, କିମ୍ବା ବାଣିଜ୍ୟିକ-ନୂତନ ବ୍ୟାକବୋନ)। ଆପଣ ନିର୍ମାଣ କରିଥିବା ଭିଡିଓଗୁଡ଼ିକ ବାଣିଜ୍ୟିକ ଭାବରେ ବ୍ୟବହାର କରିବା ପାଇଁ ଆପଣଙ୍କର। ଆପଣ ଉତ୍ସ ଚେହେରା ପ୍ରତିଛବି ଏବଂ ଧ୍ୱନି ପାଇଁ ଅଧିକାର ରଖିବା ପାଇଁ ଦାୟୀ।

ଆମର A100 ସର୍ଭର ଉପରେ ଗୋଟିଏ5ସେକଣ୍ଡର କଲିପ ପାଇଁ ପ୍ରାୟ 30 ସେକଣ୍ଡ, ଧ୍ୱନି ଲମ୍ବ ସହିତ ପ୍ରାୟ ରେଖାଗତ ଭାବରେ ମାପିବା। GFPGAN ମୁଖ ବଢ଼ାଇବାକୁ ସକ୍ରିୟ କରିବା ପ୍ରାୟ ଦୁଇଗୁଣ କରିଥାଏ ରେଣ୍ଡର ସମୟ କିନ୍ତୁ ତୀକ୍ଷ୍ଣ, ଉଚ୍ଚ-ଗୁଣବତ୍ତା ନିର୍ଗମନ କରିଥାଏ।

ସମ୍ପୂର୍ଣ୍ଣ ପୂର୍ବନିର୍ଦ୍ଧାରିତ (ଡିଫଲ୍ଟ) ମୁହଁର ଅବସ୍ଥାନ, ଆଖି ବୁଜିବା, ଏବଂ ଆଭାସକୁ ଆନିମେସନ କରେ, ଯାହାକି ଅଧିକ ପ୍ରାକୃତିକ କଥାବାର୍ତ୍ତା ମୁହଁ ଭିଡ଼ିଓ ଉତ୍ପାଦନ କରେ। ଅତିରିକ୍ତ ପୂର୍ବନିର୍ଦ୍ଧାରିତ ମୁହଁକୁ ସ୍ଥାନରେ ଅଟକିଥାଏ ଏବଂ କେବଳ ମୁହଁକୁ ଆନିମେସନ କରେ - ଉପଯୋଗୀ ଯେତେବେଳେ ଆପଣ ଗୋଟିଏ ସ୍ଥିର ଆବରଣ ଶୋଟ ଚାହୁଁଛନ୍ତି।

GFPGAN ଗୋଟିଏ ମୁଖ ପୁନଃସ୍ଥାପନ ନମୂନା ଯାହାକି ଲିପ-ସଂଯୋଜନ ରେଣ୍ଡରିଂ ପରେ ମୁଖ ବିବରଣୀକୁ ତୀକ୍ଷ୍ଣ କରିଥାଏ। ଏହା କୃତ୍ରିମ ଦ୍ରବ୍ୟକୁ ସଫା କରିଥାଏ ଏବଂ 256-ପିକସେଲ ନିର୍ଗମକୁ 512 ନିକଟତର ଦେଖାଏ। ଏହା ରେଣ୍ଡର ସମୟକୁ ପାଖାପାଖି ଦୁଇଗୁଣ କରିଥାଏ କିନ୍ତୁ ହିରୋ ଶଟ ପାଇଁ ଏହା ଲାଭଦାୟକ।

SadTalker ପୂର୍ବନିର୍ଦ୍ଧାରିତ ଭାବରେ 256 px ରେ ପ୍ରଦର୍ଶନ କରିଥାଏ। ତୀକ୍ଷ୍ଣ ନିର୍ଗମ ପାଇଁ 512 px ଆକାରକୁ ପରିବର୍ତ୍ତନ କରନ୍ତୁ (ଧିରେ, ଉଚ୍ଚ VRAM) କିମ୍ବା ମୁଖର ବିବରଣୀକୁ ବଢାଇବା ପାଇଁ GFPGAN ଉନ୍ନତିକାରୀକୁ ସକ୍ରିୟ କରନ୍ତୁ। ଶ୍ରେଷ୍ଠ ଫଳାଫଳ ପାଇଁ, ଉଚ୍ଚ ଗୁଣବତ୍ତା, ଭଲ ଭାବରେ ଆଲୋକିତ ପୋର୍ଟରେଟ ଫଟୋକୁ ଅପଲୋଡ କରନ୍ତୁ।

ହଁ। MP4 କିମ୍ବା WebMକୁ ମୁଖ ନିବେଶ ଭାବରେ ଅପଲୋଡ କରନ୍ତୁ ଏବଂ ଆମେ ପ୍ରଥମ ଫ୍ରେମକୁ ଚଳାଇବା ପରିଚୟ ଭାବରେ ବ୍ୟବହାର କରିବୁ। ସମ୍ପୂର୍ଣ୍ଣ ଭିଡିଓ ପୁନଃ-ଦବଙ୍ଗ ପାଇଁ (ପ୍ରତି-ଫ୍ରେମ ମୁହଁ ପ୍ରତିସ୍ଥାପନ), ଆଗାମୀ ଦବଙ୍ଗ ଷ୍ଟୁଡିଓ ଭିଡିଓ ପାଇପଲାଇନକୁ ଦେଖନ୍ତୁ।

ହଁ। ମୁଖ ଏବଂ ଧ୍ୱନି କ୍ଷେତ୍ର ସହିତ /api/v1/lipsync/ କୁ ଏକ ବହୁବିଧ ଅନୁରୋଧକୁ POST କରନ୍ତୁ, ତା'ପରେ ସ୍ଥିତି "ସମପ୍ତ" ହେବା ପର୍ଯ୍ୟନ୍ତ /api/v1/lipsync/result/?uuid= କୁ ପଲଲ କରନ୍ତୁ। ଉତ୍ତରରେ MP4 ର URL ଧାରଣ ଅଛି। API ସୁବିଧା ପାଇଁ ଗୋଟିଏ ପଇସା ଦେଇ ପ୍ଳାନ ଆବଶ୍ୟକ।

SadTalker ଚେହେରା-ସଂଯୋଜନକୁ ଖୋଜିବା ଏବଂ ସବୁଠାରୁ ପ୍ରମୁଖ ଚେହେରାକୁ କାଟିବା ପାଇଁ ବ୍ୟବହାର କରିଥାଏ। ଶ୍ରେଷ୍ଠ ଫଳାଫଳ ପାଇଁ, ଗୋଟିଏ ବ୍ୟକ୍ତି କେନ୍ଦ୍ରିତ, ଆଖି ଦୃଶ୍ୟମାନ, ଏବଂ ସର୍ବନିମ୍ନ ଅଟକାଇବା ସହିତ ଗୋଟିଏ ପୋର୍ଟରେଟକୁ ଅପଲୋଡ କରନ୍ତୁ। ସମୂହ ଫଟୋଗୁଡ଼ିକ ଅପ୍ରତ୍ୟାଶିତ ଫଳାଫଳ ସୃଷ୍ଟି କରିପାରେ।
5.0/5 (1)

ଆମେ କଣ ସୁଧାରିପାରିବା? ଆପଣଙ୍କର ପ୍ରତିକ୍ରିୟା ଆମକୁ ସମସ୍ୟାର ସମାଧାନ କରିବାରେ ସହାୟକ ହୋଇଥାଏ ।

ଆରମ୍ଭ କରିବା ପାଇଁ ପ୍ରସ୍ତୁତ କି?

ମୁକ୍ତ ଭାବରେ ଯୋଗଦାନ କରନ୍ତୁ ଏବଂ 50 କ୍ରେଡିଟ ପାଇବେ। କୌଣସି କ୍ରେଡିଟ କାର୍ଡ ଆବଶ୍ୟକ ନାହିଁ।