ତ୍ରୁଟି ଖବର କରନ୍ତୁ / ବିଶେଷତା ଅନୁରୋଧ

AI ଲିପ ସମକାଳୀନ ଭିଡିଓ ନିର୍ମାତାName

ଗୋଟିଏ ମୁଖ ଫଟୋ ଏବଂ ଗୋଟିଏ ଧ୍ୱନି କଲିପକୁ ଅପଲୋଡ କରନ୍ତୁ - ବାସ୍ତବ ଲିପ ସିଙ୍କ ସହିତ ଗୋଟିଏ କଥାବାର୍ତ୍ତା-ମସ୍ତକ ଭିଡ଼ିଓ, ମସ୍ତକ ସ୍ଥାପନ ଏବଂ ବ୍ଲିଙ୍କସ ପାଇବେ। SadTalker (MIT) ଦ୍ୱାରା ଶକ୍ତିପ୍ରଦାନ କରାଯାଏ। ବାଣିଜ୍ୟିକ ବ୍ୟବହାର ଠିକ ଅଛି।

ମୁକ୍ତ ଭାବରେ ପଞ୍ଜିକୃତ ହୁଅନ୍ତୁ

ଆଭାସ + ଧ୍ୱନିକୁ ଅଦ୍ୟତନ କରନ୍ତୁ

ପ୍ରତି ସେକଣ୍ଡରେ 1,000 ଅକ୍ଷର

1. ମୁଖ ପ୍ରତିଛବି କିମ୍ବା ଡ୍ରାଇଭିଂ ଭିଡିଓ

ଆପଣଙ୍କର ଫାଇଲକୁ ଏଠାରେ ଟାଣି ନିଅନ୍ତୁ ଏବଂ ଛାଡିଦିଅନ୍ତୁ, କିମ୍ବା ବ୍ରାଉଜ କରନ୍ତୁ

JPG, PNG, or short MP4/WebM. Max 10MB. One clear, well-lit face works best.

ଧ୍ୱନିକୁ ଚାଳନ କରୁଅଛି

ଆପଣଙ୍କର ଫାଇଲକୁ ଏଠାରେ ଟାଣି ନିଅନ୍ତୁ ଏବଂ ଛାଡିଦିଅନ୍ତୁ, କିମ୍ବା ବ୍ରାଉଜ କରନ୍ତୁ

MP3, WAV, M4A, or FLAC. Max 10MB. Free: up to 30 sec. Pro: up to 5 min.

ଜୀବନାୟନ ପୂର୍ବନିର୍ଦ୍ଧାରିତ

ନିର୍ଗମ ଆକାର

ମୁଖ ବଢ଼ାଉଥିବାName

GFPGAN (ଶକ୍ତ, ଧିରେ)

SadTalker ବିଷୟରେ

SadTalker (CVPR 2023, Tencent ARC) ଗୋଟିଏ ମୁକ୍ତ ଉତ୍ସ କଥାବାର୍ତ୍ତା-ମସ୍ତକ ମଡେଲ ଯାହାକି କୌଣସି ଧ୍ୱନିକୁ କହିବା ପାଇଁ ଗୋଟିଏ ମୁଖ ପ୍ରତିଛବିକୁ ଜୀବନାୟନ କରେ। Wav2Lip ର ବିକଳ୍ପ ଭଳି, SadTalker ମଧ୍ୟ ଅଧିକ ପ୍ରାକୃତିକ ଫଳାଫଳ ପାଇଁ ମସ୍ତକ ସ୍ଥାପନ, ଆଙ୍ଗୁଠି ଚୁମ୍ବନ ଏବଂ ଅଭିବ୍ୟକ୍ତିକୁ ଜୀବନାୟନ କରେ।

କୋଡ ଏବଂ ଓଜନ MIT-ଲାଏସନ୍ସିତ ଅଂଶରୁ ଅଂଶ ପର୍ଯ୍ୟନ୍ତ - କୌଣସି ଲମା, ଜେମା, କିମ୍ବା ବାଣିଜ୍ୟିକ-ନଥିବା ପେଣ୍ଠସ୍ଥଳୀ ନାହିଁ - ତେଣୁ ଆପଣ ନିର୍ମାଣ କରିଥିବା ଭିଡିଓଗୁଡ଼ିକ ବାଣିଜ୍ୟିକ ବ୍ୟବହାର ପାଇଁ ସୁରକ୍ଷିତ।

ଉତ୍ତମ ଫଳାଫଳ ପାଇଁ ଉପାୟ

ଉଚ୍ଚ ଗୁଣବତ୍ତା, ଭଲ ଭାବରେ ଆଲୋକିତ ପୋର୍ଟରେଟ ବ୍ୟବହାର କରନ୍ତୁ - ଆଖି ଦୃଶ୍ୟମାନ, ମୁହଁ ବନ୍ଦ
କେନ୍ଦ୍ରିତ ମୁଖ, ବର୍ଗ କିମ୍ବା 4:5 ଆକାର ଅନୁପାତ ସବୁଠାରୁ ଭଲ ଭାବରେ କାମ କରେ
ସ୍ୱଚ୍ଛ ଭାଷଣ ଧ୍ୱନି (କୌଣସି ସଂଗୀତ ନାହିଁ) ସ୍ପଷ୍ଟ ଲିପ ସମକାଳନକୁ ପ୍ରଦାନ କରେ
ହିରୋ ଶଟଗୁଡ଼ିକ ପାଇଁ GFPGANକୁ ସକ୍ରିୟ କରନ୍ତୁ - ଦୁଇଗୁଣ ରେଣ୍ଡର ସମୟ କିନ୍ତୁ ବିବରଣୀକୁ ତୀବ୍ର କରନ୍ତୁ
ଗୋଟିଏ ସ୍ଥିର ଆବରଣ ଶଟ ଚାହୁଁଥିଲେ ସ୍ଥିର ପୂର୍ବନିର୍ଦ୍ଧାରିତକୁ ବ୍ୟବହାର କରନ୍ତୁ

ଲିପ ସମକାଳୀନ ଭିଡିଓ ଯୋଜନାଗୁଡ଼ିକ

ମୁକ୍ତ ଭାବରେ ଆରମ୍ଭ କରନ୍ତୁ, ଅଧିକ ଆବଶ୍ୟକ ହେଲେ ଅଗ୍ରଗତି କରନ୍ତୁ

ମୁକ୍ତ

30-ସେକଣ୍ଡ ଧ୍ୱନି ସୀମା
256 px ନିର୍ଗମ
କେବଳ "ଅନୁପସ୍ଥିତ" ପୂର୍ବନିର୍ଦ୍ଧାରିତ
କୌଣସି ମୁଖ ବଢ଼ାଉ ନାହିଁ

ସବୁଠାରୁ ଲୋକପ୍ରିୟ

ମୁକ୍ତ ଖାତା

30-ସେକଣ୍ଡ ଧ୍ୱନି ସୀମା
ଉଭୟ "ପୂର୍ଣ୍ଣ" ଏବଂ "ସ୍ଥିର" ପୂର୍ବନିର୍ଦ୍ଧାରିତ
256 / 512 px ନିର୍ଗମ
GFPGAN ମୁଖ ବଢ଼ାଉଥିବା

ମୁକ୍ତ ଭାବରେ ପଞ୍ଜୀକୃତ ହୁଅନ୍ତୁ

ପ୍ରୋ

5-ମିନିଟ ଧ୍ୱନି ସୀମା
ଅଗ୍ରତା GPU ଧାଡ଼ି
API ସୁଗମତା (ବହୁଭାଗ ଅଦ୍ୟତନ)
Webhook ସମ୍ପୂର୍ଣ୍ଣତା callbacks
ବାଣିଜ୍ୟିକ ବ୍ୟବହାର (MIT ଲାଇସେନ୍ସ)

ଅଦ୍ୟତନ କରନ୍ତୁ

ପ୍ରାୟ ପଚରାଯାଉଥିବା ପ୍ରଶ୍ନName

ଗୋଟିଏ ମୁଖ ଫଟୋ ଏବଂ ଗୋଟିଏ ଧ୍ୱନି କଲିପକୁ ଅପଲୋଡ କରନ୍ତୁ, ଏବଂ AI ସେହି ମୁଖର ଏକ ଭିଡିଓ ସୃଷ୍ଟି କରେ ଯାହା ବାକ୍ୟକୁ ବାସ୍ତବ ଲିପ ଗତି, ମସ୍ତିଷ୍କ ସ୍ଥାପନ ଏବଂ ବ୍ଲିଙ୍କ ସହିତ କହିଥାଏ। SadTalker (CVPR 2023) ଉପରେ ନିର୍ମିତ, ଗୋଟିଏ MIT-ଲାଇନସେଟ କଥାବାର୍ତ୍ତା-ମସ୍ତିଷ୍କ ମଡେଲ ଯାହା ମୁହଁ ଆକାର ବ୍ୟତୀତ ଆନିମେସନ ଅଭିବ୍ୟକ୍ତିକୁ ମଧ୍ୟ ଧାରଣ କରିଥାଏ।

ମୁଖ ନିବେଶ JPG କିମ୍ବା PNG ପ୍ରତିଛବି (10 MB ପର୍ଯ୍ୟନ୍ତ) କିମ୍ବା ଗୋଟିଏ ସଂକ୍ଷିପ୍ତ MP4/WebM ଚାଳନା ଭିଡିଓ (ଆମମାନେ ପ୍ରଥମ ଫ୍ରେମକୁ ବ୍ୟବହାର କରୁଅଛୁ) ହୋଇପାରିବ। ଚାଳନା ଧ୍ୱନି MP3, WAV, M4A, କିମ୍ବା FLAC ହୋଇପାରିବ ଯାହାକି 10 MB ପର୍ଯ୍ୟନ୍ତ। ଆମେ ଧ୍ୱନିକୁ ଆଭ୍ୟନ୍ତରୀଣ ଭାବରେ 16 kHz କୁ ପୁନଃସମ୍ପାଦନ କରୁଅଛୁ।

ମୁକ୍ତ ଖାତା: ପ୍ରତି କ୍ଲିପ ପାଇଁ 30 ସେକଣ୍ଡ ପର୍ଯ୍ୟନ୍ତ. ପୈଠ କରୁଥିବା ଚାଳକ: ପ୍ରତି ଅନୁରୋଧ ପାଇଁ5ମିନିଟ ପର୍ଯ୍ୟନ୍ତ। ଦୀର୍ଘ ଧ୍ୱନି ଅର୍ଥ ଦୀର୍ଘ ରେଣ୍ଡର ସମୟ ଏବଂ ଉଚ୍ଚ ଅକ୍ଷର ମୂଲ୍ୟ।

ଲିପ ସମକାଳୀନ ଭିଡିଓ ପ୍ରତି ସେକେଣ୍ଡରେ 1,000 ଅକ୍ଷର ଉତ୍ପନ୍ନ ଭିଡିଓ ବ୍ୟବହାର କରିଥାଏ। ଗୋଟିଏ 30-ସେକେଣ୍ଡର କଲିପ = 30,000 ଅକ୍ଷର। ଏହି ଖର୍ଚ୍ଚଟି ଆପଣଙ୍କର ଅକ୍ଷର ବଳକାରୁ ଆଗରୁ ବିଲ୍ଡ କରାଯାଏ ଏବଂ ଯଦି ଉତ୍ପାଦନ ବିଫଳ ହୁଏ ତେବେ ସ୍ୱୟଂଚାଳିତ ଭାବରେ ପୁନଃପ୍ରଦାନ କରାଯାଏ।

ହଁ — SadTalker ସଂକେତ ଏବଂ ଓଜନ MIT ଲାଇସେନ୍ସିତ ଶେଷରୁ ଶେଷ ପର୍ଯ୍ୟନ୍ତ (ନୂତନ ଲମା, ଜେମା, କିମ୍ବା ବାଣିଜ୍ୟିକ-ନୂତନ ବ୍ୟାକବୋନ)। ଆପଣ ନିର୍ମାଣ କରିଥିବା ଭିଡିଓଗୁଡ଼ିକ ବାଣିଜ୍ୟିକ ଭାବରେ ବ୍ୟବହାର କରିବା ପାଇଁ ଆପଣଙ୍କର। ଆପଣ ଉତ୍ସ ଚେହେରା ପ୍ରତିଛବି ଏବଂ ଧ୍ୱନି ପାଇଁ ଅଧିକାର ରଖିବା ପାଇଁ ଦାୟୀ।

ଆମର A100 ସର୍ଭର ଉପରେ ଗୋଟିଏ5ସେକଣ୍ଡର କଲିପ ପାଇଁ ପ୍ରାୟ 30 ସେକଣ୍ଡ, ଧ୍ୱନି ଲମ୍ବ ସହିତ ପ୍ରାୟ ରେଖାଗତ ଭାବରେ ମାପିବା। GFPGAN ମୁଖ ବଢ଼ାଇବାକୁ ସକ୍ରିୟ କରିବା ପ୍ରାୟ ଦୁଇଗୁଣ କରିଥାଏ ରେଣ୍ଡର ସମୟ କିନ୍ତୁ ତୀକ୍ଷ୍ଣ, ଉଚ୍ଚ-ଗୁଣବତ୍ତା ନିର୍ଗମନ କରିଥାଏ।

ସମ୍ପୂର୍ଣ୍ଣ ପୂର୍ବନିର୍ଦ୍ଧାରିତ (ଡିଫଲ୍ଟ) ମୁହଁର ଅବସ୍ଥାନ, ଆଖି ବୁଜିବା, ଏବଂ ଆଭାସକୁ ଆନିମେସନ କରେ, ଯାହାକି ଅଧିକ ପ୍ରାକୃତିକ କଥାବାର୍ତ୍ତା ମୁହଁ ଭିଡ଼ିଓ ଉତ୍ପାଦନ କରେ। ଅତିରିକ୍ତ ପୂର୍ବନିର୍ଦ୍ଧାରିତ ମୁହଁକୁ ସ୍ଥାନରେ ଅଟକିଥାଏ ଏବଂ କେବଳ ମୁହଁକୁ ଆନିମେସନ କରେ - ଉପଯୋଗୀ ଯେତେବେଳେ ଆପଣ ଗୋଟିଏ ସ୍ଥିର ଆବରଣ ଶୋଟ ଚାହୁଁଛନ୍ତି।

GFPGAN ଗୋଟିଏ ମୁଖ ପୁନଃସ୍ଥାପନ ନମୂନା ଯାହାକି ଲିପ-ସଂଯୋଜନ ରେଣ୍ଡରିଂ ପରେ ମୁଖ ବିବରଣୀକୁ ତୀକ୍ଷ୍ଣ କରିଥାଏ। ଏହା କୃତ୍ରିମ ଦ୍ରବ୍ୟକୁ ସଫା କରିଥାଏ ଏବଂ 256-ପିକସେଲ ନିର୍ଗମକୁ 512 ନିକଟତର ଦେଖାଏ। ଏହା ରେଣ୍ଡର ସମୟକୁ ପାଖାପାଖି ଦୁଇଗୁଣ କରିଥାଏ କିନ୍ତୁ ହିରୋ ଶଟ ପାଇଁ ଏହା ଲାଭଦାୟକ।

SadTalker ପୂର୍ବନିର୍ଦ୍ଧାରିତ ଭାବରେ 256 px ରେ ପ୍ରଦର୍ଶନ କରିଥାଏ। ତୀକ୍ଷ୍ଣ ନିର୍ଗମ ପାଇଁ 512 px ଆକାରକୁ ପରିବର୍ତ୍ତନ କରନ୍ତୁ (ଧିରେ, ଉଚ୍ଚ VRAM) କିମ୍ବା ମୁଖର ବିବରଣୀକୁ ବଢାଇବା ପାଇଁ GFPGAN ଉନ୍ନତିକାରୀକୁ ସକ୍ରିୟ କରନ୍ତୁ। ଶ୍ରେଷ୍ଠ ଫଳାଫଳ ପାଇଁ, ଉଚ୍ଚ ଗୁଣବତ୍ତା, ଭଲ ଭାବରେ ଆଲୋକିତ ପୋର୍ଟରେଟ ଫଟୋକୁ ଅପଲୋଡ କରନ୍ତୁ।

ହଁ। MP4 କିମ୍ବା WebMକୁ ମୁଖ ନିବେଶ ଭାବରେ ଅପଲୋଡ କରନ୍ତୁ ଏବଂ ଆମେ ପ୍ରଥମ ଫ୍ରେମକୁ ଚଳାଇବା ପରିଚୟ ଭାବରେ ବ୍ୟବହାର କରିବୁ। ସମ୍ପୂର୍ଣ୍ଣ ଭିଡିଓ ପୁନଃ-ଦବଙ୍ଗ ପାଇଁ (ପ୍ରତି-ଫ୍ରେମ ମୁହଁ ପ୍ରତିସ୍ଥାପନ), ଆଗାମୀ ଦବଙ୍ଗ ଷ୍ଟୁଡିଓ ଭିଡିଓ ପାଇପଲାଇନକୁ ଦେଖନ୍ତୁ।

ହଁ। ମୁଖ ଏବଂ ଧ୍ୱନି କ୍ଷେତ୍ର ସହିତ /api/v1/lipsync/ କୁ ଏକ ବହୁବିଧ ଅନୁରୋଧକୁ POST କରନ୍ତୁ, ତା'ପରେ ସ୍ଥିତି "ସମପ୍ତ" ହେବା ପର୍ଯ୍ୟନ୍ତ /api/v1/lipsync/result/?uuid= କୁ ପଲଲ କରନ୍ତୁ। ଉତ୍ତରରେ MP4 ର URL ଧାରଣ ଅଛି। API ସୁବିଧା ପାଇଁ ଗୋଟିଏ ପଇସା ଦେଇ ପ୍ଳାନ ଆବଶ୍ୟକ।

SadTalker ଚେହେରା-ସଂଯୋଜନକୁ ଖୋଜିବା ଏବଂ ସବୁଠାରୁ ପ୍ରମୁଖ ଚେହେରାକୁ କାଟିବା ପାଇଁ ବ୍ୟବହାର କରିଥାଏ। ଶ୍ରେଷ୍ଠ ଫଳାଫଳ ପାଇଁ, ଗୋଟିଏ ବ୍ୟକ୍ତି କେନ୍ଦ୍ରିତ, ଆଖି ଦୃଶ୍ୟମାନ, ଏବଂ ସର୍ବନିମ୍ନ ଅଟକାଇବା ସହିତ ଗୋଟିଏ ପୋର୍ଟରେଟକୁ ଅପଲୋଡ କରନ୍ତୁ। ସମୂହ ଫଟୋଗୁଡ଼ିକ ଅପ୍ରତ୍ୟାଶିତ ଫଳାଫଳ ସୃଷ୍ଟି କରିପାରେ।

5.0/5 (1)

ଆରମ୍ଭ କରିବା ପାଇଁ ପ୍ରସ୍ତୁତ କି?

ମୁକ୍ତ ଭାବରେ ଯୋଗଦାନ କରନ୍ତୁ ଏବଂ 50 କ୍ରେଡିଟ ପାଇବେ। କୌଣସି କ୍ରେଡିଟ କାର୍ଡ ଆବଶ୍ୟକ ନାହିଁ।

ମୁକ୍ତ ଭାବରେ ପଞ୍ଜିକୃତ ହୁଅନ୍ତୁ ମୂଲ୍ୟାଙ୍କନ ଦେଖନ୍ତୁ

AI ଲିପ ସମକାଳୀନ ଭିଡିଓ ନିର୍ମାତାName

ଆଭାସ + ଧ୍ୱନିକୁ ଅଦ୍ୟତନ କରନ୍ତୁ

ଆପଣଙ୍କର କଥାବାର୍ତ୍ତା-ମସ୍ତକ ଭିଡିଓ

SadTalker ବିଷୟରେ

ଉତ୍ତମ ଫଳାଫଳ ପାଇଁ ଉପାୟ

ଲିପ ସମକାଳୀନ ଭିଡିଓ ଯୋଜନାଗୁଡ଼ିକ

ପ୍ରାୟ ପଚରାଯାଉଥିବା ପ୍ରଶ୍ନName

AI ଲିପ ସିଙ୍କ ସାଧନ କଣ କରେ?

କେଉଁ ନିବେଶ ଶୈଳୀଗୁଡ଼ିକ ସମର୍ଥିତ?

ଧ୍ୱନି କେତେ ସମୟ ଧରି ରହିପାରିବ?

ଏହାର ମୂଲ୍ୟ କେତେ?

ମୁଁ ଏହି ଭିଡିଓକୁ ବାଣିଜ୍ୟିକ ଭାବେ ବ୍ୟବହାର କରିପାରିବି କି?

କେତେ ସମୟ ଲାଗିଥାଏ?

"ପୂର୍ଣ୍ଣ" ଏବଂ "ନିଶ୍ଚିତ" ପୂର୍ବନିର୍ଦ୍ଧାରିତ ମଧ୍ୟରେ କଣ ଭିନ୍ନତା ଅଛି?

GFPGAN ବଢ଼ାଉଥିବା କଣ?

ମୋର ନିର୍ଗମ କାହିଁକି କମ୍-ରିଜୋଲ୍ୟୁସନ ଦେଖାଯାଉଛି?

ମୁଁ ଗୋଟିଏ ଭିଡିଓକୁ ନୂତନ ଧ୍ୱନିରେ ଲିପ-ସଂଯୋଜନ କରିପାରିବି କି?

ଗୋଟିଏ API ଅଛି କି?

ଯଦି ମୋ ମୁଖ ଫଟୋରେ ଏକାଧିକ ଲୋକ ଅଛନ୍ତି?

ଆରମ୍ଭ କରିବା ପାଇଁ ପ୍ରସ୍ତୁତ କି?