កម្មវិធីສ້າງວີດີໂອ AI Lip Sync

ສົ່ງຮູບໜ້າ ແລະ ວິດີໂອສຽງ — ໄດ້ຮັບວິດີໂອຫົວເວົ້າທີ່ສະແດງໃຫ້ເຫັນຄວາມຄືບໜ້າຂອງປາກ, ທ່າທາງຂອງຫົວ ແລະ ການປິດຕາ. ພັດທະນາໂດຍ SadTalker (MIT). ການນໍາໃຊ້ທາງທຸລະກິດ OK.

ລົງທະບຽນຟຣີ

ພວກເຮົາຍັງບໍ່ມີສຽງ TTS ໃນພາສາຂອງທ່ານເທື່ອ. ຊ່ວຍພວກເຮົາເພີ່ມສຽງຂອງທ່ານ! ຂາຍສຽງຂອງທ່ານ

ສົ່ງອອກສຽງ

1,000 តួអក្សរຕໍ່ວິນາທີ

1. ຮູບ ໜ້າ ຫຼື ວີດີໂອຂັບລົດ

ດຶງ ແລະ ປ່ອຍໄຟລ໌ຢູ່ທີ່ນີ້, ຫຼື ຄົ້ນຫາ

JPG, PNG, or short MP4/WebM. Max 10MB. One clear, well-lit face works best.

2. ສຽງຂັບເຄື່ອນ

ດຶງ ແລະ ປ່ອຍໄຟລ໌ຢູ່ທີ່ນີ້, ຫຼື ຄົ້ນຫາ

MP3, WAV, M4A, or FLAC. Max 10MB. Free: up to 30 sec. Pro: up to 5 min.

ຕັ້ງຄ່າແບບເດີມຂອງການເຄື່ອນໄຫວ

ຜົນອອກມາ

ຕົວເພີ່ມໜ້າName

GFPGAN (ຊັດເຈນ, ຊ້າ)

ກ່ຽວກັບ SadTalker

SadTalker (CVPR 2023, Tencent ARC) ແມ່ນແບບຟອມຫົວເວົ້າ Open-source ທີ່ເຮັດໃຫ້ຮູບ ໜ້າ ດຽວມີຊີວິດຊີວາເພື່ອເວົ້າສຽງໃດໆ. ບໍ່ຄືກັບ Wav2Lip ຕົວແປ, SadTalker ຍັງເຮັດໃຫ້ຫົວ pose, ເບິ່ງແລະສະແດງອອກເພື່ອຜົນໄດ້ຮັບທີ່ສະອາດກວ່າ.

ລະຫັດ ແລະ ນໍ້າໜັກ ແມ່ນ MIT-ອະນຸຍາດຈາກຕົ້ນຫາທ້າຍ - ບໍ່ Llama, Gemma, ຫຼື ບໍ່ແມ່ນ backbone ການຄ້າ - ດັ່ງນັ້ນວິດີໂອທີ່ທ່ານສ້າງແມ່ນປອດໄພສໍາລັບການໃຊ້ທຸລະກິດ.

ຂໍ້ແນະນຳສຳລັບຜົນທີ່ດີທີ່ສຸດ

ໃຊ້ຮູບປັ້ນທີ່ມີຄຸນນະພາບສູງ, ຖືກແສງສະຫວ່າງດີ - ຕາເບິ່ງເຫັນໄດ້, ປາກປິດ
ຕັ້ງໃຈກາງໜ້າ, ຮູບສີ່ຫຼ່ຽມ ຫຼື ອັດຕາສ່ວນ 4:5 ເຮັດວຽກໄດ້ດີທີ່ສຸດ
ສຽງເວົ້າທີ່ສະອາດ (ບໍ່ມີດົນຕີ) ສົ່ງຜົນໃຫ້ມີສຽງທີ່ເຂົ້າກັນໄດ້ດີກວ່າ
ເປີດໃຊ້ GFPGAN ສຳລັບການຖ່າຍຮູບຂອງນັກຮົບ - ເພີ່ມເວລາສະແດງເປັນສອງເທົ່າ ແຕ່ເພີ່ມຄວາມລະອຽດ
ໃຊ້ການຕັ້ງຄ່າລ່ວງໜ້າ ຖ່າຍຮູບແບບບໍ່ປ່ຽນແປງ ເມື່ອຕ້ອງການຖ່າຍຮູບແບບຖ່າຍຮູບແບບຖ່າຍຮູບແບບຖ່າຍຮູບແບບຖ່າຍຮູບແບບຖ່າຍຮູບແບບຖ່າຍຮູບ

ແຜນການວິດີໂອ Lip Sync

ເລີ່ມຕົ້ນຟຣີ, ປັບປຸງເມື່ອທ່ານຕ້ອງການຫຼາຍຂຶ້ນ

ບໍ່ມີ

ຈໍາກັດສຽງ 30 ວິນາທີ
ຜົນອອກ 256 ພິກເຊວ
ຕັ້ງຄ່າລ່ວງໜ້າ "ຍັງ" ເທົ່ານັ້ນ
ບໍ່ມີຕົວເພີ່ມໜ້າ

ນິຍົມທີ່ສຸດ

ບັນຊີຟຣີ

ຈໍາກັດສຽງ 30 ວິນາທີ
ທັງສອງການຕັ້ງຄ່າລ່ວງໜ້າ "ເຕັມ" ແລະ "ບໍ່ປ່ຽນແປງ"
ຜົນອອກ 256 / 512 ພິກະເຊນ
ຕົວເພີ່ມຄວາມສວຍງາມໜ້າ GFPGAN

ລົງທະບຽນຟຣີ

ມືອາຊີບ

ຈໍາກັດສຽງ5ນາທີ
ជួរ GPU ដែលមានអាទិភាព
ເຂົ້າເຖິງ API (ອັບໂຫລດຫຼາຍສ່ວນ)
ການໂທຄືນການເຮັດໃຫ້ Webhook ສົມບູນ
ການໃຊ້ໃນການຄ້າ (ໃບອະນຸຍາດ MIT)

ຍົກລະດັບ

ຄໍາຖາມທີ່ຖາມເລື້ອຍໆ

ສ້າງຂຶ້ນໂດຍ SadTalker (CVPR 2023), ແບບ ຈຳ ລອງຫົວເວົ້າທີ່ມີໃບອະນຸຍາດຈາກ MIT ເຊິ່ງສະແດງໃຫ້ເຫັນການສະແດງອອກນອກ ເໜືອ ຈາກຮູບຮ່າງປາກ.

ຂໍ້ມູນເຂົ້າທາງ ໜ້າ ສາມາດເປັນຮູບພາບ JPG ຫຼື PNG (ເຖິງ 10 MB) ຫຼືວິດີໂອ MP4 / WebM ທີ່ມີຂະ ໜາດ ນ້ອຍ (ພວກເຮົາໃຊ້ກອບ ທຳ ອິດ). ສຽງຂັບລົດສາມາດເປັນ MP3, WAV, M4A, ຫຼື FLAC ເຖິງ 10 MB. ພວກເຮົາເອົາສຽງຄືນ ໃໝ່ ເຖິງ 16 kHz ໃນພາຍໃນ.

ບັນຊີຟຣີ: ເຖິງ 30 ວິນາທີຕໍ່ຄລິບ. ຜູ້ໃຊ້ຈ່າຍ: ເຖິງ5ນາທີຕໍ່ຄໍາຮ້ອງຂໍ. ສຽງຍາວກວ່າ ໝາຍ ຄວາມວ່າເວລາສະແດງຍາວກວ່າແລະຄ່າຕົວອັກສອນສູງກວ່າ.

ວິດີໂອ Lip Sync ໃຊ້ 1,000 ຕົວອັກສອນຕໍ່ວິນາທີຂອງວິດີໂອທີ່ສ້າງຂຶ້ນ. 30 ວິນາທີຄລິບ = 30,000 ຕົວອັກສອນ. ຄ່າໃຊ້ຈ່າຍແມ່ນຖືກຄິດໄລ່ກ່ອນຈາກສະສົມຕົວອັກສອນຂອງທ່ານແລະຖືກຄືນເງິນໂດຍອັດຕະໂນມັດຖ້າການສ້າງບໍ່ສຳເລັດ.

ຍິນດີຕ້ອນຮັບ - SadTalker ລະຫັດແລະນໍ້າໜັກແມ່ນ MIT ອະນຸຍາດຈາກທ້າຍໄປຫາທ້າຍ (ບໍ່ມີ Llama, Gemma, ຫຼື non-ການຄ້າ backbone). ວິດີໂອທີ່ທ່ານສ້າງແມ່ນຂອງທ່ານທີ່ຈະນໍາໃຊ້ການຄ້າ. ທ່ານຮັບຜິດຊອບສໍາລັບການມີສິດໃນການແຫຼ່ງຫນ້າຮູບພາບແລະສຽງທີ່ທ່ານອັບໂຫລດ.

ປະມານ 30 ວິນາທີ ສຳ ລັບຄລິບ5ວິນາທີໃນເຊີບເວີ A100 ຂອງພວກເຮົາ, ຂະ ໜາດ ປະມານເສັ້ນດຽວກັບຄວາມຍາວຂອງສຽງ. ການເປີດໃຊ້ງານຕົວເພີ່ມຄວາມເຂັ້ມຂອງ GFPGAN ເຮັດໃຫ້ເວລາສະແດງອອກປະມານສອງເທົ່າແຕ່ຜະລິດຜົນໄດ້ຮັບທີ່ມີຄຸນນະພາບສູງກວ່າ.

ຕັ້ງລ່ວງໜ້າເຕັມ (ປັ໊ກເດີມ) ເຮັດໃຫ້ໜ້າມີການເຄື່ອນໄຫວ, ເບິ່ງໜ້າຊີ້ໄປທາງໜ້າ, ແລະ ສະແດງອາລົມພ້ອມກັບປວດປາກ, ເຮັດໃຫ້ມີວີດີໂອຫົວເວົ້າທີ່ເປັນທຳມະຊາດຫຼາຍຂຶ້ນ. ຕັ້ງລ່ວງໜ້າຍັງຈະກັກຫົວໄວ້ໃນບ່ອນທີ່ມັນຢູ່ ແລະ ເຮັດໃຫ້ປາກມີການເຄື່ອນໄຫວເທົ່ານັ້ນ - ມີຄວາມປະໂຫຍດ ເມື່ອທ່ານຕ້ອງການຖ່າຍຮູບຕົວແບບທີ່ບໍ່ປ່ຽນແປງໄດ້.

GFPGAN ແມ່ນແບບຟອມຟື້ນຟູໜ້າທີ່ເຮັດໃຫ້ລາຍລະອຽດໜ້າຊັດຊະນີຂຶ້ນຫຼັງຈາກການສະແດງແບບ lip-sync. ມັນລ້າງສິ່ງທີ່ບໍ່ເປັນຈິງອອກ ແລະ ເຮັດໃຫ້ຜົນອອກມາຂອງ 256 ພິກເຊລ ເບິ່ງຄືວ່າໃກ້ກັບ 512. ມັນເພີ່ມເວລາການສະແດງເປັນສອງເທົ່າ ແຕ່ມັນມີຄ່າໃຊ້ຈ່າຍຫຼາຍສຳລັບການຖ່າຍຮູບຂອງນັກຮົບທີ່ດີເດັ່ນ.

SadTalker ສະແດງຢູ່ 256 ພິກເຊລຕາມລຳດັບ. ປ່ຽນເປັນ 512 ພິກເຊລ ສຳ ລັບຜົນໄດ້ຮັບທີ່ຊັດເຈນກວ່າ (ຊ້າກວ່າ, VRAM ສູງກວ່າ) ຫຼື ເປີດຕົວເພີ່ມປະສິດທິພາບ GFPGAN ເພື່ອເພີ່ມຂະ ໜາດ ລາຍລະອຽດຂອງໃບ ໜ້າ. ສຳ ລັບຜົນໄດ້ຮັບທີ່ດີທີ່ສຸດ, ສົ່ງຮູບຖ່າຍທີ່ມີຄຸນນະພາບສູງ, ຮູບຖ່າຍທີ່ສ່ອງແສງດີ.

ຍິນດີ. ສົ່ງ MP4 ຫຼື WebM ເປັນຂໍ້ມູນເຂົ້າສູ່ລະບົບໃບຫນ້າແລະພວກເຮົາຈະໃຊ້ກອບທໍາອິດເປັນຕົວຕົນຂອງການຂັບຂີ່. ສຳ ລັບວິດີໂອເຕັມທີ່ re-dubbing (ການປ່ຽນແທນປາກຕໍ່ກອບ), ເບິ່ງ Dubbing Studio ວິດີໂອ pipeline ທີ່ໃກ້ຈະມາເຖິງ.

ຍິນດີ. POST ຄໍາຮ້ອງຂໍຫຼາຍສ່ວນໄປຍັງ /api/v1/lipsync/ ທີ່ມີໜ້າ ແລະ ພື້ນທີ່ສຽງ, ຈາກນັ້ນຖາມ /api/v1/lipsync/result/?uuid= ຈົນກວ່າສະຖານະຈະ "ສຳເລັດ". ການຕອບສະຫນອງມີ URL ໄປຍັງ MP4 ທີ່ສະແດງອອກ. ການເຂົ້າໃຊ້ API ຕ້ອງມີແຜນທີ່ຈ່າຍ.

SadTalker ໃຊ້ການວາງໃບໜ້າເພື່ອກວດພົບ ແລະ ຕັດໃບໜ້າທີ່ໂດດເດັ່ນທີ່ສຸດ. ສຳ ລັບຜົນໄດ້ຮັບທີ່ດີທີ່ສຸດ, ສົ່ງຮູບປັ້ນທີ່ມີຄົນດຽວຢູ່ໃຈກາງ, ຕາເບິ່ງເຫັນໄດ້, ແລະ ການກີດຂວາງຢ່າງ ໜ້ອຍ. ຮູບກຸ່ມອາດຈະຜະລິດຜົນໄດ້ຮັບທີ່ບໍ່ສາມາດຄາດເດົາໄດ້.

5.0/5 (1)

ແລ້ວຈະເລີ່ມບໍ່?

ລົງທະບຽນຟຣີແລະໄດ້ຮັບ 50 ຄະແນນ. ບໍ່ມີບັດເຄຣດິດທີ່ຕ້ອງການ.

ລົງທະບຽນຟຣີ ເບິ່ງລາຄາ

កម្មវិធី​ສ້າງ​ວີດີໂອ​ AI Lip Sync

ສົ່ງ​ອອກ​ສຽງ

ວິດີໂອ Talking-Head ຂອງ​ທ່ານ

ກ່ຽວ​ກັບ SadTalker

ຂໍ້​ແນະ​ນຳ​ສຳລັບ​ຜົນ​ທີ່​ດີ​ທີ່ສຸດ

ແຜນ​ການ​ວິດີໂອ​ Lip Sync

ຄໍາຖາມທີ່ຖາມເລື້ອຍໆ

ເຄື່ອງມື AI Lip Sync ເຮັດຫຍັງ?

ຮູບແບບການເຂົ້າລະຫັດທີ່​ໄດ້​ຮັບ​ການ​ສະໜັບສະໜູນ​ແມ່ນ​ຫຍັງ?

ສຽງຈະດົນປານໃດ?

ຄ່າໃຊ້ຈ່າຍແມ່ນເທົ່າໃດ?

ຂ້ອຍສາມາດໃຊ້ວິດີໂອເພື່ອການຂາຍໄດ້ບໍ?

ຂະບວນການ​ສ້າງ​ຂຶ້ນ​ຕ້ອງ​ໃຊ້ເວລາ​ດົນ​ປານໃດ?

ຄວາມແຕກຕ່າງລະຫວ່າງການຕັ້ງຄ່າລ່ວງໜ້າ "ເຕັມ" ແລະ "ບໍ່ປ່ຽນແປງ" ແມ່ນຫຍັງ?

ສິ່ງໃດຄືການເພີ່ມປະສິດທິພາບ GFPGAN?

ເຮັດ​ຫຍັງ​ຜົນ​ອອກ​ມາ​ຂອງ​ຂ້ອຍ​ເບິ່ງ​ຄື​ວ່າ​ມີ​ຄວາມ​ລະອຽດ​ຕ່ຳ?

ຂ້ອຍສາມາດ​ເຮັດ​ໃຫ້​ວີດີໂອ​ເຂົ້າ​ກັນ​ໄດ້​ກັບ​ສຽງ​ໃໝ່​ໄດ້​ບໍ?

ມີ API ບໍ?

ຖ້າຮູບໜ້າຂອງຂ້ອຍມີຄົນຫຼາຍຄົນໃນນັ້ນຈະເຮັດແນວໃດ?

ແລ້ວ​ຈະ​ເລີ່ມ​ບໍ່?