កម្មវិធី​ສ້າງ​ວີດີໂອ​ AI Lip Sync

ສົ່ງຮູບໜ້າ ແລະ ວິດີໂອສຽງ — ໄດ້ຮັບວິດີໂອຫົວເວົ້າທີ່ສະແດງໃຫ້ເຫັນຄວາມຄືບໜ້າຂອງປາກ, ທ່າທາງຂອງຫົວ ແລະ ການປິດຕາ. ພັດທະນາໂດຍ SadTalker (MIT). ການນໍາໃຊ້ທາງທຸລະກິດ OK.

ພວກເຮົາຍັງບໍ່ມີສຽງ TTS ໃນພາສາຂອງທ່ານເທື່ອ. ຊ່ວຍພວກເຮົາເພີ່ມສຽງຂອງທ່ານ! ຂາຍ​ສຽງ​ຂອງທ່ານ

ສົ່ງ​ອອກ​ສຽງ

1,000 តួ​អក្សរ​ຕໍ່​ວິນາທີ

ດຶງ ແລະ ປ່ອຍ​ໄຟ​ລ໌​ຢູ່​ທີ່ນີ້, ຫຼື ຄົ້ນຫາ

JPG, PNG, or short MP4/WebM. Max 10MB. One clear, well-lit face works best.

ໄຟລ໌.mp3

0 MB

ດຶງ ແລະ ປ່ອຍ​ໄຟ​ລ໌​ຢູ່​ທີ່ນີ້, ຫຼື ຄົ້ນຫາ

MP3, WAV, M4A, or FLAC. Max 10MB. Free: up to 30 sec. Pro: up to 5 min.

ໄຟລ໌.mp3

0 MB

កំពុង​ដំណើរការ...

ສະແດງ​ວີດີໂອ​ຂອງທ່ານ. ປົກກະຕິແລ້ວ ໃຊ້ເວລາ 30 ວິນາທີ ຫາ2ນາທີ.

ວິດີໂອ Talking-Head ຂອງ​ທ່ານ

ດາວໂຫລດ

ກ່ຽວ​ກັບ SadTalker

SadTalker (CVPR 2023, Tencent ARC) ແມ່ນແບບຟອມຫົວເວົ້າ Open-source ທີ່ເຮັດໃຫ້ຮູບ ໜ້າ ດຽວມີຊີວິດຊີວາເພື່ອເວົ້າສຽງໃດໆ. ບໍ່ຄືກັບ Wav2Lip ຕົວແປ, SadTalker ຍັງເຮັດໃຫ້ຫົວ pose, ເບິ່ງແລະສະແດງອອກເພື່ອຜົນໄດ້ຮັບທີ່ສະອາດກວ່າ.

ລະຫັດ ແລະ ນໍ້າໜັກ ແມ່ນ MIT-ອະນຸຍາດຈາກຕົ້ນຫາທ້າຍ - ບໍ່ Llama, Gemma, ຫຼື ບໍ່ແມ່ນ backbone ການຄ້າ - ດັ່ງນັ້ນວິດີໂອທີ່ທ່ານສ້າງແມ່ນປອດໄພສໍາລັບການໃຊ້ທຸລະກິດ.

ຂໍ້​ແນະ​ນຳ​ສຳລັບ​ຜົນ​ທີ່​ດີ​ທີ່ສຸດ

  • ໃຊ້ຮູບປັ້ນທີ່ມີຄຸນນະພາບສູງ, ຖືກແສງສະຫວ່າງດີ - ຕາເບິ່ງເຫັນໄດ້, ປາກປິດ
  • ຕັ້ງ​ໃຈກາງ​ໜ້າ, ຮູບສີ່ຫຼ່ຽມ ຫຼື ອັດຕາສ່ວນ 4:5 ເຮັດວຽກ​ໄດ້​ດີ​ທີ່ສຸດ
  • ສຽງເວົ້າທີ່ສະອາດ (ບໍ່ມີດົນຕີ) ສົ່ງຜົນໃຫ້ມີສຽງທີ່ເຂົ້າກັນໄດ້ດີກວ່າ
  • ເປີດ​ໃຊ້ GFPGAN ສຳ​ລັບ​ການ​ຖ່າຍ​ຮູບ​ຂອງ​ນັກ​ຮົບ​ - ເພີ່ມ​ເວລາ​ສະແດງ​ເປັນ​ສອງ​ເທົ່າ ແຕ່​ເພີ່ມ​ຄວາມ​ລະອຽດ
  • Use the Still preset when you want a steady avatar shot

ແຜນ​ການ​ວິດີໂອ​ Lip Sync

ເລີ່ມຕົ້ນຟຣີ, ປັບປຸງເມື່ອທ່ານຕ້ອງການຫຼາຍຂຶ້ນ

ບໍ່ມີ
  • ຈໍາກັດສຽງ 30 ວິນາທີ
  • ຜົນອອກ 256 ພິກເຊວ
  • ຕັ້ງຄ່າ​ລ່ວງໜ້າ "ຍັງ" ເທົ່ານັ້ນ
  • ບໍ່ມີ​ຕົວ​ເພີ່ມ​ໜ້າ
ນິຍົມທີ່ສຸດ
ບັນຊີ​ຟຣີ
  • ຈໍາກັດສຽງ 30 ວິນາທີ
  • ທັງ​ສອງ​ການ​ຕັ້ງ​ຄ່າ​ລ່ວງໜ້າ "ເຕັມ" ແລະ "ບໍ່​ປ່ຽນແປງ"
  • ຜົນອອກ 256 / 512 ພິກະເຊນ
  • ຕົວເພີ່ມ​ຄວາມ​ສວຍງາມ​ໜ້າ GFPGAN
ລົງທະບຽນຟຣີ
ມືອາຊີບ
  • ຈໍາກັດສຽງ5ນາທີ
  • ​ជួរ​ GPU ​ដែល​មាន​អាទិភាព
  • ເຂົ້າ​ເຖິງ API (ອັບໂຫລດຫຼາຍສ່ວນ)
  • ​ການ​ໂທ​ຄືນ​ການ​ເຮັດ​ໃຫ້​ Webhook ສົມບູນ
  • ການ​ໃຊ້​ໃນ​ການ​ຄ້າ (ໃບອະນຸຍາດ MIT)
ຍົກລະດັບ

ຄໍາຖາມທີ່ຖາມເລື້ອຍໆ

ສ້າງຂຶ້ນໂດຍ SadTalker (CVPR 2023), ແບບ ຈຳ ລອງຫົວເວົ້າທີ່ມີໃບອະນຸຍາດຈາກ MIT ເຊິ່ງສະແດງໃຫ້ເຫັນການສະແດງອອກນອກ ເໜືອ ຈາກຮູບຮ່າງປາກ.

ຂໍ້ມູນເຂົ້າທາງ ໜ້າ ສາມາດເປັນຮູບພາບ JPG ຫຼື PNG (ເຖິງ 10 MB) ຫຼືວິດີໂອ MP4 / WebM ທີ່ມີຂະ ໜາດ ນ້ອຍ (ພວກເຮົາໃຊ້ກອບ ທຳ ອິດ). ສຽງຂັບລົດສາມາດເປັນ MP3, WAV, M4A, ຫຼື FLAC ເຖິງ 10 MB. ພວກເຮົາເອົາສຽງຄືນ ໃໝ່ ເຖິງ 16 kHz ໃນພາຍໃນ.

ບັນຊີຟຣີ: ເຖິງ 30 ວິນາທີຕໍ່ຄລິບ. ຜູ້ໃຊ້ຈ່າຍ: ເຖິງ5ນາທີຕໍ່ຄໍາຮ້ອງຂໍ. ສຽງຍາວກວ່າ ໝາຍ ຄວາມວ່າເວລາສະແດງຍາວກວ່າແລະຄ່າຕົວອັກສອນສູງກວ່າ.

ວິດີໂອ Lip Sync ໃຊ້ 1,000 ຕົວອັກສອນຕໍ່ວິນາທີຂອງວິດີໂອທີ່ສ້າງຂຶ້ນ. 30 ວິນາທີຄລິບ = 30,000 ຕົວອັກສອນ. ຄ່າໃຊ້ຈ່າຍແມ່ນຖືກຄິດໄລ່ກ່ອນຈາກສະສົມຕົວອັກສອນຂອງທ່ານແລະຖືກຄືນເງິນໂດຍອັດຕະໂນມັດຖ້າການສ້າງບໍ່ສຳເລັດ.

ຍິນດີຕ້ອນຮັບ - SadTalker ລະຫັດແລະນໍ້າໜັກແມ່ນ MIT ອະນຸຍາດຈາກທ້າຍໄປຫາທ້າຍ (ບໍ່ມີ Llama, Gemma, ຫຼື non-ການຄ້າ backbone). ວິດີໂອທີ່ທ່ານສ້າງແມ່ນຂອງທ່ານທີ່ຈະນໍາໃຊ້ການຄ້າ. ທ່ານຮັບຜິດຊອບສໍາລັບການມີສິດໃນການແຫຼ່ງຫນ້າຮູບພາບແລະສຽງທີ່ທ່ານອັບໂຫລດ.

ປະມານ 30 ວິນາທີ ສຳ ລັບຄລິບ5ວິນາທີໃນເຊີບເວີ A100 ຂອງພວກເຮົາ, ຂະ ໜາດ ປະມານເສັ້ນດຽວກັບຄວາມຍາວຂອງສຽງ. ການເປີດໃຊ້ງານຕົວເພີ່ມຄວາມເຂັ້ມຂອງ GFPGAN ເຮັດໃຫ້ເວລາສະແດງອອກປະມານສອງເທົ່າແຕ່ຜະລິດຜົນໄດ້ຮັບທີ່ມີຄຸນນະພາບສູງກວ່າ.

ຕັ້ງ​ລ່ວງໜ້າ​ເຕັມ (ປັ໊ກ​ເດີມ) ເຮັດໃຫ້ໜ້າມີ​ການ​ເຄື່ອນ​ໄຫວ, ເບິ່ງ​ໜ້າ​ຊີ້​ໄປ​ທາງ​ໜ້າ, ແລະ ສະແດງ​ອາລົມ​ພ້ອມ​ກັບ​ປວດ​ປາກ, ເຮັດໃຫ້​ມີ​ວີດີໂອ​ຫົວ​ເວົ້າ​ທີ່​ເປັນ​ທຳມະຊາດ​ຫຼາຍຂຶ້ນ. ຕັ້ງ​ລ່ວງໜ້າ​ຍັງ​ຈະ​ກັກ​ຫົວ​ໄວ້​ໃນ​ບ່ອນ​ທີ່​ມັນ​ຢູ່ ແລະ ເຮັດ​ໃຫ້​ປາກ​ມີ​ການ​ເຄື່ອນ​ໄຫວ​ເທົ່ານັ້ນ - ມີຄວາມ​ປະ​ໂຫຍດ ເມື່ອ​ທ່ານ​ຕ້ອງການ​ຖ່າຍ​ຮູບ​ຕົວ​ແບບ​ທີ່​ບໍ່​ປ່ຽນ​ແປງ​ໄດ້.

GFPGAN ແມ່ນ​ແບບ​ຟອມ​ຟື້ນ​ຟູ​ໜ້າ​ທີ່​ເຮັດ​ໃຫ້​ລາຍລະອຽດ​ໜ້າ​ຊັດ​ຊະນີ​ຂຶ້ນ​ຫຼັງຈາກ​ການ​ສະແດງ​ແບບ​ lip-sync. ມັນ​ລ້າງ​ສິ່ງ​ທີ່​ບໍ່​ເປັນ​ຈິງ​ອອກ ແລະ ເຮັດໃຫ້​ຜົນ​ອອກ​ມາ​ຂອງ 256 ພິກເຊລ ເບິ່ງ​ຄື​ວ່າ​ໃກ້​ກັບ 512. ມັນ​ເພີ່ມ​ເວລາ​ການ​ສະແດງ​ເປັນ​ສອງ​ເທົ່າ ແຕ່​ມັນ​ມີ​ຄ່າ​ໃຊ້​ຈ່າຍ​ຫຼາຍ​ສຳລັບ​ການ​ຖ່າຍ​ຮູບ​ຂອງ​ນັກ​ຮົບ​ທີ່​ດີ​ເດັ່ນ.

SadTalker ສະແດງຢູ່ 256 ພິກເຊລຕາມລຳດັບ. ປ່ຽນເປັນ 512 ພິກເຊລ ສຳ ລັບຜົນໄດ້ຮັບທີ່ຊັດເຈນກວ່າ (ຊ້າກວ່າ, VRAM ສູງກວ່າ) ຫຼື ເປີດຕົວເພີ່ມປະສິດທິພາບ GFPGAN ເພື່ອເພີ່ມຂະ ໜາດ ລາຍລະອຽດຂອງໃບ ໜ້າ. ສຳ ລັບຜົນໄດ້ຮັບທີ່ດີທີ່ສຸດ, ສົ່ງຮູບຖ່າຍທີ່ມີຄຸນນະພາບສູງ, ຮູບຖ່າຍທີ່ສ່ອງແສງດີ.

ຍິນດີ. ສົ່ງ MP4 ຫຼື WebM ເປັນຂໍ້ມູນເຂົ້າສູ່ລະບົບໃບຫນ້າແລະພວກເຮົາຈະໃຊ້ກອບທໍາອິດເປັນຕົວຕົນຂອງການຂັບຂີ່. ສຳ ລັບວິດີໂອເຕັມທີ່ re-dubbing (ການປ່ຽນແທນປາກຕໍ່ກອບ), ເບິ່ງ Dubbing Studio ວິດີໂອ pipeline ທີ່ໃກ້ຈະມາເຖິງ.

ຍິນດີ. POST ຄໍາຮ້ອງຂໍຫຼາຍສ່ວນໄປຍັງ /api/v1/lipsync/ ທີ່ມີໜ້າ ແລະ ພື້ນທີ່ສຽງ, ຈາກນັ້ນຖາມ /api/v1/lipsync/result/?uuid= ຈົນກວ່າສະຖານະຈະ "ສຳເລັດ". ການຕອບສະຫນອງມີ URL ໄປຍັງ MP4 ທີ່ສະແດງອອກ. ການເຂົ້າໃຊ້ API ຕ້ອງມີແຜນທີ່ຈ່າຍ.

SadTalker ໃຊ້ການວາງໃບໜ້າເພື່ອກວດພົບ ແລະ ຕັດໃບໜ້າທີ່ໂດດເດັ່ນທີ່ສຸດ. ສຳ ລັບຜົນໄດ້ຮັບທີ່ດີທີ່ສຸດ, ສົ່ງຮູບປັ້ນທີ່ມີຄົນດຽວຢູ່ໃຈກາງ, ຕາເບິ່ງເຫັນໄດ້, ແລະ ການກີດຂວາງຢ່າງ ໜ້ອຍ. ຮູບກຸ່ມອາດຈະຜະລິດຜົນໄດ້ຮັບທີ່ບໍ່ສາມາດຄາດເດົາໄດ້.
5.0/5 (1)

ພວກເຮົາສາມາດປັບປຸງໄດ້ແນວໃດ? ຄໍາຄິດເຫັນຂອງທ່ານຊ່ວຍພວກເຮົາແກ້ໄຂບັນຫາ.

ແລ້ວ​ຈະ​ເລີ່ມ​ບໍ່?

ລົງທະບຽນຟຣີແລະໄດ້ຮັບ 50 ຄະແນນ. ບໍ່ມີບັດເຄຣດິດທີ່ຕ້ອງການ.