រាយការណ៍​កំហុស / សំណើ​លក្ខណៈ​ពិសេស

កម្មវិធី​បង្កើត​វីដេអូ​ធ្វើ​សមកាលកម្ម​មាត់ AI

ផ្ទុកឡើងរូបថតមុខនិងវីដេអូអូឌីយ៉ូមួយ - ទទួលបានវីដេអូនិយាយ-ក្បាលជាមួយនឹងការសមកាលកម្មបបូរមាត់ពិត, ក្បាល pose, និងបន្លឺ. ថាមពលដោយ SadTalker (MIT). ការប្រើប្រាស់ពាណិជ្ជកម្ម OK.

យើង​មិន​មាន​សំឡេង TTS ក្នុង​ភាសា​របស់​អ្នក​នៅ​ឡើយ​ទេ & # 160; ។ ជួយ​យើង​បន្ថែម​របស់​អ្នក & # 160;! លក់​សំឡេង​របស់​អ្នក

ផ្ទុក​មុខ + អូឌីយ៉ូ​ឡើង

១, ០០០ តួអក្សរ​ក្នុង​មួយ​វិនាទី

អូស និង​ទម្លាក់​ឯកសារ​របស់​អ្នក​នៅ​ទីនេះ ឬ រកមើល

JPG, PNG, or short MP4/WebM. Max 10MB. One clear, well-lit face works best.

ឯកសារ.mp3

0 MB

អូស និង​ទម្លាក់​ឯកសារ​របស់​អ្នក​នៅ​ទីនេះ ឬ រកមើល

MP3, WAV, M4A, or FLAC. Max 10MB. Free: up to 30 sec. Pro: up to 5 min.

ឯកសារ.mp3

0 MB

កំពុង​ដំណើរការ...

បង្ហាញ​វីដេអូ​របស់​អ្នក & # 160; ។ ជា​ទូទៅ​វា​ចំណាយ​ពេល ៣០ វិនាទី​ទៅ ២ នាទី & # 160; ។

វីដេអូ​ក្បាល​និយាយ​របស់​អ្នក

ទាញយក

អំពី SadTalker

SadTalker (CVPR 2023, Tencent ARC) គឺជាម៉ូដែលនិយាយ-ក្បាលប្រភពបើកចំហដែលធ្វើអោយមានចលនារូបភាពមុខតែមួយដើម្បីនិយាយអូឌីយ៉ូណាមួយ។ មិនដូចកំណែ Wav2Lip ទេ SadTalker ក៏ធ្វើអោយមានចលនាក្បាលដាក់ ភ្លឺ និងសម្ដីសម្រាប់លទ្ធផលធម្មជាតិជាង។

កូដ និង ទំងន់ គឺ MIT-អាជ្ញាប័ណ្ណ ចុង ដល់ ចុង - គ្មាន Llama, Gemma, ឬ គ្មាន ពាណិជ្ជកម្ម ឆ្អឹង ខ្នង - ដូច្នេះ វីដេអូ ដែល អ្នក បង្កើត គឺ សុវត្ថិភាព សម្រាប់ ការប្រើប្រាស់ ពាណិជ្ជកម្ម ។

ព័ត៌មាន​ជំនួយ​សម្រាប់​លទ្ធផល​ល្អ​បំផុត

  • ប្រើ​រូបថត​ដែល​មាន​គុណភាព​ខ្ពស់ និង​មាន​ពន្លឺ​ល្អ - ភ្នែក​មើល​ឃើញ មាត់​បិទ
  • មុខ​កណ្ដាល, ការេ ឬ 4:5សមាមាត្រ​ផ្ទៃ​ធ្វើការ​ល្អ
  • អូឌីយ៉ូ​និយាយ​ស្អាត (គ្មាន​តន្ត្រី) នាំ​ឲ្យ​មាន​ការ​ធ្វើ​សមកាលកម្ម​មាត់​ដែល​រឹង​ជាង
  • អនុញ្ញាត GFPGAN សម្រាប់​ការ​ថត​វីរបុរស - បង្កើន​ពេលវេលា​បង្ហាញ​ទ្វេដង ប៉ុន្តែ​ធ្វើ​ឲ្យ​លម្អិត​ច្បាស់
  • ប្រើ​ការ​កំណត់​ជាមុន​ស្ងៀម ពេល​អ្នក​ចង់​បាន​រូប​តំណាង​ថត​ស្ងាត់

ផែនការ​វីដេអូ​ធ្វើ​សមកាលកម្ម​ច្រមុះName

ចាប់ផ្តើម​ដោយ​ឥតគិតថ្លៃ ធ្វើ​ឲ្យ​ប្រសើរ​ឡើង​នៅពេល​អ្នក​ត្រូវការ​បន្ថែម

ឥត​គិត​ថ្លៃ
  • ដែន​កំណត់​អូឌីយ៉ូ ៣០ វិនាទី
  • លទ្ធផល ២៥៦ ភីកសែល
  • កំណត់​ជាមុន​តែ "នៅ​ដដែល" ប៉ុណ្ណោះ
  • គ្មាន​កម្មវិធី​បង្កើន​មុខ​ទេ
ពេញនិយម​បំផុត
គណនី​ឥតគិតថ្លៃ
  • ដែន​កំណត់​អូឌីយ៉ូ ៣០ វិនាទី
  • ទាំង​ការ​កំណត់​ជាមុន "ពេញលេញ" និង "នៅ​ស្ងៀម"
  • លទ្ធផល ២៥៦ / ៥១២ ភីកសែល
  • កម្មវិធី​បង្កើន​មុខ​របស់ GFPGAN
ចុះឈ្មោះដោយឥតគិតថ្លៃ
ជំនាញ
  • ដែន​កំណត់​អូឌីយ៉ូ ៥ នាទី
  • ជួរ GPU ដែលមាន​អាទិភាព
  • ការ​ចូលដំណើរការ API (ផ្ទុក​ឡើង​ច្រើន​ផ្នែក)
  • ការ​ហៅ​ត្រឡប់​ការ​បំពេញ Webhook
  • ការ​ប្រើ​ពាណិជ្ជកម្ម (អាជ្ញាបណ្ណ MIT)
ធ្វើ​ឲ្យ​ប្រសើរ

សំណួរ​ដែល​សួរ​ញឹកញាប់

ផ្ទុកឡើងរូបថតមុខនិងវីដេអូអូឌីយ៉ូមួយហើយ AI បង្កើតវីដេអូនៃមុខដែលនិយាយអូឌីយ៉ូជាមួយចលនាបបូរមាត់ពិតប្រាកដ, ក្បាលដាក់, និងបន្លឺ. សាងសង់ឡើងនៅលើ SadTalker (CVPR 2023), ម៉ូដែលនិយាយក្បាល MIT-អាជ្ញាប័ណ្ណដែលបង្ហាញចលនាបន្ថែមទៀតទៅរាងមាត់.

មុខបញ្ចូលអាចជារូបភាព JPG ឬ PNG (រហូតដល់ទៅ 10 មេកាបៃ) ឬវីដេអូ MP4 / WebM ខ្លី (យើងប្រើស៊ុមដំបូង) ។ អូឌីយ៉ូបើកបរអាចជា MP3, WAV, M4A, ឬ FLAC រហូតដល់ទៅ 10 មេកាបៃ។ យើងបានយកឧទាហរណ៍អូឌីយ៉ូទៅ 16 kHz ខាងក្នុង។

គណនីឥតគិតថ្លៃ: រហូតដល់ទៅ 30 វិនាទីក្នុងមួយចន្លោះ. បង់ប្រាក់អ្នកប្រើ: រហូតដល់ទៅ5នាទីក្នុងមួយសំណើ. អូឌីយ៉ូវែងមានន័យថាពេលវេលាបង្ហាញវែងនិងតម្លៃតួអក្សរខ្ពស់។

វីដេអូ Lip Sync ប្រើ 1,000 តួអក្សរ ក្នុងមួយវិនាទីនៃវីដេអូដែលបានបង្កើត។ វីដេអូ 30 វិនាទី = 30,000 តួអក្សរ។ តម្លៃត្រូវបានបង់ប្រាក់ពីមុនពីតួអក្សររបស់អ្នកនិងត្រូវបានសងវិញដោយស្វ័យប្រវត្តិប្រសិនបើការបង្កើតបរាជ័យ។

បាទ — កូដ SadTalker និងទំងន់ត្រូវបាន MIT អាជ្ញាប័ណ្ណចុងបញ្ចប់ទៅចុងបញ្ចប់ (គ្មាន Llama, Gemma, ឬ backbone មិនមែនពាណិជ្ជកម្ម). វីដេអូដែលអ្នកបង្កើតគឺរបស់អ្នកដើម្បីប្រើពាណិជ្ជកម្ម. អ្នកទទួលខុសត្រូវចំពោះសិទ្ធិទៅប្រភពមុខរូបភាពនិងអូឌីយ៉ូដែលអ្នកផ្ទុកឡើង.

អំពី 30 វិនាទីសម្រាប់វីដេអូ5វិនាទីនៅលើម៉ាស៊ីនបម្រើ A100 របស់យើងដែលធ្វើមាត្រដ្ឋានយ៉ាងជិតស្និទ្ធជាមួយប្រវែងអូឌីយ៉ូ។ ការអនុញ្ញាតឱ្យឧបករណ៍បង្កើនប្រសិទ្ធិភាពមុខ GFPGAN ស្ទើរតែទ្វេដងពេលវេលាបង្ហាញប៉ុន្តែផលិតលទ្ធផលដែលមានគុណភាពខ្ពស់។

ការ​កំណត់​ជាមុន​ពេញលេញ (លំនាំដើម) ធ្វើ​ឲ្យ​មាន​ចលនា​ក្បាល ព្រិល និង​សម្ដី​រួម​ជាមួយ​នឹង​បបូរមាត់ បង្កើត​វីដេអូ​និយាយ​ក្បាល​ធម្មជាតិ​ជាង​មុន & # 160; ។ ការ​កំណត់​ជាមុន​នៅ​តែ​ចាក់សោ​ក្បាល​នៅ​កន្លែង និង​ធ្វើ​ឲ្យ​មាន​ចលនា​តែ​មាត់​ប៉ុណ្ណោះ - មាន​ប្រយោជន៍​ពេល​អ្នក​ចង់​បាន​រូបភាព​តំណាង​ដែល​មាន​ស្ថេរភាព & # 160; ។

GFPGAN គឺ​ជា​ម៉ូដែល​ស្ដារ​មុខ​ដែល​ធ្វើ​ឲ្យ​លម្អិត​មុខ​ច្បាស់​បន្ទាប់​ពី​បង្ហាញ​ lip- sync ។ វា​សម្អាត​វត្ថុ​សិល្បៈ​ឡើង​វិញ ហើយ​ធ្វើ​ឲ្យ​លទ្ធផល​ 256 ភីកសែល​មើល​ទៅ​ជិត​ជាង 512 ។ វា​ប្រហែល​ជា​បង្កើន​ពេល​បង្ហាញ​ទ្វេដង ប៉ុន្តែ​វា​មាន​តម្លៃ​សម្រាប់​ការ​ថត​វីរបុរស ។

SadTalker បង្ហាញ​នៅ 256 ភីកសែល​តាម​លំនាំដើម ។ ប្ដូរ​ទៅ 512 ភីកសែល​ទំហំ​សម្រាប់​លទ្ធផល​ច្បាស់​ជាង​មុន (យឺត​ជាង VRAM ខ្ពស់​ជាង) ឬ​អនុញ្ញាត​ឲ្យ​កម្មវិធី​បង្កើន​ប្រសិទ្ធិភាព GFPGAN ដើម្បី​បង្កើន​លម្អិត​មុខ ។ សម្រាប់​លទ្ធផល​ល្អបំផុត ផ្ទុក​ឡើង​នូវ​គុណភាព​ខ្ពស់ រូបថត​រូបរាង​ល្អ ។

បាទ. ផ្ទុកឡើង MP4 ឬ WebM ជាមុខបញ្ចូលហើយយើងនឹងប្រើស៊ុមដំបូងជាអត្តសញ្ញាណបើកបរ។ សម្រាប់វីដេអូពេញលេញឡើងវិញ (ជំនួសមាត់ក្នុងមួយស៊ុម) សូមមើលបំពង់វីដេអូ Dubbing Studio នាពេលអនាគត។

បាទ/ ចាស ។ POST សំណើ​ផ្នែក​ច្រើន​ទៅ /api/v1/lipsync/ ជាមួយ​វាល​មុខ និង​អូឌីយ៉ូ បន្ទាប់​មក​សួរ /api/v1/lipsync/result/?uuid= រហូត​ដល់​ស្ថានភាព​គឺ "បាន​បញ្ចប់" ។ ការ​ឆ្លើយតប​មាន URL ទៅ​កាន់ MP4 ដែល​បាន​បង្ហាញ ។ ការ​ចូល​ដំណើរការ API ត្រូវការ​ផែនការ​ដែល​បាន​បង់ ។

SadTalker ប្រើ​ការ​តម្រឹម​មុខ​ដើម្បី​រក​ឃើញ និង​កាត់​មុខ​ដែល​មាន​ភាព​គួរ​ឱ្យ​កត់​សម្គាល់​បំផុត ។ សម្រាប់​លទ្ធផល​ល្អ​បំផុត ផ្ទុក​រូបថត​មួយ​ដែល​មាន​មនុស្ស​ម្នាក់​នៅ​កណ្ដាល ភ្នែក​មើល​ឃើញ និង​ការ​បិទ​ភ្នែក​អប្បបរមា ។ រូបថត​ក្រុម​អាច​ផលិត​លទ្ធផល​ដែល​មិន​អាច​ព្យាករណ៍​បាន ។
5.0/5 (1)

តើ​យើង​អាច​ធ្វើ​អ្វី​បាន​ប្រសើរ​ឡើង & # 160;? មតិ​យោបល់​របស់​អ្នក​ជួយ​យើង​ជួសជុល​បញ្ហា & # 160; ។

រួចរាល់​ដើម្បី​ចាប់ផ្ដើម​ឬ & # 160;?

ចុះឈ្មោះដោយឥតគិតថ្លៃនិងទទួលបាន 50 ពិន្ទុ. គ្មានកាតឥណទានចាំបាច់.