កម្មវិធីបង្កើតវីដេអូធ្វើសមកាលកម្មមាត់ AI

ផ្ទុកឡើងរូបថតមុខនិងវីដេអូអូឌីយ៉ូមួយ - ទទួលបានវីដេអូនិយាយ-ក្បាលជាមួយនឹងការសមកាលកម្មបបូរមាត់ពិត, ក្បាល pose, និងបន្លឺ. ថាមពលដោយ SadTalker (MIT). ការប្រើប្រាស់ពាណិជ្ជកម្ម OK.

ចុះឈ្មោះដោយឥតគិតថ្លៃ

យើងមិនមានសំឡេង TTS ក្នុងភាសារបស់អ្នកនៅឡើយទេ ។ ជួយយើងបន្ថែមរបស់អ្នក ! លក់សំឡេងរបស់អ្នក

ផ្ទុកមុខ + អូឌីយ៉ូឡើង

១, ០០០ តួអក្សរក្នុងមួយវិនាទី

1. រូបភាពមុខឬវីដេអូបើកបរ

អូស និងទម្លាក់ឯកសាររបស់អ្នកនៅទីនេះ ឬ រកមើល

JPG, PNG, or short MP4/WebM. Max 10MB. One clear, well-lit face works best.

២. បើកបរអូឌីយ៉ូ

អូស និងទម្លាក់ឯកសាររបស់អ្នកនៅទីនេះ ឬ រកមើល

MP3, WAV, M4A, or FLAC. Max 10MB. Free: up to 30 sec. Pro: up to 5 min.

ការកំណត់ចលនាជាមុន

ទំហំលទ្ធផល

កម្មវិធីធ្វើឲ្យមុខប្រសើរ

GFPGAN (ច្បាស់យឺត)

អំពី SadTalker

SadTalker (CVPR 2023, Tencent ARC) គឺជាម៉ូដែលនិយាយ-ក្បាលប្រភពបើកចំហដែលធ្វើអោយមានចលនារូបភាពមុខតែមួយដើម្បីនិយាយអូឌីយ៉ូណាមួយ។ មិនដូចកំណែ Wav2Lip ទេ SadTalker ក៏ធ្វើអោយមានចលនាក្បាលដាក់ ភ្លឺ និងសម្ដីសម្រាប់លទ្ធផលធម្មជាតិជាង។

កូដ និង ទំងន់ គឺ MIT-អាជ្ញាប័ណ្ណ ចុង ដល់ ចុង - គ្មាន Llama, Gemma, ឬ គ្មាន ពាណិជ្ជកម្ម ឆ្អឹង ខ្នង - ដូច្នេះ វីដេអូ ដែល អ្នក បង្កើត គឺ សុវត្ថិភាព សម្រាប់ ការប្រើប្រាស់ ពាណិជ្ជកម្ម ។

ព័ត៌មានជំនួយសម្រាប់លទ្ធផលល្អបំផុត

ប្រើរូបថតដែលមានគុណភាពខ្ពស់ និងមានពន្លឺល្អ - ភ្នែកមើលឃើញ មាត់បិទ
មុខកណ្ដាល, ការេ ឬ 4:5សមាមាត្រផ្ទៃធ្វើការល្អ
អូឌីយ៉ូនិយាយស្អាត (គ្មានតន្ត្រី) នាំឲ្យមានការធ្វើសមកាលកម្មមាត់ដែលរឹងជាង
អនុញ្ញាត GFPGAN សម្រាប់ការថតវីរបុរស - បង្កើនពេលវេលាបង្ហាញទ្វេដង ប៉ុន្តែធ្វើឲ្យលម្អិតច្បាស់
ប្រើការកំណត់ជាមុនស្ងៀម ពេលអ្នកចង់បានរូបតំណាងថតស្ងាត់

ផែនការវីដេអូធ្វើសមកាលកម្មច្រមុះName

ចាប់ផ្តើមដោយឥតគិតថ្លៃ ធ្វើឲ្យប្រសើរឡើងនៅពេលអ្នកត្រូវការបន្ថែម

ឥតគិតថ្លៃ

ដែនកំណត់អូឌីយ៉ូ ៣០ វិនាទី
លទ្ធផល ២៥៦ ភីកសែល
កំណត់ជាមុនតែ "នៅដដែល" ប៉ុណ្ណោះ
គ្មានកម្មវិធីបង្កើនមុខទេ

ពេញនិយមបំផុត

គណនីឥតគិតថ្លៃ

ដែនកំណត់អូឌីយ៉ូ ៣០ វិនាទី
ទាំងការកំណត់ជាមុន "ពេញលេញ" និង "នៅស្ងៀម"
លទ្ធផល ២៥៦ / ៥១២ ភីកសែល
កម្មវិធីបង្កើនមុខរបស់ GFPGAN

ចុះឈ្មោះដោយឥតគិតថ្លៃ

ជំនាញ

ដែនកំណត់អូឌីយ៉ូ ៥ នាទី
ជួរ GPU ដែលមានអាទិភាព
ការចូលដំណើរការ API (ផ្ទុកឡើងច្រើនផ្នែក)
ការហៅត្រឡប់ការបំពេញ Webhook
ការប្រើពាណិជ្ជកម្ម (អាជ្ញាបណ្ណ MIT)

ធ្វើឲ្យប្រសើរ

សំណួរដែលសួរញឹកញាប់

ផ្ទុកឡើងរូបថតមុខនិងវីដេអូអូឌីយ៉ូមួយហើយ AI បង្កើតវីដេអូនៃមុខដែលនិយាយអូឌីយ៉ូជាមួយចលនាបបូរមាត់ពិតប្រាកដ, ក្បាលដាក់, និងបន្លឺ. សាងសង់ឡើងនៅលើ SadTalker (CVPR 2023), ម៉ូដែលនិយាយក្បាល MIT-អាជ្ញាប័ណ្ណដែលបង្ហាញចលនាបន្ថែមទៀតទៅរាងមាត់.

មុខបញ្ចូលអាចជារូបភាព JPG ឬ PNG (រហូតដល់ទៅ 10 មេកាបៃ) ឬវីដេអូ MP4 / WebM ខ្លី (យើងប្រើស៊ុមដំបូង) ។ អូឌីយ៉ូបើកបរអាចជា MP3, WAV, M4A, ឬ FLAC រហូតដល់ទៅ 10 មេកាបៃ។ យើងបានយកឧទាហរណ៍អូឌីយ៉ូទៅ 16 kHz ខាងក្នុង។

គណនីឥតគិតថ្លៃ: រហូតដល់ទៅ 30 វិនាទីក្នុងមួយចន្លោះ. បង់ប្រាក់អ្នកប្រើ: រហូតដល់ទៅ5នាទីក្នុងមួយសំណើ. អូឌីយ៉ូវែងមានន័យថាពេលវេលាបង្ហាញវែងនិងតម្លៃតួអក្សរខ្ពស់។

វីដេអូ Lip Sync ប្រើ 1,000 តួអក្សរ ក្នុងមួយវិនាទីនៃវីដេអូដែលបានបង្កើត។ វីដេអូ 30 វិនាទី = 30,000 តួអក្សរ។ តម្លៃត្រូវបានបង់ប្រាក់ពីមុនពីតួអក្សររបស់អ្នកនិងត្រូវបានសងវិញដោយស្វ័យប្រវត្តិប្រសិនបើការបង្កើតបរាជ័យ។

បាទ — កូដ SadTalker និងទំងន់ត្រូវបាន MIT អាជ្ញាប័ណ្ណចុងបញ្ចប់ទៅចុងបញ្ចប់ (គ្មាន Llama, Gemma, ឬ backbone មិនមែនពាណិជ្ជកម្ម). វីដេអូដែលអ្នកបង្កើតគឺរបស់អ្នកដើម្បីប្រើពាណិជ្ជកម្ម. អ្នកទទួលខុសត្រូវចំពោះសិទ្ធិទៅប្រភពមុខរូបភាពនិងអូឌីយ៉ូដែលអ្នកផ្ទុកឡើង.

អំពី 30 វិនាទីសម្រាប់វីដេអូ5វិនាទីនៅលើម៉ាស៊ីនបម្រើ A100 របស់យើងដែលធ្វើមាត្រដ្ឋានយ៉ាងជិតស្និទ្ធជាមួយប្រវែងអូឌីយ៉ូ។ ការអនុញ្ញាតឱ្យឧបករណ៍បង្កើនប្រសិទ្ធិភាពមុខ GFPGAN ស្ទើរតែទ្វេដងពេលវេលាបង្ហាញប៉ុន្តែផលិតលទ្ធផលដែលមានគុណភាពខ្ពស់។

ការកំណត់ជាមុនពេញលេញ (លំនាំដើម) ធ្វើឲ្យមានចលនាក្បាល ព្រិល និងសម្ដីរួមជាមួយនឹងបបូរមាត់ បង្កើតវីដេអូនិយាយក្បាលធម្មជាតិជាងមុន ។ ការកំណត់ជាមុននៅតែចាក់សោក្បាលនៅកន្លែង និងធ្វើឲ្យមានចលនាតែមាត់ប៉ុណ្ណោះ - មានប្រយោជន៍ពេលអ្នកចង់បានរូបភាពតំណាងដែលមានស្ថេរភាព ។

GFPGAN គឺជាម៉ូដែលស្ដារមុខដែលធ្វើឲ្យលម្អិតមុខច្បាស់បន្ទាប់ពីបង្ហាញ lip- sync ។ វាសម្អាតវត្ថុសិល្បៈឡើងវិញ ហើយធ្វើឲ្យលទ្ធផល 256 ភីកសែលមើលទៅជិតជាង 512 ។ វាប្រហែលជាបង្កើនពេលបង្ហាញទ្វេដង ប៉ុន្តែវាមានតម្លៃសម្រាប់ការថតវីរបុរស ។

SadTalker បង្ហាញនៅ 256 ភីកសែលតាមលំនាំដើម ។ ប្ដូរទៅ 512 ភីកសែលទំហំសម្រាប់លទ្ធផលច្បាស់ជាងមុន (យឺតជាង VRAM ខ្ពស់ជាង) ឬអនុញ្ញាតឲ្យកម្មវិធីបង្កើនប្រសិទ្ធិភាព GFPGAN ដើម្បីបង្កើនលម្អិតមុខ ។ សម្រាប់លទ្ធផលល្អបំផុត ផ្ទុកឡើងនូវគុណភាពខ្ពស់ រូបថតរូបរាងល្អ ។

បាទ. ផ្ទុកឡើង MP4 ឬ WebM ជាមុខបញ្ចូលហើយយើងនឹងប្រើស៊ុមដំបូងជាអត្តសញ្ញាណបើកបរ។ សម្រាប់វីដេអូពេញលេញឡើងវិញ (ជំនួសមាត់ក្នុងមួយស៊ុម) សូមមើលបំពង់វីដេអូ Dubbing Studio នាពេលអនាគត។

បាទ/ ចាស ។ POST សំណើផ្នែកច្រើនទៅ /api/v1/lipsync/ ជាមួយវាលមុខ និងអូឌីយ៉ូ បន្ទាប់មកសួរ /api/v1/lipsync/result/?uuid= រហូតដល់ស្ថានភាពគឺ "បានបញ្ចប់" ។ ការឆ្លើយតបមាន URL ទៅកាន់ MP4 ដែលបានបង្ហាញ ។ ការចូលដំណើរការ API ត្រូវការផែនការដែលបានបង់ ។

SadTalker ប្រើការតម្រឹមមុខដើម្បីរកឃើញ និងកាត់មុខដែលមានភាពគួរឱ្យកត់សម្គាល់បំផុត ។ សម្រាប់លទ្ធផលល្អបំផុត ផ្ទុករូបថតមួយដែលមានមនុស្សម្នាក់នៅកណ្ដាល ភ្នែកមើលឃើញ និងការបិទភ្នែកអប្បបរមា ។ រូបថតក្រុមអាចផលិតលទ្ធផលដែលមិនអាចព្យាករណ៍បាន ។

5.0/5 (1)

រួចរាល់ដើម្បីចាប់ផ្ដើមឬ ?

ចុះឈ្មោះដោយឥតគិតថ្លៃនិងទទួលបាន 50 ពិន្ទុ. គ្មានកាតឥណទានចាំបាច់.

ចុះឈ្មោះដោយឥតគិតថ្លៃ មើលតម្លៃ

កម្មវិធី​បង្កើត​វីដេអូ​ធ្វើ​សមកាលកម្ម​មាត់ AI

ផ្ទុក​មុខ + អូឌីយ៉ូ​ឡើង

វីដេអូ​ក្បាល​និយាយ​របស់​អ្នក

អំពី SadTalker

ព័ត៌មាន​ជំនួយ​សម្រាប់​លទ្ធផល​ល្អ​បំផុត

ផែនការ​វីដេអូ​ធ្វើ​សមកាលកម្ម​ច្រមុះName

សំណួរ​ដែល​សួរ​ញឹកញាប់

តើ​ឧបករណ៍​ធ្វើ​សមកាលកម្ម​ច្រមុះ AI ធ្វើ​អ្វី ?

តើ​ទ្រង់ទ្រាយ​បញ្ចូល​អ្វី​ដែល​ត្រូវ​បាន​គាំទ្រ ?

តើ​អូឌីយ៉ូ​អាច​មាន​រយៈពេល​យូរ​ប៉ុណ្ណា ?

តើ​វា​មាន​តម្លៃ​ប៉ុន្មាន?

តើ​ខ្ញុំ​អាច​ប្រើ​វីដេអូ​នេះ​សម្រាប់​គោល​បំណង​ពាណិជ្ជកម្ម​បាន​ទេ?

តើ​ការ​បង្កើត​ត្រូវ​ចំណាយ​ពេល​ប៉ុន្មាន ?

តើ​មាន​អ្វី​ខុសគ្នា​រវាង​ការ​កំណត់​ជាមុន "ពេញលេញ" និង "នៅ​ដដែល" ?

តើអ្វីទៅជាឧបករណ៍បង្កើន GFPGAN?

ហេតុ​អ្វី​បាន​ជា​លទ្ធផល​របស់​ខ្ញុំ​មាន​គុណភាព​បង្ហាញ​ទាប ?

តើ​ខ្ញុំ​អាច​ធ្វើ​សមកាលកម្ម​វីដេអូ​ទៅ​អូឌីយ៉ូ​ថ្មី​បាន​ទេ ?

តើមាន API ទេ?

តើ​ធ្វើ​ដូចម្តេច​បើ​រូប​មុខ​របស់​ខ្ញុំ​មាន​មនុស្ស​ច្រើន​នៅ​ក្នុង​វា?

រួចរាល់​ដើម្បី​ចាប់ផ្ដើម​ឬ ?