AI ලිප් සමමුහුර්ත වීඩියෝ ජනක

මුහුණු ඡායාරූපයක් සහ ශ්රව්ය ක්ලිප් එකතු - යථාර්ථවාදී තොල් සමමුහුර්ත සමග කතා-හිස වීඩියෝ ලබා, හිස ස්ථානගත, හා ක්ලික්. SadTalker විසින් බලගැන්වෙන (MIT). වාණිජමය භාවිතය හරි.

අපි තවම ඔබේ භාෂාවෙන් TTS හඬක් නැහැ. අපිට උදව් කරන්න ඔබගේ එක එකතු කරන්න! ඔබේ හඬ විකුණන්න

මුහුණ + ශ්රව්ය උඩුගත

තත්පරයට අකුරු 1,000

ඔබේ ගොනුව මෙතනට ඇද දමන්න, හෝ ගවේශනය

JPG, PNG, or short MP4/WebM. Max 10MB. One clear, well-lit face works best.

ගොනුව.mp3

0 MB

ඔබේ ගොනුව මෙතනට ඇද දමන්න, හෝ ගවේශනය

MP3, WAV, M4A, or FLAC. Max 10MB. Free: up to 30 sec. Pro: up to 5 min.

ගොනුව.mp3

0 MB

සැකසීම...

ඔබේ වීඩියෝව සකසමින්. මෙය සාමාන්යයෙන් තත්පර 30 සිට2මිනිත්තු ගත වේ.

ඔබේ කතා කරන හිස වීඩියෝ

MP4 බාගත

SadTalker ගැන

SadTalker (CVPR 2023, ටෙන්සෙන්ට් ARC) ඕනෑම ශ්රව්ය කතා කිරීමට තනි මුහුණු රූපයක් සජීවී කරන විවෘත මූලාශ්රය කතා-හිස ආකෘතිය වේ. Wav2Lip විකල්ප මෙන් නොව, SadTalker ද හිස යෝජනා සජීවී, ක්ලික්, සහ වඩා ස්වභාවික ප්රතිඵලයක් සඳහා ප්රකාශ.

කේතය සහ බර MIT අවසානයේ අවසානයේ අවසන් අවසර දී ඇත - කිසිදු ලාමා, Gemma, හෝ වාණිජ නොවන පිටුපස - ඔබ ජනනය වීඩියෝ වාණිජ භාවිතය සඳහා ආරක්ෂිත වන නිසා.

හොඳම ප්රතිඵල සඳහා ඉඟි

  • උසස් තත්ත්වයේ භාවිතා කරන්න, හොඳින් ආලෝකමත් ප්රතිමාව - ඇස් දර්ශනය, කට වසා
  • මධ්යගත මුහුණ, වර්ග හෝ 4:5අංශක අනුපාතය හොඳම වැඩ
  • පිරිසිදු කථාව ශ්රව්ය (සංගීතයක් නැත) තද තොල් සමමුහුර්ත ප්රතිලාභ
  • වීරයා වෙඩි සඳහා GFPGAN සක්‍රිය කරන්න - දෙගුණ වේගවත් නමුත් විස්තර
  • ඔබට ස්ථාවර ඇවටර් ඡායාරූපයක් අවශ්‍ය විට ස්ථාවර පෙරනිමි භාවිත කරන්න

ලිප් සමමුහුර්ත වීඩියෝ සැලසුම්

ඔබට වැඩි අවශ්ය විට නිදහස් ආරම්භ, උසස්

නිදහස්
  • තත්පර 30 ශ්‍රව්‍ය සීමා
  • 256px ප්‍රථිධානය
  • "තවත්" පෙරනිමි පමණක්
  • මුහුණු වැඩිදියුණු කරන්නෙක් නැත
ජනප්‍රියම
නොමිලේ ගිණුම
  • තත්පර 30 ශ්‍රව්‍ය සීමා
  • "පූර්ණ" හා "නොගැලපෙන" පෙරනිමි දෙකම
  • 256 / 512 පික්සෙල් ප්‍රථිධානය
  • GFPGAN මුහුණු වැඩිදියුණු කරන්නා
ලියාපදිංචි වන්න
ප්‍රො
  • මිනිත්තු 5ක ශ්‍රව්‍ය සීමාවන්
  • ප්‍රමුඛතා GPU පෝලිය
  • API ප්රවේශය (බහු-අංශයක් උඩුගත)
  • Webhook සම්පූර්ණ කිරීම callbacks
  • වාණිජ භාවිතය (MIT බලපත්රය)
යාවත්කාලීන කරන්න

නිතර අසන ප්රශ්න

මුහුණු ඡායාරූපයක් සහ ශ්රව්ය ක්ලිප් එකතු, සහ AI යථාර්ථවාදී තොල් චලන සමග ශ්රව්ය කතා කරන එම මුහුණු වීඩියෝවක් ජනනය, හිස ස්ථානගත, හා ක්ලික්. SadTalker මත ඉදි (CVPR 2023), කට හැඩය හැරුණු විට ප්රකාශ සජීවී කරන MIT බලපත්ර කතා-හිස ආකෘතිය.

මුහුණ ආදාන JPG හෝ PNG රූපයක් විය හැකිය (10 MB දක්වා) හෝ කෙටි MP4 / WebM රියදුරු වීඩියෝවක් (අපි පළමු රාමුව භාවිතා කරමු). රියදුරු ශබ්දය MP3, WAV, M4A හෝ FLAC 10 MB දක්වා විය හැකිය. අපි අභ්යන්තරව 16 kHz දක්වා ශබ්දය නැවත සාම්පල ගත කරමු.

නිදහස් ගිණුම්: ක්ලිප් එකකට තත්පර 30 දක්වා. ගෙවන පරිශීලකයන්: ඉල්ලීමකට මිනිත්තු5දක්වා. දිගු ශ්රව්ය දිගු කාලයක් සහ ඉහළ චරිත පිරිවැය අදහස් කරයි.

ලිප් සමමුහුර්ත වීඩියෝ භාවිතා 1,000 ජනනය වීඩියෝ තත්පරයට අක්ෂර. 30 තත්පර ක්ලිප් = 30,000 අක්ෂර. පිරිවැය ඔබේ චරිතය ශේෂය සිට ඉදිරියට බිල්පත් හා ජනනය අසාර්ථක නම් ස්වයංක්රීයව ආපසු ගෙවනු ලැබේ.

ඔව් - SadTalker කේතය හා බර MIT අවසානයේ අවසානයේ බලපත්ර ඇත (නො ලාමා, Gemma, හෝ වාණිජ නොවන කකුල්). ඔබ ජනනය වීඩියෝ වාණිජමය භාවිතා කිරීමට ඔබගේ ය. ඔබ ඔබ උඩුගත මූලාශ්රය මුහුණ රූප හා ශ්රව්ය හිමිකම් ඇති කිරීම සඳහා වගකිව යුතු ය.

30 තත්පර 5-තත්පර ක්ලිප් සඳහා අපගේ A100 සේවාදායකය මත, ශ්රව්ය දිග සමඟ දළ වශයෙන් රේඛීයව පරිමාණය කිරීම. GFPGAN මුහුණු වැඩිදියුණු කරන්නා සක්‍රීය කිරීම දළ වශයෙන් දෙගුණ වේ. නමුත් වඩාත් තද, උසස් තත්ත්වයේ ප් රතිදානය නිපදවයි.

සම්පූර්ණ පෙරනිමි (පෙරනිමි) හිස ස්ථානගත සජීවීකරණය, ක්ලික්, සහ තොල් සමග හැඟීම්, වඩා ස්වභාවික කතා-හිස වීඩියෝ නිෂ්පාදනය. තවමත් පෙරනිමි ස්ථානයේ හිස අගුළු සහ කට පමණක් සජීවීකරණය - ඔබ ස්ථාවර ඇවටර් වෙඩි අවශ්ය විට ප්රයෝජනවත්.

GFPGAN යනු තොල්-සමෝචන සැකසීමෙන් පසු මුහුණේ විස්තර තීව්ර කරන මුහුණු ප්රතිසංස්කරණ ආකෘතියකි. එය කලා කෘති පිරිසිදු කර 256-පික්සල් ප් රතිදානය 512 වෙත සමීපව පෙනේ. එය දළ වශයෙන් දෙගුණ කරයි. නමුත් වීර ඡායාරූප සඳහා එය වටී.

SadTalker පෙරනිමියෙන් 256 px දී ඉදිරිපත් කරයි. තද ප්රතිදානය සඳහා 512 px ප්රමාණයට මාරු (මන්දගාමී, ඉහළ VRAM) හෝ upscale මුහුණේ විස්තර කිරීමට GFPGAN enhancer සක්‍රීය කරන්න. හොඳම ප්රතිඵල සඳහා, උසස් තත්ත්වයේ, හොඳින් ආලෝකමත් ප්රතිබිම්බ ඡායාරූපයක් උඩුගත කරන්න.

ඔව්. මුහුණ ආදානයක් ලෙස MP4 හෝ WebM එකක් උඩුගත කරමු. අපි රියදුරු අනන් යතාව ලෙස පළමු රාමුව භාවිතා කරමු. සම්පූර්ණ වීඩියෝ නැවත-දොඩම් සඳහා (රාමුවකට මුඛ ආදේශකයක්), එන දොඩම් ස්ටූඩියෝ වීඩියෝ පයිප්ප බලන්න.

ඔව්. මුහුණ සහ ශ්රව්ය ක්ෂේත්ර සමග /api/v1/lipsync/ කිරීමට බහු-අංශ ඉල්ලීමක් POST, පසුව තත්ත්වය "සම්පූර්ණ" වන තෙක් ප්රතිඵල /api/v1/lipsync/result/?uuid=. ප්රතිචාරය ඉදිරිපත් MP4 සඳහා URL අඩංගු. API ප්රවේශය ගෙවන සැලැස්මක් අවශ්ය.

SadTalker වඩාත් ප්රකට මුහුණ හඳුනා ගැනීමට හා අස්වැන්න නෙළීම සඳහා මුහුණ-සංවිධානය භාවිතා. හොඳම ප්රතිඵල සඳහා, එක් පුද්ගලයෙකු මධ්යගත සමග ප්රතිමාවක් උඩුගත, ඇස් දෘශ්ය, හා අවම occlusion. කණ්ඩායම ඡායාරූප අනාවැකි ප්රතිඵල නිපදවිය හැක.
5.0/5 (1)

අපි වැඩි දියුණු කළ හැකි දේ? ඔබේ ප්රතිචාරය අපට ගැටළු විසඳීමට උපකාරී වේ.

පටන් ගන්න ලෑස්තිද?

නොමිලේ ලියාපදිංචි වී ලබා ගන්න 50 ක්රෙඩිට්. ක්රෙඩිට් කාඩ් අවශ්ය නැත.