AI Lip Sync ရုပ်သံ Generator ကို

မျက်နှာပုံနှင့်အသံဖိုင်ကို upload လုပ်ပါ - လက်တွေ့ကျသောနှုတ်ခမ်း sync နှင့်အတူစကားပြော-ခေါင်းဗီဒီယိုကိုရယူပါ, ခေါင်းကိုတင်, နှင့်ပြုံး. SadTalker အားဖြင့် Powered (MIT). စီးပွားရေးလုပ်ငန်းသုံး OK ကို.

ကျွန်တော်တို့ဟာသင့်ရဲ့ဘာသာစကားအတွက် TTS အသံတွေမရှိသေးပါဘူး. ကျွန်တော်တို့ကိုသင့်ရဲ့ add ကူညီပါ! သင့်အသံကိုရောင်း

မျက်နှာ + Audio ကို Upload

တစ်စက္ကန့်လျှင် စာလုံးပေါင်း ၁၀၀၀

ဖိုင်ကိုဒီနေရာသို့ဆွဲချပါ၊ သို့မဟုတ် ရှာဖွေ

JPG, PNG, or short MP4/WebM. Max 10MB. One clear, well-lit face works best.

file.mp3

0 MB

ဖိုင်ကိုဒီနေရာသို့ဆွဲချပါ၊ သို့မဟုတ် ရှာဖွေ

MP3, WAV, M4A, or FLAC. Max 10MB. Free: up to 30 sec. Pro: up to 5 min.

file.mp3

0 MB

လုပ်ဆောင်နေသည်...

သင့်ရဲ့ဗီဒီယိုကိုပြသနေသည်။ ဤသည်ပုံမှန်အားဖြင့် 30 စက္ကန့်မှ2မိနစ်ကြာသည်။

သင်၏ပြောဆို-ခေါင်းဗီဒီယို

ဒေါင်းလုပ်လုပ်

SadTalker အကြောင်း

SadTalker (CVPR 2023, Tencent ARC) မည်သည့်အသံကိုပြောဆိုရန်တစ်ဦးတည်းမျက်နှာပုံရိပ်ကို animates သော open-source ကိုပြောဆို-ဦးခေါင်းမော်ဒယ်တစ်ခုဖြစ်သည်။ Wav2Lip ကွဲပြားခြားနားသောမတူဘဲ, SadTalker လည်းခေါင်းကို pose ကို animates, အပြုံး, နှင့်ပိုမိုသဘာဝရလဒ်များအတွက်ထုတ်ဖော်ပြောဆိုမှု။

ဤသည်ကိုသင်၏ဗီဒီယိုများထုတ်လုပ်ရန်အတွက်လုံခြုံသောစီးပွားရေးလုပ်ငန်းအသုံးပြုမှုဖြစ်ပါသည်, ဒါကြောင့်သင်သည်အဘယ်သို့ပြုရမည်ကိုသင်သိပါသလဲ?

အကောင်းဆုံးရလဒ်များအတွက်အကြံပြုချက်များ

  • မြင့်မားသောအရည်အသွေး, ကောင်းစွာအလင်းရောင်ပုံရိပ်ကိုအသုံးပြုပါ - မျက်လုံးမြင်နိုင်, ပါးစပ်ပိတ်
  • မျက်နှာပြင်ကို Centered, စတုရန်းသို့မဟုတ် 4:5 aspect ratio ကိုအကောင်းဆုံးအလုပ်လုပ်တယ်
  • ရှင်းလင်းသောစကားပြောအသံ (ဂီတမရှိ) ခိုင်မာတဲ့ပါးစပ် sync ထွက်လာ
  • ရဲဘော်ရိုက်ချက်များအတွက် GFPGAN ခွင့်ပြုပါ - render အချိန်နှစ်ဆပေမယ့်အသေးစိတ် sharpens
  • ပုံတူရိုက်ချက်ကို တည်ငြိမ်စေချင်ရင် တည်ငြိမ်တဲ့ ရှေ့ထားချက်ကို သုံးစွဲပါ

Lip Sync ရုပ်သံအစီအစဉ်များ

သင်ပိုမိုလိုအပ်တဲ့အခါအခမဲ့စတင်, upgrade

လွတ်လပ်မှု
  • ၃၀-စက္ကန့် အသံအကနုတ်
  • 256 px ထုတ်လုပ်မှု
  • "Still" ပဲ ပြင်ဆင်ထား
  • မျက်နှာပြင် တိုးမြှင့်ချက် မရှိပါ
လူကြိုက်အများဆုံး
အခမဲ့အကောင့်
  • ၃၀-စက္ကန့် အသံအကနုတ်
  • "ပြည့်စုံ" နဲ့ "တည်ငြိမ်" နှစ်ခုစလုံး
  • 256 / 512 px ထုတ်လုပ်မှု
  • GFPGAN မျက်နှာပြင်တိုးမြှင့်
အခမဲ့ Sign Up
ပရော်ဖက်ရှင်နယ်
  • ၅-မိနစ် အသံအကနန့်
  • GPU အဆင့်ဆင့်
  • API ကို access (multipart တင်သွင်း)
  • Webhook ပြီးစီးမှု callbacks
  • စီးပွားရေးလုပ်ငန်းသုံး (MIT လိုင်စင်)
အဆင့်မြှင့်

မေးလေ့ရှိသောမေးခွန်းများ

SadTalker အပေါ်တည်ဆောက် (CVPR 2023), ပါးပြင်အသွင်အပြင်အပြင်အသွင်အပြင်ကို animates သော MIT-လိုင်စင်ရပြောဆို-ခေါင်းမော်ဒယ်.

မျက်နှာ input ကို JPG သို့မဟုတ် PNG ရုပ်ပုံ (အထိ 10 MB) သို့မဟုတ်တိုတောင်းတဲ့ MP4 / WebM ယာဉ်မောင်းဗီဒီယိုဖြစ်နိုင်ပါသည် (ကျွန်တော်တို့ဟာပထမဦးဆုံး frame ကိုအသုံးပြု). ယာဉ်မောင်းအသံ MP3 ဖြစ်နိုင်ပါသည်, WAV, M4A, သို့မဟုတ် FLAC အထိ 10 MB. ကျနော်တို့အတွင်းပိုင်း 16 kHz ကိုအသံကို resampling.

အခမဲ့အကောင့်များ: အထိ 30 စက္ကန့်တစ် clip ကို. ပေးဆောင်အသုံးပြုသူများ: အထိ5မိနစ်တစ်လျှောက်လွှာ. ပိုမိုကြာရှည်အသံပိုမိုကြာရှည် render အချိန်နှင့်ပိုမိုမြင့်မားသော character ကိုကုန်ကျစရိတ်ဆိုလိုသည်။

Lip sync video အသုံးပြု 1,000 character per second of generated video. A 30-second clip = 30,000 characters. The cost is billed up front from your character balance and automatically refunded if generation fails.

ဟုတ်ကဲ့ — SadTalker code ကိုနှင့်အလေးချိန် MIT လိုင်စင်အဆုံးမှအဆုံးဖြစ်ကြသည် (မရှိ Lama, Gemma, သို့မဟုတ်စီးပွားရေးလုပ်ငန်းမဟုတ်သော backbone). သင် generate လုပ်တဲ့ဗီဒီယိုများစီးပွားရေးလုပ်ငန်းသုံးဖို့သင့်ရဲ့ဖြစ်ကြသည်. သင် upload လုပ်တဲ့အရင်းအမြစ်မျက်နှာပုံရိပ်နှင့်အသံကိုပိုင်ဆိုင်မှုများအတွက်တာဝန်ရှိကြသည်.

အကြောင်းကို 30 စက္ကန့်ကျွန်တော်တို့ရဲ့ A100 ဆာဗာပေါ်တွင်5စက္ကန့် clip ကိုများအတွက်, အသံအရှည်နှင့်အတူအကြမ်းဖျင်း linearly scaleing ။

အပြည့်အဝ preset ( default ) ခေါင်းကိုတင်, အပြုံး, နှင့်နှုတ်ခမ်းနှင့်အတူအသွင်အပြင်ကို animates, ပိုမိုသဘာဝပြောဆို-ခေါင်းဗီဒီယိုထုတ်လုပ်. သေး preset နေရာတွင်ခေါင်းကို locks နှင့်သာပါးစပ်ကို animates — သင်သည်အစဉ်အလာ avatar ရိုက်ချက်ကိုလိုချင်တဲ့အခါအသုံးဝင်.

GFPGAN နှုတ်ခမ်း-sync rendering ပြီးနောက်မျက်နှာပြင်အသေးစိတ်များကို sharpens မျက်နှာပြင်ပြန်လည်ထူထောင်ရေးမော်ဒယ်တစ်ခုဖြစ်ပါသည်. ဒါဟာ artefacts ကိုရှင်းလင်းပြီး 256-pixel output ကို 512 ဖို့ပိုနီးကပ်စွာကြည့်စေသည်။ ဒါဟာအကြမ်းဖျင်းနှစ်ဆ render အချိန်ကိုပေးသည်, ဒါပေမယ့်သူရဲကောင်းရိုက်ချက်များအတွက်တန်ဖိုးရှိပါတယ်.

SadTalker မှာ renders 256 px အားဖြင့် default. 512 px ထက်ပိုမိုပြင်းထန်သော output ကိုများအတွက်အရွယ်အစားကို switch (နှေး, မြင့်မားသော VRAM) သို့မဟုတ်မျက်နှာအသေးစိတ်ကို upscale ရန် GFPGAN enhancer ကို activate. အကောင်းဆုံးရလဒ်များအတွက်, မြင့်မားသောအရည်အသွေးကို upload, ကောင်းစွာ-အလင်းပုံတူဓာတ်ပုံ.

ဟုတ်ကဲ့. မျက်နှာ input ကိုအဖြစ် MP4 သို့မဟုတ် WebM ကို upload လုပ်ပါနှင့်ကျွန်တော်တို့ဟာယာဉ်မောင်းအမည်အဖြစ်ပထမဦးဆုံး frame ကိုအသုံးပြုလိမ့်မည်။ အပြည့်အဝဗီဒီယို re-dubbing (per-frame ကိုပါးစပ်အစားထိုး) အတွက်, လာမည့် Dubbing စတူဒီယိုဗီဒီယိုပြွန်ကိုကြည့်ပါ။

ဟုတ်ကဲ့. မျက်နှာနှင့်အသံနယ်ပယ်နှင့်အတူ /api/v1/lipsync/ သို့ multipart တောင်းဆိုချက်ကို POST, ထို့နောက်အခြေအနေသည် "ပြီးစီး" အထိ poll /api/v1/lipsync/result/?uuid=. တုံ့ပြန်မှုသည် rendered MP4 သို့ URL ကိုပါဝင်သည်။ API ဝင်ရောက်ခွင့်ကိုပေးဆောင်ပရောဂျက်လိုအပ်သည်။

SadTalker အများဆုံးထင်ရှားမျက်နှာကိုရှာဖွေတွေ့ရှိခြင်းနှင့်စိုက်ပျိုးရန်မျက်နှာ-alignment ကိုအသုံးပြု. အကောင်းဆုံးရလဒ်များကိုများအတွက်, တစ်ဦးလူကဗဟိုပြုနှင့်အတူပုံတူ upload, မျက်လုံးမြင်ရ, နှင့်အနည်းဆုံး occlusion. Group photos may produce unpredictable results.
5.0/5 (1)

ကျွန်တော်တို့ကိုတိုးတက်ကောင်းမွန်စေနိုင်သလား? သင့်ရဲ့အကြံပြုချက်များကျွန်တော်တို့ကိုပြဿနာများကိုဖြေရှင်းကူညီပေးသည်။

စတင်ရန် အဆင်သင့်ဖြစ်ပြီလား။

အခမဲ့ Sign Up လုပ်ပြီးရယူပါ 15,000 characters. No credit card required.