የችግር / የችሎታ ጥያቄ አቅርብ

AI Lip Sync ቪዲዮ ማምረቻ

የፊት ፎቶ እና የድምፅ ክሊፕን ጫን - እውነተኛ የላባ synchronization, የራስ ፎቶ እና ብልጭታዎችን የሚናገሩ የራስ ቪዲዮን ያግኙ. SadTalker (MIT) የተሰራ. የቢዝነስ ጥቅም በቂ ነው.

ነጻ

አሁንም በቋንቋህ ላይ የቲቲኤስ ድምፆች የለንም። የራስህን ጨምርልን! ድምፅዎን ይሸጡ

ድምፅ

ፊደል(ሎች)

1. የፊት ምስል ወይም የቪዲዮ መኪና

ፋይሉን እዚህ አስቀምጥ፣ ወይም አሳይ

JPG, PNG, or short MP4/WebM. Max 10MB. One clear, well-lit face works best.

ድምፅ

ፋይሉን እዚህ አስቀምጥ፣ ወይም አሳይ

MP3, WAV, M4A, or FLAC. Max 10MB. Free: up to 30 sec. Pro: up to 5 min.

የቀን/ሰዓት አማራጭ፦

የምርጫ መጠን

የፊቱን አሻሽያ

GFPGAN (በጥብቅ፣ በፍጥነት)

ስለ SadTalker

SadTalker (CVPR 2023, Tencent ARC) የግል ፊቱን ምስል ማንኛውንም ድምፅ ለመናገር የሚያንቀሳቅስ የክፈት ምንጭ የንግግር-አፍ ሞዴል ነው. Wav2Lip ልዩነቶች በተቃራኒው፣ SadTalker የራስን ፎቶግራፍ፣ ብልጭታዎችን እና የበለጠ ተፈጥሯዊ ውጤት ለማግኘት መግለጫዎችንም ያንቀሳቅሳል.

ኮድ እና ክብደት ከመጨረሻ እስከ መጨረሻ MIT-ሊስንስ አላቸው - ምንም ላማ፣ ጄማ ወይም ያልተሸጠ ራስ - ስለዚህ ቪዲዮዎቹ ለሽያጭ ጥቅም ደህን ናቸው.

ምርጥ ውጤቶች

ከፍተኛ ጥራት ያለው፣ በደንብ የተቀረጸ ፎቶግራፍ ይጠቀሙ - ዓይኖች ይታያሉ፣ አፍም ይከፈታል
መካከለኛ ፊት፣ ስድስት ማዕዘን ወይም 4:5 የቅርጽ መጠን በጣም ጥሩ ነው
የንግግር ድምፅ (ሙዚቃ የለም) ቀጥ ያለ የምላስ synchronization ይሰጣል
GFPGANን ለታጋይ ፎቶዎች አስጀምር - የቀረጻ ጊዜን ያድጋል ግን ዝርዝሮችን ያጠናክራል
የቀድሞው ፎቶ

የቪዲዮ ፋይል

ነጻ ይጀምሩ፣ የበለጠ ያስፈልግዎት ከሆነ ያሻሽሉ

ነጻ

30 ሰከንዶች
256 ፒክስል ውጤት
"Still" ብቻ
የፊቱን ማሳደግ የለም

በጣም ተወዳጅ

ነጻ

30 ሰከንዶች
"ሙሉ" እና "አልተስተካከለ" ቅድመ-ሰሌዳዎች
ፋይል (_F)
የGFPGAN ፊት ማሻሻያ

ነጻ

ለ

የድምፅ መጠን
የGPU ፋይል
API መዳረሻ (ብዙ ክፍል መላክ)
የዌብሆክ ማጠናቀቂያ መላላኪያ
የኮሜርሲያዊ ጥቅም (MIT ፈቃድ)

ደረጃ አሰጣጥ

ብዙ ጊዜ የሚጠየቁ ጥያቄዎች

የፊት ፎቶ እና የድምፅ ክሊፕን ጫን፣ እና AI የዚያን ፊት ቪዲዮን በውጤታማ የጥርስ እንቅስቃሴዎች፣ የራስ ፎቶግራፍ እና በጥላቻዎች ድምፅን የሚናገሩ ያደርጋል። SadTalker (CVPR 2023) ላይ የተገነባ፣ የ MIT-ሊስንስ የተሰጠው የንግግር-አፍ ሞዴል በምላስ ቅርፅ በተጨማሪም መግለጫን የሚያንቀሳቅስ ነው።

የፊት ፋይሉ JPG ወይም PNG ምስል (10 ሜባ ድረስ) ወይም የ MP4/WebM ቪዲዮ ሊሆን ይችላል (መጀመሪያው ፍሬም ይጠቀማል)። የድምፅ ፋይሉ MP3, WAV, M4A ወይም FLAC እስከ 10 ሜባ ድረስ ሊሆን ይችላል። ድምፅን ወደ 16 kHz በውስጥ እንመልሳለን።

ነጻ መዝገቦች: እስከ 30 ሰከንዶች ለክሊፕ. የሚከፍሉ ተጠቃሚዎች: እስከ 5 ደቂቃዎች ለጠየቅ. ረጅም ድምፅ ማለት ረጅም ጊዜ እና ከፍተኛ የፊደል ዋጋን ያመለክታል።

የሊፕ ሲንክ ቪዲዮ በአንድ ሰከንድ ውስጥ 1,000 አርእስቶችን ይጠቀማል። 30 ሰከንድ ያለው ክሊፕ = 30,000 አርእስቶች። ዋጋው ከፊቱ ከፊተኞቹ ተጨማሪ ካርታዎች ጋር ይቆጠራል። መፍጠር ቢሳካም በራሱ ይመለሳል።

አዎ - የሳድቶክተር ኮድ እና ክብደት MIT ፈቃድ አላቸው (ለላማ፣ ለጄማ ወይም ለሌላ የኮሜርስ ዓላማ የማይውል)። ቪዲዮዎቹን የምታስገቡት ለኮሜርስ ጥቅም ብቻ ነው። ለሚጫኑት የፊት ምስል እና የድምፅ መብቶች ተጠያቂ ነዎት።

በ A100 ሰርቨራችን ላይ ለ5 ሰከንዶች የሚቆይ ክሊፕ 30 ሰከንዶች ይወስዳል፣ በድምፅ ርዝመት ላይ በቀጥታ ይለካል። የGFPGAN ፊት ማሻሻያውን ማቀናጀት የሬንደር ጊዜን በጥቂቱ ያድጋል ግን የጨዋታውን ጥራት ያሻሽላል

የሙሉ ቅድመ-ሁኔታ (የተለመደው) የራስን አቋም፣ መታጠፍ፣ እና ምላሽ ከሳንባዎች ጋር አንቀሳቅሷል፣ የበለጠ ተፈጥሯዊ የንግግር-ራስ ቪዲዮን ያወጣል። ገና ቅድመ-ሁኔታ ራስን በቦታው ያስተካክላል እና አፍንጫውን ብቻ አንቀሳቅሷል - ቀጥ ያለ የአዋታር ፎቶ ሲያሻሽሉ ጥቅም ላይ ይውላል።

GFPGAN ከ lip-sync ሪንደር በኋላ የፊቱን ዝርዝሮች የሚያሳርፍ የፊት መልሶ ማቋቋሚያ ሞዴል ነው። ቅርሶችን ያጠፋል እናም 256-ፒክስል ውጤትን ወደ 512 ቅርበት እንዲታይ ያደርጋል። የሪንደር ጊዜን በግምት አርባ እጥፍ ያድጋል ግን ለታጋይ ፎቶዎች ጠቃሚ ነው።

SadTalker በ 256 ፒክስል በተቀመጠው መጠን ይሰራል። ለበለጠ ጥልቀት ወደ 512 ፒክስል መጠን ይለውጡ (በዝቅተኛ፣ በከፍተኛ VRAM) ወይም የፊት ዝርዝሮችን ለማሳደግ የ GFPGAN ማሻሻያውን ያስጀምሩ። ለተሻለ ውጤት ከፍተኛ ጥራት ያለው፣ በደንብ የተበራከተ የፎቶግራፍ ምስል ይጫኑ።

አዎ. MP4 ወይም WebM እንደ ፊት ፋይል ጫን እና የመጀመሪያውን ፍሬም እንደ መነሻ ፋይል እንጠቀማለን. ለሙሉ የቪዲዮ መተካት (የፍሬም ምላሽ) የሚመጣውን የዱቢንግ ስቱዲዮ ቪዲዮ መተካት ተመልከት.

አዎ. በፊቱና በድምፅ መስኮቶች /api/v1/lipsync/ ወደሚለው የብዙ ክፍል ጥያቄ POST አድርግ፣ ከዚያም /api/v1/lipsync/result/?uuid=ን እስከ "ተሟላ" ድረስ ጠይቅ። መልሱ ወደ ተለጠፈው MP4 URL ይ containsል። API ለመድረስ የተከፈለ ዕቅድ ያስፈልጋል።

SadTalker በጣም የሚታወቀውን ፊት ለመለየትና ለመቆረጥ የፊት አቀማመጥን ይጠቀማል። ለተሻለ ውጤት፣ አንድ ሰው በምስራቅ፣ ዓይኖች የሚታዩ፣ እና ጥቂት ቅርጽ ያለው ፎቶግራፍ ይጫኑ። የቡድን ፎቶዎች የማይጠበቁ ውጤቶችን ሊያስገኙ ይችላሉ።

5.0/5 (1)

ለመጀመር ዝግጁ ነዎት?

ነጻ ለመመዝገብ እና 50 ክሬዲቶች ማግኘት. ምንም ክሬዲት ካርድ ያስፈልጋል.

ነጻ ማሳየት

AI Lip Sync ቪዲዮ ማምረቻ

ድምፅ

የቪዲዮ ፋይል

ስለ SadTalker

ምርጥ ውጤቶች

የቪዲዮ ፋይል

ብዙ ጊዜ የሚጠየቁ ጥያቄዎች

የ AI ምላስ ሲያንክ መሣሪያ ምን ያደርጋል?

ምን ዓይነት ቅርጸቶች ይደገፋሉ?

ድምፅ ምን ያህል ጊዜ ሊቆይ ይችላል?

ምን ያህል ያስከፍላል?

ቪዲዮዎቹን ለትርፍ ማዋል እችላለሁን?

የዘር ማጥፋት ምን ያህል ጊዜ ይወስዳል?

"ሙሉ" እና "አልተስተካከለ" መካከል ያለው ልዩነት ምንድነው?

የGFPGAN ማሻሻያ ምንድን ነው?

ለምን ምርቱ ዝቅተኛ ልዩነት አለው?

ቪዲዮን ወደ አዲስ ድምፅ ማስተካከል እችላለሁን?

API አለ?

የፊቴ ፎቶ ብዙ ሰዎችን ቢይዝ ምን ይኾናል?

ለመጀመር ዝግጁ ነዎት?