AI Lip Sync ვიდეო გენერატორიName

ატვირთეთ სახე და აუდიო ვიდეო - მიიღეთ საუბრის ვიდეო რეალისტური ყბის სინქრონიზაციით, კისრის პოზა და მზერა. SadTalker- ის მიერ (MIT). კომერციული გამოყენება ნებადართულია.

ატვირთვა

1000 სიმბოლო წამში

გადაახვიეთ და ჩამოაგდეთ ფაილი აქ, ან ძიება

JPG, PNG, or short MP4/WebM. Max 10MB. One clear, well-lit face works best.

ფაილი.mp3

0 MB

გადაახვიეთ და ჩამოაგდეთ ფაილი აქ, ან ძიება

MP3, WAV, M4A, or FLAC. Max 10MB. Free: up to 30 sec. Pro: up to 5 min.

ფაილი.mp3

0 MB

ოპერაცია...

ვიდეო ატვირთვა. ეს ჩვეულებრივ 30 წამიდან 2 წუთამდე გრძელდება.

ვიდეო

ჩამოტვირთვა

ინფორმაცია SadTalker- ის შესახებ

SadTalker (CVPR 2023, Tencent ARC) არის ღია კოდის საუბრის გონების მოდელი, რომელიც აanimებს ერთ სახეს, რომ საუბრობდეს ნებისმიერ აუდიოს. Wav2Lip- ის ვარიანტებისგან განსხვავებით, SadTalker ასევე აანიმაცებს თავზე პოზას, მზერას და გამომეტყველებას უფრო ბუნებრივი შედეგისთვის.

2001 წელს, ფილმი და მისი ვიდეოები გამოვიდა ვიდეო-თამაშად, რომელიც არ არის ვიდეო-თამაში, არამედ ვიდეო-თამაში, რომელიც არ არის ვიდეო-თამაში.

საუკეთესო შედეგების რჩევები

  • გამოიყენეთ მაღალი ხარისხის, კარგად განათებული პორტრეტი - თვალები ჩანს, პირი დახურულია
  • ცენტრალური ფორმა, კვადრატი ან 4:5 ფორმატის ოპტიმალური ვარიანტი
  • სუფთა საუბრის აუდიო (მუსიკის გარეშე) უფრო ახლოს ყოფს ტუჩების სინქრონიზაციას
  • GFPGAN-ის ჩართვა გმირის გადაღებებისთვის - ორმაგდება რენდერინგის დრო, მაგრამ დეტალები უფრო ნათლად ჩანს
  • გამოიყენეთ სტაბილური ავატორის გადაღებისას სტაბილური ავატორის წინასწარ დაყენება

ვიდეო

ჱაოჲფნთ ბვჱოლარნჲ, ოპვმვჟრთ ჟვ, კჲდარჲ რთ რპწბგა ოჲგვფვ

თავისუფალი
  • 30 წამიანი აუდიოს საზღვარი
  • 256 პიქსელი გამონატანი
  • მხოლოდ "Still" წინასწარ დაყენება
  • ნვმა ოპვგჲე
ყველაზე პოპულარული
ანგარიში
  • 30 წამიანი აუდიოს საზღვარი
  • ორივე "სრულ" და "მშვიდი" წინასწარ დაყენება
  • 256 / 512 პიქსელი გამონატანი
  • GFPGAN სახეების გაუმჯობესება
რეგისტრაცია
პროფესიონალი
  • 5 წუთიანი აუდიოს საზღვარი
  • GPU- ს რიგის პრიორიტეტი
  • API წვდომა (მრავლობითი ნაწილის ჩატვირთვა)
  • ვებ- კავშირის დასრულების უკან გამოძახებები
  • კომერციული გამოყენება (MIT ლიცენზია)
გაუმჯობესება

ხშირად დასმული კითხვები

ატვირთეთ სახე და აუდიო კლიპი და AI- ს შექმნის ვიდეო ამ სახეზე, რომელიც აუდიოს საუბრობს რეალისტური ყბის მოძრაობებით, თავით და მზერით. დაფუძნებულია SadTalker- ზე (CVPR 2023), MIT- ის ლიცენზირებულ საუბრის გონებით, რომელიც აანიმაცებს გამომეტყველებას პირის ფორმის გარდა.

სახეების შეყვანა შეიძლება იყოს JPG ან PNG გამოსახულება (10 MB-მდე) ან მოკლე MP4/WebM ვიდეო (ჩვენ ვიყენებთ პირველ კამერას). აუდიო შეიძლება იყოს MP3, WAV, M4A ან FLAC 10 MB-მდე. ჩვენ 16 kHz-მდე აუდიოს შიდა გადასაღებად ვიყენებთ.

უფასო ანგარიშები: 30 წამამდე ვიდეოკლიპი. ფასიანი მომხმარებლები: 5 წუთამდე ვიდეოკლიპი. უფრო დიდი აუდიო ნიშნავს უფრო დიდ რენდერინგს და უფრო დიდ სიმბოლოების ღირებულებას.

ვიდეო 1000 სიმბოლოს იყენებს წამში. 30 წამიანი ვიდეო = 30 000 სიმბოლო. ფასები განისაზღვრება თქვენი სიმბოლოების ბალანსის მიხედვით და ავტომატურად იხდება, თუკი ვიდეო ვერ შექმნა.

დიახ — SadTalker- ის კოდი და მასალები MIT- ის სრული ლიცენზიითაა (არა Lama, Gemma ან არაკომერციული backbone). თქვენი შექმნილი ვიდეოები თქვენია კომერციული გამოყენებისთვის. თქვენ პასუხისმგებელი ხართ თქვენი ატვირთვის გამომცემლის სახესა და აუდიოს უფლებების დაცვაზე.

30 წამი 5 წამიანი ვიდეო клиპი A100 სერვერზე, აუდიოს სიგრძის მიხედვით ლოიალურად მასშტაბურდება. GFPGAN-ის სახეების გაუმჯობესების ჩართვა ახლოებით ორჯერ ზრდის რენდერინგის დროს, მაგრამ იძლევა უფრო ნათელ, მაღალი ხარისხის გამონატანს.

სრული წინასწარ განსაზღვრა (ნაგულისხმევი) აანიმაცებს თავის პოზას, მზერას და გამომეტყველებას, ასევე ყბებს, რაც უფრო ბუნებრივ საუბრის ვიდეოსაც ქმნის. ჯერ კიდევ წინასწარ განსაზღვრა ბლოკავს თავს ადგილზე და აანიმაცებს მხოლოდ პირს - სასარგებლოა, თუ გსურთ ავატორის სტაბილური გადაღება.

GFPGAN არის სახეების აღდგენის მოდელი, რომელიც სახეების დეტალებს აშკარაებს ტუჩების სინქრონიზაციის შემდეგ. ის წმენდს არტეფაქტებს და 256-პიქსელიანი გამონატანი 512-ს უფრო ახლოს დგას. ეს დაახლოებით ორჯერ ზრდის გამოსახვის დროს, მაგრამ ეს ღირს გმირების გადაღებებისთვის.

SadTalker ნაგულისხმევად 256 პიქსელზე იღებს სურათს. გადართეთ 512 პიქსელზე უფრო ნათელ გამონატანისთვის (ნელა, მეტი VRAM) ან ჩართეთ GFPGAN გაუმჯობესება, რომ გაზარდოთ სახეების დეტალები. საუკეთესო შედეგების მისაღებად, ატვირთეთ მაღალი ხარისხის, კარგად განათებული პორტრეტი.

დიახ. ატვირთეთ MP4 ან WebM როგორც სახეს შეყვანა და ჩვენ გამოვიყენებთ პირველ კამერას როგორც მართვას. სრული ვიდეო გადასინჯვისთვის (კამერაზე პირის ჩანაცვლება), იხილეთ Dubbing Studio- ს მომავალი ვიდეო ქსელი.

დიახ. POST მრავალნაწილიანი მოთხოვნა /api/v1/lipsync/-ში სახესა და აუდიოს ველით, შემდეგ /api/v1/lipsync/result/?uuid=-ში კითხვა, სანამ სტატუსი არ იქნება "დასრულებული". პასუხი შეიცავს რენდერირებული MP4-ის URL-ს. API-ს წვდომა მოითხოვს ფასიან გეგმას.

SadTalker იყენებს სახეების გასწორებას, რომ აღმოაჩინოს და დაჭრას ყველაზე გამორჩეული სახეები. საუკეთესო შედეგების მისაღებად, ჩატვირთეთ პორტრეტი ერთი ადამიანის ცენტრში, თვალების ხილვით და მინიმალური ოკლუზიით. ჯგუფური ფოტოები შეიძლება გამოიწვიოს მოულოდნელი შედეგები.
5.0/5 (1)

ჲბპარნარა ჟთ ჲბაგვჟრ ნთ ოჲმადა ეა ჟოპაგთმ ოპჲბლვმთრვ.

დჲრჲგთ ლთ ჟრვ ეა ჱაოჲფგამვ?

ოპთ£აგთ ჟვ ბვჱოლარნჲ თ ეჲბთ£ 50 კპვეთრთ. ნვ ვ ნსზნა კპვეთრნა კაპრა.