AI Lip Sync سىن ياسىغۇچ

يۈز سۈرەت ۋە ئاۋازنى كۆچۈرىدۇ - سىز راستچىل ئاۋاز تەڭشەش، باش تۇرۇش ۋە كۆز ياشلىرىنى كۆرسىتىش بىلەن سۆزلىشىدىغان كۆزنىڭ سىنىنى ئالىدۇ. SadTalker (MIT) نىڭ كۈچى بىلەن ئىشلەيدۇ. تىجارەت ئۈچۈن ئىشلىتىشكە بولىدۇ.

يۈز + ئاۋازنى يۈكلەش

ھەر سېكۇنتتا 1000 ھەرپ

ھۆججەتنى بۇ يەرگە يۆتكەپ قويۇڭ ياكى كۆرۈش

JPG, PNG, or short MP4/WebM. Max 10MB. One clear, well-lit face works best.

ھۆججەت.mp3

0 MB

ھۆججەتنى بۇ يەرگە يۆتكەپ قويۇڭ ياكى كۆرۈش

MP3, WAV, M4A, or FLAC. Max 10MB. Free: up to 30 sec. Pro: up to 5 min.

ھۆججەت.mp3

0 MB

ئىشلىنىۋاتىدۇ...

سىننى سىزىش. بۇ ئادەتتە 30 سېكۇنتتىن 2 مىنۇتقىچە ۋاقىتنى ئالىدۇ.

Talking-Head سىنىڭىز

چۈشۈرۈش

SadTalker ھەققىدە

SadTalker (CVPR 2023, Tencent ARC) بىر يۈز سۈرەتلىرىنى ھەرقانداق ئاۋازنى سۆزلەش ئۈچۈن جانلاندۇرۇپ بېرىدىغان ئوچۇق مەنبەلىك سۆزلىشىدىغان باش مودېلى. Wav2Lip نىڭ ئوخشىمىغان نۇسخىلىرىغا ئوخشاش، SadTalker يەنە باش پوزىتسىيەسى، كۆز يۇمۇش ۋە يۈز ئىپادىسى قاتارلىقلارنى جانلاندۇرۇپ بېرىدۇ، بۇ ئارقىلىق تېخىمۇ تەبىئىي بولغان نەتىجە بېرىدۇ.

كود ۋە بوشلۇقلار MIT نىڭ ئىجازەتنامە بىلەن تەمىنلەنگەن — Llama، Gemma ياكى تىجارەتچى ئەمەس backbone يوق — شۇڭا سىز ياساپ چىقارغان سىنلار تىجارەتچىلەرگە بىخەتەر.

ئەڭ ياخشى نەتىجە ئۈچۈن تەۋسىيە

  • يۇقىرى سۈپەتلىك، ياخشى يورۇقلۇقلۇق پورتىرېتنى ئىشلىتىڭ - كۆزلەر كۆرۈنىدۇ، ئاغزى ئېچىلىدۇ
  • ئوتتۇرا يۈز، كۋادرات ياكى 4:5 نىڭ ئەڭ ياخشىسى
  • سۆزلەش ئاۋازىنى تازىلاش (مۇزىكا يوق) بىلەن ئاۋاز تەڭشەش
  • قەھرىمانلار پىچاقلىرى ئۈچۈن GFPGAN نى قوزغاتىدۇ - سىزىش ۋاقتى ئىككىگە كۆپىيىپ، تەپسىلاتلار تېخىمۇ ئېنىق بولىدۇ
  • ئاۋاتۇرنى سىزىش ئۈچۈن ئالدىن بەلگىلەنگەن سىزىقنى ئىشلىتىڭ

Lip Sync سىن پروگراممىسى

ھەقسىز باشلاپ، تېخىمۇ كۆپ نەرسە كېرەك بولغاندا يېڭىلاڭ

بوش
  • ئاۋازنىڭ 30 سېكۇنتلىق چەكلىمىسى
  • 256 پىكسېل چىقىرىش
  • پەقەت «Still» ئالدىن تەڭشەش
  • يۈزنى ياخشىلىغۇچ يوق
ئەڭ كۆپ كۆرۈلىدىغان
ھەقسىز ھېسابات
  • ئاۋازنىڭ 30 سېكۇنتلىق چەكلىمىسى
  • «تۈگىمەس» ۋە «ئاۋات» ئالدىن تەڭشەش
  • 256 / 512 پىكسېل چىقىرىش
  • GFPGAN يۈز كۈچەيتىش پروگراممىسى
ھەقسىز قوشۇل
مەشغۇلاتچى
  • ئاۋازنىڭ 5 مىنۇتلۇق چەكلىمىسى
  • ئالدىنقى ئورۇندىكى GPU نىڭ ئالدىنقى قاتارى
  • API قوزغىتىش (ئۈچ قىسىملىق يۈكلەش)
  • Webhook تولۇقلاش قايتۇرۇشلىرى
  • تىجارەتچىلەرگە ئىشلىتىش (MIT ئىجازىتى)
يېڭىلاش

كۆپ سورالغان سوئاللار

يۈز سۈرەت ۋە ئاۋازنى قوشۇپ قويسىڭىز، AI بۇ يۈزنىڭ ئاۋازنى راستچىل ئاۋاز بىلەن سۆزلەپ بېرىدىغان سىننى ياسايدۇ. SadTalker (CVPR 2023) نىڭ ئاساسىدا ياسالغان، MIT نىڭ ئىجازىتى بىلەن ئاۋازغا قوشۇپ، يۈز ئىپادىلىرىنىمۇ جانلاندۇرۇپ بېرىدىغان سۆزلىشىدىغان يۈز مودېلى.

يۈز كىرگۈزۈش JPG ياكى PNG سۈرىتى (10 ميگابىتقىچە) ياكى قىسقا MP4/WebM سىن (ئالدىنقى پىروگرامما ئىشلىتىلىدۇ). ئاۋاز MP3، WAV، M4A ياكى FLAC 10 ميگابىتقىچە بولىدۇ. ئاۋازنى ئىچىدە 16 كاھىشلىق تىپقا ئايلاندۇرىمىز.

ھەقسىز ھېساباتلار: ھەر بىر سىننى 30 سېكۇنتقىچە. ھەقلىق ھېساباتلار: ھەر بىر تەلەپنى 5 مىنۇتقىچە. ئۇزۇن بولغان ئاۋاز ئۇزۇن بولغان رېنېر ۋاقىت ۋە يۇقىرى بولغان ھەرپ قىممىتى بىلەن ئىپادىلىنىدۇ.

چىراي تەڭشىش سىن كۆرۈنۈشى ھەر سېكۇنتتا 1000 ھەرپ ئىشلىتىدۇ. 30 سېكۇنتلۇق سىن كۆرۈنۈشى = 30000 ھەرپ. بۇ ھەق سىزنىڭ ھەرپ سانلىق مەلۇماتىڭىزدىن ئالدىن ھېسابلىنىدۇ، ئەگەر سىن كۆرۈنۈشى ھاسىل قىلىنمىسا ئاپتوماتىك قايتۇرۇلىدۇ.

ھەئە — SadTalker كودى ۋە بوشلۇقى MIT نىڭ چەكسىز ئىجازىتى بىلەن (Llama، Gemma ياكى تىجارەتچى ئەمەس backbone نىڭ ئىجازىتى بىلەن) ياسالغان. سىز ياساپ چىقارغان سىنلارنى تىجارەتچىلەرگە ئىشلىتىشىڭىزگە بولىدۇ. سىز ئۈنۈملۈك كۆز سۈرەت ۋە ئاۋازغا ھوقۇقىڭىزنى ساقلاشقا مەسئۇلسىز.

A100 مۇلازىمېتىرىمىزدىكى 5 سېكۇنتلۇق سىننى كۆرۈش ئۈچۈن 30 سېكۇنت ۋاقىت كېتىدۇ، ئۇزۇنلۇقى ئاۋاز ئۇزۇنلۇقىغا قاراپ تەڭشەلىدۇ. GFPGAN يۈزنى كۈچەيتىش پروگراممىسىنى قوزغىتىش بىلەن كۆرۈش ۋاقتى ئىككى ھەسسە كۆپىيىدۇ، ئەمما ئۈنۈمى تېخىمۇ ياخشى بولىدۇ.

ئالدىن بەلگىلەنگەن (ئالدىنقى) سىزىقلار باشنىڭ ئورنىنى، كۆزنى يۇمۇپ-ئۇيۇشنى، ئاۋازنى، كۆزنىڭ قىياپىتىنى، ئاغزىنى، ئاۋازنى تېخىمۇ تەبىئىي قىلىپ كۆرسىتىدۇ. ئالدىن بەلگىلەنگەن سىزىقلار باشنى ئۆز ئورنىغا سوقۇپ، پەقەت ئاغزىنىلا كۆرسىتىدۇ. بۇ ئاۋاتۇرنى مۇقىم ھالەتتە تارتماقچى بولغاندا ئىشلىتىلىدۇ.

GFPGAN چىراينى ئەسلىگە كەلتۈرۈش مودېلى بولۇپ، ئۇ چىراينى چىراي بىلەن تەڭشەش ئارقىلىق سىزىپ چىقىرىش ئارقىلىق چىراينىڭ تەپسىلاتلىرىنى ئېنىق كۆرسىتىدۇ. بۇ 256 پىكسېللىق چىقىرىشنى 512 گە يېقىنلاشتۇرىدۇ. بۇ سىزىش ۋاقتىنى ئىككىگە قىسقارتىدۇ، لېكىن قەھرىمانلارنى سىزغاندا بۇ قىممەتلىك.

SadTalker نىڭ ئالدىن كۆرسەتكەن چوڭلۇقى 256 پىكسېل. تېخىمۇ ئېنىق چىقىرىش ئۈچۈن 512 پىكسېل چوڭلۇققا ئۆزگەرتىڭ (يېقىنراق، يۇقىرى VRAM) ياكى GFPGAN كۈچەيتىشنى قوزغاتسىڭىز يۈزنىڭ تەپسىلاتىنى ئاشۇرغىلى بولىدۇ. ئەڭ ياخشى نەتىجە ئۈچۈن، يۇقىرى سۈپەتلىك، ياخشى يورۇقلۇقلۇق پورتىرېت سۈرىتىنى يۈكلەپ قويۇڭ.

ئۇنداق. MP4 ياكى WebM نى يۈز كىرگۈزۈش ئۈچۈن يۈكلەپ بەرسىڭىز، بىز ئالدىنقى رەسىمنى مەشغۇلاتچى سۈپىتىدە ئىشلىتىمىز. تولۇق سىننى قايتا-قايتا ئاڭلىتىش (ھەر بىر رەسىمدىكى ئاۋازنى ئالماشتۇرۇش) ئۈچۈن Dubbing Studio نىڭ ئالدىدا تۇرىدىغان سىن يولىنى كۆرۈڭ.

ئۇنداق. /api/v1/lipsync/ غا Face ۋە Audio نى ئۆز ئىچىگە ئالغان كۆپ قىسىملىق تەلەپنى POST قىلىڭ، ئاندىن ئەھۋال «تەمكىن» بولغانغا قەدەر /api/v1/lipsync/result/?uuid= نى سوراڭ. جاۋابتا MP4 نى سىزىش ئۈچۈن ئىشلىتىلىدىغان URL بار. API نى ئىشلىتىش ئۈچۈن ھەق تۆلەش كېرەك.

SadTalker يۈزنى تەڭشەش ئارقىلىق ئەڭ كۆرۈنەرلىك يۈزنى بايقايدۇ ۋە سىزىدۇ. ئەڭ ياخشى نەتىجە ئۈچۈن، بىر كىشىنىڭ ئوتتۇرىسىغا، كۆزلىرى كۆرۈنەرلىك، ئەڭ ئاز بولغاندا بىر قىسمى كۆرۈنمەيدىغان ھالەتتە سۈرەت يوللىسىڭىز بولىدۇ. توپلۇق سۈرەتلەرنى يوللىغاندا، سىز كۈتۈپ باقمىغان نەتىجە چىقىدۇ.
5.0/5 (1)

قانداق ياخشىلاشقا بولىدۇ؟ سىزنىڭ پىكىرىڭىز بىزنى مەسىلىلەرنى ھەل قىلىشقا يېتەكلەيدۇ.

باشلاشقا تەييارمۇ؟

ھەقسىز قوشۇلۇڭ ۋە 50 كرېدىت ئالىڭ. كرېدىت كارتىسى كېرەك ئەمەس.