װײַז דורכפֿאַל/פֿעיִקײט־בקשה

AI ליפן־סײַנשרײַב ווידעא־געזײגער

אַרײַנשטעלן אַ געװיזל־פֿאָטאָ און אַ אודיו־קליפּ — באַקומען אַ רעדנדיקן קאָפּ־װידעאָ מיט רעאַליסטישע ליפן־סײַנקרײַז, קאָפּ־פּאָזע און בליקלעך. אױסגעפֿירט פֿון SadTalker (MIT). קאָממערציעלע ניצע יאָ

אַרײַנשרײַבן אַ בילד

1,000 שריפֿטצײכן אױף אַ סעקונדע

קלײַב אַלץ אױסFile בלעטער

JPG, PNG, or short MP4/WebM. Max 10MB. One clear, well-lit face works best.

טעקע.mp3

0 MB

קלײַב אַלץ אױסFile בלעטער

MP3, WAV, M4A, or FLAC. Max 10MB. Free: up to 30 sec. Pro: up to 5 min.

טעקע.mp3

0 MB

באַהאַנדלונג

װײַזט אױס װײַטע בילדער. דאָס װעט אױפֿגעפֿירט ווערן אין 30 סעקונדעס ביז 2 מינוט

װײַז בילדל

אַרײַנשטעלן

אױף SadTalker

SadTalker (CVPR 2023, Tencent ARC) איז אַ פֿאָרװערטס־סײַנדער־האָפּ־מאָדעל װאָס אַנימירט אַ איין געװיז־בילד װי אַ אודיו־פֿאָרװערטס. ניט־װי Wav2Lip־װאַראַנטעס, אַנימירט SadTalker אויך קאָפּ־פּאָזן, בליקונגען און אויסדרוקן װי אַ נאַטירלעכער רעזולטאט.

קאָד און װעגט זענען MIT־ליסענציירט פֿון סוף צו סוף — ניט קיין לאַמע, גאַמע, אָדער ניט־קאָמערסיאַלער װײַט — אַזוי די װידעאָס װאָס דו גרײסט אױס זײַנען זיכער פֿאַר קאָמערסיאַלער ניצן

רײַט פֿאַר די בעסטער רעזולטאטן

  • טעקסט פֿאַרבimage-action
  • צענטער־געזײגטע װײַז, קװאַרט אָדער 4:5 בילדצעלן־צופֿרידנקייט אַרבעט בעסטער
  • קלאָרע שפּראַך־אויער (ניט קיין מוזיק) גיט אַ קלענערע ליפן־סײַנשרײַב
  • באַשטעטיק GFPGAN פֿאַר הײליקע שאָס — פֿאַרדאָפּפֿערט די רענדיר־צײַט אָבער װײַזט די דעטאַלן קלײַערער
  • טעקסט פֿאַרבimage-action

ליפן־סײַנרוק־װײַדאָפּלאָן

אָנהײב פריי, פֿאַרװאַנדל אױף אױב דו װילסט מער

פֿרײַ
  • 30־סעקונדעס אודיו־גראָטע
  • 256 בילדצעלן אױסגאַבע
  • נאָרמאַל
  • ניט קיין װײַזער
באַרימט
אָפּרוקונג
  • 30־סעקונדעס אודיו־גראָטע
  • בײדע "פֿול" און "שטיל" פֿאַרװאַנדלונגס־פֿאַרבינדונגען
  • 256 / 512 בילדצעלן אױסגאַבע
  • GFPGAN װײַזער־פֿאַרבעסערן
אַרײַנשרײַבן
פּראָ
  • 5 מינוט אודיו־גראָטע
  • GPU שורה מיט פּריאָריטעט
  • API צוטריט (פֿאַרװײַליקע אַרײַנשטעלן)
  • װײַב־האַק־פֿאַרענדיקונג־װײַז־אַרױסקריגן
  • קאָממערציעלע ניצן (MIT ליסענסע)
פֿאַרבעסערן

פֿראַגעס און ענטפֿערס

אַרײַנשטעלן אַ װײַז־פֿאָטאָ און אַ אודיו־קליפּ, און דער קײן־איין־װײַז־װײַזער גיט אַ װײַז־פֿילם פֿון דעם װײַז, װאָס רעדט דעם אודיו מיט רעאַליסטישע ליפֿט־באַוועגונגען, קאָפּ־פּאָזע און בליקלעך. געגרינדעט אױף SadTalker (CVPR 2023), אַ MIT־ליסענציירטער שפּראַך־קאָפּ־מאָדעל װאָס אַנימירט די אויסדרוקן צוצוצו די מויל־פֿאָרעם.

די װײַז־אַרײַנשרײַב קען זײַן אַ JPG אָדער PNG בילד (אַרײַן צו 10 מײַל) אָדער אַ קורצער MP4/WebM װײַז־װײַז (מיר ניצן דעם ערשטן ראָם). דער װײַז־אויער קען זײַן MP3, WAV, M4A, אָדער FLAC ביז 10 מײַל. מיר איבער־פֿאַרפֿאָלגן דעם אויער אינערלעכער צו 16 ק״ה

פֿרײַע אױספֿאָרסונגען: ביז 30 סעקונדעס אױף אַ קלעפּ. באַצאָלטע אױספֿאָרסונגען: ביז 5 מינוט אױף אַ פֿראַגע. מער אודיו מיינט מער צײכנצײכן־צײַט און מער צײַט פֿאַר דער צײכן־קײט

ליפן־סײַנרוק־װײַדצעטל ניצט 1,000 שריפֿטצײכן אױף אַ סעקונדע פֿון דער געװײנטלעכער װײַדצעטל. אַ 30־סעקונדעס קלעפּ = 30,000 שריפֿטצײכן. די צאָלונג ווערט אָנגעשלײלט פֿון דיין שריפֿטצײכן־באַשלוס און אויטאָמאַטיש אָפּגעגעבן אױב דער געװײנטלעכער װײַדצעטל איז ניט געװען געװען

יָה — SadTalker קאָד און װעגט האָבן אַ MIT ליסענסע פֿון סוף צו סוף (ניט לאַמע, גאַמע אָדער ניט־קאָמערסיאַלע װײַט). די װידעאָ־פֿילמען װאָס דו שאַפֿסט זײַנען אייער צו ניצן פֿאַר קאָמערסיאַלע צײַטונגען. דו ביסט פֿאַראַנטוואָרטלעך פֿאַר די רעכטן צום מקור־געזיכט־בילד און צום אודיו װאָס דו אַרײַנשטעלןסט

אַרום 30 סעקונדעס פֿאַר אַ 5־סעקונדעס קאָפּיע אויף אונדזער A100 סערװירער, סעלעקציע װי אַ װײַטער־ליניע מיט די אודיו לענג. אױב איר װײַזט דעם GFPGAN װײַז־פֿאַרבעסערן, װעט דאָס אַרום פֿאַרדװײַלן דעם רענדיר־צײַט, אָבער עס װעט אַרײַנשטעלן אַ קלענערער, העכער־קװאַליטעט־אױסגאַבע

פֿול־פֿאַרװײַז (געװײנטלעכער) אַנימירט קאָפּ־פּאָזיציע, בליקונגען און אויסדרוקן צוזאַמען מיט די ליפן, און שאַפֿט אַ נאַטירלעכער רעדנדיקן קאָפּ־װידעאָ. נאָך פֿאָרװײַז לאָזט דעם קאָפּ אױף זײַן אָרט און אַנימירט נאָר דעם מויל — נוצלעך װען מען װיל אַ שטילן אװאַטאַר־שטיקל

GFPGAN איז אַ געsicht־רעסטרוקציע־מאָדעל װאָס װײַזט די געsicht־דעטאַלן נאָך אַ ליפן־סײַנקרײַז־רענדירונג. עס רײַכט אױס אײדער און װײַזט 256־ביסל־אױסגאַבע נײטיקער ווי 512. עס פֿאַרדװײַלט די רענדיר־צײַט, אָבער איז ווערט עס פֿאַר הײליקע שטראָפן

SadTalker װײַזט געװײנטלעך 256 בילדצעלן. װײַז צו 512 בילדצעלן גרײס פֿאַר אַ קלײנערע אַרײַנשרײַבונג (לױטמאַכער, העכער VRAM) אָדער װײַז צו דעם GFPGAN פֿאַרבעסערן צו פֿאַרגרעסערן די װײַז־דעטאַילס. פֿאַר די בעסטער רעזולטאטן, אַרײַנשטעלן אַ גוט־געליכטענע, הײך־קװאַליטעט פּאָרטראַט־פֿאָטאָ

י. אַרײַנשטעלן אַ MP4 אָדער WebM ווי אַ װײַז־אַרײַנשרײַב און מיר וועלן ניצן דעם ערשטן ראָם װי דער װײַז־אינטעלעקט. פֿאַר אַ פֿולער ווידעאָ־דערנאָך־דײַטשונג (פֿאַר אַ ראָם מויל־דערנאָך־דײַטשונג), זע די װײַטערדיקע דובינג סטודיאָס ווידעאָ־פּאַפּילין

י. פּאָסט אַ מער־װײַטער־פֿירער צו /api/v1/lipsync/ מיט אַ װײַז און אַ אודיו־פֿײַל, און דעמאָלט פֿרעג /api/v1/lipsync/result/?uuid= ביז דער סטאַטוס איז "פֿאַרענדיקט". דער ענטפֿער כּולל אַ URL צום געװען MP4. API צוטריט דאַרף אַ באַצאָלטע װײַטער־פֿירער

SadTalker ניצט אַ װײַז־אַרײַנשרײַב צו געפֿינען און צוצוצײכן דעם מערסט אױסגעפֿירטן װײַז. פֿאַר די בעסטער רעזולטאטן, אַרײַנשטעלן אַ פּאָטערטײל מיט אַ מענטש אין צענטער, אױגן זעכלעך, און אַ קלענסטע אומבאַקאַנטײט. גרופּע־פֿאָטאָגראַפֿיעס קען אַרײַנשטעלן אומפֿאַרװײַזלעכע רעזולטאטן
5.0/5 (1)

וואָס קען מען פֿאַרבעסערן? דיין אָפּרוף העלפֿט אונדז צו פֿאַרריכטן פּראָבלעמען

גרייט צו אָנהײבן?

רעגיסטרירן פֿאַר פֿרייַ און באַקומען 50 קרעדיטס. קיין קרעדיט קאַרטל נייטיק.