דיווח על בקשת באג / תכונה

Generator Video Syncher AI Lip

העלה תמונת פנים וסרטון וידאו עם ראש מדבר עם סנכרון שפתיים מציאותי, תנוחת ראש וממצמץ. מופעל על ידי SadTalker (MIT). שימוש מסחרי בסדר.

הרשמה חופשית

אין לנו קולות TTS בשפה שלך עדיין עזור לנו להוסיף את שלך! מכור את קולך

העלה פנים + שמע

1,000 תווים לשנייה

1. Face Image or Driving Video

גרור & שחרר את הקובץ שלך כאן, או דפדף

JPG, PNG, or short MP4/WebM. Max 10MB. One clear, well-lit face works best.

2. נהיגה באודיו

גרור & שחרר את הקובץ שלך כאן, או דפדף

MP3, WAV, M4A, or FLAC. Max 10MB. Free: up to 30 sec. Pro: up to 5 min.

שינוי הגדרות האנימציה

גודל פלט

הגדלת פנים

GFPGAN (חד יותר, איטי יותר)

אודות SadTalker

SadTalker (באנגלית: SadTalker 2023) הוא מודל של קוד פתוח, הנפוץ בראש, ומעורר תמונה בודדת של הפנים כדי לדבר אודיו כלשהו.

קוד ומשקלות הם סוף רישיון MIT כדי לסיים □ לא לאמה, ג'מה, או עמוד שדרה לא מסחרי ▪ כך הסרטונים שאתה יוצר בטוחים לשימוש מסחרי.

עצות לתוצאות הטובות ביותר

השתמש דיוקן באיכות גבוהה, מואר היטב עיניים נראות לעין, פה סגור
פנים ממוקדות, ריבוע או 4.5 יחס ההיבטים עובד הכי טוב
שמע דיבור נקי (ללא מוסיקה) מניב סנכרון שפתיים הדוק יותר
אפשר GFPGAN עבור יריות גיבור □ מכפיל את הזמן אבל מחדד פירוט
השתמש בהגדרה עדיין כאשר אתה רוצה זריקת אווטאר קבועה

Lip Synchro Planations

התחל חופשי, שדרוג כאשר אתה צריך יותר

חופשי

הגבלת אודיו של 30 שניות
תפוקת 256 פיקסלים
"עדיין" נקבע מראש בלבד
אין משפר פנים

הפופולרי ביותר

חשבון חינם

הגבלת אודיו של 30 שניות
הן "מלא" והן "עדיין" קובע מראש
256 / 512 px output
משפר הפנים של GFPGAN

הרשמה חופשית

בעד

הגבלת אודיו של 5 דקות
תור GPU עדיפות
API access (העלאה חלקית)
קריאת סיום של Webhook
שימוש מסחרי (רשיון MIT)

שדרוג

שאלות ששואלים לעתים קרובות

העלה תמונת פנים וקליפ שמע, וה-AI יוצר סרטון של הפנים שמדברות אודיו עם תנועות שפתיים מציאותיות, תנוחת ראש, וממצמצת. נבנה על SadTalker (CVPR 2023), מודל MIT-Licensed Talking-head

קלט הפנים יכול להיות תמונת JPG או PNG (עד 10 MB) או וידאו קצר של MP4/WebM (אנחנו משתמשים במסגרת הראשונה). האודיו המניע יכול להיות MP3, WAV, M4A, או FLAC עד 10 MB.

חשבונות חינם: עד 30 שניות למחסנית. משתמשים משלמים: עד 5 דקות לכל בקשה. אודיו ארוך יותר פירושו זמן ומחיר אופי גבוה יותר.

וידאו סנכרון שפתיים משתמש ב-1,000 תווים לשנייה של וידאו שנוצר. קליפ של 30 שניות = 30,000 תווים. העלות מופקדת מראש מאזן הדמויות שלך ומחזירה באופן אוטומטי אם הדור נכשל.

כן □ קוד ומשקל של SadTalker הם סוף רישיון של MIT (ללא לגמה, ג'מה, או עמוד שדרה לא מסחרי). הסרטונים שאתה יוצר הם שלך לשימוש מסחרי. אתה אחראי לכך שיש לך את הזכויות לתמונת הפנים של המקור והאודיו שאתה מעלה.

כ-30 שניות עבור קליפ של 5 שניות בשרת A100 שלנו, מדמה בערך לינארי עם אורך אודיו. מפעיל את משפר הפנים של GFPGAN בערך מכפיל את הזמן אבל מייצר פלט חד יותר, באיכות גבוהה יותר.

היסט מלא (default) animates head pace, lambers, and expression with the lips, production a more natural spalking-head video. עדיין מכוונן מראש את הראש וanimates רק הפה □ שימושי כאשר אתה רוצה זריקת אווטאר קבועה.

GFPGAN הוא מודל שחזור פנים שמחדד את פרטי הפנים לאחר עיבוד שפתיים-סינכרון. הוא מנקה חפצים וגורם לתפוקה של 256 פיקסל להיראות קרוב יותר ל-512. זה בערך מכפיל את הזמן אבל שווה את זה עבור יריות גיבור.

SadTalker מתורגם ב-256 px כברירת מחדל. החלף לגודל 512 px עבור פלט חד יותר (איטי יותר, VRAM גבוה יותר) או לאפשר GFPGAN משפר פנים יוקרתי. עבור התוצאות הטובות ביותר, להעלות תמונת דיוקן באיכות גבוהה, מוארת היטב.

העלה MP4 או WebM כקלט הפנים ואנו נשתמש במסגרת הראשונה כזהות הנהיגה. עבור החלפת וידאו מחדש (per-frame-Futh), ראה צינור וידאו סטודיו Dubbing הקרוב.

POST a multipart question to /api/v1/lipsync/ with face and eudio fields, then scal / api/v1/lipsync/result/?uid===/white state is "falled". The response contains a URL to the revolutioned MP4. API access דורש תוכנית בתשלום.

SadTalker משתמש בהתאמה פנים כדי לזהות ולקצור את הפנים הבולטות ביותר. עבור התוצאות הטובות ביותר, להעלות דיוקן עם אדם אחד מרוכז, עיניים נראות, וחסימה מינימלית. תמונות קבוצתיות יכולות לייצר תוצאות בלתי צפויות.

5.0/5 (1)

מוכן להתחיל?

תחתמי בחינם ותקבלי 50 קרדיטים, אין צורך בכרטיס אשראי.

הרשמה חופשית תצוגה של Princing

Generator Video Syncher AI Lip

העלה פנים + שמע

הסרטון המדבר שלך

אודות SadTalker

עצות לתוצאות הטובות ביותר

Lip Synchro Planations

שאלות ששואלים לעתים קרובות

מה עושה כלי סנכרון שפתיים AI?

אילו פורמטי קלט נתמכים?

כמה זמן יכול להיות הקול?

כמה זה עולה?

אני יכול להשתמש בסרטונים מסחריים?

כמה זמן לוקח לדור?

מה ההבדל בין "מלא" לבין "עדיין" מראש?

מהו משפר GFPGAN?

למה הפלט שלי נראה ברזולוציה נמוכה?

האם אני יכול לסנכרן שפתיים וידאו לקול חדש?

האם יש API?

מה אם בתמונה שלי יש מספר רב של אנשים?

מוכן להתחיל?