AI लिप सिंक व्हिडीओ जनरेटरName

चेहऱ्याचे छायाचित्र व ऑडिओ क्लिप अपलोड करा - रियलिस्टिक लिप सिंक, डोके पोज व बॅलन्ससह बोलणारा-मुख व्हिडीओ मिळवा. SadTalker (MIT) द्वारे पुरविले. व्यावसायिक वापरासाठी ठीक.

आम्हाला अद्याप तुमच्या भाषेतील TTS आवाज उपलब्ध नाही. आम्हाला तुमचे जोडण्यास मदत करा! Sell Your Voice

Face + ऑडिओ अपलोड करा

1,000 अक्षरे प्रति सेकंद

फाइल इथे ढकलून टाका, किंवा संचारन

JPG, PNG, or short MP4/WebM. Max 10MB. One clear, well-lit face works best.

फाइल.mp3

0 MB

फाइल इथे ढकलून टाका, किंवा संचारन

MP3, WAV, M4A, or FLAC. Max 10MB. Free: up to 30 sec. Pro: up to 5 min.

फाइल.mp3

0 MB

प्रक्रिया करीत आहे...

व्हिडीओ रेंडरिंग करत आहे. हे साधारणतः ३० सेकंद ते २ मिनिट घेते.

तुमचे वार्तालाप-हेड व्हिडीओName

MP4 डाउनलोड करा

SadTalker विषयी

SadTalker (CVPR 2023, Tencent ARC) एक ओपन-सोर्स बोलणारा-हॅड मॉडेल आहे जे कोणत्याही ऑडिओ बोलण्यासाठी एकमेव चेहऱ्याचे चित्र एनिमेट करते. Wav2Lip व्हेरिएंटच्या विपरीत, SadTalker हे अधिक नैसर्गिक परिणामासाठी डोके पोज, बॅलन्स आणि अभिव्यक्ती देखील एनिमेट करते.

कोड आणि वजन एमआयटी-लाइसेन्सेड आहे - लॅमा, गेमा किंवा गैर-व्यावसायिक पीठ नाही - म्हणून तुम्ही तयार केलेले व्हिडिओ व्यावसायिक वापरासाठी सुरक्षित आहेत.

सर्वोत्तम परिणाम करीता टिप

  • उच्च दर्जाचे, चांगल्या प्रकारे प्रकाशीत पोर्ट्रेट वापरा - डोळे दिसतील, तोंड बंद
  • केंद्रित चेहरा, चौकोन किंवा 4:5आस्पेक्ट रेशो सर्वोत्तम कार्य करते
  • स्वच्छ भाषण ऑडिओ (संगीत नाही) मुळे अधिक घट्ट लिप सिंक मिळतेName
  • नायक शॉट करीता GFPGAN कार्यान्वीत करा - दुप्पट रेंडरिंग वेळ पण तपशील सुस्पष्ट करा
  • स्थिर अवतार छायाचित्र हवे असल्यास स्थिर पूर्वनिर्धारितचा वापर करा

Lip Sync व्हिडीओ योजनाName

मोफत सुरू करा, तुम्हाला जास्त हवे असल्यास अद्ययावत करा

मोकळे
  • 30 सेकंद ऑडिओ मर्यादा
  • 256 px आऊटपुट
  • फक्त "Still" पूर्वनिर्धारित
  • चेहऱ्याचे वाढविणारे नाही
सर्वात लोकप्रिय
मोकळे खाते
  • 30 सेकंद ऑडिओ मर्यादा
  • दोन्ही "पूर्ण" व "अर्धवट" पूर्वनिर्धारित
  • 256 / 512 px आऊटपुट
  • GFPGAN चेहऱ्याचा वाढकर्ता
नोंदणी करा
प्रो
  • 5 मिनिट ऑडिओ मर्यादा
  • प्राधान्यता GPU कतार
  • API प्रवेश (बहुभाग अपलोड)
  • Webhook पूर्णता कॉलबॅक
  • व्यावसायिक वापर (MIT परवाना)
अद्ययावत करा

वारंवार विचारले जाणारे प्रश्न

चेहऱ्याचे छायाचित्र आणि ऑडिओ क्लिप अपलोड करा, आणि AI चेहऱ्याचा व्हिडिओ तयार करतो जो लिप मोशन, डोक्यावरील पोझ, आणि लिपस्टिकसह ऑडिओ बोलतो. SadTalker (CVPR 2023) वर बांधले गेले आहे, एक MIT-लायसन्स्ड बोलणारा-हॅड मॉडेल जे मुखाच्या आकारासह अभिव्यक्ती देखील एनिमेट करते.

फेस इनपुट JPG किंवा PNG प्रतिमा (१० MB पर्यंत) किंवा MP4/WebM ड्राइव्ह व्हिडिओ (आम्ही पहिला फ्रेम वापरतो) असू शकतो. ड्राइव्ह ऑडिओ MP3, WAV, M4A, किंवा FLAC 10 MB पर्यंत असू शकतो. आम्ही ऑडिओला 16 kHz अंतर्गत रीसेम्पलिंग करतो.

मोफत खाते: प्रति क्लिप ३० सेकंद पर्यंत. मोफत वापरकर्ते: प्रति विनंती ५ मिनिट पर्यंत. जास्त ऑडिओ म्हणजे जास्त रेंडर वेळ व जास्त अक्षर खर्च.

Lip sync व्हिडिओ प्रति सेकंद 1,000 अक्षरे वापरतो. 30 सेकंद क्लिप = 30,000 अक्षरे. खर्च तुमच्या अक्षर बॅलन्स पासून पुढे बिल केले जाते व निर्मिती अपयशी ठरल्यास स्वचलितपणे परत केले जाते.

होय — SadTalker कोड आणि वजन MIT कडून पूर्णपणे परवानाकृत आहे (लॅमा, गेमा किंवा गैर-व्यावसायिक पीठ नाही). तुम्ही निर्माण केलेले व्हिडीओ तुम्ही व्यावसायिकरित्या वापरू शकता. तुम्ही अपलोड केलेले स्त्रोत चेहऱ्याचे प्रतिमा आणि ऑडिओचे अधिकार तुमच्याकडे असण्याची जबाबदारी तुम्ही घ्या.

आमच्या A100 सर्वर वरील5सेकंद क्लिप करीता सुमारे 30 सेकंद, ऑडिओ लांबीसह जवळजवळ रेखीयरित्या स्केल करते. GFPGAN चेहऱ्याचा वाढविणारा सक्रीय केल्यास रेंडर वेळ जवळजवळ दुप्पट होतो पण अधिक स्पष्ट, उच्च दर्जाचे आऊटपुट निर्माण होते.

पूर्ण पूर्वनिर्धारित (मासिक) चेहऱ्याचे पोज, डोळे मिटणे, आणि ओठांच्या बरोबरीने चेहऱ्याचे भाव ऍनिमेटेड करते, ज्यामुळे अधिक नैसर्गिक बोलणारा चेहरा व्हिडीओ बनतो. अजूनही पूर्वनिर्धारित चेहऱ्याला स्थानावर बंद करते व फक्त तोंड ऍनिमेटेड करते - तुम्हाला स्थिर अवतार शॉट हवे असल्यास उपयोगी पडते.

GFPGAN हे एक चेहऱ्याचे पुनर्स्थापन मॉडेल आहे जे लिप-सिंक रेंडरिंग नंतर चेहऱ्याचे तपशील स्पष्ट करते. ते आर्टिफॅक्ट्स साफ करते व 256-पिक्सेल आऊटपुट 512 च्या जवळचे दिसते. ते सुमारे दुप्पट रेंडरिंग वेळ देते पण नायक छायाचित्रांसाठी ते योग्य आहे.

SadTalker मुलभूतरित्या 256 px वर रेंडरिंग करते. Sharper आउटपुटसाठी 512 px आकारावर स्विच करा (मंद, उच्च VRAM) किंवा GFPGAN enhancer चे चेहऱ्याचे तपशील वाढविण्यासाठी सक्रीय करा. सर्वोत्तम परिणामांसाठी, उच्च दर्जाचे, चांगले प्रकाशीत पोर्ट्रेट फोटो अपलोड करा.

होय. MP4 किंवा WebM चेहऱ्याच्या इनपुट म्हणून अपलोड करा आणि आम्ही प्रथम फ्रेम ड्राइव्हिंग ओळख म्हणून वापरू. पूर्ण व्हिडिओ रि-डबिंगसाठी (प्रत्येक फ्रेम mouth replacement), पुढील डबिंग स्टुडिओ व्हिडिओ पाइपलाइन पहा.

होय. /api/v1/lipsync/ ला face आणि audio क्षेत्रांसह बहुभाग विनंती POST करा, त्यानंतर /api/v1/lipsync/result/?uuid= ला पोल्स करा जेणेकरून स्थिती "पूर्ण" होईपर्यंत. प्रतिसादात रेन्डर केलेले MP4 चे URL समाविष्ट आहे. API प्रवेशासाठी मोफत प्लॅन आवश्यक आहे.

SadTalker चेहऱ्याचे समांतरीकरण वापरून सर्वात प्रगल्भ चेहऱ्याचे निरीक्षण व कापणी करते. सर्वोत्तम परिणामासाठी, एका व्यक्तीचे केंद्र, डोळे दिसणारे व किमान ओक्ल्यूशन असलेले पोर्ट्रेट अपलोड करा. गट छायाचित्रे अप्रत्यक्ष परिणाम निर्माण करू शकतात.
5.0/5 (1)

आपण काय सुधारू शकतो? तुमचा प्रतिसाद आम्हाला समस्या सोडवण्यात मदत करतो.

सुरू करण्यासाठी तयार आहात का?

मोफत नोंदणी करा आणि 50 क्रेडिट मिळवा. क्रेडिट कार्डची गरज नाही.