AI लिप समक्रमण भिडियो सर्जक

एक अनुहार फोटो र एक अडियो क्लिप अपलोड - यथार्थवादी ओठ समक्रमण संग एक कुराकानी-हेड भिडियो प्राप्त, टाउको पोज, र बन्स. SadTalker द्वारा संचालित (एमआईटी). व्यावसायिक प्रयोग ठीक छ.

अनुहार + अडियो अपलोड गर्नुहोस्

प्रति सेकेन्ड १००० क्यारेक्टर

तपाईँको फाइल यहाँ तान्नुहोस् र छोड्नुहोस्, वा ब्राउज गर्नुहोस्

JPG, PNG, or short MP4/WebM. Max 10MB. One clear, well-lit face works best.

फाइल.mp3

0 MB

तपाईँको फाइल यहाँ तान्नुहोस् र छोड्नुहोस्, वा ब्राउज गर्नुहोस्

MP3, WAV, M4A, or FLAC. Max 10MB. Free: up to 30 sec. Pro: up to 5 min.

फाइल.mp3

0 MB

प्रक्रिया गर्दैछ...

तपाईँको भिडियो रेन्डरिङ गर्दैछ । यसले सामान्यतया ३० सेकेन्ड देखि २ मिनेट सम्म लिन्छ ।

तपाईँको कुराकानी हेड भिडियो

MP4 डाउनलोड गर्नुहोस्

साड टकरका बारेमा

SadTalker (CVPR 2023, Tencent ARC) कुनै पनि अडियो बोल्न एकल अनुहार छवि एनिमेट गर्दछ एक खुला स्रोत कुराकानी-हेड मोडेल हो। Wav2Lip प्रकार्यहरू विपरीत, SadTalker पनि अधिक प्राकृतिक परिणामको लागि टाउको पोज, बन्स, र अभिव्यक्ति एनिमेट गर्दछ।

कोड र वजन एमआईटी-लाइसेन्स समाप्त गर्न अन्त छन् - कुनै लामा, Gemma, वा गैर-व्यावसायिक backbone - त्यसैले तपाईं उत्पन्न भिडियो व्यावसायिक प्रयोगको लागि सुरक्षित छन्.

उत्तम परिणामका लागि सुझावहरू

  • उच्च गुणस्तरको, राम्रोसँग प्रकाश पारिएको पोर्ट्रेट प्रयोग गर्नुहोस् - आँखा दृश्यात्मक, मुख बन्द
  • केन्द्रित अनुहार, वर्ग वा ४:५ आस्पेक्ट अनुपात उत्तम काम गर्दछ
  • शुद्ध भाषण अडियो (संगीत छैन) ले कडा लिप समक्रमण उत्पादन गर्दछ
  • नायक शटका लागि GFPGAN सक्षम पार्नुहोस् - रेन्डर समय डबल गर्दछ तर विस्तृत विवरणलाई तिखो बनाउँछ
  • तपाईँले स्थिर अवतार शट चाहनुहुन्छ भने स्टिल पूर्वसेट प्रयोग गर्नुहोस्

लिप समक्रमण भिडियो योजना

तपाईँलाई थप आवश्यक पर्दा निःशुल्क सुरु गर्नुहोस्, स्तरवृद्धि गर्नुहोस्

स्वतन्त्र
  • ३०-सेकेन्ड अडियो सीमा
  • २५६ पिक्सेल निर्गत
  • "अझै" पूर्वसेट मात्र
  • अनुहार बढाउने छैन
सबैभन्दा लोकप्रिय
खाता
  • ३०-सेकेन्ड अडियो सीमा
  • दुवै "पूर्ण" र "अझै" पूर्वसेट
  • ५०६ / ५१२ पिक्सेल निर्गत
  • GFPGAN अनुहार बढाउने
निःशुल्क दर्ता गर्नुहोस्
प्रो
  • ५ मिनेट अडियो सीमा
  • प्राथमिकता GPU लाम
  • API पहुँच (बहुभाग डाउनलोड)
  • वेबहुक समाप्ति कलब्याक
  • व्यावसायिक प्रयोग (एमआईटी इजाजतपत्र)
स्तरबृद्धि गर्नुहोस्

प्राय सोधिने प्रश्नहरू

एक अनुहार फोटो र एक अडियो क्लिप अपलोड, र एआई वास्तविक ओठ गतिविधिहरु संग अडियो बोल्ने त्यो अनुहार को एक भिडियो उत्पन्न, टाउको पोज, र बन्स. SadTalker मा निर्मित (CVPR 2023), एक एमआईटी-लाइसेन्स कुराकानी-हात मोडेल मुख आकार बाहेक अभिव्यक्ति एनिमेसन.

अनुहार आगत JPG वा PNG छवि हुन सक्छ (10 मेगाबाइट सम्म) वा छोटो MP4 / WebM ड्राइभिङ भिडियो (हामीले पहिलो फ्रेम प्रयोग गर्दछौं)। ड्राइभिङ अडियो MP3, WAV, M4A, वा FLAC सम्म 10 मेगाबाइट हुन सक्छ। हामी अडियोलाई 16 kHz आन्तरिक रूपमा रिसम्पल गर्दछौं।

नि: शुल्क खाताहरू: प्रति क्लिप 30 सेकेन्ड सम्म। भुक्तानी प्रयोगकर्ताहरू: प्रति अनुरोध5मिनेट सम्म। लामो अडियोको अर्थ लामो रेन्डर समय र उच्च क्यारेक्टर लागत।

लिप समक्रमण भिडियोले प्रति सेकेन्ड सिर्जना गरिएको भिडियोको १००० क्यारेक्टर प्रयोग गर्दछ। ३० सेकेन्डको क्लिप = ३०,००० क्यारेक्टर। लागत तपाईँको क्यारेक्टर शेषबाट अगाडि बिलिङ गरिन्छ र सिर्जना असफल भएमा स्वचालित रूपमा फिर्ता गरिन्छ।

हो — SadTalker कोड र वजन एमआईटी लाइसेन्स अन्त गर्न अन्त छन् (कुनै लामा, Gemma, वा गैर-व्यावसायिक backbone). तपाईं उत्पन्न भिडियो व्यावसायिक प्रयोग गर्न आफ्नो छन्. तपाईं अपलोड स्रोत अनुहार छवि र अडियो अधिकार भएको लागि जिम्मेवार छन्.

हाम्रो A100 सर्भरमा 5-सेकेन्ड क्लिपको लागि 30 सेकेन्डको बारेमा, लगभग रेखीय रूपमा अडियो लम्बाइसँग स्केल गर्दै। GFPGAN अनुहार बढाउने सक्षम गर्न लगभग डबल रेन्डर समय तर तीखो, उच्च गुणस्तरको निर्गत उत्पादन गर्दछ।

पूर्ण पूर्वनिर्धारित (पूर्वनिर्धारित) ले मुखसँगै टाउको पोज, बम्प, र अभिव्यक्तिलाई एनिमेसन गर्दछ, अधिक प्राकृतिक कुराकानी-मुख भिडियो उत्पादन गर्दछ । अझै पनि पूर्वनिर्धारितले टाउकोलाई स्थानमा ताल्चा लगाउँछ र मुख मात्र एनिमेसन गर्दछ - तपाईँले स्थिर अवतार शट चाहनुहुन्छ भने उपयोगी ।

GFPGAN एक अनुहार पुन:स्थापना मोडेल हो जुन लिप-सिन्क रेन्डरिङ पछि अनुहार विवरणहरू तिखो बनाउँछ। यसले आर्टिफेक्टहरू सफा गर्दछ र 256-पिक्सेल निर्गतलाई 512 सम्म नजिक देखाउँछ। यो लगभग दोब्बर रेन्डर समय हो तर यो नायक शटहरूको लागि लायक छ।

SadTalker पूर्वनिर्धारित रूपमा 256 पिक्सेलमा रेन्डर गर्दछ। तीखो निर्गतका लागि 512 पिक्सेल साइजमा स्विच गर्नुहोस् (धीरो, उच्च VRAM) वा अनुहार विवरणहरू अपस्केल गर्न GFPGAN बढाउने सक्षम पार्नुहोस्। उत्तम परिणामहरूका लागि, उच्च गुणस्तरको अपलोड गर्नुहोस्, राम्रोसँग प्रकाश पोर्ट्रेट फोटो।

हो। अनुहार आगतको रूपमा MP4 वा WebM अपलोड गर्नुहोस् र हामी ड्राइभिङ पहिचानको रूपमा पहिलो फ्रेम प्रयोग गर्नेछौं। पूर्ण भिडियो पुन: डबिंगको लागि (प्रति फ्रेम मुख प्रतिस्थापन), आउँदै गरेको डबिंग स्टुडियो भिडियो पाइपलाइन हेर्नुहोस्।

हो । अनुहार र अडियो फिल्डहरूसँग /api/v1/lipsync/ मा बहुभाग अनुरोध POST गर्नुहोस्, त्यसपछि स्थिति "समाप्त" सम्म /api/v1/lipsync/result/?uuid= पोल गर्नुहोस् । प्रतिक्रियामा रेन्डर गरिएको MP4 मा URL समावेश छ । API पहुँचका लागि भुक्तानी गरिएको योजना आवश्यक पर्दछ ।

SadTalker पत्ता लगाउन र सबैभन्दा प्रमुख अनुहार कटौती गर्न अनुहार-पङ्क्तिबद्धता प्रयोग. सर्वश्रेष्ठ परिणाम लागि, एक व्यक्ति केन्द्रित संग एक पोर्ट्रेट अपलोड, आँखा देखिने, र न्यूनतम occlusion. समूह फोटो अप्रत्याशित परिणाम उत्पादन गर्न सक्छन्.
5.0/5 (1)

हामी के सुधार गर्न सक्छन्? आफ्नो प्रतिक्रिया हामीलाई समस्या समाधान गर्न मद्दत गर्दछ.

सुरु गर्न तयार हुनुहुन्छ?

नि: शुल्क साइन अप र प्राप्त 50 क्रेडिट. कुनै क्रेडिट कार्ड आवश्यक.