ક્ષતિનો અહેવાલ આપો / લક્ષણ વિનંતી

AI લિપ સિન્ક વિડીયો ઉત્પાદક

ચહેરાનો ફોટો અને ઓડિયો ક્લિપ અપલોડ કરો - વાસ્તવિક લિપ સિન્ક, માથાનો પોઝ, અને બ્લિંગ સાથે વાતચીત-માથાનો વિડીયો મેળવો. SadTalker (MIT) દ્દારા શક્તિયુક્ત. વાણિજ્યિક ઉપયોગ બરાબર છે.

મફત નોંધણી કરો

ચહેરો + ઓડિયો અપલોડ કરો

૧,૦૦૦ અક્ષરો પ્રતિ સેકન્ડ

૧. ચહેરાની ચિત્ર અથવા ડ્રાઇવિંગ વિડીયો

તમારી ફાઇલ અહીં ખેંચો અને મૂકો, અથવા બ્રાઉઝ કરો

JPG, PNG, or short MP4/WebM. Max 10MB. One clear, well-lit face works best.

૨. ઓડિયો ડ્રાઇવિંગ

તમારી ફાઇલ અહીં ખેંચો અને મૂકો, અથવા બ્રાઉઝ કરો

MP3, WAV, M4A, or FLAC. Max 10MB. Free: up to 30 sec. Pro: up to 5 min.

એનિમેશન પૂર્વસુયોજિત

આઉટપુટ માપ

ચહેરો વધારનાર

GFPGAN (તીક્ષ્ણ, ધીમો)

SadTalker વિશે

SadTalker (CVPR 2023, Tencent ARC) એ ઓપન-સોર્સ બોલતા-મુખ મોડેલ છે કે જે કોઈપણ ઓડિયો બોલવા માટે એક ચહેરાના ચિત્રને એનિમેટ કરે છે. Wav2Lip પ્રકારો કરતાં અલગ, SadTalker પણ વધારે કુદરતી પરિણામ માટે માથાનો પોઝ, બ્લિક્સ, અને અભિવ્યક્તિને એનિમેટ કરે છે.

કોડ અને વજન એ MIT-લાઇસન્સ થયેલ છે અંતથી અંત સુધી - કોઈ લામા, જૅમમા, અથવા બિન-વાણિજ્યિક બેકબોન નથી - તેથી તમે બનાવેલ વિડીયો વાણિજ્યિક વપરાશ માટે સુરક્ષિત છે.

શ્રેષ્ઠ પરિણામો માટે ટિપ્સ

ઉચ્ચ ગુણવત્તાવાળું, સારી રીતે પ્રકાશિત ચિત્રપટ વાપરો - આંખો દૃશ્યમાન, મોં બંધ
કેન્દ્રિત ચહેરો, ચોરસ અથવા ૪:૫ આસપાસનો દર શ્રેષ્ઠ રીતે કામ કરે છે
સાફ બોલવાની ઓડિયો (કોઈ સંગીત નથી) લીપ સિંકને કડક બનાવે છે
હીરો શૉટ્સ માટે GFPGAN સક્રિય કરો - બમણી રેન્ડર સમય પરંતુ વિગતો તીક્ષ્ણ બનાવે છે
જ્યારે તમે સ્થિર અવતાર શૂટ ઇચ્છો ત્યારે સ્ટીલ પૂર્વસુયોજન વાપરો

લિપ સિન્ક વિડીયો યોજનાઓ

મુક્ત શરૂઆત, જ્યારે તમારે વધારેની જરૂર હોય ત્યારે સુધારો

મુક્ત

૩૦-સેકન્ડ ઓડિયો મર્યાદા
256 px આઉટપુટ
ફક્ત "હજુ" પૂર્વસુયોજિત
ચહેરો વધારનાર નથી

સૌથી લોકપ્રિય

મુક્ત ખાતું

૩૦-સેકન્ડ ઓડિયો મર્યાદાઓ
બંને "પૂરું" અને "શાંત" પૂર્વસુયોજનો
૨૫૬ / ૫૧૨ px આઉટપુટ
GFPGAN ચહેરો વધારનાર

મફત નોંધણી કરો

પ્રો

૫-મિનિટ ઓડિયો મર્યાદાઓ
પ્રાથમિકતા GPU કતાર
API પ્રવેશ (બહુભાગી અપલોડ)
Webhook સમાપ્તિ કોલબેક
વાણિજ્યિક વપરાશ (MIT લાઇસન્સ)

સુધારો

વારંવાર પૂછાતા પ્રશ્નો

ચહેરાનો ફોટો અને ઓડિયો ક્લિપ અપલોડ કરો, અને AI એ ચહેરાનો વિડિયો બનાવે છે જે વાસ્તવિક જીભની ગતિઓ, માથાનો પોઝ, અને બ્લિંગ્સ સાથે ઓડિયો બોલે છે. SadTalker (CVPR 2023) પર બનાવેલ છે, MIT-લાઇસન્સ થયેલ બોલતા-માથાનું મોડેલ કે જે મોઢાના આકાર ઉપરાંત અભિવ્યક્તિને એનિમેટ કરે છે.

ચહેરો ઇનપુટ JPG અથવા PNG ચિત્ર (10 MB સુધી) અથવા ટૂંકો MP4/WebM ડ્રાઇવિંગ વિડીયો હોઈ શકે (અમે પહેલું ચોકઠું વાપરીએ છીએ). ડ્રાઇવિંગ ઓડિયો MP3, WAV, M4A, અથવા FLAC 10 MB સુધી હોઈ શકે. અમે આંતરિક રીતે 16 kHz માં ઓડિયોનું પુન:સેમ્પલ કરીએ છીએ.

મુક્ત ખાતાઓ: ક્લિપ પ્રતિ ૩૦ સેકન્ડો સુધી. ચૂકવણી કરનાર વપરાશકર્તાઓ: મંજૂરી પ્રતિ ૫ મિનિટ સુધી. લાંબો ઓડિયો એટલે લાંબો રેન્ડર સમય અને ઊંચો અક્ષર ખર્ચ.

લિપ સુમેળ વિડીયો 1,000 અક્ષરો પ્રતિ સેકન્ડ ઉત્પન્ન થયેલ વિડીયોનો ઉપયોગ કરે છે. 30-સેકન્ડ ક્લિપ = 30,000 અક્ષરો. ખર્ચ તમારા અક્ષર સંતુલનમાંથી આગળથી બિલ કરવામાં આવે છે અને આપમેળે પાછો આપવામાં આવે છે જો ઉત્પાદન નિષ્ફળ જાય.

હા — SadTalker કોડ અને વજન એ MIT લાઇસન્સ થયેલ છે અંતથી અંત સુધી (કોઇ લ્મા, જૅમમા, અથવા બિન-વાણિજ્યિક બેકબોન નથી). તમે ઉત્પન્ન કરેલ વિડિઓઝ તમારા વ્યવસાયિક ઉપયોગ માટે છે. તમે સ્ત્રોત ચહેરાના ચિત્ર અને ઓડિયો માટે અધિકારો માટે જવાબદાર છો જે તમે અપલોડ કરો છો.

અમારા A100 સર્વર પર ૫-સેકન્ડ ક્લિપ માટે લગભગ ૩૦ સેકન્ડો, ઓડિયો લંબાઈ સાથે લગભગ રેખીય રીતે માપન. GFPGAN ચહેરો વધારનારને સક્રિય કરવું લગભગ બમણો રેન્ડર સમય બનાવે છે પરંતુ ચોકસાઈ, ઉચ્ચ-ગુણવત્તા આઉટપુટ ઉત્પન્ન કરે છે.

પૂર્ણ પૂર્વસુયોજિત (મૂળભૂત) માથાનો પોઝ, ચીસો અને હોઠ સાથે અભિવ્યક્તિને એનિમેટ કરે છે, વધુ કુદરતી બોલતા-માથાનો વિડિયો ઉત્પન્ન કરે છે. હજુ પૂર્વસુયોજિત માથાને જગ્યાએ તાળુ મારે છે અને માત્ર મોંને એનિમેટ કરે છે - ઉપયોગી જ્યારે તમે સ્થિર અવતાર શૂટ ઇચ્છો.

GFPGAN એ ચહેરાની પુનઃસ્થાપના મોડેલ છે કે જે લિપ-સિન્ક રેન્ડરીંગ પછી ચહેરાની વિગતો તીક્ષ્ણ કરે છે. તે આર્ટીફેક્ટ્સને સાફ કરે છે અને 256-પિક્સેલ આઉટપુટને 512 ની નજીક દેખાય છે. તે લગભગ બમણો રેન્ડર સમય છે પરંતુ હીરો શૉટ્સ માટે તેનો અર્થ છે.

SadTalker મૂળભૂત રીતે 256 px પર રેન્ડર કરે છે. તીક્ષ્ણ આઉટપુટ માટે 512 px માપમાં બદલો (ધીમી, ઉચ્ચ VRAM) અથવા ચહેરાની વિગતો વધારવા માટે GFPGAN વધારનારને સક્રિય કરો. શ્રેષ્ઠ પરિણામો માટે, ઉચ્ચ ગુણવત્તાવાળા, સારી રીતે પ્રકાશિત પોર્ટ્રેટ ફોટોને અપલોડ કરો.

હા. MP4 અથવા WebM ને ચહેરાના ઇનપુટ તરીકે અપલોડ કરો અને અમે ડ્રાઇવિંગ ઓળખ તરીકે પ્રથમ ચોકઠું વાપરીશું. સંપૂર્ણ વિડિયો પુનઃ-ડબિંગ માટે (પર-ચોકઠું મોં બદલવા માટે), આવનારી ડબિંગ સ્ટુડિયો વિડિયો પાઇપલાઇન જુઓ.

હા. /api/v1/lipsync/ ને ચહેરો અને ઓડિયો ક્ષેત્રો સાથે બહુભાગની વિનંતી POST કરો, પછી સ્થિતિ "પૂર્ણ" થાય ત્યાં સુધી /api/v1/lipsync/result/?uuid= ને પૂછો. જવાબમાં રેન્ડર થયેલ MP4 માટે URL સમાવેલ છે. API પ્રવેશ માટે ચૂકવણી થયેલ યોજના જરૂરી છે.

SadTalker સૌથી પ્રખ્યાત ચહેરાને શોધવા અને કાપવા માટે ચહેરાની ગોઠવણી વાપરે છે. શ્રેષ્ઠ પરિણામો માટે, એક વ્યક્તિ કેન્દ્રિત, આંખો દૃશ્યમાન, અને ન્યૂનતમ બંધબેસતી સાથે ચિત્ર અપલોડ કરો. જૂથ ફોટા અનિશ્ચિત પરિણામો ઉત્પન્ન કરી શકે છે.

5.0/5 (1)

શરૂ કરવા માટે તૈયાર છો?

મફત નોંધણી કરો અને ૫૦ ક્રેડિટ્સ મેળવો. કોઈ ક્રેડિટ કાર્ડની જરૂર નથી.

મફત નોંધણી કરો કિંમત જુઓ

AI લિપ સિન્ક વિડીયો ઉત્પાદક

ચહેરો + ઓડિયો અપલોડ કરો

તમારો બોલી રહેલ-હૃદય વિડીયો

SadTalker વિશે

શ્રેષ્ઠ પરિણામો માટે ટિપ્સ

લિપ સિન્ક વિડીયો યોજનાઓ

વારંવાર પૂછાતા પ્રશ્નો

AI લિપ સિન્ક સાધન શું કરે છે?

કયા ઇનપુટ બંધારણો આધારભૂત છે?

ઓડિયો કેટલો લાંબો હોઈ શકે?

કેટલો ખર્ચ થાય છે?

શું હું વિડિયોનો વ્યવસાયિક ઉપયોગ કરી શકું?

જનરેટ કરવામાં કેટલો સમય લાગે છે?

"પૂરું" અને "અવળું" પૂર્વસુયોજન વચ્ચે શું તફાવત છે?

GFPGAN વધારનાર શું છે?

મારું આઉટપુટ કેમ નીચું-રીઝોલ્યુશન દેખાય છે?

શું હું નવા ઓડિયોમાં વિડીયોને લિપ-સિંક કરી શકું?

શું ત્યાં API છે?

શું જો મારા ચહેરાના ફોટામાં તેમાં ઘણા બધા લોકો હોય?

શરૂ કરવા માટે તૈયાર છો?