AI லிப் சின்க் வீடியோ உருவாக்கிName

முகப் புகைப்படம் மற்றும் ஒலிக் கிளிப்பை ஏற்றவும் - உண்மையான உதடு ஒத்திசைவு, தலை நிலை, மற்றும் மின்னல்களுடன் பேசும் தலை வீடியோவைப் பெறவும். SadTalker (MIT) மூலம் இயக்கப்படுகிறது. வணிக பயன்பாடு சரி.

உங்கள் மொழியில் TTS குரல்கள் இன்னும் எங்களிடம் இல்லை. உங்களை சேர்க்க எங்களுக்கு உதவுங்கள்! உமது குரலை விற்றுவிடு

முகம் + ஒலியை ஏற்றுக

நொடிக்கு 1,000 எழுத்துக்கள்

உங்கள் கோப்பினை இங்கே இழுத்து விடவும், அல்லது உலாவு

JPG, PNG, or short MP4/WebM. Max 10MB. One clear, well-lit face works best.

கோப்பு.mp3

0 MB

உங்கள் கோப்பினை இங்கே இழுத்து விடவும், அல்லது உலாவு

MP3, WAV, M4A, or FLAC. Max 10MB. Free: up to 30 sec. Pro: up to 5 min.

கோப்பு.mp3

0 MB

செயல்படுத்தப்படுகிறது...

உங்கள் வீடியோவை உருவாக்குகிறது. இது பொதுவாக 30 நொடிகள் முதல்2நிமிடங்கள் வரை எடுக்கும்.

உங்கள் பேசும் தலை வீடியோ

MP4 பதிவிறக்கங்கள்

சாட்டாக்கர் பற்றி

SadTalker (CVPR 2023, Tencent ARC) ஒரு திறந்த மூல பேசும் தலை மாதிரி, ஒரே முக பிம்பத்தை எந்த ஒலியையும் பேசுவதற்கு அசைவூட்டுகிறது. Wav2Lip மாறுபாடுகளை விட, SadTalker தலை நிலை, மின்னல்கள் மற்றும் ஒரு இயற்கையான முடிவுக்கு வெளிப்பாட்டை அசைவூட்டுகிறது.

குறி மற்றும் எடைகள் MIT-இன் உரிமம் பெற்றவை - லாமா, ஜெம்மா அல்லது வணிகமற்ற முதுகுத்தண்டு இல்லை - எனவே நீங்கள் உருவாக்கும் வீடியோக்கள் வணிக பயன்பாட்டிற்கு பாதுகாப்பானவை.

சிறந்த முடிவுகளுக்கு உதவிகள்

  • உயர்தர, நல்ல ஒளியூட்டப்பட்ட புகைப்படத்தை பயன்படுத்து - கண்கள் தெரியும், வாய் மூடப்பட்டுள்ளது
  • மைய முகம், சதுரம் அல்லது 4:5அளவு விகிதம் சிறந்ததாக செயல்படுகிறது
  • சுத்தமான பேச்சு ஒலி (இசை இல்லை) நெருக்கமான வாய் ஒத்திசைவைத் தருகிறது
  • ஹீரோ ஷாட்களுக்கு ஜிபிஎஃப்ஜான் செயல்படுத்து - இரட்டை காட்சி நேரம் ஆனால் விவரங்களை தெளிவாக்கு
  • ஒரு நிலையான உருவத்தை எடுக்க வேண்டுமானால் நிலையான முன் அமைப்பை பயன்படுத்தவும்

லிப் சின்க் வீடியோ திட்டங்கள்

இலவசமாகத் தொடங்கவும், தேவைப்படும் போது மேம்படுத்தவும்

இலவச
  • 30- நொடி ஒலி வரம்பு
  • 256 பிக்சல் வெளியீடு
  • "இன்னும்" முன் அமைப்பு மட்டும்
  • முகம் மேம்படுத்தல் இல்லை
மிகவும் பிரபலமான
இலவச கணக்கு
  • 30- நொடி ஒலி வரம்பு
  • "முழு" மற்றும் "நிறுத்தப்பட்ட" முன்னிருப்பு
  • 256 / 512 பிக்சல்கள் வெளியீடு
  • GFPGAN முக மேம்படுத்தி
பதிவு செய்யவும்
புரொ
  • 5 நிமிட ஒலி வரம்பு
  • முன்னுரிமை GPU வரிசை
  • API அணுகல் (பல பகுதிகள் ஏற்றுதல்)
  • Webhook முடித்தல் திரும்ப அழைப்புகள்
  • வணிக பயன்பாடு (MIT உரிமம்)
மேம்படுத்தல்

அடிக்கடி கேட்கப்படும் கேள்விகள்

ஒரு முகப் புகைப்படம் மற்றும் ஒரு ஒலிக் கிளிப்பை பதிவேற்றவும், AI அந்த முகத்தின் ஒரு வீடியோவை உருவாக்குகிறது, ஒலியை உண்மையான உதடுகளின் நகர்வுகளுடன் பேசுகிறது, தலை நிலை, மற்றும் மின்னுகிறது. SadTalker (CVPR 2023) இல் கட்டப்பட்டுள்ளது, வாய் வடிவத்திற்கு கூடுதலாக அசைவூட்டத்தை வெளிப்படுத்தும் MIT- லைசென்ஸ் பேசும் தலை மாதிரி.

முகம் உள்ளீடு JPG அல்லது PNG பிம்பமாக இருக்கலாம் (10 MB வரை) அல்லது ஒரு குறுகிய MP4/WebM இயக்கும் வீடியோவாக இருக்கலாம் (நாம் முதல் சட்டத்தை பயன்படுத்துகிறோம்). இயக்கும் ஒலி MP3, WAV, M4A, அல்லது FLAC ஆக இருக்கலாம் 10 MB வரை. நாங்கள் உள்ளே 16 kHz ஆக ஒலியை மீண்டும் மாதிரியாக்குகிறோம்.

இலவச கணக்குகள்: ஒரு கிளிப் 30 விநாடிகள் வரை. செலுத்தும் பயனர்கள்: ஒரு கோரிக்கை5நிமிடங்கள் வரை. நீண்ட ஒலி என்பது நீண்ட காட்சி நேரம் மற்றும் அதிக எழுத்து விலை.

லிப் சின்க் வீடியோ உருவாக்கப்பட்ட வீடியோவின் ஒவ்வொரு நொடிக்கும் 1,000 எழுத்துக்களை பயன்படுத்துகிறது. 30-நொடி கிளிப் = 30,000 எழுத்துக்கள். இந்த செலவு உங்கள் எழுத்து சமநிலையில் இருந்து முன்கூட்டியே கட்டப்படும் மற்றும் உருவாக்கம் தோல்வியடைந்தால் தானாகவே திரும்பப்பெறப்படும்.

ஆம் - சாட்டாக்கர் குறியீடு மற்றும் எடைகள் MIT க்கு உரிமம் பெற்றவை (லாமா, ஜெம்மா அல்லது வர்த்தகமற்ற முதுகுத்தண்டு இல்லை). நீங்கள் உருவாக்கும் வீடியோக்கள் வர்த்தக ரீதியாக பயன்படுத்த உரிமை உண்டு. நீங்கள் பதிவேற்றம் செய்யும் மூல முக பிம்பம் மற்றும் ஒலிக்கு உரிமை உண்டு என்பதில் நீங்கள் பொறுப்பேற்க வேண்டும்.

எங்கள் A100 சேவையகத்தில் 5- விநாடி கிளிப்பிற்கு சுமார் 30 விநாடிகள், ஒலி நீளத்துடன் சுமார் நேரியல் அளவு. GFPGAN முக மேம்படுத்தியை செயல்படுத்துவது சுமார் இரட்டிப்பாக்கும் காட்சி நேரத்தை ஆனால் தெளிவான, உயர்தர வெளியீட்டை உருவாக்குகிறது.

முழு முன் அமைப்பு (முன்னிருப்பு) தலை நிலை, கண்ணை மூடி, மற்றும் முகம் மற்றும் உதடுகளுடன் அசைவூட்டம் செய்கிறது, மேலும் இயற்கையான பேசும் தலை வீடியோவை உருவாக்குகிறது. இன்னும் முன் அமைப்பு தலையை இடத்தில் பூட்டுகிறது மற்றும் வாய் மட்டும் அசைவூட்டம் செய்கிறது - நீங்கள் ஒரு நிலையான அவதார படத்தை விரும்பும் போது பயனுள்ளதாக இருக்கும்.

GFPGAN ஒரு முகம் மீட்பு மாதிரி, இது முக விவரங்களை லிப்- சின்க் காட்சிப்படுத்தலுக்குப் பிறகு தெளிவாக்குகிறது. இது ஆர்டிஃபேக்ட்களை சுத்தம் செய்து 256- பிக்சல் வெளியீட்டை 512க்கு நெருக்கமாக காட்டுகிறது. இது காட்சிப்படுத்தும் நேரத்தை இருமடங்காக அதிகரிக்கிறது, ஆனால் ஹீரோ படங்களுக்கு இது பொருத்தமானது.

SadTalker முன்னிருப்பாக 256 பிக்சல்களில் காட்டுகிறது. 512 பிக்சல் அளவிற்கு மாற்றவும் தெளிவான வெளியீட்டுக்கு (மெதுவாக, அதிக VRAM) அல்லது முக விவரங்களை மேம்படுத்த GFPGAN மேம்படுத்தியை செயல்படுத்தவும். சிறந்த முடிவுகளுக்கு, உயர்தர, நன்றாக ஒளிரும் முகப்பு புகைப்படத்தை பதிவேற்றவும்.

ஆம். முகம் உள்ளீடாக MP4 அல்லது WebM ஐ ஏற்றவும், நாங்கள் முதல் சட்டத்தை இயக்கும் அடையாளமாக பயன்படுத்துவோம். முழு வீடியோ மறு- ஒலிப்பதிவு (ஒரு சட்டம் வாய் மாற்று) க்கு, வரும் ஒலிப்பதிவு ஸ்டுடியோ வீடியோ குழாய்களை பார்க்கவும்.

ஆம். முகம் மற்றும் ஒலி புலங்களுடன் /api/v1/lipsync/ க்கு ஒரு பலபகுதி கோரிக்கையை POST செய்யவும், பின்னர் நிலை "முடிந்துள்ளது" வரை /api/v1/lipsync/result/?uuid= ஐ கேட்கவும். பதில் தரப்பட்ட MP4 க்கான URL ஐ உள்ளடக்கியது. API அணுகலுக்கு ஒரு கட்டணம் செலுத்த வேண்டிய திட்டம் தேவை.

SadTalker முகம்-அமைவை பயன்படுத்துகிறது மிகவும் பிரகாசமான முகத்தை கண்டுபிடிக்கவும் வெட்டவும். சிறந்த முடிவுகளுக்கு, ஒரு நபர் மையமாக, கண்கள் தெரியும், குறைந்தபட்ச ஒளியமைப்பு கொண்ட ஒரு புகைப்படத்தை பதிவேற்றவும். குழு புகைப்படங்கள் எதிர்பாராத முடிவுகளை உருவாக்கலாம்.
5.0/5 (1)

நாம் என்ன மேம்படுத்த முடியும்? உங்கள் கருத்துகள் பிரச்சினைகளை சரிசெய்ய உதவுகிறது.

துவங்க தயாரா?

இலவசமாக பதிவு செய்து 50 கிரெடிட் பெறவும். கிரெடிட் கார்டு தேவையில்லை.