ਬੱਗ ਰਿਪੋਰਟ / ਫੀਚਰ ਮੰਗ

AI ਲਿਪ ਸੈਕਰੋ ਵੀਡਿਓ ਜਰਨਰੇਟਰName

ਇੱਕ ਚਿਹਰੇ ਦੀ ਫੋਟੋ ਅਤੇ ਆਡੀਓ ਕਲਿੱਪ ਅੱਪਲੋਡ ਕਰੋ - ਇੱਕ ਬੋਲਦੇ ਸਿਰ ਦਾ ਵੀਡਿਓ ਪ੍ਰਾਪਤ ਕਰੋ, ਜਿਸ ਵਿੱਚ ਅਸਲੀ ਲਿਪ ਸੈਂਕ, ਸਿਰ ਦਾ ਪੋਸ ਅਤੇ ਬਲਿੰਸ ਹਨ। SadTalker (MIT) ਵਲੋਂ ਦਿੱਤਾ ਗਿਆ ਹੈ। ਵਪਾਰਕ ਵਰਤੋਂ ਲਈ ਠੀਕ ਹੈ।

ਤੁਹਾਡੇ ਕੋਲ ਤੁਹਾਡੀ ਭਾਸ਼ਾ ਵਿੱਚ TTS ਆਵਾਜ਼ਾਂ ਨਹੀਂ ਹਨ । ਸਾਨੂੰ ਆਪਣੀਆਂ ਸ਼ਾਮਲ ਕਰਨ ਵਿੱਚ ਮਦਦ ਕਰੋ! ਆਪਣੀ ਆਵਾਜ਼ ਵੇਚੋ

ਚਿਹਰਾ + ਆਡੀਓ ਅੱਪਲੋਡ

1,000 ਅੱਖਰ ਪ੍ਰਤੀ ਸਕਿੰਟ

ਆਪਣੀ ਫਾਇਲ ਇੱਥੇ ਸੁੱਟੋ, ਜਾਂ ਝਲਕ

JPG, PNG, or short MP4/WebM. Max 10MB. One clear, well-lit face works best.

ਫਾਇਲ.mp3

0 MB

ਆਪਣੀ ਫਾਇਲ ਇੱਥੇ ਸੁੱਟੋ, ਜਾਂ ਝਲਕ

MP3, WAV, M4A, or FLAC. Max 10MB. Free: up to 30 sec. Pro: up to 5 min.

ਫਾਇਲ.mp3

0 MB

ਪਰੋਸੈਸ ਜਾਰੀ...

ਤੁਹਾਡੇ ਵਿਡੀਓ ਨੂੰ ਪੇਸ਼ ਕੀਤਾ ਜਾ ਰਿਹਾ ਹੈ । ਇਹ ਆਮ ਤੌਰ ਉੱਤੇ 30 ਸਕਿੰਟ ਤੋਂ2ਮਿੰਟ ਲੈਂਦਾ ਹੈ ।

ਤੁਹਾਡਾ ਬੋਲਦਾ ਸਿਰ ਵੀਡਿਓName

MP4 ਡਾਊਨਲੋਡ

SadTalker ਬਾਰੇ

SadTalker (CVPR 2023, Tencent ARC) ਇੱਕ ਓਪਨ-ਸੋਰਸ ਬੋਲਣ ਵਾਲਾ-ਹੱਥ ਮਾਡਲ ਹੈ, ਜੋ ਕਿ ਕਿਸੇ ਵੀ ਆਡੀਓ ਬੋਲਣ ਲਈ ਇੱਕ ਚਿਹਰੇ ਦੇ ਚਿੱਤਰ ਨੂੰ ਐਨੀਮੇਟ ਕਰਦਾ ਹੈ। Wav2Lip ਵੇਰੀਐਂਟਾਂ ਦੇ ਉਲਟ, SadTalker ਸਿਰ ਦੇ ਪੋਸ, ਬਲਿੰਸ ਅਤੇ ਭਾਵਨਾ ਨੂੰ ਵੀ ਵਧੇਰੇ ਕੁਦਰਤੀ ਨਤੀਜੇ ਲਈ ਐਨੀਮੇਟ ਕਰਦਾ ਹੈ।

ਕੋਡ ਅਤੇ ਭਾਰ MIT-ਲਾਈਸੈਂਸਡ ਅੰਤ ਤੱਕ ਅੰਤ ਤੱਕ ਹਨ - ਕੋਈ ਲਾਮਾ, ਜੈਮਾ, ਜਾਂ ਗੈਰ-ਵਪਾਰਕ ਬੈਕਬੋਨ ਨਹੀਂ - ਇਸ ਲਈ ਤੁਸੀਂ ਜੋ ਵੀਡੀਓ ਬਣਾ ਰਹੇ ਹੋ ਉਹ ਵਪਾਰਕ ਵਰਤੋਂ ਲਈ ਸੁਰੱਖਿਅਤ ਹਨ।

ਵਧੀਆ ਨਤੀਜਿਆਂ ਲਈ ਸੁਝਾਅ

  • ਉੱਚ ਕੁਆਲਟੀ, ਚੰਗੀ ਤਰ੍ਹਾਂ ਚਮਕਦਾਰ ਪੋਰਟਰੇਟ ਵਰਤੋਂ - ਅੱਖਾਂ ਵੇਖਣਯੋਗ, ਮੂੰਹ ਬੰਦ
  • ਸੈਂਟਰ-ਫੇਸ, ਵਰਗ ਜਾਂ 4:5 ਆਕਾਰ ਅਨੁਪਾਤ ਸਭ ਤੋਂ ਵਧੀਆ ਕੰਮ ਕਰਦਾ ਹੈ
  • ਸਾਫ਼ ਬੋਲੀ ਆਡੀਓ (ਕੋਈ ਸੰਗੀਤ ਨਹੀਂ) ਨੇ ਲਿਪ ਸੈਕਰੋ ਨੂੰ ਮਜ਼ਬੂਤ ਕੀਤਾName
  • ਹੀਰੋ ਸ਼ੱਟਾਂ ਲਈ GFPGAN ਯੋਗ - ਦੁੱਗਣਾ ਰੈਂਡਰਿੰਗ ਸਮਾਂ ਪਰ ਵੇਰਵਾ ਤਿੱਖਾ
  • ਜਦੋਂ ਤੁਸੀਂ ਸਥਿਰ ਅਵਤਾਰ ਸ਼ੋਅ ਚਾਹੁੰਦੇ ਹੋ ਤਾਂ ਸਟੀਲ ਪ੍ਰੀ- ਸੈੱਟ ਵਰਤੋਂ

ਲਿਪ ਸੈਕਰੋ ਵੀਡਿਓ ਪਲਾਨ

ਮੁਫਤ ਸ਼ੁਰੂ ਕਰੋ, ਜਦੋਂ ਲੋੜ ਪਵੇ ਅੱਪਗਰੇਡ ਕਰੋ

ਮੁਫਤ
  • 30- ਸਕਿੰਟ ਆਡੀਓ ਲਿਮਟ
  • 256 px ਆਉਟਪੁੱਟ
  • "ਅਜੇ ਵੀ" ਪਹਿਲਾਂ- ਸੈੱਟ ਹੀ
  • ਕੋਈ ਚਿਹਰਾ ਐਕਸਟਰਾ ਨਹੀਂ
ਸਭ ਤੋਂ ਮਸ਼ਹੂਰ
ਮੁਫਤ ਅਕਾਊਂਟ
  • 30- ਸਕਿੰਟ ਆਡੀਓ ਲਿਮਟ
  • ਦੋਵੇਂ "ਪੂਰਾ" ਅਤੇ "ਸਥਿਰ" ਪ੍ਰੀ- ਸੈੱਟ
  • 256 / 512 px ਆਉਟਪੁੱਟ
  • GFPGAN ਚਿਹਰਾ ਐਕਸਟਰਾ
ਮੁਫਤ ਲਈ ਸਾਈਨ ਅੱਪ ਕਰੋ
ਪਰੋ
  • 5- ਮਿੰਟ ਆਡੀਓ ਲਿਮਟ
  • ਤਰਜੀਹ GPU ਕਤਾਰ
  • API ਪਹੁੰਚ (ਬਹੁ- ਭਾਗ ਅੱਪਲੋਡ)
  • ਵੈੱਬਹੁੱਕ ਪੂਰਨਤਾ ਕਾਲਬੈਕ
  • ਵਪਾਰਕ ਵਰਤੋਂ (MIT ਲਾਈਸੈਂਸ)
ਅੱਪਗਰੇਡ

ਅਕਸਰ ਪੁੱਛੇ ਜਾਂਦੇ ਸਵਾਲ

ਇੱਕ ਚਿਹਰੇ ਦੀ ਫੋਟੋ ਅਤੇ ਆਡੀਓ ਕਲਿੱਪ ਅੱਪਲੋਡ ਕਰੋ, ਅਤੇ AI ਉਸ ਚਿਹਰੇ ਦਾ ਇੱਕ ਵਿਡੀਓ ਬਣਾਉਂਦਾ ਹੈ, ਜੋ ਕਿ ਆਡੀਓ ਨੂੰ ਅਸਲੀ ਹੱਥਾਂ ਦੀਆਂ ਗਤੀਵਿਧੀਆਂ, ਸਿਰ ਦੇ ਸਥਿਤੀ ਅਤੇ ਬਲਿਊਟੁੱਥ ਨਾਲ ਬੋਲਦਾ ਹੈ। SadTalker (CVPR 2023) ਉੱਤੇ ਬਣਾਇਆ ਗਿਆ, ਇੱਕ MIT-ਲਾਈਸੈਂਸਡ ਬੋਲਦੇ-ਹੱਥ ਮਾਡਲ, ਜੋ ਕਿ ਮੂੰਹ ਦੇ ਆਕਾਰ ਦੇ ਨਾਲ-ਨਾਲ ਐਨੀਮੇਸ਼ਨ ਦਾ ਪ੍ਰਗਟਾਵਾ ਕਰਦਾ ਹੈ।

ਚਿਹਰੇ ਇੰਪੁੱਟ ਇੱਕ JPG ਜਾਂ PNG ਚਿੱਤਰ (10 MB ਤੱਕ) ਜਾਂ ਇੱਕ ਛੋਟਾ MP4/WebM ਡਰਾਇਵਿੰਗ ਵੀਡਿਓ ਹੋ ਸਕਦਾ ਹੈ (ਅਸੀਂ ਪਹਿਲਾ ਫਰੇਮ ਵਰਤਦੇ ਹਾਂ)। ਡਰਾਇਵਿੰਗ ਆਡੀਓ MP3, WAV, M4A, ਜਾਂ FLAC 10 MB ਤੱਕ ਹੋ ਸਕਦਾ ਹੈ। ਅਸੀਂ ਆਡੀਓ ਨੂੰ ਅੰਦਰੂਨੀ ਤੌਰ ਉੱਤੇ 16 kHz ਲਈ ਰੀ-ਸੈਂਪਲ ਕਰਦੇ ਹਾਂ।

ਮੁਫਤ ਅਕਾਊਂਟ: ਪ੍ਰਤੀ ਕਲਿੱਪ 30 ਸਕਿੰਟ ਤੱਕ । ਭੁਗਤਾਨ ਕਰਨ ਵਾਲੇ ਯੂਜ਼ਰ: ਪ੍ਰਤੀ ਬੇਨਤੀ5ਮਿੰਟ ਤੱਕ । ਲੰਮਾ ਆਡੀਓ ਦਾ ਮਤਲਬ ਲੰਮਾ ਰਿਡਰ ਸਮਾਂ ਅਤੇ ਵੱਧ ਅੱਖਰ ਕੀਮਤ ਹੈ ।

ਲਿਪ ਸੈਕਰੋ ਵਿਡੀਓ ਪ੍ਰਤੀ ਸਕਿੰਟ 1,000 ਅੱਖਰ ਵਰਤਦਾ ਹੈ। 30-ਸਕਿੰਟ ਕਲਿੱਪ = 30,000 ਅੱਖਰ। ਕੀਮਤ ਤੁਹਾਡੇ ਅੱਖਰ ਬੈਲੇਂਸ ਤੋਂ ਪਹਿਲਾਂ ਹੀ ਬਿਲਿੰਗ ਕੀਤੀ ਜਾਂਦੀ ਹੈ ਅਤੇ ਜੇਕਰ ਨਿਰਮਾਣ ਫੇਲ੍ਹ ਹੋ ਗਿਆ ਤਾਂ ਆਟੋਮੈਟਿਕ ਹੀ ਮੁੜ-ਵੰਡੀ ਜਾਂਦੀ ਹੈ।

ਹਾਂ — SadTalker ਕੋਡ ਅਤੇ ਭਾਰ MIT ਲਾਈਸੈਂਸ ਨਾਲ ਅੰਤ ਤੱਕ ਹੈ (ਕੋਈ ਲਾਮਾ, ਜੈਮਾ ਜਾਂ ਗੈਰ-ਵਪਾਰਕ ਬੈਕਬੋਨ ਨਹੀਂ) । ਤੁਸੀਂ ਜੋ ਵੀਡੀਓ ਬਣਾਏ ਹਨ ਉਹ ਤੁਹਾਡੇ ਵਪਾਰਕ ਵਰਤੋਂ ਲਈ ਹਨ । ਤੁਸੀਂ ਸਰੋਤ ਚਿੱਤਰ ਅਤੇ ਆਡੀਓ ਲਈ ਅਧਿਕਾਰ ਰੱਖਣ ਲਈ ਜ਼ਿੰਮੇਵਾਰ ਹੋ ਜੋ ਤੁਸੀਂ ਅੱਪਲੋਡ ਕਰਦੇ ਹੋ ।

ਸਾਡੇ A100 ਸਰਵਰ ਉੱਤੇ5ਸਕਿੰਟ ਦੇ ਕਲਿੱਪ ਲਈ 30 ਸਕਿੰਟ, ਆਡੀਓ ਲੰਬਾਈ ਨਾਲ ਲਗਭਗ ਰੇਖਿਕ ਸਕੇਲਿੰਗ। GFPGAN ਫਾਇਲ ਐਕਸਟੇਨਸ਼ਨ ਯੋਗ ਕਰਨ ਨਾਲ ਰਿਡਰ ਸਮਾਂ ਲਗਭਗ ਦੁੱਗਣਾ ਹੋ ਜਾਂਦਾ ਹੈ ਪਰ ਉੱਚ ਕੁਆਲਟੀ ਆਉਟਪੁੱਟ ਦਿੰਦਾ ਹੈ।

ਪੂਰਾ ਪਹਿਲਾਂ-ਸੈੱਟ (ਮੂਲ) ਸਿਰ ਦੇ ਹਾਵ-ਭਾਵ, ਬੱਬਲ ਅਤੇ ਚਿਹਰੇ ਦੇ ਇਸ਼ਾਰੇ ਨੂੰ ਹੋਠਾਂ ਨਾਲ ਐਨੀਮੇਟ ਕਰਦਾ ਹੈ, ਜੋ ਕਿ ਵਧੇਰੇ ਕੁਦਰਤੀ ਬੋਲਦੇ ਸਿਰ ਵਿਡੀਓ ਬਣਾਉਂਦਾ ਹੈ। ਅਜੇ ਵੀ ਪਹਿਲਾਂ-ਸੈੱਟ ਸਿਰ ਨੂੰ ਥਾਂ ਉੱਤੇ ਲਾਕ ਕਰਦਾ ਹੈ ਅਤੇ ਸਿਰਫ਼ ਮੂੰਹ ਨੂੰ ਐਨੀਮੇਟ ਕਰਦਾ ਹੈ - ਜਦੋਂ ਤੁਸੀਂ ਇੱਕ ਸਥਿਰ ਆਵਾਜ਼ ਲੈਣਾ ਚਾਹੁੰਦੇ ਹੋ ਤਾਂ ਫਾਇਦੇਮੰਦ ਹੈ।

GFPGAN ਇੱਕ ਚਿਹਰੇ ਮੁੜ-ਸੁਰਜੀਤੀ ਮਾਡਲ ਹੈ, ਜੋ ਕਿ ਚਿਹਰੇ ਦੇ ਵੇਰਵੇ ਨੂੰ ਲਿਪ-ਸਿਨਕ ਰੈਂਡਰਿੰਗ ਤੋਂ ਬਾਅਦ ਤਿੱਖਾ ਕਰਦਾ ਹੈ। ਇਹ ਆਰਟੀਫਿਕੇਟ ਨੂੰ ਸਾਫ਼ ਕਰਦਾ ਹੈ ਅਤੇ 256-ਪਿਕਸਲ ਆਉਟਪੁੱਟ ਨੂੰ 512 ਦੇ ਨੇੜੇ ਬਣਾਉਂਦਾ ਹੈ। ਇਹ ਰੈਂਡਰਿੰਗ ਸਮਾਂ ਲਗਭਗ ਦੁੱਗਣਾ ਕਰਦਾ ਹੈ, ਪਰ ਹੀਰੋ ਸ਼ੋਟਾਂ ਲਈ ਇਸ ਦੀ ਕੀਮਤ ਹੈ।

SadTalker ਡਿਫਾਲਟ ਤੌਰ ਉੱਤੇ 256 px ਉੱਤੇ ਪੇਸ਼ ਕਰਦਾ ਹੈ। 512 px ਸਾਈਜ਼ ਨੂੰ ਤਿੱਖਾ ਆਉਟਪੁੱਟ (ਹੌਲੀ, ਵੱਧ VRAM) ਲਈ ਬਦਲੋ ਜਾਂ ਚਿਹਰੇ ਦੇ ਵੇਰਵੇ ਲਈ GFPGAN ਐਕਸਟਰੈਕਟਰ ਨੂੰ ਯੋਗ ਕਰੋ। ਵਧੀਆ ਨਤੀਜੇ ਲਈ ਉੱਚ ਕੁਆਲਟੀ, ਚੰਗੀ ਤਰ੍ਹਾਂ ਚਮਕਦਾਰ ਪੋਰਟਰੇਟ ਫੋਟੋ ਅੱਪਲੋਡ ਕਰੋ।

ਹਾਂ। ਇੱਕ MP4 ਜਾਂ WebM ਨੂੰ ਚਿਹਰੇ ਇੰਪੁੱਟ ਵਜੋਂ ਅੱਪਲੋਡ ਕਰੋ ਅਤੇ ਅਸੀਂ ਪਹਿਲਾ ਫਰੇਮ ਡਰਾਇਵਿੰਗ ਪਛਾਣ ਵਜੋਂ ਵਰਤਾਂਗੇ। ਪੂਰੀ ਵੀਡਿਓ ਮੁੜ-ਡਬਿੰਗ (ਪ੍ਰਤੀ-ਫਰੇਮ ਮੂੰਹ ਤਬਦੀਲ) ਲਈ, ਆਉਣ ਵਾਲੀ ਡਬਿੰਗ ਸਟੂਡੀਓ ਵੀਡਿਓ ਪਾਈਪਲਾਈਨ ਵੇਖੋ।

ਹਾਂ। ਚਿਹਰੇ ਅਤੇ ਆਡੀਓ ਖੇਤਰਾਂ ਨਾਲ /api/v1/lipsync/ ਨੂੰ ਇੱਕ ਮਲਟੀ-ਪਾਰਟ ਮੰਗ POST ਕਰੋ, ਫਿਰ /api/v1/lipsync/result/?uuid= ਨੂੰ ਪੁੱਛੋ ਜਦੋਂ ਤੱਕ ਹਾਲਤ "ਪੂਰਾ" ਨਾ ਹੋ ਜਾਵੇ। ਜਵਾਬ ਵਿੱਚ MP4 ਲਈ URL ਹੈ। API ਪਹੁੰਚ ਲਈ ਇੱਕ ਭੁਗਤਾਨ ਪਲਾਨ ਦੀ ਲੋੜ ਹੈ।

SadTalker ਸਭ ਤੋਂ ਪ੍ਰਮੁੱਖ ਚਿਹਰੇ ਨੂੰ ਖੋਜਣ ਅਤੇ ਕੱਟਣ ਲਈ ਚਿਹਰੇ-ਅਲਾਇੰਸਿੰਗ ਵਰਤਦਾ ਹੈ। ਸਭ ਤੋਂ ਵਧੀਆ ਨਤੀਜਿਆਂ ਲਈ ਇੱਕ ਵਿਅਕਤੀ ਦੇ ਕੇਂਦਰ ਵਿੱਚ, ਅੱਖਾਂ ਵੇਖਣਯੋਗ ਅਤੇ ਘੱਟੋ-ਘੱਟ ਬੰਦ ਹੋਣ ਨਾਲ ਇੱਕ ਪੋਰਟਰੇਟ ਅੱਪਲੋਡ ਕਰੋ। ਗਰੁੱਪ ਫੋਟੋਆਂ ਅਣਜਾਣ ਨਤੀਜੇ ਪੈਦਾ ਕਰ ਸਕਦੀਆਂ ਹਨ।
5.0/5 (1)

ਅਸੀਂ ਕੀ ਸੁਧਾਰ ਕਰ ਸਕਦੇ ਹਾਂ? ਤੁਹਾਡੀ ਟਿੱਪਣੀ ਸਾਨੂੰ ਸਮੱਸਿਆਵਾਂ ਹੱਲ ਕਰਨ ਵਿੱਚ ਮਦਦ ਕਰਦੀ ਹੈ।

ਸ਼ੁਰੂ ਕਰਨ ਲਈ ਤਿਆਰ ਹੋ?

ਮੁਫਤ ਰਜਿਸਟਰ ਕਰੋ ਅਤੇ 50 ਕ੍ਰੈਡਿਟ ਪ੍ਰਾਪਤ ਕਰੋ। ਕੋਈ ਕ੍ਰੈਡਿਟ ਕਾਰਡ ਲੋੜੀਦਾ ਨਹੀਂ ਹੈ।