Xəta / Xüsusiyyət İxtiyarını İdarə Et

AI Lip Sync Video Yaratıcısı

Üz şəklini və səs klipini yüklə - real ağız sinxronizasiyası, baş pozları və göz qırpımını olan danışan baş videonu əldə et. SadTalker (MIT) tərəfindən dəstəklənir. Ticari istifadə üçün OK.

Sizin dilində hələlik TTS səsləri yoxdur. Bizə öz səslərinizi əlavə etməyə kömək edin! Səsini Sat

Yüz + Audio yüklə

1000 karakter/saniyə

Faylınızı buraya sürükləyin və atın, ya da _Göstər

JPG, PNG, or short MP4/WebM. Max 10MB. One clear, well-lit face works best.

fayl.mp3

0 MB

Faylınızı buraya sürükləyin və atın, ya da _Göstər

MP3, WAV, M4A, or FLAC. Max 10MB. Free: up to 30 sec. Pro: up to 5 min.

fayl.mp3

0 MB

İşlənir...

Videonuz renderlənir. Bu adətən 30 saniyədən 2 dəqiqəyə qədər davam edir.

Talking-Head Videonuz

Endir

SadTalker haqqında

SadTalker (CVPR 2023, Tencent ARC) hər hansı səsi danışmaq üçün tək bir üz şəklini animasiya edən açıq mənbəli danışan baş modelidir. Wav2Lip variantlarından fərqli olaraq, SadTalker daha təbii nəticə üçün baş mövqeyini, göz qırpımını və mimikanı da animasiya edir.

Kod və çəkilər MIT-lisenziyalı sondan sona qədərdir - Llama, Gemma və ya kommersiya olmayan backbone yoxdur - buna görə də yaratdığınız videolar kommersiya istifadəsi üçün təhlükəsizdir.

Ən Yaxşı Nəticə üçün İpuçları

  • Yüksək keyfiyyətli, yaxşı işıqlandırılmış portret istifadə et - göz görünən, ağız bağlanmış
  • Mərkəzi şəkil, kvadrat və ya 4:5 nisbət ən yaxşı işləyir
  • Təmiz səsli danışıq (müzik yoxdur) daha sıx ağız sinxronizasiyası verir
  • Hero shots üçün GFPGAN fəallaşdır — render vaxtını ikiqat artırır amma detalları daha aydın göstərir
  • Əvvəlcədən təyin edilmiş sabit avatar şəklini istədiyiniz zaman istifadə edin

Video Planları

Pulsuz başlayın, daha çoxuna ehtiyacınız olduqda yüksəldin

Pulsuz
  • 30 saniyə səs həddi
  • 256 px çıxıntı
  • Yalnız "Still" əvvəlcədən qurğuları
  • Yüz artırıcı yoxdur
Ən populyar
Hesab
  • 30 saniyə səs həddi
  • Hər iki "full" və "still" əvvəlcədən qurğuları
  • 256 / 512 px çıxarış
  • GFPGAN üz artırıcı
Qeydiyyatdan keç
Pro
  • 5 dəqiqəlik audio limiti
  • GPU-nun prioritet qrupu
  • API girişi (bir çox hissəli yükləmə)
  • Webhook tamamlama geri çağırışları
  • Ticari istifadə (MIT lisenziyası)
Yenilə

Tez-tez Sorulan Sual

Yüz şəklini və səs klipini yükləyin və AI bu üzün səsi real dudak hərəkətləri, baş mövqeyi və göz qırpımında danışan videonu yaradacaq. SadTalker (CVPR 2023) üzərində qurulub, ağız şəklinə əlavə olaraq animasiya ifadəsi verən MIT-lisenziyalı danışan baş modeli.

Üz girişi JPG ya da PNG şəkli (10 MB-a qədər) ya da qısa MP4/WebM video sürücüsüdür (biz ilk kadrı istifadə edirik). Səs sürücüsüdür MP3, WAV, M4A, ya da FLAC 10 MB-a qədər. Səs daxili olaraq 16 kHz-ə qədər yenidən nümunə götürülür.

Pulsuz hesablar: klip başına 30 saniyəyə qədər. Ödənişli istifadəçilər: istək başına 5 dəqiqəyə qədər. Uzun səs uzun render vaxtı və yüksək karakter qiyməti deməkdir.

Lip sync video saniyədə 1000 karakter istifadə edir. 30 saniyəlik klip = 30,000 karakter. Qiymətlər karakter balansınızdan əvvəlcədən hesablanır və yaradılma bacarılmadıqda avtomatik olaraq geri qaytarılır.

Bəli — SadTalker kodu və ağırlığı MIT lisenziyasına malikdir (Llama, Gemma və ya qeyri-ticarət backbone yoxdur). Yaratdığınız videolar sizindir və kommersiya məqsədləri üçün istifadə edə bilərsiniz. Yüklədiyiniz şəkil və səsin hüquqlarının sizin olmasına cavabdehsiniz.

A100 vericimizdə 5 saniyəlik klip üçün təxminən 30 saniyə, səs uzunluğu ilə təxminən düzbucaqlı ölçülənir. GFPGAN üz artırıcısını fəallaşdırmaq təxminən render vaxtını ikiqat artırır, lakin daha kəskin, daha keyfiyyətli nəticə verir.

Tam əvvəlcədən qurğu (öncəki) baş mövqeyini, göz qırpımını və mimikanı duşlarla birlikdə animasiya edir, daha təbii danışan baş videosu yaradaraq. Hələ də əvvəlcədən qurğu başı yerdə bağlayır və yalnız ağzı animasiya edir - sabit avatar şəkli istədiyiniz zaman faydalıdır.

GFPGAN, ağız-sinxron renderləmədən sonra üzün detallarını kəskinləşdirən bir üz bərpa modelidir. Bu, artefaktları təmizləyir və 256-piksellli nəticəni 512-yə daha yaxın görünüşlü edir. Bu, renderləmə vaxtını təxminən ikiqat artırır, lakin qəhrəman şəkilləri üçün buna dəyər.

SadTalker ön qurğu olaraq 256 px-də render edir. Daha kəskin çıxıntı üçün 512 px-ə keçin (yavaş, daha çox VRAM) ya da GFPGAN artırıcısını fəallaşdırın üz detallarını artırmaq üçün. Ən yaxşı nəticələr üçün yüksək keyfiyyətli, yaxşı işıqlandırılmış portret şəklini yükləyin.

Bəli. Üz girişi olaraq MP4 ya da WebM yükləyin və biz ilk kadrı sürücü kimliyi kimi istifadə edəcəyik. Videonun tam yenidən dublajlanması üçün (qadra görə ağız əvəzi) Dubbing Studio video boru kəmərinə baxın.

Bəli. /api/v1/lipsync/-ə şəkil və səs sahələri ilə çox hissəli bir tələb göndər, sonra vəziyyət "komplet" olana qədər /api/v1/lipsync/result/?uuid= sorğusunu göndər. Cavabda render edilmiş MP4-ün URL-ü var. API-yə çıxış üçün ödənişli plan tələb olunur.

SadTalker ən çox görünən üzü aşkar etmək və kəsmək üçün üzün düzəldilməsini istifadə edir. Ən yaxşı nəticələr üçün bir şəxsin mərkəzdə, gözlərin görünən və minimal örtülmüş olduğu bir portret yükləyin. Qrup şəkilləri gözlənilməz nəticələr verə bilər.
5.0/5 (1)

Nəyi yaxşılaşdıra bilərik? Sizin rəyiniz problemləri düzəltməyə kömək edir.

Başlamağa hazırsan?

Pulsuz qeydiyyatdan keçin və 15,000 karakter əldə edin. Kredit kartı tələb olunmur.