Hata / Özellik İstek Raporu

AI Lip Sync Video Üreteci

Yüz fotoğrafı ve ses klipini yükleyin — gerçekçi dudak senkronizasyonu, baş pozisyonu ve göz kırpmalarıyla konuşan bir baş videosu alın. SadTalker (MIT) tarafından destekleniyor. Ticari kullanıma uygun.

Yüz + Ses Yükle

Saniyede 1000 karakter

Dosyanızı buraya çekin ve bırakın, ya da browse

JPG, PNG, or short MP4/WebM. Max 10MB. One clear, well-lit face works best.

dosya.mp3

0 MB

Dosyanızı buraya çekin ve bırakın, ya da browse

MP3, WAV, M4A, or FLAC. Max 10MB. Free: up to 30 sec. Pro: up to 5 min.

dosya.mp3

0 MB

İşleniyor...

Videonuz görüntüleniyor. Bu genellikle 30 saniye ile 2 dakika arasında sürer.

Konuşacak Kafan Video

MP4 İndir

SadTalker Hakkında

SadTalker (CVPR 2023, Tencent ARC), herhangi bir sesle konuşmak için tek bir yüz resmini animasyona sokmak için açık kaynaklı bir konuşma baş modelidir.Wav2Lip varyantlarının aksine, SadTalker ayrıca daha doğal bir sonuç için baş pozisyonu, göz kırpma ve ifadeyi de animasyona sokmaktadır.

Kod ve ağırlıklar MIT tarafından sonuna kadar lisanslıdır - Llama, Gemma veya ticari olmayan bir omurga yoktur - böylece oluşturduğunuz videolar ticari kullanım için güvenlidir.

En İyi Sonuçlar İçin Öneriler

  • Yüksek kaliteli, iyi aydınlatılmış bir portre kullanın — gözler görünür, ağız kapalı
  • Merkezi yüz, kare veya 4:5 boyutlu en iyi çalışır
  • Temiz konuşma sesi (müzik yok) daha sıkı dudak senkronizasyonu sağlar
  • Kahraman atışlarında GFPGAN'ı etkinleştir — görüntüleme süresini ikiye katlar ama detayları keskinleştirir
  • Avatar çekimini sabitlemek istediğinizde, Kalıcı önayarını kullanın

Dudak eşleştirme video planları

Bedava başla, daha fazlasına ihtiyacın olduğunda yükselt

Özgür
  • 30 saniye ses sınırı
  • 256 px çıkışı
  • Sadece "Hâlâ" önayarları
  • Yüz geliştirme yok
En Popüler
Bedava Hesap
  • 30 saniye ses sınırı
  • Hem "tam" hem de "kalıcı" önayarları
  • 256 / 512 px çıkışı
  • GFPGAN yüz geliştirici
Ücretsiz kayıt ol
Pro
  • 5 dakikalık ses limiti
  • Öncelik GPU kuyruğu
  • API erişimi (çok parça yükleme)
  • Webhook tamamlama geri çağrıları
  • Ticari kullanım (MIT lisansı)
Üst düzeye çıkar

Sıkça Sorulan Sorular

Yüz fotoğrafı ve ses klip yükleyin ve yapay zeka gerçekçi dudak hareketleri, baş pozisyonu ve göz kırpmalarıyla sesleri konuşan yüzün bir videosunu oluşturur. SadTalker (CVPR 2023), ağız şeklinin yanı sıra ifadeyi de animasyona geçiren MIT lisanslı konuşan baş modeli üzerine inşa edilmiştir.

Yüz girişi bir JPG veya PNG görüntüsü (10 MB'ye kadar) veya kısa bir MP4/WebM sürüş videosu olabilir (ilk çerçevesi kullanılır). Sürüş sesi MP3, WAV, M4A veya FLAC 10 MB'ye kadar olabilir. Sesleri içten 16 kHz'e yeniden örnekleyiz.

Ücretsiz hesaplar: klip başına 30 saniyeye kadar. Ödemeli kullanıcılar: isteğe göre 5 dakikaya kadar. Daha uzun ses daha uzun görüntülenme süresi ve daha yüksek karakter maliyeti demektir.

Dudak eşleştirme videosu saniyede 1000 karakterlik video üretir. 30 saniyelik bir klip = 30.000 karakter. Maliyeti karakter balansınızdan önceden faturalanır ve üretim başarısız olursa otomatik olarak geri ödenir.

Evet — SadTalker kodu ve ağırlıkları sonuna kadar MIT lisansı altındadır (Llama, Gemma veya ticari olmayan arka plan yok). Ürettiğiniz videolar ticari kullanım için sizindir. Yüklediğiniz kaynak yüz resim ve ses haklarınıza sahip olmaktan sorumlusunuz.

A100 sunucumuzda 5 saniyelik bir klip için yaklaşık 30 saniye, ses uzunluğu ile doğrusal olarak ölçekleniyor. GFPGAN yüz geliştiricisini etkinleştirmek yaklaşık olarak iki kat render zamanı sağlar ama daha keskin, daha yüksek kaliteli bir sonuç üretir.

Tam önayar (varsayılan) baş pozisyonu, göz kırpmaları ve ifadeleri dudaklarla birlikte animasyona geçirerek daha doğal bir konuşma baş videosu üretir. Hala önayar kafayı yerinde kilitler ve sadece ağzı animasyona geçirir - sabit bir avatar çekimi istediğinizde faydalıdır.

GFPGAN, dudak-senkronizasyon renderlemesinden sonra yüz detaylarını keskinleştiren bir yüz restorasyon modelidir. Eşyaları temizler ve 256 piksellik bir çıktıyı 512'ye daha yakın hale getirir. Renderleme süresini yaklaşık iki katına çıkarır ama kahraman çekimleri için buna değer.

SadTalker varsayılan olarak 256 px'de gösterir. Daha keskin bir çıkış için (yavaş, daha fazla VRAM) 512 px'ye geçin veya yüz detaylarını ölçeklendirmek için GFPGAN artırıcısını etkinleştirin. En iyi sonuçlar için, yüksek kaliteli, iyi aydınlatılmış bir portre fotoğrafı yükleyin.

Evet. Yüz girişi olarak bir MP4 veya WebM yükleyin ve ilk kareyi sürücü kimliği olarak kullanacağız. Tamamen video tekrar seslendirmesi için (kare başına ağız değiştirme), yakında çıkacak Dubbing Studio video boru hattına bakınız.

Evet. /api/v1/lipsync/'e yüz ve ses alanları ile çok parçalı bir POST istem gönder, sonra durum "komplet" olana kadar /api/v1/lipsync/result/?uuid= sorgula. Cevap, görüntülenen MP4'e bir URL içerir. API erişimi için ücretli bir plan gerekiyor.

SadTalker en belirgin yüzü tespit etmek ve kesmek için yüz-düzenlemeyi kullanır. En iyi sonuçlar için, bir kişinin merkezinde, gözleri görünen ve minimum bir kapalılıkla bir portre yükleyin. Grup fotoğrafları tahmin edilemez sonuçlar verebilir.
5.0/5 (1)

Neyi geliştirebiliriz?

Başlamaya hazır mısın?

Ücretsiz kayıt olun ve 50 kredi alın Kredi kartı gerekmiyor.