AI Lip Sync generator wideo

Wyślij zdjęcie twarzy i klip audio – dostarcz wideo gadającą głowę z realistyczną synchronizacją ust, pozycją głowy i mruganiem. Zasilany przez SadTalker (MIT). Komercyjne użycie OK.

Wyślij twarz + dźwięk

1000 znaków na sekundę

Przeciągnij i upuść plik tutaj, lub przeglądaj

JPG, PNG, or short MP4/WebM. Max 10MB. One clear, well-lit face works best.

file.mp3

0 MB

Przeciągnij i upuść plik tutaj, lub przeglądaj

MP3, WAV, M4A, or FLAC. Max 10MB. Free: up to 30 sec. Pro: up to 5 min.

file.mp3

0 MB

Przetwarzanie...

Odtwarzanie wideo. Zazwyczaj trwa 30 sekund do 2 minut.

Twoja rozmowa-Głowa wideo

Pobierz MP4

O SadTalker

SadTalker (CVPR 2023, Tencent ARC) jest modelem otwartego źródła rozmowy, który animuje pojedynczy obraz twarzy, aby mówić dowolny dźwięk. W przeciwieństwie do wariantów Wav2Lip, SadTalker również animuje pozycję głowy, mruga i wyrażenie dla bardziej naturalnego wyniku.

Kod i wagi są licencjonowane przez MIT końcem do końca — bez Llamy, Gemmy lub niekomercyjnej kręgosłupa — więc filmy, które tworzysz są bezpieczne do komercyjnego użytku.

Wskazówki na najlepsze wyniki

  • Użyj wysokiej jakości, dobrze oświetlony portret – oczy widoczne, usta zamknięte
  • Pośrodkowa twarz, kwadrat lub 4:5 stosunek aspektów działa najlepiej
  • Czysty mowy audio (bez muzyki) wydaje ściślejszą synchronizację warg
  • Włącz GFPGAN dla zdjęć bohatera — podwójnie przetwarza czas, ale ostrze szczegóły
  • Użyj ciągle ustawień, gdy chcesz stałego strzału avatara

Plany wideo Sync Lip

Uruchom bezpłatnie, uaktualnij, gdy potrzebujesz więcej

Darmowe
  • 30-sekundowy limit dźwięku
  • Wyjście 256 px
  • Tylko ustawienie "dotychczas"
  • Brak wzmacniacza twarzy
Najpopularniejsze
Darmowe konto
  • 30-sekundowy limit dźwięku
  • Zarówno "full" jak i "dalej" ustawień
  • 256 / 512 px wyjście
  • GFPGAN wzmacniacz twarzy
Zarejestruj się za darmo
Prof.
  • 5-minutowy limit dźwięku
  • Priorytet kolejki GPU
  • Dostęp API (wysyłanie wieloczęściowe)
  • Powrotne połączenia do zakończenia programu Webhook
  • Stosowanie handlowe (z licencji MIT)
Uaktualnij

Często zadawane pytania

Wyślij zdjęcie twarzy i klip audio, a AI generuje wideo tej twarzy mówące audio z realistycznymi ruchami ust, pozycją głowy i mruganiem. Wbudowany na SadTalker (CVPR 2023), model gadający z licencją MIT, który animuje wyrażenie oprócz kształtu ustnego.

Wejście na twarz może być obrazem JPG lub PNG (do 10 MB) lub krótkim wideo kierowcy MP4/WebM (używamy pierwszej ramki). Audio kierowcy może być MP3, WAV, M4A lub FLAC do 10 MB. Przebieramy dźwięk do 16 kHz wewnętrznie.

Bezpłatne konta: do 30 sekund na klip. Płacenie użytkowników: do 5 minut na żądanie. Długiej audio oznacza dłuższy czas przetwarzania i wyższe koszty charakteru.

Synchronizacja lip wideo wykorzystuje 1000 znaków na sekundę generowanego wideo. 30-sekundowy klip = 30 000 znaków. Koszt jest rozliczany z przodu od salda charakteru i zwraca automatycznie, jeśli generacja nie wyjdzie.

Tak — SadTalker kod i wagi są licencjonowane MIT koniec do końca (nie Llama, Gemma, lub niekomercyjne kręgosłup). Filmy, które generujesz są twoje do użytku komercyjnego. Jesteś odpowiedzialny za posiadanie praw do obrazu źródłowego twarzy i audio, które przesyłasz.

Około 30 sekund na 5-sekundowy klip na naszym serwerze A100, skalowanie w przybliżeniu liniowe z długością dźwięku. Włączenie wzmacniacza twarzy GFPGAN w przybliżeniu podwoi czas, ale wytwarza ostrsze, wyższej jakości wyjścia.

Pełne ustawienie (domyślne) animuje pozycję głowy, mruganie i ekspresję wraz z wargami, produkując bardziej naturalne gadanie-głowa wideo. Nadal zamyka głowę na miejscu i animuje tylko usta — przydatne, gdy chcesz stały strzał awatar.

GFPGAN jest modelem restauracji twarzy, który wzbogaca szczegóły twarzy po synchronizacji lip. Oczyszcza artefakty i sprawia, że 256-pikselowe wyjście wygląda bliżej 512. Zgrubnie podwójnie odtwarza czas, ale jest warta tego dla strzałów bohatera.

SadTalker wyświetla domyślnie 256 px. Przełącz do 512 px dla bardziej ostrego wyjścia (powolniejsze, wyższe VRAM) lub włącza wzmacniacz GFPGAN do powiększenia szczegółów twarzy. Dla najlepszych rezultatów, wyślij wysokiej jakości, dobrze oświetlone zdjęcie portretowe.

Tak. Wyślij MP4 lub WebM jako wejście twarzy i użyjemy pierwszej ramki jako tożsamości kierowcy. W celu ponownego pobierania wideo (zamiana ust na ramkę), patrz nadchodzący rurociąg Dubbing Studio wideo.

Tak. POST multipart request do /api/v1/lipsync/ z polami twarzy i dźwięku, następnie anket /api/v1/lipsync/result/?uuid= do czasu zakończenia statusu. Odpowiedź zawiera URL do wyświetlonego MP4. Dostęp do API wymaga płatnego planu.

SadTalker wykorzystuje złożenie twarzy do wykrywania i obróbki najwybitniejszej twarzy. Dla najlepszych rezultatów, wysyłanie portretu z jedną osobą centrowane, widoczne oczy i minimalne okclusion. Zdjęcia grupowe mogą przynieść nieprzewidywalne wyniki.
5.0/5 (1)

Co moglibyśmy ulepszyć? Twoje zwroty zwrotne pomagają nam rozwiązać problemy.

Gotowy do rozpoczęcia?

Zarejestruj się za darmo i otrzymaj 50 kredytów.