Zgłosić błąd / żądanie funkcji

AI Lip Sync generator wideo

Wyślij zdjęcie twarzy i klip audio – dostarcz wideo gadającą głowę z realistyczną synchronizacją ust, pozycją głowy i mruganiem. Zasilany przez SadTalker (MIT). Komercyjne użycie OK.

Zarejestruj się za darmo

Wyślij twarz + dźwięk

1000 znaków na sekundę

1. Obraz twarzy lub kierowca wideo

Przeciągnij i upuść plik tutaj, lub przeglądaj

JPG, PNG, or short MP4/WebM. Max 10MB. One clear, well-lit face works best.

2. Jazda dźwięku

Przeciągnij i upuść plik tutaj, lub przeglądaj

MP3, WAV, M4A, or FLAC. Max 10MB. Free: up to 30 sec. Pro: up to 5 min.

Preset animacji

Rozmiar wyjścia

Zwiększanie twarzy

GFPGAN (sharper, wolniej)

O SadTalker

SadTalker (CVPR 2023, Tencent ARC) jest modelem otwartego źródła rozmowy, który animuje pojedynczy obraz twarzy, aby mówić dowolny dźwięk. W przeciwieństwie do wariantów Wav2Lip, SadTalker również animuje pozycję głowy, mruga i wyrażenie dla bardziej naturalnego wyniku.

Kod i wagi są licencjonowane przez MIT końcem do końca — bez Llamy, Gemmy lub niekomercyjnej kręgosłupa — więc filmy, które tworzysz są bezpieczne do komercyjnego użytku.

Wskazówki na najlepsze wyniki

Użyj wysokiej jakości, dobrze oświetlony portret – oczy widoczne, usta zamknięte
Pośrodkowa twarz, kwadrat lub 4:5 stosunek aspektów działa najlepiej
Czysty mowy audio (bez muzyki) wydaje ściślejszą synchronizację warg
Włącz GFPGAN dla zdjęć bohatera — podwójnie przetwarza czas, ale ostrze szczegóły
Użyj ciągle ustawień, gdy chcesz stałego strzału avatara

Plany wideo Sync Lip

Uruchom bezpłatnie, uaktualnij, gdy potrzebujesz więcej

Darmowe

30-sekundowy limit dźwięku
Wyjście 256 px
Tylko ustawienie "dotychczas"
Brak wzmacniacza twarzy

Najpopularniejsze

Darmowe konto

30-sekundowy limit dźwięku
Zarówno "full" jak i "dalej" ustawień
256 / 512 px wyjście
GFPGAN wzmacniacz twarzy

Zarejestruj się za darmo

Prof.

5-minutowy limit dźwięku
Priorytet kolejki GPU
Dostęp API (wysyłanie wieloczęściowe)
Powrotne połączenia do zakończenia programu Webhook
Stosowanie handlowe (z licencji MIT)

Uaktualnij

Często zadawane pytania

Wyślij zdjęcie twarzy i klip audio, a AI generuje wideo tej twarzy mówące audio z realistycznymi ruchami ust, pozycją głowy i mruganiem. Wbudowany na SadTalker (CVPR 2023), model gadający z licencją MIT, który animuje wyrażenie oprócz kształtu ustnego.

Wejście na twarz może być obrazem JPG lub PNG (do 10 MB) lub krótkim wideo kierowcy MP4/WebM (używamy pierwszej ramki). Audio kierowcy może być MP3, WAV, M4A lub FLAC do 10 MB. Przebieramy dźwięk do 16 kHz wewnętrznie.

Bezpłatne konta: do 30 sekund na klip. Płacenie użytkowników: do 5 minut na żądanie. Długiej audio oznacza dłuższy czas przetwarzania i wyższe koszty charakteru.

Synchronizacja lip wideo wykorzystuje 1000 znaków na sekundę generowanego wideo. 30-sekundowy klip = 30 000 znaków. Koszt jest rozliczany z przodu od salda charakteru i zwraca automatycznie, jeśli generacja nie wyjdzie.

Tak — SadTalker kod i wagi są licencjonowane MIT koniec do końca (nie Llama, Gemma, lub niekomercyjne kręgosłup). Filmy, które generujesz są twoje do użytku komercyjnego. Jesteś odpowiedzialny za posiadanie praw do obrazu źródłowego twarzy i audio, które przesyłasz.

Około 30 sekund na 5-sekundowy klip na naszym serwerze A100, skalowanie w przybliżeniu liniowe z długością dźwięku. Włączenie wzmacniacza twarzy GFPGAN w przybliżeniu podwoi czas, ale wytwarza ostrsze, wyższej jakości wyjścia.

Pełne ustawienie (domyślne) animuje pozycję głowy, mruganie i ekspresję wraz z wargami, produkując bardziej naturalne gadanie-głowa wideo. Nadal zamyka głowę na miejscu i animuje tylko usta — przydatne, gdy chcesz stały strzał awatar.

GFPGAN jest modelem restauracji twarzy, który wzbogaca szczegóły twarzy po synchronizacji lip. Oczyszcza artefakty i sprawia, że 256-pikselowe wyjście wygląda bliżej 512. Zgrubnie podwójnie odtwarza czas, ale jest warta tego dla strzałów bohatera.

SadTalker wyświetla domyślnie 256 px. Przełącz do 512 px dla bardziej ostrego wyjścia (powolniejsze, wyższe VRAM) lub włącza wzmacniacz GFPGAN do powiększenia szczegółów twarzy. Dla najlepszych rezultatów, wyślij wysokiej jakości, dobrze oświetlone zdjęcie portretowe.

Tak. Wyślij MP4 lub WebM jako wejście twarzy i użyjemy pierwszej ramki jako tożsamości kierowcy. W celu ponownego pobierania wideo (zamiana ust na ramkę), patrz nadchodzący rurociąg Dubbing Studio wideo.

Tak. POST multipart request do /api/v1/lipsync/ z polami twarzy i dźwięku, następnie anket /api/v1/lipsync/result/?uuid= do czasu zakończenia statusu. Odpowiedź zawiera URL do wyświetlonego MP4. Dostęp do API wymaga płatnego planu.

SadTalker wykorzystuje złożenie twarzy do wykrywania i obróbki najwybitniejszej twarzy. Dla najlepszych rezultatów, wysyłanie portretu z jedną osobą centrowane, widoczne oczy i minimalne okclusion. Zdjęcia grupowe mogą przynieść nieprzewidywalne wyniki.

5.0/5 (1)

Gotowy do rozpoczęcia?

Zarejestruj się za darmo i otrzymaj 50 kredytów.

Zarejestruj się za darmo Widok Cennik

AI Lip Sync generator wideo

Wyślij twarz + dźwięk

Twoja rozmowa-Głowa wideo

O SadTalker

Wskazówki na najlepsze wyniki

Plany wideo Sync Lip

Często zadawane pytania

Co robi narzędzie do synchronizacji warg AI?

Jakie formaty wejściowe są obsługiwane?

Jak długo może trwać dźwięk?

Ile to kosztuje?

Mogę użyć filmów reklamowo?

Ile czasu zajmie pokolenie?

Jaka jest różnica między "pełnym" a "dotychczasowym" ustawieniem?

Czym jest wzmacniacz GFPGAN?

Dlaczego moje wyjście wygląda niskorozdzielczo?

Czy mogę synchronizować wideo do nowego dźwięku?

Jest jakiś API?

Co jeśli moje zdjęcie twarzy ma w sobie wielu ludzi?

Gotowy do rozpoczęcia?