버그 보고 / 기능 요청

AI 입술 동기화 비디오 생성기

얼굴 사진과 오디오 클립을 업로드하면 현실적인 입술 동기화, 머리 포즈, 눈 깜짝 놀랄 머리로 대화하는 비디오를 얻을 수 있습니다. SadTalker (MIT)에 의해 구동. 상업적 사용 OK.

무료로 가입하기

얼굴 + 오디오 업로드

초당 1,000자

1. 얼굴 이미지 또는 운전 비디오

여기에 파일을 드래그 앤 드롭하거나 찾아보기

JPG, PNG, or short MP4/WebM. Max 10MB. One clear, well-lit face works best.

2. 오디오 드라이브

여기에 파일을 드래그 앤 드롭하거나 찾아보기

MP3, WAV, M4A, or FLAC. Max 10MB. Free: up to 30 sec. Pro: up to 5 min.

애니메이션 사전 설정

출력 크기

얼굴 향상기

GFPGAN (보다 선명하고 느리게)

SadTalker에 대하여

SadTalker (CVPR 2023, Tencent ARC)는 어떤 오디오도 말할 수 있도록 단일 얼굴 이미지를 애니메이션하는 오픈 소스 토킹 헤드 모델입니다. Wav2Lip 변형과 달리 SadTalker는 머리 포즈, 깜박임, 표정을 애니메이션하여 더 자연스러운 결과를 얻을 수 있습니다.

코드와 가중치는 라마, 젬마 또는 비상업적 백본이 없으므로 MIT 라이센스를 받아 상업적 사용에 안전합니다.

최상의 결과를 위한 팁

눈이 보이고 입이 닫힌 고품질의 조명이 잘 맞는 인물 사진을 사용하세요.
중앙에 얼굴, 사각형 또는 4:5 화면 비율이 가장 적합합니다.
청결한 음성 오디오(음악 없음)로 립 동기화가 더욱 밀접해집니다.
영웅 샷에 대한 GFPGAN 활성화 - 렌더링 시간을 두 배로 늘리지만 세부 사항을 날카롭게 만듭니다.
아바타를 안정적으로 촬영하려면 스틸 사전 설정을 사용하십시오.

입술 동기화 비디오 계획

무료로 시작하고 필요할 때 업그레이드하세요

자유

30초 오디오 제한
256 px 출력
"정지" 미리 설정만
얼굴 향상 없음

가장 인기 있는

무료 계정

30초 오디오 제한
"full"과 "still" 사전 설정 모두
256 / 512 px 출력
GFPGAN 얼굴 향상제

무료로 가입하세요

프로

5분 오디오 제한
우선순위 GPU 큐
API 액세스(다중 파트 업로드)
웹훅 완성 콜백
상업적 사용 (MIT 라이선스)

업그레이드

자주 묻는 질문

얼굴 사진과 오디오 클립을 업로드하면 AI가 사실적인 입술 움직임, 머리 포즈, 눈깜짝할 사이에 오디오를 말하는 얼굴의 비디오를 생성합니다. SadTalker(CVPR 2023)에 기반을 두고 있으며, 이는 입 모양 외에도 표정을 애니메이션화하는 MIT 라이센스 언어 머리 모델입니다.

얼굴 입력은 JPG 또는 PNG 이미지(최대 10MB) 또는 짧은 MP4/WebM 운전 비디오(첫 번째 프레임을 사용)일 수 있습니다. 운전 오디오는 최대 10MB의 MP3, WAV, M4A 또는 FLAC일 수 있습니다. 내부적으로 오디오를 16kHz로 리샘플링합니다.

무료 계정: 클립당 최대 30초 유료 사용자: 요청당 최대 5분 오디오 길이가 길면 렌더링 시간이 길고 캐릭터 비용이 높습니다.

입술 동기화 비디오는 생성된 비디오의 초당 1,000자를 사용합니다. 30초 클립 = 30,000자. 비용은 캐릭터 잔액에서 사전에 청구되며 생성에 실패하면 자동으로 환불됩니다.

예 — SadTalker 코드와 무게는 MIT 라이센스 끝까지 (없는 라마, Gemma, 또는 비상업적 백본). 당신이 생성하는 동영상은 상업적으로 사용할 수 있습니다. 당신은 당신이 업로드 소스 얼굴 이미지와 오디오에 대한 권리를 가지고 책임이 있습니다.

A100 서버에서 5초 클립을 렌더링하는 데 약 30초가 소요되며, 오디오 길이에 따라 대략 선형적으로 확장됩니다. GFPGAN 얼굴 향상기를 사용하면 렌더링 시간이 대략 두 배로 늘어나지만 더 선명하고 높은 품질의 출력을 생성합니다.

풀 사전 설정(기본)은 입술과 함께 머리 포즈, 깜박임, 표정을 애니메이션화하여 보다 자연스러운 머리 대화 동영상을 생성합니다. 스틸 사전 설정은 머리를 그 자리에 고정하고 입만 애니메이션화합니다.

GFPGAN은 입술 동기화 렌더링 후 얼굴 세부 사항을 선명하게 만드는 얼굴 복원 모델입니다. 이 모델은 아티팩트를 정리하고 256 픽셀 출력을 512 픽셀에 가까운 것으로 만들어 렌더링 시간을 대략 두 배로 줄이지만 영웅 샷을 위해서는 그만한 가치가 있습니다.

SadTalker는 기본적으로 256 px로 렌더링합니다. 더 선명한 출력을 위해 512 px로 전환하거나 GFPGAN 향상기를 사용하여 얼굴 세부 사항을 업스케일하십시오. 최상의 결과를 위해 고품질의 잘 조명된 인물 사진을 업로드하십시오.

얼굴 입력으로 MP4 또는 WebM을 업로드하면 첫 번째 프레임을 드라이빙 ID로 사용합니다. 전체 비디오 재다큐멘터리(프레임당 입 대체)에 대해서는 곧 출시되는 Dubbing Studio 비디오 파이프라인을 참조하십시오.

예. 얼굴 및 오디오 필드가 포함된 다중 요청을 /api/v1/lipsync/로 POST한 다음 상태가 "완료"될 때까지 /api/v1/lipsync/result/?uuid=를 폴링합니다. 응답에는 렌더링된 MP4의 URL이 포함됩니다. API 액세스에는 유료 플랜이 필요합니다.

SadTalker는 얼굴 정렬 기능을 사용하여 가장 눈에 띄는 얼굴을 감지하고 자릅니다. 최상의 결과를 위해 한 사람이 중앙에 있고 눈이 보이고 최소한의 눈꺼풀이 덮여 있는 인물 사진을 업로드하십시오. 그룹 사진은 예측할 수없는 결과를 얻을 수 있습니다.

5.0/5 (1)

시작할 준비가 되셨습니까?

무료로 가입하고 50 크레딧을 받으세요. 신용카드 필요 없음.

무료로 가입하기 가격 정보 보기

AI 입술 동기화 비디오 생성기

얼굴 + 오디오 업로드

귀하의 토킹 헤드 비디오

SadTalker에 대하여

최상의 결과를 위한 팁

입술 동기화 비디오 계획

자주 묻는 질문

AI 입술 동기화 도구는 무엇을 할까요?

어떤 입력 형식이 지원됩니까?

오디오는 얼마나 길 수 있습니까?

얼마나 드나요?

동영상을 상업적으로 사용할 수 있습니까?

생성하는 데 얼마나 걸립니까?

"풀"과 "스틸" 사전 설정의 차이점은 무엇입니까?

GFPGAN 증폭기란 무엇인가?

내 출력이 왜 저해상도로 보이나요?

비디오를 새 오디오로 입술 동기화할 수 있습니까?

API가 있습니까?

내 얼굴 사진에 여러 명의 사람이 포함되어 있는 경우 어떻게 합니까?

시작할 준비가 되셨습니까?