버그 보고 / 기능 요청

AI 입술 동기화 비디오 생성기

얼굴 사진과 오디오 클립을 업로드하면 현실적인 입술 동기화, 머리 포즈, 눈 깜짝 놀랄 머리로 대화하는 비디오를 얻을 수 있습니다. SadTalker (MIT)에 의해 구동. 상업적 사용 OK.

얼굴 + 오디오 업로드

초당 1,000자

여기에 파일을 드래그 앤 드롭하거나 찾아보기

JPG, PNG, or short MP4/WebM. Max 10MB. One clear, well-lit face works best.

음악 파일

0 MB

여기에 파일을 드래그 앤 드롭하거나 찾아보기

MP3, WAV, M4A, or FLAC. Max 10MB. Free: up to 30 sec. Pro: up to 5 min.

음악 파일

0 MB

처리 중...

비디오 렌더링. 일반적으로 30초에서 2분 정도 소요됩니다.

귀하의 토킹 헤드 비디오

MP4 다운로드

SadTalker에 대하여

SadTalker (CVPR 2023, Tencent ARC)는 어떤 오디오도 말할 수 있도록 단일 얼굴 이미지를 애니메이션하는 오픈 소스 토킹 헤드 모델입니다. Wav2Lip 변형과 달리 SadTalker는 머리 포즈, 깜박임, 표정을 애니메이션하여 더 자연스러운 결과를 얻을 수 있습니다.

코드와 가중치는 라마, 젬마 또는 비상업적 백본이 없으므로 MIT 라이센스를 받아 상업적 사용에 안전합니다.

최상의 결과를 위한 팁

  • 눈이 보이고 입이 닫힌 고품질의 조명이 잘 맞는 인물 사진을 사용하세요.
  • 중앙에 얼굴, 사각형 또는 4:5 화면 비율이 가장 적합합니다.
  • 청결한 음성 오디오(음악 없음)로 립 동기화가 더욱 밀접해집니다.
  • 영웅 샷에 대한 GFPGAN 활성화 - 렌더링 시간을 두 배로 늘리지만 세부 사항을 날카롭게 만듭니다.
  • 아바타를 안정적으로 촬영하려면 스틸 사전 설정을 사용하십시오.

입술 동기화 비디오 계획

무료로 시작하고 필요할 때 업그레이드하세요

자유
  • 30초 오디오 제한
  • 256 px 출력
  • "정지" 미리 설정만
  • 얼굴 향상 없음
가장 인기 있는
무료 계정
  • 30초 오디오 제한
  • "full"과 "still" 사전 설정 모두
  • 256 / 512 px 출력
  • GFPGAN 얼굴 향상제
무료로 가입하세요
프로
  • 5분 오디오 제한
  • 우선순위 GPU 큐
  • API 액세스(다중 파트 업로드)
  • 웹훅 완성 콜백
  • 상업적 사용 (MIT 라이선스)
업그레이드

자주 묻는 질문

얼굴 사진과 오디오 클립을 업로드하면 AI가 사실적인 입술 움직임, 머리 포즈, 눈깜짝할 사이에 오디오를 말하는 얼굴의 비디오를 생성합니다. SadTalker(CVPR 2023)에 기반을 두고 있으며, 이는 입 모양 외에도 표정을 애니메이션화하는 MIT 라이센스 언어 머리 모델입니다.

얼굴 입력은 JPG 또는 PNG 이미지(최대 10MB) 또는 짧은 MP4/WebM 운전 비디오(첫 번째 프레임을 사용)일 수 있습니다. 운전 오디오는 최대 10MB의 MP3, WAV, M4A 또는 FLAC일 수 있습니다. 내부적으로 오디오를 16kHz로 리샘플링합니다.

무료 계정: 클립당 최대 30초 유료 사용자: 요청당 최대 5분 오디오 길이가 길면 렌더링 시간이 길고 캐릭터 비용이 높습니다.

입술 동기화 비디오는 생성된 비디오의 초당 1,000자를 사용합니다. 30초 클립 = 30,000자. 비용은 캐릭터 잔액에서 사전에 청구되며 생성에 실패하면 자동으로 환불됩니다.

예 — SadTalker 코드와 무게는 MIT 라이센스 끝까지 (없는 라마, Gemma, 또는 비상업적 백본). 당신이 생성하는 동영상은 상업적으로 사용할 수 있습니다. 당신은 당신이 업로드 소스 얼굴 이미지와 오디오에 대한 권리를 가지고 책임이 있습니다.

A100 서버에서 5초 클립을 렌더링하는 데 약 30초가 소요되며, 오디오 길이에 따라 대략 선형적으로 확장됩니다. GFPGAN 얼굴 향상기를 사용하면 렌더링 시간이 대략 두 배로 늘어나지만 더 선명하고 높은 품질의 출력을 생성합니다.

풀 사전 설정(기본)은 입술과 함께 머리 포즈, 깜박임, 표정을 애니메이션화하여 보다 자연스러운 머리 대화 동영상을 생성합니다. 스틸 사전 설정은 머리를 그 자리에 고정하고 입만 애니메이션화합니다.

GFPGAN은 입술 동기화 렌더링 후 얼굴 세부 사항을 선명하게 만드는 얼굴 복원 모델입니다. 이 모델은 아티팩트를 정리하고 256 픽셀 출력을 512 픽셀에 가까운 것으로 만들어 렌더링 시간을 대략 두 배로 줄이지만 영웅 샷을 위해서는 그만한 가치가 있습니다.

SadTalker는 기본적으로 256 px로 렌더링합니다. 더 선명한 출력을 위해 512 px로 전환하거나 GFPGAN 향상기를 사용하여 얼굴 세부 사항을 업스케일하십시오. 최상의 결과를 위해 고품질의 잘 조명된 인물 사진을 업로드하십시오.

얼굴 입력으로 MP4 또는 WebM을 업로드하면 첫 번째 프레임을 드라이빙 ID로 사용합니다. 전체 비디오 재다큐멘터리(프레임당 입 대체)에 대해서는 곧 출시되는 Dubbing Studio 비디오 파이프라인을 참조하십시오.

예. 얼굴 및 오디오 필드가 포함된 다중 요청을 /api/v1/lipsync/로 POST한 다음 상태가 "완료"될 때까지 /api/v1/lipsync/result/?uuid=를 폴링합니다. 응답에는 렌더링된 MP4의 URL이 포함됩니다. API 액세스에는 유료 플랜이 필요합니다.

SadTalker는 얼굴 정렬 기능을 사용하여 가장 눈에 띄는 얼굴을 감지하고 자릅니다. 최상의 결과를 위해 한 사람이 중앙에 있고 눈이 보이고 최소한의 눈꺼풀이 덮여 있는 인물 사진을 업로드하십시오. 그룹 사진은 예측할 수없는 결과를 얻을 수 있습니다.
5.0/5 (1)

개선할 수 있는 점은 무엇입니까? 고객님의 피드백이 문제를 해결하는 데 도움이 됩니다.

시작할 준비가 되셨습니까?

무료로 가입하고 50 크레딧을 받으세요. 신용카드 필요 없음.