Báo cáo lỗi / yêu cầu tính năng

Tạo video đồng bộ môi AIName

Tải lên một bức ảnh khuôn mặt và một đoạn nhạc — nhận một đoạn phim đầu nói với đồng bộ môi, tư thế đầu và nháy mắt thực tế. Được cung cấp bởi SadTalker (MIT). Dùng thương mại OK.

Tải lên

1000 ký tự mỗi giây

Kéo và thả tập tin vào đây, hoặc duyệt

JPG, PNG, or short MP4/WebM. Max 10MB. One clear, well-lit face works best.

file.mp3

0 MB

Kéo và thả tập tin vào đây, hoặc duyệt

MP3, WAV, M4A, or FLAC. Max 10MB. Free: up to 30 sec. Pro: up to 5 min.

file.mp3

0 MB

Đang xử lý...

Đang vẽ video. Thông thường mất 30 giây đến 2 phút.

Video Talking- Head của bạn

Tải về MP4

Về SadTalker

SadTalker (CVPR 2023, Tencent ARC) là một mô hình đầu nói nguồn mở mà làm sống động một hình ảnh mặt đơn để nói bất kỳ âm thanh nào.

Mã và trọng lượng được cấp phép MIT từ đầu đến cuối - không có Llama, Gemma, hoặc xương sống phi thương mại - vì vậy các video bạn tạo ra là an toàn cho sử dụng thương mại.

Gợi ý cho kết quả tốt nhất

  • Dùng một chân dung chất lượng cao, ánh sáng tốt — mắt nhìn rõ, miệng đóng
  • Mặt ở giữa, hình vuông hoặc tỉ lệ 4: 5 hoạt động tốt nhất
  • Âm thanh nói sạch (không có nhạc) cho kết quả đồng bộ môi chặt hơn
  • Bật GFPGAN cho bắn anh hùng — tăng gấp đôi thời gian vẽ nhưng làm sắc nét chi tiết
  • Dùng mặc định Chụp khi muốn chụp hình nhân vật chụp chậm

Kế hoạch Video đồng bộ môiName

Bắt đầu miễn phí, nâng cấp khi cần nhiều hơn

Tự do
  • Giới hạn âm thanh 30 giây
  • Xuất 256 px
  • Chỉ mặc định "Still"
  • Không có tính năng tăng cường khuôn mặt
Nổi tiếng nhất
Tài khoản miễn phí
  • Giới hạn âm thanh 30 giây
  • Cả hai mặc định "full" và "still"
  • Xuất 256 / 512 px
  • Tăng cường khuôn mặt GFPGAN
Đăng ký miễn phí
Tốt
  • Giới hạn âm thanh 5 phút
  • Đang xếp hàng ưu tiên GPU
  • Truy cập API (tải lên nhiều phần)
  • Tìm kiếm
  • Dùng thương mại (giấy phép MIT)
Cập nhật

Câu hỏi thường gặp

Tải lên một bức ảnh mặt và một đoạn nhạc, và AI tạo ra một video của khuôn mặt đó nói âm thanh với chuyển động môi thực tế, tư thế đầu, và nháy mắt. Tạo trên SadTalker (CVPR 2023), một mô hình đầu nói được cấp phép bởi MIT mà hoạt hình biểu cảm bên cạnh hình dạng miệng.

Đầu vào mặt có thể là một hình ảnh JPG hoặc PNG (đến 10 MB) hoặc một video lái xe MP4/ WebM ngắn (chúng tôi dùng khung đầu tiên). Âm thanh lái xe có thể là MP3, WAV, M4A, hoặc FLAC lên đến 10 MB. Chúng tôi lấy mẫu lại âm thanh đến 16 kHz bên trong.

Tài khoản miễn phí: lên đến 30 giây mỗi đoạn. Người dùng trả tiền: lên đến 5 phút mỗi yêu cầu. Âm thanh dài hơn có nghĩa là thời gian vẽ dài hơn và chi phí nhân vật cao hơn.

Đoạn phim đồng bộ miệng sử dụng 1.000 ký tự mỗi giây của đoạn phim được tạo ra. Một đoạn phim 30 giây = 30.000 ký tự. Chi phí được tính trước từ số ký tự còn lại của bạn và được hoàn lại tự động nếu tạo ra thất bại.

Có — Mã và trọng lượng của SadTalker được cấp phép MIT từ đầu đến cuối (không có Llama, Gemma, hay phần cứng không thương mại). Các đoạn phim bạn tạo ra là của bạn để sử dụng thương mại. Bạn chịu trách nhiệm về quyền sở hữu hình ảnh gương mặt và âm thanh nguồn mà bạn tải lên.

Khoảng 30 giây cho một đoạn phim 5 giây trên máy chủ A100 của chúng tôi, tăng dần theo chiều dọc với độ dài âm thanh. Bật tính năng tăng cường khuôn mặt GFPGAN tăng gấp đôi thời gian tạo hình nhưng tạo ra kết quả sắc nét hơn, chất lượng cao hơn.

Mặc định đầy đủ (mặc định) tạo động đầu, nháy mắt, và biểu cảm cùng với môi, tạo ra một đoạn phim đầu nói tự nhiên hơn. Mặc định vẫn giữ đầu ở vị trí và chỉ tạo động miệng — hữu ích khi bạn muốn chụp hình nhân vật ổn định.

GFPGAN là một mô hình phục hồi khuôn mặt làm sắc nét các chi tiết khuôn mặt sau khi vẽ đồng bộ môi. Nó làm sạch các tác phẩm nghệ thuật và làm cho kết quả 256 điểm ảnh trông gần hơn 512. Nó làm tăng thời gian vẽ gấp đôi nhưng đáng giá cho những bức ảnh anh hùng.

SadTalker vẽ ở 256 px theo mặc định. Chuyển sang kích thước 512 px để xuất sắc hơn (chậm hơn, VRAM cao hơn) hoặc bật bộ tăng cường GFPGAN để tăng kích thước chi tiết khuôn mặt. Để có kết quả tốt nhất, tải lên một bức ảnh chân dung chất lượng cao, được chiếu sáng tốt.

Có. Tải lên một MP4 hoặc WebM như là đầu vào khuôn mặt và chúng tôi sẽ dùng khung đầu tiên như là bản sao lái. Để xem lồng tiếng lại video đầy đủ (thay thế miệng mỗi khung), xem ống dẫn video sắp tới của Dubbing Studio.

Đúng. POST một yêu cầu đa phần đến /api/v1/lipsync/ với các trường mặt và âm thanh, sau đó hỏi /api/v1/lipsync/result/?uuid= cho đến khi trạng thái là "đã hoàn thành". Phản hồi chứa một URL đến MP4 được hiển thị. Truy cập API yêu cầu một gói trả phí.

SadTalker dùng sự đối xứng khuôn mặt để phát hiện và cắt khuôn mặt nổi bật nhất. Để có kết quả tốt nhất, tải lên một chân dung với một người ở giữa, mắt nhìn thấy, và tối thiểu bị che khuất. Những bức ảnh nhóm có thể tạo ra kết quả không thể đoán trước.
5.0/5 (1)

Chúng tôi có thể cải thiện gì? phản hồi của bạn giúp chúng tôi khắc phục vấn đề.

Sẵn sàng bắt đầu chưa?

Đăng ký miễn phí và nhận 50 điểm. Không cần thẻ tín dụng.