Báo cáo lỗi / yêu cầu tính năng

Tạo video đồng bộ môi AIName

Tải lên một bức ảnh khuôn mặt và một đoạn nhạc — nhận một đoạn phim đầu nói với đồng bộ môi, tư thế đầu và nháy mắt thực tế. Được cung cấp bởi SadTalker (MIT). Dùng thương mại OK.

đăng ký miễn phí

Tải lên

1000 ký tự mỗi giây

1. Hình ảnh mặt hoặc Video lái xe

Kéo và thả tập tin vào đây, hoặc duyệt

JPG, PNG, or short MP4/WebM. Max 10MB. One clear, well-lit face works best.

2. Điều khiển âm thanh

Kéo và thả tập tin vào đây, hoặc duyệt

MP3, WAV, M4A, or FLAC. Max 10MB. Free: up to 30 sec. Pro: up to 5 min.

Đặt sẵn hoạt hình

Cỡ xuất

Tăng cường khuôn mặt

GFPGAN (nhanh hơn, chậm hơn)

Về SadTalker

SadTalker (CVPR 2023, Tencent ARC) là một mô hình đầu nói nguồn mở mà làm sống động một hình ảnh mặt đơn để nói bất kỳ âm thanh nào.

Mã và trọng lượng được cấp phép MIT từ đầu đến cuối - không có Llama, Gemma, hoặc xương sống phi thương mại - vì vậy các video bạn tạo ra là an toàn cho sử dụng thương mại.

Gợi ý cho kết quả tốt nhất

Dùng một chân dung chất lượng cao, ánh sáng tốt — mắt nhìn rõ, miệng đóng
Mặt ở giữa, hình vuông hoặc tỉ lệ 4: 5 hoạt động tốt nhất
Âm thanh nói sạch (không có nhạc) cho kết quả đồng bộ môi chặt hơn
Bật GFPGAN cho bắn anh hùng — tăng gấp đôi thời gian vẽ nhưng làm sắc nét chi tiết
Dùng mặc định Chụp khi muốn chụp hình nhân vật chụp chậm

Kế hoạch Video đồng bộ môiName

Bắt đầu miễn phí, nâng cấp khi cần nhiều hơn

Tự do

Giới hạn âm thanh 30 giây
Xuất 256 px
Chỉ mặc định "Still"
Không có tính năng tăng cường khuôn mặt

Nổi tiếng nhất

Tài khoản miễn phí

Giới hạn âm thanh 30 giây
Cả hai mặc định "full" và "still"
Xuất 256 / 512 px
Tăng cường khuôn mặt GFPGAN

Đăng ký miễn phí

Tốt

Giới hạn âm thanh 5 phút
Đang xếp hàng ưu tiên GPU
Truy cập API (tải lên nhiều phần)
Tìm kiếm
Dùng thương mại (giấy phép MIT)

Cập nhật

Câu hỏi thường gặp

Tải lên một bức ảnh mặt và một đoạn nhạc, và AI tạo ra một video của khuôn mặt đó nói âm thanh với chuyển động môi thực tế, tư thế đầu, và nháy mắt. Tạo trên SadTalker (CVPR 2023), một mô hình đầu nói được cấp phép bởi MIT mà hoạt hình biểu cảm bên cạnh hình dạng miệng.

Đầu vào mặt có thể là một hình ảnh JPG hoặc PNG (đến 10 MB) hoặc một video lái xe MP4/ WebM ngắn (chúng tôi dùng khung đầu tiên). Âm thanh lái xe có thể là MP3, WAV, M4A, hoặc FLAC lên đến 10 MB. Chúng tôi lấy mẫu lại âm thanh đến 16 kHz bên trong.

Tài khoản miễn phí: lên đến 30 giây mỗi đoạn. Người dùng trả tiền: lên đến 5 phút mỗi yêu cầu. Âm thanh dài hơn có nghĩa là thời gian vẽ dài hơn và chi phí nhân vật cao hơn.

Đoạn phim đồng bộ miệng sử dụng 1.000 ký tự mỗi giây của đoạn phim được tạo ra. Một đoạn phim 30 giây = 30.000 ký tự. Chi phí được tính trước từ số ký tự còn lại của bạn và được hoàn lại tự động nếu tạo ra thất bại.

Có — Mã và trọng lượng của SadTalker được cấp phép MIT từ đầu đến cuối (không có Llama, Gemma, hay phần cứng không thương mại). Các đoạn phim bạn tạo ra là của bạn để sử dụng thương mại. Bạn chịu trách nhiệm về quyền sở hữu hình ảnh gương mặt và âm thanh nguồn mà bạn tải lên.

Khoảng 30 giây cho một đoạn phim 5 giây trên máy chủ A100 của chúng tôi, tăng dần theo chiều dọc với độ dài âm thanh. Bật tính năng tăng cường khuôn mặt GFPGAN tăng gấp đôi thời gian tạo hình nhưng tạo ra kết quả sắc nét hơn, chất lượng cao hơn.

Mặc định đầy đủ (mặc định) tạo động đầu, nháy mắt, và biểu cảm cùng với môi, tạo ra một đoạn phim đầu nói tự nhiên hơn. Mặc định vẫn giữ đầu ở vị trí và chỉ tạo động miệng — hữu ích khi bạn muốn chụp hình nhân vật ổn định.

GFPGAN là một mô hình phục hồi khuôn mặt làm sắc nét các chi tiết khuôn mặt sau khi vẽ đồng bộ môi. Nó làm sạch các tác phẩm nghệ thuật và làm cho kết quả 256 điểm ảnh trông gần hơn 512. Nó làm tăng thời gian vẽ gấp đôi nhưng đáng giá cho những bức ảnh anh hùng.

SadTalker vẽ ở 256 px theo mặc định. Chuyển sang kích thước 512 px để xuất sắc hơn (chậm hơn, VRAM cao hơn) hoặc bật bộ tăng cường GFPGAN để tăng kích thước chi tiết khuôn mặt. Để có kết quả tốt nhất, tải lên một bức ảnh chân dung chất lượng cao, được chiếu sáng tốt.

Có. Tải lên một MP4 hoặc WebM như là đầu vào khuôn mặt và chúng tôi sẽ dùng khung đầu tiên như là bản sao lái. Để xem lồng tiếng lại video đầy đủ (thay thế miệng mỗi khung), xem ống dẫn video sắp tới của Dubbing Studio.

Đúng. POST một yêu cầu đa phần đến /api/v1/lipsync/ với các trường mặt và âm thanh, sau đó hỏi /api/v1/lipsync/result/?uuid= cho đến khi trạng thái là "đã hoàn thành". Phản hồi chứa một URL đến MP4 được hiển thị. Truy cập API yêu cầu một gói trả phí.

SadTalker dùng sự đối xứng khuôn mặt để phát hiện và cắt khuôn mặt nổi bật nhất. Để có kết quả tốt nhất, tải lên một chân dung với một người ở giữa, mắt nhìn thấy, và tối thiểu bị che khuất. Những bức ảnh nhóm có thể tạo ra kết quả không thể đoán trước.

5.0/5 (1)

Sẵn sàng bắt đầu chưa?

Đăng ký miễn phí và nhận 50 điểm. Không cần thẻ tín dụng.

đăng ký miễn phí Xem giá

Tạo video đồng bộ môi AIName

Tải lên

Video Talking- Head của bạn

Về SadTalker

Gợi ý cho kết quả tốt nhất

Kế hoạch Video đồng bộ môiName

Câu hỏi thường gặp

Công cụ đồng bộ môi AI làm gì?

Hỗ trợ định dạng nhập nào?

Tập âm thanh có thể dài bao lâu?

Nó có giá bao nhiêu?

Tôi có thể dùng video để thương mại không?

Số thế hệ mất bao lâu?

Sự khác biệt giữa "full" và "still" là gì?

GFPGAN là gì?

Tại sao kết quả của tôi có độ phân giải thấp?

Tôi có thể đồng bộ video với âm thanh mới không?

Có API không?

Nếu hình ảnh của tôi có nhiều người trong đó thì sao?

Sẵn sàng bắt đầu chưa?