เครื่องสร้างวิดีโอปรับแต่งลิ้นแบบ AI
โหลดรูปหน้าและคลิปเสียง - ได้รับวิดีโอหัวพูดพร้อมกับการปรับปรุงริมฝีปาก, ท่าทางหัวและการกระพริบตาที่แท้จริง สร้างโดย SadTalker (MIT) ใช้ในทางธุรกิจได้
โหลดหน้า + เสียง
1,000 อักขระต่อวินาทีลากและวางแฟ้มของคุณที่นี่ หรือ แสดงหน้าต่าง
JPG, PNG, or short MP4/WebM. Max 10MB. One clear, well-lit face works best.แฟ้ม.mp3
0 MBลากและวางแฟ้มของคุณที่นี่ หรือ แสดงหน้าต่าง
MP3, WAV, M4A, or FLAC. Max 10MB. Free: up to 30 sec. Pro: up to 5 min.แฟ้ม.mp3
0 MBกำลังแสดงวิดีโอของคุณ โดยทั่วไปจะใช้เวลา 30 วินาทีถึง2นาที
วิดีโอหัวพูดของคุณ
เกี่ยวกับ SadTalker
SadTalker (CVPR 2023, Tencent ARC) เป็นโมเดลหัวพูดแบบโอเพนซอร์สที่ทำการเคลื่อนไหวภาพใบหน้าเดียวเพื่อพูดเสียงใด ๆ ไม่เหมือนกับแปรรูป Wav2Lip, SadTalker ยังทำการเคลื่อนไหวท่าทางหัว, กระพริบตา, และสีหน้าเพื่อผลลัพธ์ที่ธรรมชาติกว่า
โค้ดและน้ำหนักของมัน ได้รับการอนุญาตจาก MIT ตั้งแต่ต้นจนจบ ไม่มี Llama, Gemma หรือ คอมพิวเตอร์ที่ไม่ใช้ในเชิงพาณิชย์ ดังนั้นวิดีโอที่คุณสร้างขึ้น มันปลอดภัยสำหรับการใช้ในเชิงพาณิชย์
ข้อแนะนำสำหรับผลลัพธ์ที่ดีที่สุด
- ใช้ภาพถ่ายรูปภาพบุคคลที่มีคุณภาพสูง แสงสว่างดี - ตาเห็นได้ ปากปิด
- หน้าที่อยู่กลาง, สีสี่เหลี่ยม หรือ อัตราส่วนหน้าจอ 4:5 เหมาะสมที่สุด
- เสียงพูดที่สะอาด (ไม่มีดนตรี) ทำให้การปรับปรุงเสียงเรียบง่ายขึ้น
- เปิดใช้ GFPGAN สำหรับภาพถ่ายฮีโร่ - เพิ่มเวลาแสดงผลเป็นสองเท่า แต่เพิ่มรายละเอียดให้คมชัด
- ใช้ตัวเลือกตั้งค่าก่อนหน้านี้ สำหรับภาพถ่ายภาพถ่ายอวตารที่ไม่เปลี่ยนแปลง
วางแผนการถ่ายวิดีโอด้วยการปรับสมดุลลิปName
เริ่มฟรี ปรับปรุงเมื่อคุณต้องการมากกว่านี้
- ขอบเขตเสียง 30 วินาที
- ข้อมูลออกมาเป็น 256 จุดต่อนิ้ว
- ตั้งค่าก่อนใช้งาน "Still" เท่านั้น
- ไม่มีการปรับแต่งใบหน้า
- ขอบเขตเสียง 30 วินาที
- ตั้งค่าก่อนใช้งานทั้ง "เต็ม" และ "หยุด"
- ข้อมูลออกมา 256 / 512 จุดต่อนิ้ว
- ตัวเสริมหน้า GFPGAN
- จำกัดเสียง5นาที
- ความสำคัญของคิว GPU
- เข้าถึง API (อัปโหลดหลายส่วน)
- เรียกกลับการเสร็จสิ้นของ Webhook
- การใช้งานเชิงพาณิชย์ (ใบอนุญาต MIT)
คำถามที่ถามบ่อย
เราจะปรับปรุงอะไรได้บ้าง ความคิดเห็นของคุณช่วยเราแก้ไขปัญหา