เครื่องสร้างวิดีโอปรับแต่งลิ้นแบบ AI

โหลดรูปหน้าและคลิปเสียง - ได้รับวิดีโอหัวพูดพร้อมกับการปรับปรุงริมฝีปาก, ท่าทางหัวและการกระพริบตาที่แท้จริง สร้างโดย SadTalker (MIT) ใช้ในทางธุรกิจได้

เรายังไม่มีเสียง TTS ในภาษาของคุณ ช่วยเราเพิ่มเสียงของคุณด้วย! ขายเสียงของคุณ

โหลดหน้า + เสียง

1,000 อักขระต่อวินาที

ลากและวางแฟ้มของคุณที่นี่ หรือ แสดงหน้าต่าง

JPG, PNG, or short MP4/WebM. Max 10MB. One clear, well-lit face works best.

แฟ้ม.mp3

0 MB

ลากและวางแฟ้มของคุณที่นี่ หรือ แสดงหน้าต่าง

MP3, WAV, M4A, or FLAC. Max 10MB. Free: up to 30 sec. Pro: up to 5 min.

แฟ้ม.mp3

0 MB

กำลังประมวลผล...

กำลังแสดงวิดีโอของคุณ โดยทั่วไปจะใช้เวลา 30 วินาทีถึง2นาที

วิดีโอหัวพูดของคุณ

ดาวน์โหลด

เกี่ยวกับ SadTalker

SadTalker (CVPR 2023, Tencent ARC) เป็นโมเดลหัวพูดแบบโอเพนซอร์สที่ทำการเคลื่อนไหวภาพใบหน้าเดียวเพื่อพูดเสียงใด ๆ ไม่เหมือนกับแปรรูป Wav2Lip, SadTalker ยังทำการเคลื่อนไหวท่าทางหัว, กระพริบตา, และสีหน้าเพื่อผลลัพธ์ที่ธรรมชาติกว่า

โค้ดและน้ำหนักของมัน ได้รับการอนุญาตจาก MIT ตั้งแต่ต้นจนจบ ไม่มี Llama, Gemma หรือ คอมพิวเตอร์ที่ไม่ใช้ในเชิงพาณิชย์ ดังนั้นวิดีโอที่คุณสร้างขึ้น มันปลอดภัยสำหรับการใช้ในเชิงพาณิชย์

ข้อแนะนำสำหรับผลลัพธ์ที่ดีที่สุด

  • ใช้ภาพถ่ายรูปภาพบุคคลที่มีคุณภาพสูง แสงสว่างดี - ตาเห็นได้ ปากปิด
  • หน้าที่อยู่กลาง, สีสี่เหลี่ยม หรือ อัตราส่วนหน้าจอ 4:5 เหมาะสมที่สุด
  • เสียงพูดที่สะอาด (ไม่มีดนตรี) ทำให้การปรับปรุงเสียงเรียบง่ายขึ้น
  • เปิดใช้ GFPGAN สำหรับภาพถ่ายฮีโร่ - เพิ่มเวลาแสดงผลเป็นสองเท่า แต่เพิ่มรายละเอียดให้คมชัด
  • ใช้ตัวเลือกตั้งค่าก่อนหน้านี้ สำหรับภาพถ่ายภาพถ่ายอวตารที่ไม่เปลี่ยนแปลง

วางแผนการถ่ายวิดีโอด้วยการปรับสมดุลลิปName

เริ่มฟรี ปรับปรุงเมื่อคุณต้องการมากกว่านี้

ว่าง
  • ขอบเขตเสียง 30 วินาที
  • ข้อมูลออกมาเป็น 256 จุดต่อนิ้ว
  • ตั้งค่าก่อนใช้งาน "Still" เท่านั้น
  • ไม่มีการปรับแต่งใบหน้า
ยอดนิยมที่สุด
บัญชีผู้ใช้ที่ว่าง
  • ขอบเขตเสียง 30 วินาที
  • ตั้งค่าก่อนใช้งานทั้ง "เต็ม" และ "หยุด"
  • ข้อมูลออกมา 256 / 512 จุดต่อนิ้ว
  • ตัวเสริมหน้า GFPGAN
ลงทะเบียน
โปร
  • จำกัดเสียง5นาที
  • ความสำคัญของคิว GPU
  • เข้าถึง API (อัปโหลดหลายส่วน)
  • เรียกกลับการเสร็จสิ้นของ Webhook
  • การใช้งานเชิงพาณิชย์ (ใบอนุญาต MIT)
ปรับระดับ

คำถามที่ถามบ่อย

โหลดรูปหน้าและคลิปเสียง และ AI จะสร้างวิดีโอของหน้านั้นพูดเสียงด้วยการเคลื่อนไหวริมฝีปากที่แท้จริง, ท่าทางหัว, และกระพริบตา สร้างบน SadTalker (CVPR 2023), โมเดลหัวพูดที่ได้รับใบอนุญาตจาก MIT ที่แสดงอารมณ์นอกเหนือจากรูปร่างปาก

ข้อมูลเข้าทางใบหน้าสามารถเป็นรูป JPG หรือ PNG (ขนาดสูงสุด 10 MB) หรือวิดีโอขับขี่ MP4/WebM สักระยะ (เราใช้เฟรมแรก) เสียงขับขี่สามารถเป็น MP3, WAV, M4A หรือ FLAC ขนาดสูงสุด 10 MB เราจะรีเซ็ปต์เสียงเป็น 16 kHz ภายใน

บัญชีผู้ใช้ฟรี: สูงสุด 30 วินาทีต่อคลิป ส่วนผู้ใช้จ่าย: สูงสุด5นาทีต่อคำร้อง เสียงยิ่งยาว ยิ่งใช้เวลาในการแสดงผลยิ่งนาน และค่าตัวอักษรก็ยิ่งสูง

วิดีโอ Lip Sync ใช้ 1,000 ตัวอักษรต่อวินาทีของวิดีโอที่สร้างขึ้น คลิป 30 วินาที = 30,000 ตัวอักษร ค่าใช้จ่ายจะถูกเรียกเก็บก่อนหน้านี้จากสภาพตัวอักษรของคุณ และจะคืนเงินให้โดยอัตโนมัติหากการสร้างล้มเหลว

ใช่ — โค้ดและน้ำหนักของ SadTalker ได้รับการอนุญาตจาก MIT ตั้งแต่ต้นจนจบ (ไม่มี Llama, Gemma หรือ backbone ที่ไม่ใช้ในเชิงพาณิชย์) วิดีโอที่คุณสร้างขึ้นเป็นของคุณเพื่อใช้ในเชิงพาณิชย์ คุณต้องรับผิดชอบในการมีสิทธิ์ในการใช้ภาพหน้าและเสียงที่คุณอัปโหลด

ประมาณ 30 วินาทีสำหรับคลิป5วินาทีบนเซิร์ฟเวอร์ A100 ของเรา ปรับขนาดโดยประมาณเป็นเส้นตรง กับความยาวของเสียง การเปิดใช้งาน GFPGAN face enhancer ประมาณสองเท่าของเวลาการแสดงผล แต่ผลิตผลที่คมชัดและคุณภาพสูงขึ้น

ตั้งค่าแบบเต็ม (ปริยาย) จะทำการเคลื่อนไหวของตำแหน่งหัว กระพริบตา และสีหน้าพร้อมกับริมฝีปาก ทำให้เกิดภาพวิดีโอที่พูดได้เหมือนจริงมากขึ้น ตั้งค่าแบบยืนยัน จะล็อคหัวไว้ในตำแหน่งเดิม และทำการเคลื่อนไหวเพียงปากเท่านั้น - เหมาะกับการถ่ายภาพอวตารที่คงที่

GFPGAN เป็นโมเดลการฟื้นฟูใบหน้าที่ทำให้รายละเอียดของใบหน้าคมชัดขึ้นหลังจากการแสดงผลลิปซินคอน มันทำความสะอาดสิ่งผิดปกติและทำให้ผลลัพธ์ 256 พิกเซล ดูใกล้เคียงกับ 512 มันจะทำให้เวลาแสดงผลเป็นสองเท่า แต่ก็คุ้มค่าสำหรับภาพวีรบุรุษ

SadTalker แสดงผลที่ 256 พิกเซลโดยปริยาย เปลี่ยนเป็นขนาด 512 พิกเซล เพื่อแสดงผลที่คมชัดกว่า (ช้ากว่า, VRAM สูงกว่า) หรือเปิดตัวปรับปรุง GFPGAN เพื่อปรับขนาดรายละเอียดของใบหน้า หากต้องการผลลัพธ์ที่ดีที่สุด ให้อัปโหลดภาพถ่ายรูปหน้าที่มีคุณภาพสูงและแสงสว่างดี

ใช่ โหลด MP4 หรือ WebM เป็นข้อมูลเข้าทางใบหน้า และเราจะใช้เฟรมแรกเป็นตัวตนในการขับขี่ สำหรับการดัดเสียงวิดีโอเต็มรูปแบบ (การเปลี่ยนปากต่อเฟรม) โปรดดูท่อวิดีโอ Dubbing Studio ที่กำลังจะมาถึง

ใช่ ทำการ POST คำขอหลายส่วนไปยัง /api/v1/lipsync/ พร้อมกับช่องข้อมูลหน้าและเสียง จากนั้นโพลล์ /api/v1/lipsync/result/?uuid= จนกว่าสถานะจะ "เสร็จสิ้น" การตอบรับจะประกอบด้วย URL ของ MP4 ที่แสดงผล ในการเข้าถึง API จำเป็นต้องใช้แพ็คเกจที่จ่ายเงิน

SadTalker ใช้การจัดเรียงใบหน้าเพื่อตรวจจับและตัดภาพใบหน้าที่โดดเด่นที่สุด หากต้องการผลลัพธ์ที่ดีที่สุด ให้อัปโหลดภาพถ่ายรูปคนที่อยู่ตรงกลาง ตาเห็นได้ และมีรอยแผลเป็นน้อยที่สุด ภาพกลุ่มอาจจะทำให้เกิดผลลัพธ์ที่ไม่คาดคิดได้
5.0/5 (1)

เราจะปรับปรุงอะไรได้บ้าง ความคิดเห็นของคุณช่วยเราแก้ไขปัญหา

พร้อมจะเริ่มไหม?

ลงทะเบียนฟรีและได้รับ 50 เครดิต ไม่จำเป็นต้องใช้บัตรเครดิต