รายงานข้อผิดพลาด / ขอฟีเจอร์ใหม่

เครื่องสร้างวิดีโอปรับแต่งลิ้นแบบ AI

โหลดรูปหน้าและคลิปเสียง - ได้รับวิดีโอหัวพูดพร้อมกับการปรับปรุงริมฝีปาก, ท่าทางหัวและการกระพริบตาที่แท้จริง สร้างโดย SadTalker (MIT) ใช้ในทางธุรกิจได้

ลงทะเบียน

เรายังไม่มีเสียง TTS ในภาษาของคุณ ช่วยเราเพิ่มเสียงของคุณด้วย! ขายเสียงของคุณ

โหลดหน้า + เสียง

1,000 อักขระต่อวินาที

1. ภาพใบหน้าหรือวิดีโอขับรถ

ลากและวางแฟ้มของคุณที่นี่ หรือ แสดงหน้าต่าง

JPG, PNG, or short MP4/WebM. Max 10MB. One clear, well-lit face works best.

2. เสียงขับ

ลากและวางแฟ้มของคุณที่นี่ หรือ แสดงหน้าต่าง

MP3, WAV, M4A, or FLAC. Max 10MB. Free: up to 30 sec. Pro: up to 5 min.

ตั้งค่าตัวเลือกการเคลื่อนไหว

ขนาดผลลัพธ์

เครื่องมือปรับแต่งใบหน้าName

GFPGAN (ชัดกว่า, ช้ากว่า)

เกี่ยวกับ SadTalker

SadTalker (CVPR 2023, Tencent ARC) เป็นโมเดลหัวพูดแบบโอเพนซอร์สที่ทำการเคลื่อนไหวภาพใบหน้าเดียวเพื่อพูดเสียงใด ๆ ไม่เหมือนกับแปรรูป Wav2Lip, SadTalker ยังทำการเคลื่อนไหวท่าทางหัว, กระพริบตา, และสีหน้าเพื่อผลลัพธ์ที่ธรรมชาติกว่า

โค้ดและน้ำหนักของมัน ได้รับการอนุญาตจาก MIT ตั้งแต่ต้นจนจบ ไม่มี Llama, Gemma หรือ คอมพิวเตอร์ที่ไม่ใช้ในเชิงพาณิชย์ ดังนั้นวิดีโอที่คุณสร้างขึ้น มันปลอดภัยสำหรับการใช้ในเชิงพาณิชย์

ข้อแนะนำสำหรับผลลัพธ์ที่ดีที่สุด

ใช้ภาพถ่ายรูปภาพบุคคลที่มีคุณภาพสูง แสงสว่างดี - ตาเห็นได้ ปากปิด
หน้าที่อยู่กลาง, สีสี่เหลี่ยม หรือ อัตราส่วนหน้าจอ 4:5 เหมาะสมที่สุด
เสียงพูดที่สะอาด (ไม่มีดนตรี) ทำให้การปรับปรุงเสียงเรียบง่ายขึ้น
เปิดใช้ GFPGAN สำหรับภาพถ่ายฮีโร่ - เพิ่มเวลาแสดงผลเป็นสองเท่า แต่เพิ่มรายละเอียดให้คมชัด
ใช้ตัวเลือกตั้งค่าก่อนหน้านี้ สำหรับภาพถ่ายภาพถ่ายอวตารที่ไม่เปลี่ยนแปลง

วางแผนการถ่ายวิดีโอด้วยการปรับสมดุลลิปName

เริ่มฟรี ปรับปรุงเมื่อคุณต้องการมากกว่านี้

ว่าง

ขอบเขตเสียง 30 วินาที
ข้อมูลออกมาเป็น 256 จุดต่อนิ้ว
ตั้งค่าก่อนใช้งาน "Still" เท่านั้น
ไม่มีการปรับแต่งใบหน้า

ยอดนิยมที่สุด

บัญชีผู้ใช้ที่ว่าง

ขอบเขตเสียง 30 วินาที
ตั้งค่าก่อนใช้งานทั้ง "เต็ม" และ "หยุด"
ข้อมูลออกมา 256 / 512 จุดต่อนิ้ว
ตัวเสริมหน้า GFPGAN

ลงทะเบียน

โปร

จำกัดเสียง5นาที
ความสำคัญของคิว GPU
เข้าถึง API (อัปโหลดหลายส่วน)
เรียกกลับการเสร็จสิ้นของ Webhook
การใช้งานเชิงพาณิชย์ (ใบอนุญาต MIT)

ปรับระดับ

คำถามที่ถามบ่อย

โหลดรูปหน้าและคลิปเสียง และ AI จะสร้างวิดีโอของหน้านั้นพูดเสียงด้วยการเคลื่อนไหวริมฝีปากที่แท้จริง, ท่าทางหัว, และกระพริบตา สร้างบน SadTalker (CVPR 2023), โมเดลหัวพูดที่ได้รับใบอนุญาตจาก MIT ที่แสดงอารมณ์นอกเหนือจากรูปร่างปาก

ข้อมูลเข้าทางใบหน้าสามารถเป็นรูป JPG หรือ PNG (ขนาดสูงสุด 10 MB) หรือวิดีโอขับขี่ MP4/WebM สักระยะ (เราใช้เฟรมแรก) เสียงขับขี่สามารถเป็น MP3, WAV, M4A หรือ FLAC ขนาดสูงสุด 10 MB เราจะรีเซ็ปต์เสียงเป็น 16 kHz ภายใน

บัญชีผู้ใช้ฟรี: สูงสุด 30 วินาทีต่อคลิป ส่วนผู้ใช้จ่าย: สูงสุด5นาทีต่อคำร้อง เสียงยิ่งยาว ยิ่งใช้เวลาในการแสดงผลยิ่งนาน และค่าตัวอักษรก็ยิ่งสูง

วิดีโอ Lip Sync ใช้ 1,000 ตัวอักษรต่อวินาทีของวิดีโอที่สร้างขึ้น คลิป 30 วินาที = 30,000 ตัวอักษร ค่าใช้จ่ายจะถูกเรียกเก็บก่อนหน้านี้จากสภาพตัวอักษรของคุณ และจะคืนเงินให้โดยอัตโนมัติหากการสร้างล้มเหลว

ใช่ — โค้ดและน้ำหนักของ SadTalker ได้รับการอนุญาตจาก MIT ตั้งแต่ต้นจนจบ (ไม่มี Llama, Gemma หรือ backbone ที่ไม่ใช้ในเชิงพาณิชย์) วิดีโอที่คุณสร้างขึ้นเป็นของคุณเพื่อใช้ในเชิงพาณิชย์ คุณต้องรับผิดชอบในการมีสิทธิ์ในการใช้ภาพหน้าและเสียงที่คุณอัปโหลด

ประมาณ 30 วินาทีสำหรับคลิป5วินาทีบนเซิร์ฟเวอร์ A100 ของเรา ปรับขนาดโดยประมาณเป็นเส้นตรง กับความยาวของเสียง การเปิดใช้งาน GFPGAN face enhancer ประมาณสองเท่าของเวลาการแสดงผล แต่ผลิตผลที่คมชัดและคุณภาพสูงขึ้น

ตั้งค่าแบบเต็ม (ปริยาย) จะทำการเคลื่อนไหวของตำแหน่งหัว กระพริบตา และสีหน้าพร้อมกับริมฝีปาก ทำให้เกิดภาพวิดีโอที่พูดได้เหมือนจริงมากขึ้น ตั้งค่าแบบยืนยัน จะล็อคหัวไว้ในตำแหน่งเดิม และทำการเคลื่อนไหวเพียงปากเท่านั้น - เหมาะกับการถ่ายภาพอวตารที่คงที่

GFPGAN เป็นโมเดลการฟื้นฟูใบหน้าที่ทำให้รายละเอียดของใบหน้าคมชัดขึ้นหลังจากการแสดงผลลิปซินคอน มันทำความสะอาดสิ่งผิดปกติและทำให้ผลลัพธ์ 256 พิกเซล ดูใกล้เคียงกับ 512 มันจะทำให้เวลาแสดงผลเป็นสองเท่า แต่ก็คุ้มค่าสำหรับภาพวีรบุรุษ

SadTalker แสดงผลที่ 256 พิกเซลโดยปริยาย เปลี่ยนเป็นขนาด 512 พิกเซล เพื่อแสดงผลที่คมชัดกว่า (ช้ากว่า, VRAM สูงกว่า) หรือเปิดตัวปรับปรุง GFPGAN เพื่อปรับขนาดรายละเอียดของใบหน้า หากต้องการผลลัพธ์ที่ดีที่สุด ให้อัปโหลดภาพถ่ายรูปหน้าที่มีคุณภาพสูงและแสงสว่างดี

ใช่ โหลด MP4 หรือ WebM เป็นข้อมูลเข้าทางใบหน้า และเราจะใช้เฟรมแรกเป็นตัวตนในการขับขี่ สำหรับการดัดเสียงวิดีโอเต็มรูปแบบ (การเปลี่ยนปากต่อเฟรม) โปรดดูท่อวิดีโอ Dubbing Studio ที่กำลังจะมาถึง

ใช่ ทำการ POST คำขอหลายส่วนไปยัง /api/v1/lipsync/ พร้อมกับช่องข้อมูลหน้าและเสียง จากนั้นโพลล์ /api/v1/lipsync/result/?uuid= จนกว่าสถานะจะ "เสร็จสิ้น" การตอบรับจะประกอบด้วย URL ของ MP4 ที่แสดงผล ในการเข้าถึง API จำเป็นต้องใช้แพ็คเกจที่จ่ายเงิน

SadTalker ใช้การจัดเรียงใบหน้าเพื่อตรวจจับและตัดภาพใบหน้าที่โดดเด่นที่สุด หากต้องการผลลัพธ์ที่ดีที่สุด ให้อัปโหลดภาพถ่ายรูปคนที่อยู่ตรงกลาง ตาเห็นได้ และมีรอยแผลเป็นน้อยที่สุด ภาพกลุ่มอาจจะทำให้เกิดผลลัพธ์ที่ไม่คาดคิดได้

5.0/5 (1)

พร้อมจะเริ่มไหม?

ลงทะเบียนฟรีและได้รับ 50 เครดิต ไม่จำเป็นต้องใช้บัตรเครดิต

ลงทะเบียน แสดงราคา

เครื่องสร้างวิดีโอปรับแต่งลิ้นแบบ AI

โหลดหน้า + เสียง

วิดีโอหัวพูดของคุณ

เกี่ยวกับ SadTalker

ข้อแนะนำสำหรับผลลัพธ์ที่ดีที่สุด

วางแผนการถ่ายวิดีโอด้วยการปรับสมดุลลิปName

คำถามที่ถามบ่อย

เครื่องมือปรับปากอัจฉริยะทำอะไร

รองรับรูปแบบข้อมูลใดบ้าง?

เสียงจะยาวแค่ไหน

มันมีราคาเท่าไหร่

ผมใช้วิดีโอนี้เพื่อการค้าได้ไหม

ใช้เวลานานแค่ไหนในการสร้าง?

ความแตกต่างระหว่าง "เต็ม" และ "สงบ" ก่อนตั้งค่าคืออะไร?

อะไรคือตัวเสริม GFPGAN

ทำไมผลลัพธ์ของฉันดูเหมือนความละเอียดต่ำ?

ผมสามารถปรับเสียงวิดีโอให้เข้ากับเสียงใหม่ได้ไหม

มี API มั้ย

ถ้ารูปหน้าฉันมีคนหลายคนในนั้นล่ะ

พร้อมจะเริ่มไหม?