วาดภาพเสียงด้วย AI

แทนที่ส่วนของเสียงด้วยเสียงที่สังเคราะห์โดย AI ที่ตรงกับเสียงรอบๆ แก้ไขการทำเสียงที่ไม่ดีโดยไม่ต้องบันทึกเสียงทั้งหมดใหม่

เรายังไม่มีเสียง TTS ในภาษาของคุณ ช่วยเราเพิ่มเสียงของคุณด้วย! ขายเสียงของคุณ

โหลดเพลงไปยัง Inpaint

500 ตัวอักษรต่อวินาทีของเสียงที่แทนที่

ลากและวางแฟ้มของคุณที่นี่ หรือ แสดงหน้าต่าง

Supports MP3, WAV, FLAC, OGG, M4A. Max 500 MB (2 GB on paid plans). Up to 10 minutes.

แฟ้ม.mp3

0 MB

ต้นฉบับเสียง - ทำการขัดเพื่อค้นหาการทำที่ไม่ดี

0.00s / 0.00s

ตั้งค่าการวาดภาพ

0 / 500 ตัวอักษร
ระยะเวลาในการผสมจุดสแปร์ ค่าปริยายคือ 80 มิลลิวินาที - การตัดที่เข้ากันได้จะรู้สึกเป็นธรรมชาติ ไม่มีเสียงกระตุ้นสองครั้ง
ลงทะเบียนฟรีเพื่อใช้การวาดภาพเสียง
กำลังวาดเสียง...

คลอนเสียง และสังเคราะห์เสียงแทน

ทำสลัก → คอลลอนเสียงรอบๆ → สปลิชด้วยการเฉือน
ใช้เวลาสักพัก ผลจะปรากฏในบัญชีของคุณ ประวัติการสร้าง เมื่อพร้อม
เสียงที่ถูกวาดไว้พร้อมใช้งาน

ก่อน (ต้นฉบับ)

หลังจาก (ถูกวาด)

ดาวน์โหลดเพลง Inpainted

การวาดภาพเสียงทำงานอย่างไร

การวาดภาพเป็นวิธีที่ใช้เสียงแทนการเติมเนื้อหาของ Photoshop เราจะคลอนเสียงจากเสียงรอบๆที่คุณเลือก สร้างบรรทัดใหม่ในเสียงนั้น และสปายมันกลับมาด้วยการเฉือนสั้นๆ

ผลลัพธ์ที่ดีที่สุด: ทิ้งเสียงที่สะอาดไว้อย่างน้อย3วินาทีก่อนที่จะแก้ไขจุด เพื่อให้เครื่องคลอนเนอร์มีวัตถุดิบที่เหมาะสม

เคล็ดลับสำหรับผลลัพธ์ที่ดีที่สุด

  • รักษาระยะที่ระบุไว้ให้แน่นเท่าที่จะทำได้ - เฉพาะการถ่ายภาพที่ไม่ดี
  • ข้อความที่ใช้แทนที่ควรจะมีขนาดเท่ากับข้อความที่ใช้แทนที่
  • ตั้งค่าภาษาให้ตรงกับแหล่งเสียงเพื่อทำการค้นหาเสียงที่ตรงกันได้ดีที่สุด
  • ปกติแล้วการเฉือนแบบ crossfade 80 มิลลิวินาที จะไม่ปรากฏให้เห็น ปรับเป็น 150 มิลลิวินาที หากคุณได้ยินเสียงคลิก
  • สำหรับการแก้ไขที่ยาว (> 10 วินาที) ลองคิดดูว่าควรบันทึกเนื้อหาทั้งหมดใหม่อีกครั้งหรือไม่

วิธีการที่ AI เสียง Inpainting ทำงาน

แก้ไขด้วยการผ่าตัด เสียงที่ตรงกัน ไม่มีการบันทึกซ้ำ

ขั้นตอนที่ 1

เพิ่มค่า

โหลดเพลงของคุณและใช้ตัวสกรูเบอร์เพื่อทำเครื่องหมายจุดเริ่ม/ จุดจบของส่วนที่คุณต้องการแทนที่ พิมพ์ข้อความแทน

ขั้นที่ 2

Name=คอลลินส์Name

เราจะดึงเสียงที่คุณเลือกมา 12 วินาที คล้ายกับเสียงของผู้พูด และสังเคราะห์คำใหม่ในเสียงนั้น

ขั้นที่ 3

ปรับแต่งการสลับสี

คลิปที่ทำการสังเคราะห์จะถูกเชื่อมต่อเข้ากับการบันทึกต้นฉบับด้วยการลดระดับความแรงที่เท่ากันที่จุดแก้ไขทั้งสองจุด ขอบเขตจะไม่สามารถฟังได้

วางแผนการวาดภาพเสียง

เริ่มฟรี ปรับปรุงเมื่อคุณต้องการมากกว่านี้

ว่าง
  • สูงสุด 10 นาที
  • ข้อความแทนที่ 500 อักขระ
  • วาดภาพ 4- วินาทีต่อคำร้อง
  • 80 มิลลิวินาที crossfade splice
  • Name=ระบบเสียง OpenVoice + CosyVoice 2
ยอดนิยมที่สุด
บัญชีผู้ใช้ที่ว่าง
  • สูงสุด 10 นาที
  • ข้อความแทนที่ 5,000 อักขระ
  • ปรับแต่งการเลือนแบบ Crossfade (0- 250 มิลวินาที)
  • ใช้แทนแบบจำลองเสียง
  • ประวัติการสร้าง + แก้ไขใหม่
ลงทะเบียน
โปร
  • สูงสุด 30 นาที
  • ข้อความแทนที่ 100,000 อักขระ
  • ความสำคัญของคิว GPU
  • เข้าถึง API (/v1/audio-inpaint/)
  • วาดเป็นกลุ่ม (หลายช่วง)
ปรับระดับ

คำถามที่ถามบ่อย

การเติมเสียง (เรียกอีกชื่อว่า การเติมเสียงหรือการโอเวอร์ดับเสียง) ช่วยให้คุณสามารถแทนที่ส่วนของการบันทึกเสียงที่มีอยู่แล้วด้วยการพูดที่สังเคราะห์โดย AI ใหม่ ซึ่งตรงกับเสียงต้นฉบับ มันเป็นเสียงที่เท่ากับการเติมเนื้อหาที่รู้จักใน Photoshop - วาดบนส่วนที่คุณไม่ต้องการ พิมพ์สิ่งที่ควรจะอยู่ตรงนั้นแทน และ AI จะสร้างการแทนที่ที่ไม่ซับซ้อน

เลือกช่วงเวลาที่จะแทนที่ พิมพ์บรรทัดใหม่ของกล่องโต้ตอบ และคลิกปักหมุด AI ของเราจะคลอนเสียงจากเสียงรอบ ๆ สิ่งที่คุณเลือก สังเคราะห์บรรทัดใหม่ในเสียงนั้น และสปายมันกลับไปยังการบันทึกของคุณด้วยการเฉือนสั้น ๆ ดังนั้นการแก้ไขจะไม่สามารถได้ยินได้

ใช้เมื่อคุณมีคำที่ไม่ดี, ออกเสียงผิด, ชื่อที่ผิด, คำสาปแช่ง, หรือข้อผิดพลาดในข้อมูลในเทคที่ดี การบันทึกคลิปเสียงทั้งหมดใหม่จะทำให้เสียงไม่ตรงกับส่วนที่เหลือของโปรเจกต์ - การวาดภาพจะแก้ไขเฉพาะสิ่งที่ต้องแก้ไขในขณะที่รักษาสระอื่นๆไว้ไม่เปลี่ยนแปลง

ผู้ใช้ฟรีสามารถใช้เวลาในการเขียนแฟ้มได้สูงสุด 10 นาที ผู้ใช้รายเดือนสามารถใช้เวลาในการเขียนแฟ้มได้สูงสุด 30 นาที ข้อความแทนที่เองมีจำนวนจำกัดอยู่ที่ 500 ตัวอักษรสำหรับผู้ใช้ฟรี, 5,000 ตัวอักษรสำหรับบัญชีผู้ใช้ฟรี และ 100,000 ตัวอักษรสำหรับบัญชีผู้ใช้ที่มีค่าใช้จ่าย

ใกล้มาก AI จะใช้เสียงที่อยู่รอบๆ จุดแก้ไขเป็นตัวอ้างอิงเสียง จำนวนสูงสุด 12 วินาที ซึ่งเพียงพอสำหรับตัวอย่างที่สามารถทำคอลลิน (OpenVoice, CosyVoice 2) ในการจับเสียงของผู้พูด ระดับเสียง และสไตล์การพูด หากต้องการผลลัพธ์ที่ดีที่สุด ให้ทิ้งเสียงที่ชัดเจนไว้อย่างน้อย3วินาที ก่อนที่คุณจะแก้ไขจุดนั้น

ใช้การเฉือนแบบ crossfading ความยาว 80 มิลลิวินาที กับทั้งสองจุดสปลิช (หัว→แทนที่ และแทนที่→ปลาย) โดยปริยาย คุณสามารถปรับค่านี้ได้ตั้งแต่ 0ms (ตัดอย่างหนัก) ถึง 250ms โดยใช้ตัวเลื่อน Crossfade การเฉือนแบบ crossfading ความยาวยิ่งมากเท่าไหร่ จะทำให้การแก้ไขดูละเอียดมากขึ้น แต่อาจทำให้ได้ยินเสียงคำที่ซ้อนกันที่ขอบเขตได้

การวาดภาพเสียงจะใช้ภาษาเดียวกันกับการคอลลินเสียง เราเลือก OpenVoice สำหรับภาษาส่วนใหญ่ และ CosyVoice 2สำหรับภาษาจีน ญี่ปุ่น และเกาหลี คุณสามารถเปลี่ยนแปลงแบบจำลองได้ในการตั้งค่าระดับสูง

คุณจะถูกเรียกเก็บค่าบริการ 500 ตัวอักษรต่อวินาทีของเสียงที่ถูกแทนที่ ค่าปรับ 4- วินาที ใช้ค่าบริการ 2,000 ตัวอักษร ค่าใช้จ่ายนี้ไม่ขึ้นอยู่กับความยาวของข้อความที่ถูกแทนที่ เพราะการสังเคราะห์โคลนที่อยู่เบื้องหลังจะถูกกำหนดโดยเวลาการทำงานของคลิปใหม่ ไม่ใช่ความยาวของข้อความ

ตามเงื่อนไขการใช้งานของเรา คุณสามารถวาดภาพเสียงที่คุณเป็นเจ้าของหรือได้รับอนุญาตให้แก้ไขได้เท่านั้น การสร้างคำอ้างที่ปลอม, เนื้อหาที่หลอกลวง หรือการเสกสรรเป็นตัวละครอื่น ๆ นั้นถูกห้าม เราจะทำสัญลักษณ์น้ำบนภาพเสียงที่สร้างขึ้น และบันทึกงานวาดภาพทั้งหมดเพื่อตรวจสอบการละเมิดสิทธิ์

การตัดคลิปจะทิ้งช่องว่างที่เห็นได้ชัดในจังหวะและลมหายใจ การเฉือนสองครั้งจะทิ้งเสียงที่ไม่ตรงกัน การเติมสีจะเติมช่องว่างด้วยการพูดที่ตรงกับเสียงรอบ ๆ ดังนั้นผู้ฟังจะได้ยินเสียงที่ต่อเนื่องและเป็นธรรมชาติ

ใช่ — POST ไปยัง /v1/audio-inpaint/ พร้อมด้วยแฟ้มเสียง, start_sec, end_sec, และ replacement_text จุดจบจะคืนค่า UUID ของงาน; ถาม /v1/speech/results/?uuid= เพื่อรับข้อมูลเสียงที่ถูกวาดเมื่อพร้อม โปรดดูเอกสาร API สำหรับรายละเอียด

ElevenLabs Speech-to-Speech สร้างเสียงใหม่จากต้นฉบับทั้งหมดในเสียงเป้าหมาย การวาดภาพเสียงของเราเป็นศัลยกรรม: มันแค่แก้ไขช่วงที่ระบุไว้ รักษาทุกไบต์ของการบันทึกต้นฉบับของคุณไว้โดยไม่กระทบ และปรับให้คลิปใหม่ตรงกับเสียงรอบๆ แทนที่จะเป็นไลบรารีเสียงแยกต่างหาก
5.0/5 (1)

เราจะปรับปรุงอะไรได้บ้าง ความคิดเห็นของคุณช่วยเราแก้ไขปัญหา

แก้ไขเสียงของคุณในไม่กี่วินาที

แทนที่ส่วนใดส่วนหนึ่งของการบันทึกด้วยเสียงสังเคราะห์ AI ที่ตรงกับเสียงต้นฉบับ ลงทะเบียนฟรีเพื่อเริ่มต้น