Biểu đồ âm thanh AI

Thay thế một phần âm thanh bằng giọng nói tổng hợp AI phù hợp với giọng nói xung quanh. Sửa một đoạn không tốt mà không cần ghi lại toàn bộ.

Tải lên âm thanh vào Inpaint

500 ký tự mỗi giây thay thế âm thanh

Kéo và thả tập tin vào đây, hoặc duyệt

Supports MP3, WAV, FLAC, OGG, M4A. Max 500 MB (2 GB on paid plans). Up to 10 minutes.

file.mp3

0 MB

Âm thanh nguồn — quét để tìm đoạn âm thanh không tốt

0.00s / 0.00s

Thiết lập Inpaint

0 / 500 chữ cái
Thời gian pha trộn các điểm nối. Mặc định là 80ms — cắt tương ứng cảm thấy tự nhiên, không có tiếng kích hoạt đôi.
Đăng ký miễn phí để sử dụng inpainting âm thanh
Đang vẽ âm thanh...

Sao chép giọng nói và tổng hợp giọng thay thế...

Slicing → clone surrounding voice → splicing with crossfade
Kết quả của anh sẽ xuất hiện trong generation history Khi sẵn sàng.
Sẵn sàng âm thanh Inpainted

Trước (Nguyên gốc)

Sau (đã sơn)

Tải về âm thanh Inpainted

Cách làm việc của Inpainting âm thanh

Inpainting là tương đương âm thanh của Photoshop' s content- aware fill. Chúng tôi sao chép giọng nói từ âm thanh xung quanh sự chọn lựa của bạn, tổng hợp dòng mới trong giọng nói đó, và ghép nó lại với một sự biến mất ngắn.

Kết quả tốt nhất: để lại ít nhất 3 giây của lời nói sạch ngay trước điểm chỉnh sửa để cloner có vật liệu tham khảo tốt.

Gợi ý cho kết quả tốt nhất

  • Giữ khoảng cách được đánh dấu càng hẹp càng tốt — chỉ những đoạn không tốt
  • Đoạn thay thế nên có chiều dài bằng với đoạn nó thay thế
  • Chọn ngôn ngữ để phù hợp với âm thanh nguồn để có giọng nói phù hợp nhất
  • 80ms crossfade thường là vô hình; tăng lên 150ms nếu bạn nghe thấy tiếng nhấn
  • Đối với các bản chỉnh sửa dài (>10s), hãy xem xét ghi lại toàn bộ đoạn thay vì

Cách làm việc của AI Audio Inpainting

Bấm máy, ghép giọng, không ghi lại.

Bước 1

Tải lên + Đánh dấu khoảng

Tải lên âm thanh của bạn và dùng thanh quét để đánh dấu bắt đầu/ kết thúc phần bạn muốn thay thế. Nhập văn bản thay thế.

Bước 2

Bản sao giọng nói + tổng hợp

Chúng tôi trích xuất 12 giây âm thanh tham chiếu sạch xung quanh sự lựa chọn của bạn, sao chép giọng nói của người nói, và tổng hợp dòng mới trong giọng nói đó.

Bước 3

Đổi màu

Clip tổng hợp được ghép vào đoạn ghi gốc với một sự biến đổi ngang bằng ở cả hai điểm biên tập. Các ranh giới không thể nghe thấy.

Kế hoạch vẽ âm thanh

Bắt đầu miễn phí, nâng cấp khi cần nhiều hơn

Tự do
  • Tập tin nguồn lên đến 10 phút
  • Đoạn thay thế 500 ký tự
  • 4 giây vẽ vào mỗi yêu cầu
  • 80ms crossfade splice
  • Hệ điều hành OpenVoice + CosyVoice 2
Nổi tiếng nhất
Tài khoản miễn phí
  • Tập tin nguồn lên đến 10 phút
  • Đoạn thay thế 5000 ký tự
  • Độ mờ dần có thể điều chỉnh (0- 250ms)
  • Bỏ qua mẫu giọng nói
  • Lịch sử tạo + sửa lại
Đăng ký miễn phí
Tốt
  • Tập tin nguồn lên đến 30 phút
  • Đoạn thay thế 100. 000 ký tự
  • Đang xếp hàng ưu tiên GPU
  • Truy cập API (/v1/audio-inpaint/)
  • Sơn theo lô (nhiều khoảng)
Cập nhật

Câu hỏi thường gặp

Inpainting âm thanh (còn gọi là lấp âm thanh hoặc lấp lời nói) cho phép bạn thay thế một phần của một bản ghi âm hiện có với lời nói mới được tổng hợp bởi AI phù hợp với giọng nói gốc. Đây là tương đương âm thanh của lấp nhận thức nội dung của Photoshop — vẽ lên phần bạn không muốn, gõ cái nên có ở đó thay vì đó, và AI tạo ra một sự thay thế không bị rối.

Đánh dấu khoảng thời gian muốn thay thế, gõ dòng mới của hộp thoại, và nhấn Inpaint. AI của chúng tôi sao chép giọng nói từ âm thanh xung quanh sự chọn lựa của bạn, tổng hợp dòng mới trong giọng nói đó, và gắn nó lại vào ghi âm của bạn với một sự biến mất ngắn ngủi để việc chỉnh sửa không thể nghe thấy.

Dùng nó khi bạn có một từ xấu, phát âm sai, tên lỗi, lời nguyền, hoặc lỗi thực tế trong một đoạn thu tốt. Để ghi lại toàn bộ đoạn thường dẫn đến sự không phù hợp âm sắc với phần còn lại của dự án — inpainting chỉ sửa những gì cần sửa trong khi giữ nguyên tất cả các âm tiết khác.

Người dùng miễn phí có thể inpaint các tập tin dài tới 10 phút. Người đăng ký có thể inpaint các tập tin dài tới 30 phút. Bản thân văn bản thay thế được giới hạn ở 500 ký tự cho người dùng miễn phí, 5. 000 cho tài khoản miễn phí, và 100. 000 cho các gói trả phí.

Rất gần. AI dùng đến 12 giây âm thanh xung quanh điểm chỉnh sửa như là tham chiếu giọng nói, đủ cho bất kỳ mô hình có khả năng sao chép nào của chúng tôi (OpenVoice, CosyVoice 2) để ghi lại âm sắc, cao độ và phong cách nói của người nói. Để có kết quả tốt nhất, hãy để lại ít nhất 3 giây nói rõ ngay trước điểm chỉnh sửa.

Chúng tôi áp dụng một sự biến mất ngang bằng 80ms ở cả hai điểm kết nối (đầu→thay thế và thay thế→đuôi) theo mặc định. Bạn có thể điều chỉnh từ 0ms (cắt cứng) đến 250ms thông qua trượt biến mất ngang. Các biến mất ngang dài hơn ẩn việc chỉnh sửa kỹ lưỡng hơn nhưng có thể hòa trộn các từ chồng chéo ở ranh giới.

Biểu tượng âm thanh theo cùng một ngôn ngữ như bản sao giọng nói. Chúng tôi chọn tự động OpenVoice cho hầu hết ngôn ngữ và CosyVoice 2 cho tiếng Trung, tiếng Nhật và tiếng Hàn. Bạn có thể thay thế mô hình trong thiết lập cao cấp.

Bạn sẽ được tính phí 500 ký tự mỗi giây âm thanh được thay thế. Một sửa chữa 4 giây tốn 2. 000 ký tự. Chi phí này không phụ thuộc vào độ dài của văn bản thay thế, vì việc tổng hợp bản sao cơ bản được giới hạn bởi thời gian chạy của đoạn phim mới, chứ không phải là độ dài của văn bản.

Theo các điều khoản dịch vụ của chúng tôi, bạn chỉ có thể inpainting âm thanh mà bạn sở hữu hoặc có quyền sửa đổi rõ ràng. Sản xuất trích dẫn giả mạo, nội dung lừa dối, hoặc giả mạo là bị cấm. Chúng tôi đánh dấu âm thanh được tạo ra và ghi lại tất cả các công việc inpainting để xem xét lạm dụng.

Cắt một đoạn phim để lại một khoảng trống đáng chú ý trong nhịp điệu và hơi thở; làm mờ hai đoạn phim lại để lại một sự không phù hợp về âm sắc. Inpainting lấp đầy khoảng trống bằng lời nói phù hợp với giọng nói xung quanh, vì vậy người nghe nghe được âm thanh liên tục, âm thanh tự nhiên.

Có — POST đến /v1/audio-inpaint/ với tập tin âm thanh, start_sec, end_sec, và replacement_text. Điểm kết thúc trả về một UUID công việc; phỏng vấn /v1/speech/results/?uuid= để lấy lại âm thanh được vẽ khi sẵn sàng. Xem tài liệu API để biết chi tiết.

ElevenLabs Speech-to-Speech tái tạo toàn bộ dòng giọng nói từ đầu trong giọng nói mục tiêu. Việc vẽ âm thanh của chúng tôi là phẫu thuật: nó chỉ sửa đổi phạm vi được đánh dấu, giữ mọi byte khác của ghi âm gốc của bạn không bị ảnh hưởng, và phù hợp với đoạn clip mới với giọng nói xung quanh thay vì một thư viện giọng nói riêng biệt.
5.0/5 (1)

Chúng tôi có thể cải thiện gì? phản hồi của bạn giúp chúng tôi khắc phục vấn đề.

Sửa âm thanh trong vài giây

Thay thế bất kỳ phần nào của bất kỳ ghi âm nào bằng giọng nói tổng hợp AI tương ứng với giọng gốc. Đăng ký miễn phí để bắt đầu.