버그 보고 / 기능 요청

AI 오디오 인페인팅

주변 음성과 일치하는 AI 합성 음성으로 오디오의 일부를 교체합니다. 전체를 다시 녹음하지 않고도 잘못된 테이크를 수정할 수 있습니다.

무료로 가입하기

Inpaint에 오디오 업로드

초당 500개의 문자가 오디오로 대체됨

여기에 파일을 드래그 앤 드롭하거나 찾아보기

Supports MP3, WAV, FLAC, OGG, M4A. Max 500 MB (2 GB on paid plans). Up to 10 minutes.

페인트 설정

시작 (초)

끝 (초)

대체 텍스트 — 간격에 표시되어야 하는 내용 0 / 500 문자

언어

크로스페이드 80 ms 스플라이스 포인트를 블렌드하는 시간. 80ms는 기본값입니다. 매치 컷은 자연스럽게 느껴지며 청각적인 더블 트리거가 없습니다.

무료로 등록하여 오디오 인페인팅을 사용하세요

오디오 인페인팅 작동 방식

Inpainting은 Photoshop의 콘텐츠 인식 채우기와 동등한 오디오 기능입니다. 선택 영역 주변의 오디오에서 음성을 복제하고, 그 음성에서 새로운 줄을 합성한 다음 짧은 크로스페이드로 다시 스플리트합니다.

최상의 결과: 클로너가 좋은 참조 자료를 가지도록 편집 지점 바로 앞에 적어도 3초의 깨끗한 음성을 남겨두십시오.

최상의 결과를 위한 팁

가능한 한 좁은 범위를 유지하십시오.
대체 텍스트는 대체하는 것과 거의 동일한 길이여야 합니다.
최상의 음성 일치를 위해 원본 오디오와 일치하는 언어 설정
80ms 크로스페이드는 보통 보이지 않습니다. 클릭 소리가 들리면 150ms로 변경합니다.
긴 편집(>10초)의 경우, 대신 전체 구절을 다시 녹음하는 것을 고려하십시오.

AI 오디오 인페인팅 작동 방식

외과적으로 편집한 음성이고 재녹음은 없어요

1단계

업로드 + 범위 표시

오디오를 업로드하고 슬라이더를 사용하여 대치할 섹션의 시작/끝을 표시합니다. 대치 텍스트를 입력합니다.

2단계

음성 복제 + 합성

선택한 부분을 둘러싼 최대 12초의 깨끗한 참조 오디오를 추출하고, 스피커의 목소리를 복제하고, 그 목소리의 새로운 줄을 합성합니다.

3단계

크로스페이드 스플라이스

합성된 클립은 두 편집 지점에서 동일한 파워의 크로스페이드를 사용하여 원본 녹음에 스플리트됩니다. 경계는 들리지 않습니다.

오디오 인페인팅 계획

무료로 시작하고 필요할 때 업그레이드하세요

자유

최대 10분 소스 파일
500자 대체 텍스트
요청당 4초의 페인트 삽입
80ms 크로스페이드 스플라이스
오픈보이스 + 코시보이스 2 백엔드

가장 인기 있는

무료 계정

최대 10분 소스 파일
5,000자 대체 텍스트
튜닝 가능한 크로스페이드(0-250ms)
음성 모델 재정의
생성 기록 + 재편집

무료로 가입하세요

프로

최대 30분 소스 파일
100,000자 대체 텍스트
우선순위 GPU 큐
API 액세스 (/v1/audio-inpaint/)
일괄 페인팅( 여러 범위)

업그레이드

자주 묻는 질문

오디오 인페인팅(오디오 필링 또는 스피치 오버듀브라고도 함)을 사용하면 기존 오디오 녹음의 일부를 원래 음성과 일치하는 새로운 AI 합성 음성으로 대체할 수 있습니다. 이 기능은 Photoshop의 콘텐츠 인식 필링과 동일한 오디오 기능입니다. 원하지 않는 부분을 페인트하고, 대신에 넣어야 하는 부분을 입력하면 AI가 원활한 대체를 생성합니다.

대체할 시간 범위를 표시하고 새로운 대화 줄을 입력한 다음 Inpaint 를 클릭합니다. 인공지능은 선택한 주변 오디오에서 음성을 복제하고, 그 음성의 새로운 줄을 합성하고, 짧은 크로스페이드를 통해 녹음에 다시 삽입하여 편집이 들리지 않도록 합니다.

음악을 녹음할 때 악의적인 단어, 발음 오류, 명칭 틀림, 욕설, 사실 오류가 있을 때 사용합니다. 전체 구절을 다시 녹음하면 종종 프로젝트의 나머지 부분과 음조가 일치하지 않습니다. 인페인팅은 고치어야 할 부분만 고치고 다른 모든 음절은 그대로 유지합니다.

무료 사용자는 최대 10분 길이의 파일을 인페인트할 수 있으며, 가입자는 최대 30분 길이의 파일을 인페인트할 수 있습니다. 대체 텍스트 자체는 무료 사용자의 경우 500자, 무료 계정의 경우 5,000자, 유료 계정의 경우 100,000자로 제한됩니다.

매우 가까운 거리. AI는 편집 주변의 최대 12초의 오디오를 음성 참조로 사용합니다. 이는 복제 기능이 있는 모델(OpenVoice, CosyVoice 2)에서 발음자의 음색, 음높이, 발음 스타일을 캡처하는 데 충분합니다. 최상의 결과를 얻으려면 편집 지점 바로 앞에 최소 3초의 깨끗한 발음을 남겨두십시오.

기본적으로 두 스플라이스 포인트(헤드→교체 및 교체→꼬리)에 80ms의 동등한 파워의 크로스페이드를 적용합니다. Crossfade 슬라이더를 통해 0ms(하드 컷)에서 250ms까지 조정할 수 있습니다. 더 긴 크로스페이드는 편집을 더 철저하게 숨기지만 경계에서 겹치는 단어를 청각적으로 혼합할 수 있습니다.

오디오 인페인팅은 음성 복제와 동일한 언어 범위를 따릅니다. 대부분의 언어에 대해 OpenVoice를 자동으로 선택하고 중국어, 일본어, 한국어에 대해 CosyVoice 2를 선택합니다. 고급 설정에서 모델을 재정의할 수 있습니다.

초당 500개의 오디오 문자가 대체되며 4초의 수정은 2,000개의 문자가 소요됩니다. 기본 클론 합성은 텍스트 길이가 아니라 새로운 클립의 실행 시간에 의해 제한되므로 대체 텍스트의 길이와는 별도로 비용이 청구됩니다.

서비스 약관에 따라, 귀하는 자신이 소유하거나 편집할 명시적인 권한이 있는 오디오만 인페인트할 수 있습니다. 가짜 인용, 기만적인 콘텐츠 또는 모방을 생성하는 것은 금지됩니다. 우리는 생성된 오디오에 워터마크를 찍고 남용 검토를 위해 모든 인페인트 작업을 로그합니다.

클립을 자르면 페이스와 호흡에 눈에 띄는 간격이 생깁니다. 두 테이크를 크로스페이드하면 음조가 맞지 않습니다. 인페인팅은 주변 음성과 일치하는 음성으로 간격을 채워주기 때문에 청취자는 지속적으로 자연스럽게 들리는 오디오를 듣게 됩니다.

Yes — 오디오 파일, start_sec, end_sec, replacement_text를 포함한 /v1/audio-inpaint/ 로 POST합니다. 엔드포인트는 작업 UUID를 반환합니다. 준비가 되었을 때 페인트된 오디오를 검색하기 위해 /v1/speech/results/?uuid= 를 폴링합니다. 자세한 내용은 API 문서를 참조하십시오.

ElevenLabs Speech-to-Speech는 대상 음성에서 처음부터 전체 음성 라인을 재생성합니다. ElevenLabs의 오디오 인페인팅은 외과적입니다. 표시된 범위만 편집하고 원본 녹음의 모든 다른 바이트를 손상시키지 않으며 별도의 음성 라이브러리가 아닌 주변 음성과 새로운 클립을 일치시킵니다.

5.0/5 (1)

몇 초 만에 오디오를 수정하십시오.

원본 음성과 일치하는 AI 합성 음성으로 녹음의 어떤 부분을 대체하세요.

무료로 가입하기 가격 정보 보기

AI 오디오 인페인팅

Inpaint에 오디오 업로드

소스 오디오 — 나쁜 테이크를 찾기 위해 스크럽

페인트 설정

이전 (원본)

후 (그린)

오디오 인페인팅 작동 방식

최상의 결과를 위한 팁

AI 오디오 인페인팅 작동 방식

업로드 + 범위 표시

음성 복제 + 합성

크로스페이드 스플라이스

오디오 인페인팅 계획

자주 묻는 질문

몇 초 만에 오디오를 수정하십시오.

AI 오디오 인페인팅

Inpaint에 오디오 업로드

소스 오디오 — 나쁜 테이크를 찾기 위해 스크럽

페인트 설정

이전 (원본)

후 (그린)

오디오 인페인팅 작동 방식

최상의 결과를 위한 팁

AI 오디오 인페인팅 작동 방식

업로드 + 범위 표시

음성 복제 + 합성

크로스페이드 스플라이스

오디오 인페인팅 계획

자주 묻는 질문

오디오 인페인팅이란 무엇입니까?

어떻게 작동합니까?

언제 재녹음 대신 오디오 인페인팅을 사용해야 합니까?

소스 오디오는 얼마나 길 수 있습니까?

페인트된 연설이 원래 연사의 소리와 똑같이 들릴까요?

편집 경계에서 무슨 일이 일어나나요?

어떤 언어가 지원됩니까?

오디오 인페인팅 비용은 얼마입니까?

이걸로 누군가의 입에 한 번도 말하지 않은 말을 넣을 수 있을까?

왜 불량 섹션을 삭제하는 대신 inpainting을 사용합니까?

오디오 인페인팅 API를 사용할 수 있습니까?

이것은 ElevenLabs Speech-to-Speech와 어떻게 비교됩니까?

몇 초 만에 오디오를 수정하십시오.