バグ/機能要求を報告

AI オーディオインペイント

周囲の音声に合う人工合成音声でオーディオの一部を置き換えます。全体を再録音しないで、テイクの問題を修正します。

無料登録

Inpaint にオーディオをアップロード

音声の置換速度は毎秒500文字です

ファイルをここにドラッグ＆ドロップするか、ブラウズ

Supports MP3, WAV, FLAC, OGG, M4A. Max 500 MB (2 GB on paid plans). Up to 10 minutes.

ペイントの設定

開始 (秒)

終了 (秒)

置換テキスト - ギャップの中で何を言うべきか 0 / 500 文字

言語

クロスフェード 80 ms スプライスポイントを混合する時間。標準は 80ms です。マッチカットは自然に感じられ、二重トリガーは聞こえません。

音声インペイントを使うには無料で登録してください

オーディオインペイントの仕組み

画像の中に音声を入れることは、Photoshop のコンテンツに応じたフィルタリングに相当します。選択した部分の周りの音声から音声をクローンし、その音声の中の新しい行を合成し、短いクロスフェードで再スプライシングします。

また，編集点直前に少なくとも３秒間の清潔な音声を残すことで，クローナに良い参考資料を与えることができる。

最高の結果を得るためのヒント

標識された範囲をできるだけ狭く保つ - バッドテイクのみ
置換テキストは置換するものとほぼ同じ長さでなければなりません
音声の最適なマッチングのためにソースオーディオに一致する言語を設定します
80ms クロスフェードは通常は見えません。クリック音が聞こえたら 150ms に変更します。
長い編集 (10秒以上) の場合は、代わりに全文を再録音するのを考えてください

人工知能音声インペイントの仕組み

外科的な編集で再録音は無い

ステップ 1

アップロード + 範囲をマーク

音声をアップロードし、スクラバーを使って置換するセクションの開始/終了をマークします。置換テキストを入力してください。

ステップ 2

音声クローンとシンセサイザー

選択した音声を１２秒まで抽出し，話者の声をクローン化し，その声の中の新しい線を合成する。

ステップ 3

クロスフェードスプライス

シンセサイザーで作成したクリップは、両編集点で同じパワーのクロスフェードを使ってオリジナルの録音にスプラッチされます。境界は聞こえません。

オーディオインペイントプラン

無料で始め、必要に応じてアップグレード

自由

10分までのソースファイル
500文字の置換テキスト
要求当たり4秒のインペイント
80ms クロスフェードスプライス
OpenVoice + CosyVoice 2 バックエンド

最も人気のある

無料アカウント

10分までのソースファイル
5000文字の置換テキスト
チューナブルクロスフェード (0-250ms)
音声モデルオーバーライド
生成履歴 + 再編集

無料登録

プロ

30分までのソースファイル
10万文字の置換テキスト
優先度GPUキュー
API アクセス (/v1/audio-inpaint/)
バッチペイント (複数の範囲)

アップグレード

よくある質問

オーディオインペイント (オーディオフィル、スピーチオーバーダブとも呼ばれます) は、既存のオーディオ録音の一部を、オリジナルの音声に合う新しい AI 合成スピーチで置き換えることができます。これは Photoshop のコンテンツに基づくフィルに相当するオーディオです。望まない部分を塗りつぶして、その代わりに入れるべき部分を入力すると、AI が無駄な置き換えを生成します。

置換する時間範囲をマークし、新しい対話行を入力し、インペイントをクリックします。我々のAIは、選択したオーディオの周りの音声をクローンし、その音声の新しい行を合成し、短いクロスフェードで録音に戻します。それで、編集は聞こえません。

良いテイクに一つの悪い単語、発音の間違い、名前の間違い、悪口、事実の間違いがあったときに使用します。全体のパートを再録音すると、プロジェクトの残りの部分との音調の不一致が生じることがあります。インペイントは修正する必要のある部分だけを修正し、他の音節は全て無傷に保ちます。

無料ユーザは最大10分のファイルをインペインできます。購読者は30分までのファイルをインペインできます。置換テキスト自体は無料ユーザでは500文字、無料アカウントでは5,000文字、有料プランでは100,000文字まで制限されています。

非常に近い。AI は編集を取り巻く音声を音声参照として最大 12 秒まで使用します。これはクローン機能を持つモデル (OpenVoice, CosyVoice 2) で話者の音色、ピッチ、話し方を捕捉するのに十分です。最良の結果を得るには、編集ポイントの直前に少なくとも 3 秒の清潔な音声を残してください。

標準では、両スプライシングポイント (ヘッド→置換と置換→テール) に 80ms の等パワークロスフェードを適用します。クロスフェードスライダーを使って、0ms (ハードカット) から 250ms まで調整できます。長いクロスフェードは編集をより完全に隠しますが、境界で重なり合う単語を音声で混ぜることもできます。

オーディオインペイントは音声クローンと同じ言語コードに従います。ほとんどの言語では OpenVoice を自動的に選択し、中国語、日本語、韓国語では CosyVoice 2 を選択します。高度な設定ではモデルを上書きできます。

代替オーディオの秒数は 500 文字です。4 秒間の修正には 2,000 文字がかかります。代替テキストの長さに関係なく、代替テキストのクローン合成はテキストの長さではなく新しいクリップの実行時間で制限されます。

私たちのサービス条件に従って、あなたは自分が所有している音声や、編集する明示的な許可を持っている音声のみをインペイントできます。偽の引用、欺瞞的なコンテンツ、または偽造を生成することは禁止されています。生成されたオーディオにウォーターマークを付け、すべてのインペイント作業をログに記録し、悪用の検証を行います。

クリップをカットすると、ペースと呼吸の間に大きなギャップが残ります。二つのテイクをクロスフェードすると、音色が合わないことが起きます。インペイントは、周囲の音に合う言葉でギャップを埋めます。聴衆は自然に聞こえる連続した音を聞くことができます。

はい — /v1/audio-inpaint/ にオーディオファイル、start_sec、end_sec、replacement_textを POST します。エンドポイントはジョブ UUID を返します。準備ができたら、ポール /v1/speech/results/?uuid= で塗り込みオーディオを検索します。詳細は API ドキュメントを参照してください。

ElevenLabs Speech-to-Speechは、ターゲットの声の全ての声線を、まずから再生します。オーディオインペイントは、外科的なものです。標識された範囲のみを編集し、オリジナルの録音の他のすべてのバイトを手に入れず、別の声のライブラリではなく、新しいクリップを周囲の声にマッチさせます。

5.0/5 (1)

音声を数秒で修正

録音のどの部分でも、オリジナルの声に合うAI合成音声で置き換えます。無料で登録して始めてください。

無料登録価格を表示

AI オーディオインペイント

Inpaint にオーディオをアップロード

ソースオーディオ — バッドテイクを見つけるためにスクラブ

ペイントの設定

前 (オリジナル)

後 (塗りつぶし)

オーディオインペイントの仕組み

最高の結果を得るためのヒント

人工知能音声インペイントの仕組み

アップロード + 範囲をマーク

音声クローンとシンセサイザー

クロスフェードスプライス

オーディオインペイントプラン

よくある質問

音声を数秒で修正

AI オーディオインペイント

Inpaint にオーディオをアップロード

ソースオーディオ — バッドテイクを見つけるためにスクラブ

ペイントの設定

前 (オリジナル)

後 (塗りつぶし)

オーディオインペイントの仕組み

最高の結果を得るためのヒント

人工知能音声インペイントの仕組み

アップロード + 範囲をマーク

音声クローンとシンセサイザー

クロスフェードスプライス

オーディオインペイントプラン

よくある質問

オーディオインペイントとは？

どうやって？

再録音の代わりに音声インペイントを使うべき時は？

ソース音声はどれくらい長くできますか？

絵画されたスピーチは、原稿のスピーチャーと同じ音で聞こえるでしょうか。

編集境界で何が起こりますか？

どの言語がサポートされていますか？

音声の絵付けはいくらですか。

これで 誰かの口に 言葉を入れる事が出来る？

なぜ、悪い部分を削除する代わりにインペイントを使うのですか？

オーディオインペイント API は利用可能ですか？

これはElevenLabsのスピーチ・トゥ・スピーチと どう比較できる？

音声を数秒で修正