バグ/機能要求を報告

AI オーディオインペイント

周囲の音声に合う人工合成音声でオーディオの一部を置き換えます。全体を再録音しないで、テイクの問題を修正します。

Inpaint にオーディオをアップロード

音声の置換速度は 毎秒500文字です

ファイルをここにドラッグ&ドロップするか、 ブラウズ

Supports MP3, WAV, FLAC, OGG, M4A. Max 500 MB (2 GB on paid plans). Up to 10 minutes.

ファイル.mp3

0 MB

ソースオーディオ — バッドテイクを見つけるためにスクラブ

0.00s / 0.00s

ペイントの設定

0 / 500 文字
スプライスポイントを混合する時間。標準は 80ms です。マッチカットは自然に感じられ、二重トリガーは聞こえません。
音声インペイントを使うには無料で登録してください
オーディオを描画中...

声をクローンし 代替音を合成...

スライシング → 周囲の音声をクローン → クロスフェードでスプライシング
時間がかかりますか? 結果は 世代の歴史 準備ができたら
インペインテッドオーディオレディ

前 (オリジナル)

後 (塗りつぶし)

音声をダウンロード

オーディオインペイントの仕組み

画像の中に音声を入れることは、Photoshop のコンテンツに応じたフィルタリングに相当します。選択した部分の周りの音声から音声をクローンし、その音声の中の新しい行を合成し、短いクロスフェードで再スプライシングします。

また,編集点直前に少なくとも3秒間の清潔な音声を残すことで,クローナに良い参考資料を与えることができる。

最高の結果を得るためのヒント

  • 標識された範囲をできるだけ狭く保つ - バッドテイクのみ
  • 置換テキストは置換するものとほぼ同じ長さでなければなりません
  • 音声の最適なマッチングのためにソースオーディオに一致する言語を設定します
  • 80ms クロスフェードは通常は見えません。クリック音が聞こえたら 150ms に変更します。
  • 長い編集 (10秒以上) の場合は、代わりに全文を再録音するのを考えてください

人工知能音声インペイントの仕組み

外科的な編集で 再録音は無い

ステップ 1

アップロード + 範囲をマーク

音声をアップロードし、スクラバーを使って置換するセクションの開始/終了をマークします。置換テキストを入力してください。

ステップ 2

音声クローンとシンセサイザー

選択した音声を12秒まで抽出し,話者の声をクローン化し,その声の中の新しい線を合成する。

ステップ 3

クロスフェードスプライス

シンセサイザーで作成したクリップは、両編集点で同じパワーのクロスフェードを使ってオリジナルの録音にスプラッチされます。境界は聞こえません。

オーディオインペイントプラン

無料で始め、必要に応じてアップグレード

自由
  • 10分までのソースファイル
  • 500文字の置換テキスト
  • 要求当たり4秒のインペイント
  • 80ms クロスフェードスプライス
  • OpenVoice + CosyVoice 2 バックエンド
最も人気のある
無料アカウント
  • 10分までのソースファイル
  • 5000文字の置換テキスト
  • チューナブルクロスフェード (0-250ms)
  • 音声モデルオーバーライド
  • 生成履歴 + 再編集
無料登録
プロ
  • 30分までのソースファイル
  • 10万文字の置換テキスト
  • 優先度GPUキュー
  • API アクセス (/v1/audio-inpaint/)
  • バッチペイント (複数の範囲)
アップグレード

よくある質問

オーディオインペイント (オーディオフィル、スピーチオーバーダブとも呼ばれます) は、既存のオーディオ録音の一部を、オリジナルの音声に合う新しい AI 合成スピーチで置き換えることができます。これは Photoshop のコンテンツに基づくフィルに相当するオーディオです。望まない部分を塗りつぶして、その代わりに入れるべき部分を入力すると、AI が無駄な置き換えを生成します。

置換する時間範囲をマークし、新しい対話行を入力し、インペイントをクリックします。我々のAIは、選択したオーディオの周りの音声をクローンし、その音声の新しい行を合成し、短いクロスフェードで録音に戻します。それで、編集は聞こえません。

良いテイクに一つの悪い単語、発音の間違い、名前の間違い、悪口、事実の間違いがあったときに使用します。全体のパートを再録音すると、プロジェクトの残りの部分との音調の不一致が生じることがあります。インペイントは修正する必要のある部分だけを修正し、他の音節は全て無傷に保ちます。

無料ユーザは最大10分のファイルをインペインできます。購読者は30分までのファイルをインペインできます。置換テキスト自体は無料ユーザでは500文字、無料アカウントでは5,000文字、有料プランでは100,000文字まで制限されています。

非常に近い。AI は編集を取り巻く音声を音声参照として最大 12 秒まで使用します。これはクローン機能を持つモデル (OpenVoice, CosyVoice 2) で話者の音色、ピッチ、話し方を捕捉するのに十分です。最良の結果を得るには、編集ポイントの直前に少なくとも 3 秒の清潔な音声を残してください。

標準では、両スプライシングポイント (ヘッド→置換と置換→テール) に 80ms の等パワークロスフェードを適用します。クロスフェードスライダーを使って、0ms (ハードカット) から 250ms まで調整できます。長いクロスフェードは編集をより完全に隠しますが、境界で重なり合う単語を音声で混ぜることもできます。

オーディオインペイントは音声クローンと同じ言語コードに従います。ほとんどの言語では OpenVoice を自動的に選択し、中国語、日本語、韓国語では CosyVoice 2 を選択します。高度な設定ではモデルを上書きできます。

代替オーディオの秒数は 500 文字です。4 秒間の修正には 2,000 文字がかかります。代替テキストの長さに関係なく、代替テキストのクローン合成はテキストの長さではなく新しいクリップの実行時間で制限されます。

私たちのサービス条件に従って、あなたは自分が所有している音声や、編集する明示的な許可を持っている音声のみをインペイントできます。偽の引用、欺瞞的なコンテンツ、または偽造を生成することは禁止されています。生成されたオーディオにウォーターマークを付け、すべてのインペイント作業をログに記録し、悪用の検証を行います。

クリップをカットすると、ペースと呼吸の間に大きなギャップが残ります。二つのテイクをクロスフェードすると、音色が合わないことが起きます。インペイントは、周囲の音に合う言葉でギャップを埋めます。聴衆は自然に聞こえる連続した音を聞くことができます。

はい — /v1/audio-inpaint/ にオーディオファイル、start_sec、end_sec、replacement_textを POST します。エンドポイントはジョブ UUID を返します。準備ができたら、ポール /v1/speech/results/?uuid= で塗り込みオーディオを検索します。詳細は API ドキュメントを参照してください。

ElevenLabs Speech-to-Speechは、ターゲットの声の全ての声線を、 まずから再生します。オーディオインペイントは、 外科的なものです。 標識された範囲のみを編集し、 オリジナルの録音の他のすべてのバイトを手に入れず、 別の声のライブラリではなく、新しいクリップを周囲の声にマッチさせます。
5.0/5 (1)

改善点は何ですか?フィードバックは問題を解決するのに役立ちます。

音声を数秒で修正

録音のどの部分でも、オリジナルの声に合うAI合成音声で置き換えます。無料で登録して始めてください。