ボイスクローン

短いオーディオサンプルからどんな声でもクローンします。AIでクローンした声で話し声を生成します。

レファレンスオーディオ

ファイルをここにドラッグ&ドロップするか、 ブラウズ

Upload clear speech (minimum varies by model, 3-15s). MP3, WAV, FLAC. Max 20MB.

file.mp3

0 MB
音質 ...
持続時間: -- ラウドネス: -- 沈黙: --
直接録音することもできます
00:00

クローニングモデル

最小オーディオ長: 5s

品質:
早いプレビュー

テキストから音声を生成

言語は参照音声と一致するべきです
5 文字 登録 利用を追跡するために

結果

参照音声をアップロードし、テキストを入力してクローン音声を生成します

声をクローンし、音声を生成...

0:00 0:00

ユア・セーブド・ヴォイス

登録 クローンした声を後で使うために保存するのです

音声クローンの仕組み

1. レファレンスオーディオをアップロード

クローンしたい音声から 10-30 秒の明瞭な音声を提供してください。音声が明瞭になるほど結果は良くなります。

モデルを選択

OpenVoice, Chatterbox, CosyVoice 2, GPT-SoVITSなどのクローンモデルから選択できます。それぞれが異なる言語とスタイルに対して独自の強みを持っています。

3. テキストを入力して生成

クローンした音声で話すテキストを入力し、生成をクリックします。将来の使用のために音声をダウンロードまたは保存します。

ユースケース

あらゆるクリエイティブかつプロフェッショナルなニーズに対応した音声クローン

コンテンツ作成

再録音なしに自分の声で一貫したボイスオーバーを作成します。マイクから離れたままに間違いを修正し、新しいセグメントを追加し、自分の声でコンテンツを生成します。

多言語ダビング

言葉を話せ

ゲームとキャラクター

ゲーム、アニメーション、対話型メディアのためのユニークなキャラクターの声を作成します。参照声をクローンし、無制限の対話行を生成します。

オーディオブック

一貫した音声で本全体を語りましょう。クローン音声を使って効率的にオーディオブックを作成してください。何時間も録音する必要はありません。

アクセシビリティ

声を失った人々が以前に録音したサンプルを使って再び話すのを助けます。個人的な用途や医療用途のために声のアイデンティティを保存します。

ブランド・ボイス

すべてのオーディオコンテンツにおいて一貫したブランドの声を維持します。ブランドのスポークスマンをクローンし、マーケティングオーディオ、IVRプロンプト、およびアナウンスを生成します。

最高の結果を得るためのヒント

どう

  • 明瞭でノイズのない録音を使う
  • 10-30秒のスピーチを目指す
  • 単一スピーカーを使う
  • 静かな環境で録音
  • 自然な話し方を使う
  • WAV または高ビットレート MP3 を選択

避ける

  • 背景音や音楽
  • 複数のスピーカーを参照
  • 非常に短いクリップ (3 秒以下)
  • 高圧縮オーディオ
  • 囁き
  • 録音時のエコーまたはリバーブ

サンプル長が品質に及ぼす影響

レファレンスオーディオが長く清潔であればあるほど、クローンは良いものになります。

サンプル長 クローン品質 ベスト・フォー アクセス
5–10s ベーシック クイックテスト - 一般的な音色を捕捉しますが、ニュアンスは見逃すかもしれません 自由
30–60s 良い ほとんどのユースケースに適したソリッドクローン — 音調、ペース、アクセントを捕捉 自由
2–5 min 偉大な ハイ・フィデリティ・クローン - 自然な屈折、出力間の一貫した品質 無料アカウント
10+ min 優秀 ほぼ完璧な再生 — オーディオブック、ポッドキャスト、プロの使用に最適 無料アカウント
1–2+ hrs スタジオ・グレード 自分の声のカスタムモデルを微調整します - オリジナルと区別できません プロプラン

最高の結果を得るには、背景音楽なしの単一スピーカーで、自然な音声を使用してください。WAV または FLAC フォーマットは最も詳細を保つものです。

音声クローンプラン

無料で始め、必要に応じてアップグレード

自由
  • 5-60秒の参照音声
  • 基本的なクローン品質
  • チャッターボックスモデル
  • MP3 出力
最も人気のある
無料アカウント
  • 10分の参考音声+15,000文字
  • すべてのクローンモデル
  • HD品質モード
  • クローンした音声を保存
  • 言語間クローン
  • すべての出力フォーマット
無料登録
プロ
  • 2時間以上の参考音声
  • スタジオ級のクローン品質
  • カスタムモデルフィーニング
  • バッチ生成
  • APIアクセス
  • 優先処理
アップグレード

よくある質問

人工知能の声のクローンは、ディープ・ラーニングを用いて短い音声サンプルから人間の声を複製します。クローンされたら、元の話者のように聞こえる新しい声を生成できます。最近のモデルは、5秒の参照音声しか必要としません。

Chatterbox は感情制御を備えた最良のゼロショットクローンを提供します。CosyVoice 2 は多言語クローン (8 言語) に最適です。GPT-SoVITS は5秒のオーディオで優れています。OpenVoice は細かいスタイル制御を提供します。

ほとんどのモデルは 5-30 秒の明瞭なオーディオで動作します。長いサンプル (60 秒まで) は一般的により良い結果をもたらします。オーディオはクリアで、単一スピーカーで、背景音楽やノイズがありません。

使用許可がある声のみをクローンしてください。これには、自分の声、同意した個人の声、または適切なライセンスのあるソースからの声が含まれます。未許可の声のクローンは、あなたの司法管轄区域の法律に違反するかもしれません。

はい! CosyVoice 2 や GPT-SoVITS のようなクロス言語音声クローンモデルは、クローンされた音声のアイデンティティを保持しながら、異なる言語の音声を生成できます。これはダビングやローカライゼーションに役立ちます。

バックグラウンド音楽やノイズがなく、一つのスピーカーでクリアに録音し、自然な音声を一定のボリュームで録音してください。ささやき、叫び声、高度に処理されたオーディオを避けてください。WAV または FLAC フォーマットで 16kHz 以上で最良の結果が得られます。

声の所有者の同意を得たり、自分の声を使ったりすると、声のクローンは合法です。多くの司法管轄区域では、声の類似性の権利を保護する法律がある。他人を偽造するために声をクローンしたり、ディープフェイクを作成したり、詐欺を行ったりはしないでください。他人の声をクローンする前に常に適切な許可を得てください。

はい、クローンされた音声は、参照音声の権利を持っている限り商用で使用できます。これには、自分の声、同意した雇用された声優、または適切にライセンスされた音声サンプルが含まれます。生成されたオーディオは、製品、ビデオ、アプリケーションに使用できます。

はい、登録したユーザはクローンされた音声プロファイルを自分のアカウントに保存できます。一度保存すれば、クローンされた音声を将来の世代で再利用できます。参照音声を再アップロードする必要はありません。これはあなたのアカウントの「私の音声」セクションで利用できます。

Chatterbox のようなモデルはクローン音声で明示的な感情コントロール (幸せ、悲しみ、怒りなど) を提供します。他のモデルは参照音声から一般的な音調とスタイルを捕捉します。最良の感情伝達のためには、参照サンプルに表現力のある音声を含めてください。

音声クローンは通常、モデルとテキストの長さに依存して 3-10 秒かかります。 Chatterbox と GPT-SoVITS は高速クローンに最適化されています。最初の生成は、モデルが参照音声を処理するために少し時間がかかるかもしれません。

音声クローンは Chatterbox や Tortoise のようなモデルでは 4x 文字でプレミアムの値段を設定しています。無料アカウントは登録時に 15,000 文字を受け取ります。CosyVoice 2 のような標準のクローンモデルは 2x 文字を使用します。
5.0/5 (1)

人工知能でどんな声でもクローン

短いオーディオサンプルをアップロードして、どんな声でも音声を生成します。無料で登録して始めてください。