ボイスクローン

短いオーディオサンプルからどんな声でもクローンします。AIでクローンした声で話し声を生成します。

無料登録

レファレンスオーディオ

ステップ 1: クローンしたい音声のオーディオクリップ (5-30 秒の明瞭な音声) をアップロードします。ステップ 2: 下のモデルを選択します。ステップ 3: テキストを入力して生成をクリックします。

ファイルをここにドラッグ＆ドロップするか、ブラウズ

Upload a voice sample to clone from. MP3, WAV, FLAC. The selected model's per-engine limit is shown below — uploads beyond that are auto-trimmed to the cleanest section. Max upload 500MB.

直接録音することもできます

00:00

クローニングモデル

Reference audio: 5s – 30s (longer is auto-trimmed to the cleanest section)

品質:

草案ヘビーデューティー

早いプレビュー

テキストから音声を生成

0/5000 文字 · Sign up for 5,000 per generation →

言語は参照音声と一致するべきです

言語

スピード 1.0x

上の音声サンプルをアップロードして始めます

5,000 文字 — 登録利用を追跡するために

結果

参照音声をアップロードし、テキストを入力してクローン音声を生成します

ユア・セーブド・ヴォイス

登録クローンした声を後で使うために保存するのです

音声クローンの仕組み

1. レファレンスオーディオをアップロード

クローンしたい音声から 10-30 秒の明瞭な音声を提供してください。音声が明瞭になるほど結果は良くなります。

モデルを選択

OpenVoice, Chatterbox, CosyVoice 2, GPT-SoVITSなどのクローンモデルから選択できます。それぞれが異なる言語とスタイルに対して独自の強みを持っています。

3. テキストを入力して生成

クローンした音声で話すテキストを入力して、生成をクリックします。将来の使用のために音声をダウンロードまたは保存します。

ユースケース

あらゆるクリエイティブかつプロフェッショナルなニーズに対応した音声クローン

コンテンツ作成

再録音なしに自分の声で一貫したボイスオーバーを作成します。マイクから離れたままに間違いを修正し、新しいセグメントを追加し、自分の声でコンテンツを生成します。

多言語ダビング

知らない言語で話すことで、自分の声のアイデンティティを保つことができます。CosyVoice 2 のようなクロス言語モデルは、コンテンツを8言語にダビングすることを可能にします。

ゲームとキャラクター

ゲーム、アニメーション、対話型メディアのためのユニークなキャラクターの声を作成します。参照声をクローンし、無制限の対話行を生成します。

オーディオブック

一貫した音声で本全体を語りましょう。クローン音声を使って効率的にオーディオブックを作成してください。何時間も録音する必要はありません。

アクセシビリティ

声を失った人々が以前に録音したサンプルを使って再び話すのを助けます。個人的な用途や医療用途のために声のアイデンティティを保存します。

ブランド・ボイス

すべてのオーディオコンテンツにおいて一貫したブランドの声を維持します。ブランドのスポークスマンをクローンし、マーケティングオーディオ、IVRプロンプト、およびアナウンスを生成します。

最高の結果を得るためのヒント

どう

明瞭でノイズのない録音を使う
長いサンプルはより良いクローンを生成します（下のガイドを参照）
単一スピーカーを使う
静かな環境で録音
自然な話し方を使う
WAV または高ビットレート MP3 を選択

避ける

背景音
複数のスピーカーを参照
非常に短いクリップ (3 秒以下)
高圧縮オーディオ
囁き
録音時のエコーまたはリバーブ

サンプル長が品質に及ぼす影響

レファレンスオーディオが長く清潔であればあるほど、クローンは良いものになります。

サンプル長	クローン品質	ベスト・フォー	アクセス
5–10s	ベーシック	クイックテスト - 一般的な音色を捕捉しますが、ニュアンスは見逃すかもしれません	自由
30–60s	良い	ほとんどのユースケースに適したソリッドクローン — 音調、ペース、アクセントを捕捉	自由
2–5 min	偉大な	ハイ・フィデリティ・クローン - 自然な屈折、出力間の一貫した品質	無料アカウント
10+ min	優秀	ほぼ完璧な再生 — オーディオブック、ポッドキャスト、プロの使用に最適	無料アカウント
1–2+ hrs	スタジオ・グレード	自分の声のカスタムモデルを微調整します - オリジナルと区別できません	プロプラン

最高の結果を得るには、背景音楽なしの単一スピーカーで、自然な音声を使用してください。WAV または FLAC フォーマットは最も詳細を保つものです。

音声クローンプラン

無料で始め、必要に応じてアップグレード

自由

5-60秒の参照音声
基本的なクローン品質
チャッターボックスモデル
MP3 出力

最も人気のある

無料アカウント

10分の参考音声+15,000文字
すべてのクローンモデル
HD品質モード
クローンした音声を保存
言語間クローン
すべての出力フォーマット

無料登録

プロ

2時間以上の参考音声
スタジオ級のクローン品質
カスタムモデルフィーニング
バッチ生成
APIアクセス
優先処理

アップグレード

よくある質問

人工知能の声のクローンは、ディープ・ラーニングを用いて短い音声サンプルから人間の声を複製します。クローンされたら、元の話者のように聞こえる新しい声を生成できます。最近のモデルは、5秒の参照音声しか必要としません。

Chatterbox は感情制御を備えた最良のゼロショットクローンを提供します。CosyVoice 2 は多言語クローン (8 言語) に最適です。GPT-SoVITS は5秒のオーディオで優れています。OpenVoice は細かいスタイル制御を提供します。

ほとんどのモデルは 5-30 秒の明瞭なオーディオで動作します。長いサンプル (60 秒まで) は一般的により良い結果をもたらします。オーディオはクリアで、単一スピーカーで、背景音楽やノイズがありません。

使用許可がある声のみをクローンしてください。これには、自分の声、同意した個人の声、または適切なライセンスのあるソースからの声が含まれます。未許可の声のクローンは、あなたの司法管轄区域の法律に違反するかもしれません。

はい! CosyVoice 2 や GPT-SoVITS のようなクロス言語音声クローンモデルは、クローンされた音声のアイデンティティを保持しながら、異なる言語の音声を生成できます。これはダビングやローカライゼーションに役立ちます。

バックグラウンド音楽やノイズがなく、一つのスピーカーでクリアに録音し、自然な音声を一定のボリュームで録音してください。ささやき、叫び声、高度に処理されたオーディオを避けてください。WAV または FLAC フォーマットで 16kHz 以上で最良の結果が得られます。

声の所有者の同意を得たり、自分の声を使ったりすると、声のクローンは合法です。多くの司法管轄区域では、声の類似性の権利を保護する法律がある。他人を偽造するために声をクローンしたり、ディープフェイクを作成したり、詐欺を行ったりはしないでください。他人の声をクローンする前に常に適切な許可を得てください。

はい、クローンされた音声は、参照音声の権利を持っている限り商用で使用できます。これには、自分の声、同意した雇用された声優、または適切にライセンスされた音声サンプルが含まれます。生成されたオーディオは、製品、ビデオ、アプリケーションに使用できます。

はい、登録したユーザはクローンされた音声プロファイルを自分のアカウントに保存できます。一度保存すれば、クローンされた音声を将来の世代で再利用できます。参照音声を再アップロードする必要はありません。これはあなたのアカウントの「私の音声」セクションで利用できます。

Chatterbox のようなモデルはクローン音声で明示的な感情コントロール (幸せ、悲しみ、怒りなど) を提供します。他のモデルは参照音声から一般的な音調とスタイルを捕捉します。最良の感情伝達のためには、参照サンプルに表現力のある音声を含めてください。

音声クローンは通常、モデルとテキストの長さに依存して 3-10 秒かかります。 Chatterbox と GPT-SoVITS は高速クローンに最適化されています。最初の生成は、モデルが参照音声を処理するために少し時間がかかるかもしれません。

音声クローンは Chatterbox や Tortoise のようなモデルでは 4x 文字でプレミアムの値段を設定しています。無料アカウントは登録時に 15,000 文字を受け取ります。CosyVoice 2 のような標準のクローンモデルは 2x 文字を使用します。

5.0/5 (2)

人工知能でどんな声でもクローン

短いオーディオサンプルをアップロードして、どんな声でも音声を生成します。無料で登録して始めてください。

無料登録価格を表示

ボイスクローン

レファレンスオーディオ

クローニングモデル

テキストから音声を生成

結果

ユア・セーブド・ヴォイス

音声クローンの仕組み

1. レファレンスオーディオをアップロード

モデルを選択

3. テキストを入力して生成

ユースケース

コンテンツ作成

多言語ダビング

ゲームとキャラクター

オーディオブック

アクセシビリティ

ブランド・ボイス

最高の結果を得るためのヒント

どう

避ける

サンプル長が品質に及ぼす影響

音声クローンプラン

よくある質問

人工音声クローンとは何か。

どの声クローンモデルが最も良いかを示した。

どれくらいのレファレンスオーディオが必要ですか？

どんな声でもクローンできますか？

原語話者が話せない言語で話せますか。

クローニングのための良い参照音声サンプルは何であるか。

音声クローンは合法的で倫理的に使えるのか？

クローン音声を 商業用に使える？

クローンした声を保存して再利用できますか？

音声クローンは感情や話し方を保存するか。

音声クローンはどれくらいかかりますか？

音声クローンはいくらかかりますか。

人工知能でどんな声でもクローン