Report Bug / Feature Request

リアルタイム音声クローン — 何秒でもどんな音声でもクローン

5秒の参照音声でどんな声もクローンできます。Chatterbox、CosyVoice 2、GPT-SoVITS、OpenVoiceなど9つのオープンソースの声クローンモデル。訓練が必要なゼロショットクローン。サンプルをアップロードして即座に音声を生成します。すべてのモデルは商用ライセンスです。

リアルタイム 5秒サンプル 9 クローニングモデル オープンソース 17以上の言語 エモーションコントロール

リアルタイム音声クローン機能

最新のAIで即座に声をクローンする - 訓練もデータセットも待ち時間も不要

ゼロショットクローン

訓練も、微調整も、データ集めも不要です。 5秒のオーディオをアップロードして、即座にクローン音声を得ます。 AIは、スピーカーの特徴をリアルタイムで抽出します。

9 クローニングモデル

Chatterbox、CosyVoice 2、GPT-SoVITS、OpenVoice、Spark、IndexTTS-2、GLM-TTS、Qwen3-TTS、Tortoiseから選択できます。それぞれのモデルは、質、速度、言語において異なる強みを持っています。

クロス言語クローン

英語の声をクローンし、中国語、日本語、韓国語などの音声を生成します。CosyVoice 2とQwen3-TTSは17以上の言語で音声のアイデンティティを保持します。

エモーションコントロール

Chatterbox、OpenVoice、GLM-TTSは感情条件生成をサポートします。同じテキストを、幸せ、悲しみ、怒り、ささやきなどの異なる感情で生成します。クローン音声を保持します。

オープンソース

すべてのクローンモデルは MIT または Apache 2.0 ライセンスの下でオープンソースです。クローンされた音声を商用に使用してコンテンツ、製品、アプリケーションにロイヤリティフリーで使用できます。

クローニング API

プログラミングによる音声クローンのための REST API。参照音声をアップロードし、テキストを指定し、クローン音声を受信します。Python と JavaScript の SDK。大容量ワークフローのためのバッチクローン。

音声クローンモデル

9つのオープンソースモデルをクローンのユースケースごとに

ChatterboxChatterbox

Premium

State-of-the-art zero-shot voice cloning with emotion control from Resemble AI.

Medium 5/5 音声クローン

適応する: 最高の総合的な品質 - 5秒サンプル、感情制御、MITライセンス

試してみる Chatterbox

CosyVoice 2CosyVoice 2

Standard

Alibaba's scalable streaming TTS with human-parity naturalness and near-zero latency.

Medium 5/5 音声クローン

適応する: 多言語クローンの最適化 — 中国語、英語、日本語、韓国語の音声を保存

試してみる CosyVoice 2

OpenVoiceOpenVoice

Premium

Instant voice cloning with granular control over style, emotion, and accent.

Medium 4/5 音声クローン

適応する: 感情やスタイルを転送する高速な色調変換

試してみる OpenVoice

Spark TTSSpark TTS

Standard

Voice cloning TTS with controllable emotion and speaking style via prompts.

Medium 4/5 音声クローン

適応する: 最も速いクローンモデル — 結果は約12秒で得られる

試してみる Spark TTS

IndexTTS-2IndexTTS-2

Standard

Zero-shot TTS with fine-grained emotion control and high expressiveness.

Medium 4/5 音声クローン

適応する: 話者相似度の高い優れた中国語-英語クローン化

試してみる IndexTTS-2

Tortoise TTSTortoise TTS

Premium

Multi-voice text-to-speech focused on quality with autoregressive architecture.

Slow 5/5 音声クローン

適応する: スタジオ品質の結果 - オーディオブックやプレミアムナレーションに最適

試してみる Tortoise TTS

リアルタイム音声クローンの仕組み

短い音声サンプルから無制限のクローン音声へ

1

参照音声をアップロード

クローンしたい音声の5-30秒の明瞭な音声を録音またはアップロードします。WAV、MP3、またはブラウザで直接録音できます。

2

クローンモデルを選択

質の高い Chatterbox、速い Spark、多言語の CosyVoice 2 など、あなたのニーズに合ったモデルを選んでください。

3

テキストを入力

クローンした音声に聞かせたいテキストを入力または貼り付けます。モデルがサポートする言語はすべて有効です。

4

生成とダウンロード

生成をクリックして、10-25秒でクローン音声を聞くことができます。WAVまたはMP3としてダウンロードして、すぐに使えます。

ゼロショット・ボイス・クローン

微調整もデータセットの収集も不要 — アップロードとクローンだけ

スピーカー埋め込み抽出

人工知能は、あなたの参照音声を分析し、ピッチ、音色、話し方のリズム、声質などの音声の特徴を数学的に表現したスピーカー埋め込みを抽出します。これは1秒以内に行われます。

  • 音声が5秒で動作します
  • ピッチ、音色、話し方を記録
  • 訓練や微調整が不要
  • オーディオは永久に保存されません

条件付き音声合成

音声合成は、音声を入力した後、音声合成の結果を生成する。この結果は、テキストを話している参照音声合成者の音声と同じであり、自然な韻律、適切な強調、原音の特徴を保持し、言語やコンテンツに関係なく、同じ音声合成者の音声と同じになる。

  • 単一のサンプルから無制限の音声を生成
  • 言語間クローン(参照言語が使っていない言語を話す)
  • 感情やスタイルの伝達
  • 10-25秒で結果が出る

音声クローンモデル比較

クローンユースケースに適したモデルを選択

モデル 最小参照 スピード 品質 言語 感情 ライセンス
Chatterbox 5s ~21s ベスト EN MIT
CosyVoice 2 5s ~20s 優秀 中国、日本、韓国、日本 Apache 2.0
GPT-SoVITS 5s ~16s 優秀 中国、英、日、韓 MIT
OpenVoice 5s ~15s 良い 英語、中国語、スペイン語、フランス語+ MIT
Spark TTS 5s ~12s 良い 英語 Apache 2.0
IndexTTS-2 5s ~18s 優秀 英語 Apache 2.0
GLM-TTS 5s ~25s 優秀 英語 Apache 2.0
Qwen3-TTS 5s ~16s 優秀 中国、日本、韓国、日本 Apache 2.0
Tortoise 15s ~60s スタジオ EN Apache 2.0

リアルタイム音声クローンを使う理由

コンテンツ作成からアクセシビリティまで,音声クローンは無限の応用を持つ

オーディオブックナレーション

作家は自分の声をクローンしてオーディオブックを作成します。録音ブースで何時間も過ごす必要はありません。再録音する代わりに、単一の文を再生してミスを修正します。

映像ダビング

音声認識機能を備えた音声認識アプリケーションを開発するためのプログラム。

コンテンツ作成

YouTuber、Podcaster、TikTokクリエイターは、一貫したブランド化のために自分の声をクローンします。新しいコンテンツのためのボイスオーバーを録音せずに生成するか、既存のビデオの代替言語版を作成します。

アクセシビリティ

病気や手術で声を失った人は,古い録音からクローンを作成することで声を保存できる。

ゲーム開発

声優をクローンし、スタジオ時間を割かずに無限の対話を生成します。全ての台詞を再録音することが不可能なインディゲーム、モッド、プロトタイピングに最適です。

電話システム

電話メニューや自動応答のための会社のスピーカーの声をクローンします。ボイスアクションを予約せずにIVRプロンプトを即座に更新します。新しいテキストを入力して生成するだけです。

TTS.ai と他のボイスクローンソリューション

なぜ9モデルが1つのオープンソースプロジェクトを打ち負かすのか

特徴 TTS.ai SV2TTS ElevenLabs Resemble AI
クローニングモデル 9 1 1 1
最小参照オーディオ 5 sec 5 sec 30 sec 3 min
必要な訓練 いや いや いや はい
音質 スタジオ・グレード 日付 優秀 優秀
エモーションコントロール
クロス言語クローン
オープンソース
GPU が必要 クラウド はい クラウド クラウド
APIアクセス
フリー・タイア 15クレジット セルフホスト 有限会社

音声クローン

REST API を使ってプログラム的に声をクローン

Python 音声クローン REST API
from tts_ai import TTSClient

client = TTSClient(api_key="sk-tts-...")

# Clone a voice from a 5-second sample
result = client.clone_voice(
    name="My Cloned Voice",
    file="reference.wav",       # 5-30 seconds of clear speech
    model="chatterbox",         # or cosyvoice2, openvoice, spark...
    text="Hello! This is my cloned voice speaking new text.",
)

# Download the cloned audio
audio = client.poll_result(result.uuid)
with open("cloned_output.wav", "wb") as f:
    f.write(audio)
cURL — 音声クローン REST API
curl -X POST https://api.tts.ai/v1/voice-clone \
  -H "Authorization: Bearer sk-tts-YOUR_KEY" \
  -F "reference=@voice_sample.wav" \
  -F "text=This is my cloned voice." \
  -F "model=chatterbox"

音声クローンの最良の結果を得るためのヒント

これらの録音ガイドラインを使って最も正確な声のクローンを作成します

静かな環境

静かな部屋で背景音を最小限に抑えて録音します。AIは清潔なオーディオから声の特徴をより正確に抽出します。

10-30 秒

5秒で効果があるが,10〜30秒で著しく良い結果が得られる。

自然言語

単調ではなく自然に話す。音調とペースを変えて話す。AI は休止や強調を含めて自然な話し方を捕捉します。

シングルスピーカー

1 人のみの話し声を使用します。複数の声が混在すると、スピーカーの埋め込みが混乱し、混合した結果が生じます。

今日から声のクローンを開始

5秒のオーディオをアップロードして、30秒以内にクローンされた声を聞くことができます。無料で試してください。

音声をクローン APIドキュメント

よくある質問

リアルタイム音声クローンに関するよくある質問

リアルタイム音声クローンは、訓練や微調整なしに短い音声サンプルから人間の声を複製するAI技術です。サンプルをアップロードすると、AIはその人物のように聞こえる新しい音声を生成します。TTS.aiは、品質、速度、言語サポートの強さにより異なる9つの異なる音声クローンモデルを提供します。

ほとんどのモデル (Chatterbox, CosyVoice 2, Spark, GPT-SoVITS, OpenVoice) では 5 秒で動作します。 Tortoise では最良の結果を得るには 15 秒以上かかります。 すべてのモデルで最適な品質を得るには、10-30 秒間の明瞭な単一スピーカー音声が推奨されます。音声は背景音や音楽がないものでなければなりません。

声のクローン技術自体は合法です。ただし、使用許可がある声だけをクローンするべきです。これは、自分の声、明示的に同意した声、または公共領域にある声です。同意なしに他人を偽造するために、詐欺を行うために、または誤解を招くコンテンツを作成するために、声のクローンを使用することは、ほとんどの司法管轄区で違法です。TTS.aiの条件では、クローンした声の権利を持つ必要があります。

ユースケースによって異なります。 Chatterbox は感情制御を備えた最高品質の英語クローンを生成します。CosyVoice 2 は多言語クローン (中国語、英語、日本語、韓国語) に最適です。Spark は最も速く、約 12 秒です。Tortoise はスタジオ品質の結果を生成しますが、遅いです。GPT-SoVITS は中国語のクローンに優れています。あなたの声に最適なモデルをいくつか試してみてください。

はい — これは言語間の音声クローンと呼ばれます。CosyVoice 2, Qwen3-TTS, OpenVoice はサポートしています。例えば、英語の音声サンプルをアップロードして、話者の音声特性を保持しながら中国語、日本語、韓国語の音声を生成できます。品質はモデルと言語ペアによって異なります。

CorentinJ/Real-Time-Voice-Cloning GitHubプロジェクト(60K+ stars)は、2019年のアーキテクチャであるSV2TTSを使用しています。当時は革新的なものでしたが、Chatterbox、CosyVoice 2、GPT-SoVITSのような現代的なモデルは、より良いスピーカー類似性とともに、かなり良い音質を生み出しています。TTS.aiは9つの最新のモデルを実行し、GPUの設定が必要ありません。アップロードしてクローンするだけです。

はい。TTS.ai は音声クローンのための REST API を提供します。参照音声とテキストをアップロードし、モデルを選択し、クローン音声を受信します。Python SDK (`pip install ttsai`)、JavaScript SDK (`npm install @ttsainpm/ttsai`)、または直接 HTTP リクエストを使って利用できます。同じクローン音声で複数のテキストを処理するバッチクローンをサポートします。

はい。クローンした後、声を自分のアカウントに保存し、参照音声を再アップロードすることなく無制限に再利用できます。保存された声は声クローンページの声ライブラリに表示され、APIを介してアクセスできます。

WAV、MP3、OGG、FLAC、WebM はすべてサポートされています。また、内蔵マイクレコーダーを使ってブラウザで直接録音することもできます。最良の結果を得るには、16kHz 以上の損失なし WAV フォーマットを使用してください。AI は入力フォーマットに関係なく自動的にオーディオを前処理 (リサンプリング、ノイズフィルタリング) します。

生成時間はモデルによって異なります。Sparkは最も速く、約12秒、OpenVoiceは約15秒、GPT-SoVITSは約16秒、CosyVoice 2は約20秒、Chatterboxは約21秒、Tortoiseは約60秒です。これらの時間は典型的な文の長さのテキストに対してです。長いテキストは比例して長くなります。

はい。TTS.ai 上の 9 つのクローンモデルは、商用利用を許可するオープンソースライセンス (MIT または Apache 2.0) を使用しています。クローンされたオーディオは YouTube ビデオ、ポッドキャスト、オーディオブック、アプリケーション、ゲーム、電話システム、その他の商用アプリケーションに使用できます。ソース音声の権利を持っている限りです。

はい。私たちが実行しているすべてのモデルはオープンソースで、GitHub/HuggingFaceで利用できます。 Chatterbox、CosyVoice 2、GPT-SoVITS、OpenVoice、Spark、IndexTTS-2、GLM-TTS、Qwen3-TTS、または Tortoiseを自分のGPUサーバ上でセルフホストできます。ほとんどのモデルには、モデルにより4-24GBのVRAMを備えたNVIDIA GPUが必要です。TTS.aiはすべてのインフラストラクチャを扱いますので、あなたはそれを必要としません。
5.0/5 (1)

改善点は何ですか?フィードバックは問題を解決するのに役立ちます。

何秒でもどんな声でもクローン

9 つのオープンソースの音声クローンモデル。5 秒のサンプル。訓練は不要。無料で試してみてください。オーディオをアップロードして即座にクローンを聞くことができます。