スピーチツースピーチ

音声を変換する。声、感情、言語、スタイルを変更しながら、元のコンテンツを保持する。

無料登録

ソース音声

ファイルをここにドラッグ＆ドロップするか、ブラウズ

Upload your speech recording. MP3, WAV, FLAC, OGG. Max 50MB.

自分の声を録音したり

00:00

変換の設定

変換タイプ

モデル

ターゲット・ボイス

結果

音声をアップロードし、変換を選択し、変換をクリックして開始します

ホー・イット・ワーク

1. 音声をアップロード

変換するオーディオを録音またはアップロード

2. 変換を選択

音声変更、スタイル転送、言語変換を選択

AIトランスフォームス

音声コンテンツを保存しながら音声をエンドツーエンド処理するAI

ダウンロード

結果を聴き、変換されたオーディオをダウンロードします

ユースケース

コンテンツ、アクセシビリティ、クリエイティブプロジェクトのためのスピーチ・トゥ・スピーチ

映像ダビング

音声特性を保持しながらビデオを他の言語にダブする。

感情調整

音声の感情的な音色を変更する。静かな発話を興奮させる。中性的な発話を温かく友好的にする。

声優プロダクション

粗い音声録音を、異なる声とスタイルで洗練されたボイスオーバーに変換します。

音声匿名化

話者の身元を隠しながら、すべての言葉を保存し、内部告発やプライバシー保護のために。

音声対音声モデル

OpenVoice

粒状のスタイルコントロールで高速な音声変換。声のアイデンティティ、速度、感情を数秒で変更できます。

高速処理
スタイル転送
クロス・リンガル

Chatterbox

ゼロショットの声のクローン化と精密な感情コントロール

感情制御
ゼロショットクローン
ハイ・フィデリティ

CosyVoice 2

自然な韻律とストリーミングサポートを備えた８言語間のクロス言語音声クローニング。

8言語
音声クローン
ストリーミング

よくある質問

ＳＴＳは，音声認識，音声処理，音声合成を一つのパイプラインに統合し，音声を音声出力に変換する。

テキストから音声に変換するには、テキストを音声に変換します。テキストから音声に変換するには、既存の音声を入力として、直接新しい音声に変換します。テキストから音声を生成するのではなく、オリジナルの録音の自然なリズム、休止、強調、感情を保持します。

一般的な用途としては，ビデオを他の言語にダビングする，録音中の話者の声を変更する，既存の音声の感情や音色を調整する，粗い録音からボイスオーバーを作成する，内容を保持しながら音声録音を匿名化するなどがある。

OpenVoiceやRVCのような音声変換モデルは音声から音声への変換を扱います。異なる言語間の音声から音声への変換には、CosyVoice 2とGPT-SoVITSがクローン化し、異なる言語で再合成できます。Chatterboxはまた、参照音声ベースの合成もサポートします。

はい。声のクローンモデルを使って、自分の声の特徴を保持しながら、他の言語に音声を変換できます。AIはあなたの声のアイデンティティを抽出し、目標言語またはスタイルで音声を再合成します。

音声合成のパイプラインは、まずあなたの話を転写し、テキストを目的言語に翻訳し、その後、音声クローンを使って翻訳されたテキストをあなたの元の声で合成します。CosyVoice 2 のようなモデルは、8 言語の言語間合成をサポートします。

最良の結果を得るには、背景ノイズを最小限に抑えたクリーンなオーディオをアップロードしてください。WAV または FLAC 16kHz 以上が最適です。MP3、OGG、M4A、WEBM も利用できます。クリアなスピーチは最も正確な変換を生成します。

近接リアルタイム処理は，合成に対してＫｏｋｏｒｏのような高速モデル，認識に対してＦａｓｔｅｒ　Ｗｈｉｓｐｅｒのような高速モデルを用いたＡＰＩを通して利用できる。

はい。Chatterbox、Spark TTS、IndexTTS-2のようなモデルは感情とスタイルの制御をサポートします。穏やかな言葉を興奮した言葉に、悲しい言葉を幸せな言葉に、中立的な言葉を劇的な言葉に変換できます。同じ言葉と話者のアイデンティティを保ちながら。

音声合成は認識と合成のクレジットを組み合わせます。典型的な 1 分間の変換は選択したモデルに依存して 3 から 8 クレジットを使用します。Kokoro のようなフリーティアモデルは合成ステップにコストゼロで使用できます。

無料ユーザは1分までのオーディオを処理できます。有料プランは10分までのファイルをサポートします。長い録音の場合は、オーディオをセグメントに分割したり、長さ制限なしのバッチ処理のためのAPIを使用してください。

はい、アップロードされたすべてのオーディオは、我々のセキュリティのある GPU サーバで処理され、24時間以内に自動的に削除されます。モデルを訓練するためにあなたのオーディオを使用することはありません。すべての転送は暗号化された接続を使用し、サーバ間の通信は認証されます。

5.0/5 (1)

人工知能による音声変換

声、感情、言語、スタイルを変更できます。無料で登録し、50 クレジットで始めてください。

無料登録価格を表示

スピーチツースピーチ

ソース音声

変換の設定

結果

オリジナル

変換

ホー・イット・ワーク

1. 音声をアップロード

2. 変換を選択

AIトランスフォームス

ダウンロード

ユースケース

映像ダビング

感情調整

声優プロダクション

音声匿名化

音声対音声モデル

OpenVoice

Chatterbox

CosyVoice 2

よくある質問

音声対音声ＡＩとは何か。

音声対音声とテキスト対音声の違いは何か。

音声対話は何に使える？

どのモデルが音声対音声をサポートするかを示した。

スピーチ・トゥ・スピーチは私の元の声を保存できますか？

言語間の音声対音声はどのように機能するのか。

どの音質でアップロードすればよいですか？

リアルタイム音声対音声は可能か？

感情や言葉遣いを変えられますか。

音声通話はいくらですか。

音声の最大長さは何ですか。

私の音声は プライベートに保管されますか？

人工知能による音声変換