スピーチツースピーチ

音声を変換する。声、感情、言語、スタイルを変更しながら、元のコンテンツを保持する。

ソース音声

ファイルをここにドラッグ&ドロップするか、 ブラウズ

Upload your speech recording. MP3, WAV, FLAC, OGG. Max 50MB.

file.mp3

0 MB
自分の声を録音したり
00:00

変換の設定

ファイルをここにドラッグ&ドロップするか、 ブラウズ

Upload a reference of the target voice. 10-30 sec recommended.

file.mp3

0 MB

結果

音声をアップロードし、変換を選択し、変換をクリックして開始します

音声を変換するには 少し時間がかかるかもしれません

オリジナル

変換

ホー・イット・ワーク

1. 音声をアップロード

変換するオーディオを録音またはアップロード

2. 変換を選択

音声変更、スタイル転送、言語変換を選択

AIトランスフォームス

音声コンテンツを保存しながら音声をエンドツーエンド処理するAI

ダウンロード

結果を聴き、変換されたオーディオをダウンロードします

ユースケース

コンテンツ、アクセシビリティ、クリエイティブプロジェクトのためのスピーチ・トゥ・スピーチ

映像ダビング

音声特性を保持しながらビデオを他の言語にダブする。

感情調整

音声の感情的な音色を変更する。静かな発話を興奮させる。中性的な発話を温かく友好的にする。

声優プロダクション

粗い音声録音を、異なる声とスタイルで洗練されたボイスオーバーに変換します。

音声匿名化

話者の身元を隠しながら、 すべての言葉を保存し、 内部告発やプライバシー保護のために。

音声対音声モデル

OpenVoice

粒状のスタイルコントロールで高速な音声変換。声のアイデンティティ、速度、感情を数秒で変更できます。

  • 高速処理
  • スタイル転送
  • クロス・リンガル

Chatterbox

ゼロショットの声のクローン化と 精密な感情コントロール

  • 感情制御
  • ゼロショットクローン
  • ハイ・フィデリティ

CosyVoice 2

自然な韻律とストリーミングサポートを備えた8言語間のクロス言語音声クローニング。

  • 8言語
  • 音声クローン
  • ストリーミング

よくある質問

STSは,音声認識,音声処理,音声合成を一つのパイプラインに統合し,音声を音声出力に変換する。

テキストから音声に変換するには、テキストを音声に変換します。テキストから音声に変換するには、既存の音声を入力として、直接新しい音声に変換します。テキストから音声を生成するのではなく、オリジナルの録音の自然なリズム、休止、強調、感情を保持します。

一般的な用途としては,ビデオを他の言語にダビングする,録音中の話者の声を変更する,既存の音声の感情や音色を調整する,粗い録音からボイスオーバーを作成する,内容を保持しながら音声録音を匿名化するなどがある。

OpenVoiceやRVCのような音声変換モデルは音声から音声への変換を扱います。異なる言語間の音声から音声への変換には、CosyVoice 2とGPT-SoVITSがクローン化し、異なる言語で再合成できます。Chatterboxはまた、参照音声ベースの合成もサポートします。

はい。声のクローンモデルを使って、自分の声の特徴を保持しながら、他の言語に音声を変換できます。AIはあなたの声のアイデンティティを抽出し、目標言語またはスタイルで音声を再合成します。

音声合成のパイプラインは、まずあなたの話を転写し、テキストを目的言語に翻訳し、その後、音声クローンを使って翻訳されたテキストをあなたの元の声で合成します。CosyVoice 2 のようなモデルは、8 言語の言語間合成をサポートします。

最良の結果を得るには、背景ノイズを最小限に抑えたクリーンなオーディオをアップロードしてください。WAV または FLAC 16kHz 以上が最適です。MP3、OGG、M4A、WEBM も利用できます。クリアなスピーチは最も正確な変換を生成します。

近接リアルタイム処理は,合成に対してKokoroのような高速モデル,認識に対してFaster Whisperのような高速モデルを用いたAPIを通して利用できる。

はい。Chatterbox、Spark TTS、IndexTTS-2のようなモデルは感情とスタイルの制御をサポートします。穏やかな言葉を興奮した言葉に、悲しい言葉を幸せな言葉に、中立的な言葉を劇的な言葉に変換できます。同じ言葉と話者のアイデンティティを保ちながら。

音声合成は認識と合成のクレジットを組み合わせます。典型的な 1 分間の変換は選択したモデルに依存して 3 から 8 クレジットを使用します。Kokoro のようなフリーティアモデルは合成ステップにコストゼロで使用できます。

無料ユーザは1分までのオーディオを処理できます。有料プランは10分までのファイルをサポートします。長い録音の場合は、オーディオをセグメントに分割したり、長さ制限なしのバッチ処理のためのAPIを使用してください。

はい、アップロードされたすべてのオーディオは、我々のセキュリティのある GPU サーバで処理され、24時間以内に自動的に削除されます。 モデルを訓練するためにあなたのオーディオを使用することはありません。すべての転送は暗号化された接続を使用し、サーバ間の通信は認証されます。
5.0/5 (1)

改善点は何ですか?フィードバックは問題を解決するのに役立ちます。

人工知能による音声変換

声、感情、言語、スタイルを変更できます。無料で登録し、50 クレジットで始めてください。