Report Bug / Feature Request

TTSアリーナ

異なるモデルによって同じテキストが話されているかを聞き、最も自然に聞こえる声に投票し、20以上のTTSモデルがコミュニティによって作成されたランキングでどのようにランク付けされているかを見ることができます。客観的なベンチマークは主観的な人間の判断に合致します。

モデルランクコミュニティ投票ベンチマーク A/Bテストランキング

エントリー・ザ・TTS・アリーナトライ・モデルズ・ユアセルフ

TTSアリーナ

人工知能音声モデルを評価する公平でコミュニティ駆動の方法

オフィシャルベンチマーク

ＭＯＳ（平均意見得点），文字誤り率，話者類似度，リアルタイム因子を含む評価指標を標準化した。

コミュニティ・レート

ユーザが提出した評価と実際の TTS ユーザからのレビュー。コミュニティのフィードバックに基づいて、特定のユースケースに最適なモデルを見ることができます。

サイドバイサイド比較

２つの異なるモデルで同じテキストを生成し、オーディオの品質、自然さ、速度をブラウザで直接比較する。

20+モデルランクイン

TTS.aiのすべてのモデルはベンチマークされ、ランク付けされています。速度、品質、言語サポート、機能、ライセンスでフィルタリングして、あなたにぴったりのモデルを見つけてください。

詳細なメトリクス

各モデルの性能を深く調べる：遅延，スループット，ＶＲＡＭ使用量，サポート言語，クローニング品質，感情範囲スコア。

フリー・トゥ・ユース

ランキングを閲覧し、モデルを比較し、品質に投票してください。すべて無料です。ランキングやベンチマークを探索するにはアカウントが必要ありません。

モデルズ・イン・ザ・アリーナ

20人以上のモデルがトップランクを競う

Kokoro

Free

Lightweight 82M parameter model delivering studio-quality speech with blazing-fast inference.

Fast 5/5

適応する: トップランクフリーモデル - リーダーボードで最高の速度/品質比

試してみる Kokoro

Chatterbox

Premium

State-of-the-art zero-shot voice cloning with emotion control from Resemble AI.

Medium 5/5 音声クローン

適応する: 感情制御能力を持つ最も評価の高い音声クローンモデル

試してみる Chatterbox

CosyVoice 2

Standard

Alibaba's scalable streaming TTS with human-parity naturalness and near-zero latency.

Medium 5/5 音声クローン

適応する: 人間パリティ自然性スコアを持つトップ多言語モデル

試してみる CosyVoice 2

StyleTTS 2

Premium

Human-level text-to-speech through style diffusion and adversarial training.

Medium 5/5

適応する: すべてのオープンソースモデルの中で最高のシングルスピーカーMOSスコア

試してみる StyleTTS 2

Sesame CSM

Premium

Conversational speech model generating natural dialogue with appropriate timing and emotion.

Slow 5/5

適応する: 自然な対話生成のための会話音声モデルの導入

試してみる Sesame CSM

どうやってTTSアリーナが動くのか

音声の質を投票して、最良のAIモデルのランク付けを手伝ってください

モデルの比較

二つのモデルを選択し、両方で同じテキストを生成します。出力を聞き、自然さ、明瞭さ、感情表現を比較します。

品質投票

比較した後、より良く聞こえるモデルに投票してください。あなたの投票はコミュニティの評価に寄与し、他のユーザが選ぶのを助けます。

君の理想のモデルを見つける

リーダボードデータとコミュニティ評価を使って，特定のユースケース，予算，品質要求に最適なモデルを選択する。

TTSアリーナって何？

人工知能音声モデルの評価に対するコミュニティ駆動アプローチ

ブラインドA/B比較

このアリーナでは、ランダムに選ばれた2つのモデルによって同じテキストが話されています。どちらのモデルが生成したかを知らずに2つのサンプルを聴き、より自然に聞こえるものに投票します。このブラインドテストはブランドバイアスを取り除き、純粋に音質に基づいた判断を強制します。

同じテキスト、2つの匿名のモデル
投票後に発表されたモデル名
各ラウンドに新しいランダムペア
ブランドバイアスなし純粋な音質

ELOランキング

モデルはチェスプレイヤーのランク付けに使われるアルゴリズムと同じ Elo ランク付けシステムを使ってランク付けされます。ランクの高いモデルに勝つと、ランクの低いモデルに勝つよりも多くのポイントが得られます。数千の投票により、真のコミュニティの好みを反映した信頼できるランクが得られます。

ELOベースのランク付けアルゴリズム
投票によって評価が調整される
統計的信頼区間
時代とともに安定した順位

エンター・ザ・アリーナ

モデル比較プレビュー

私たちの20以上のモデルが重要な次元でどのように比較されているか

モデル	動物	品質	スピード	言語
Kokoro	フリー	4.5/5	ファスト	8
Bark	標準	4.0/5	メディア	13
CosyVoice2	標準	4.5/5	メディア	6
Tortoise TTS	プレミアム	4.8/5	スロー	1
Chatterbox	プレミアム	4.7/5	メディア	1
StyleTTS 2	プレミアム	4.7/5	ファスト	1

アリーナの全ランキングを見る

音声の評価を開始

評価基準

ＴＴＳモデルが高い位置にある理由は

自然

人間の言葉に合う自然な韻律、リズム、音調パターン。ロボットの作り物や不自然な休止はありません。

表現力

音声は適切な感情や強調を伝達するか？

精度

すべての単語を正しく発音しますか？異常な単語、数字、略語、外国名を誤りや幻覚音なしで扱います。

最高のAI音声のランク付けを手伝ってください

あなたの投票はリーダーボードに直接影響します。すべての比較はコミュニティが最良のモデルを見つけるのに役立ちます。

エントリー・ザ・TTS・アリーナ

よくある質問

TTSアリーナとモデルランキングに関するよくある質問

ＴＴＳアリーナは，公式ベンチマークとコミュニティ投票に基づいて２０以上のモデルをランク付けし，標準化された評価と並列比較を通じてユーザが自分のニーズに最適なモデルを見つける手助けをする。

モデルは主観的品質のＭＯＳ（Ｍｅａｎ　Ｏｐｉｎｉｏｎ　Ｓｃｏｒｅ），発音の正確性の文字誤り率，速度のリアルタイム因子，効率のＶＲＡＭ使用量，実世界の好みのコミュニティ投票などの複数の指標に基づいて評価される。

音声品質評価の標準的な尺度は，音声の自然さを評価するＭＯＳである。人間の聴取者は，音声サンプルの自然さを１〜５の尺度で評価する。４．０以上のスコアは，人間に近い品質と考えられる。我々のトップモデルは，４．２〜４．５のＭＯＳスコアを達成し，自然な人間の音声録音と競い合う。

ランキングは基準に依存します。Kokoro は速度と品質の比でトップに立ち、StyleTTS 2 は単一スピーカーで最高の MOS を達成しました。Chatterbox は音声クローンのランキングでトップに立ち、CosyVoice 2 は多言語の品質でトップに立っています。各カテゴリの現在のランキングはリーダーボードを参照してください。

はい。並列比較を聴き、より良く聞こえるモデルに投票してください。投票は無料で、アカウントを必要としません。コミュニティの投票は直接ランキングに影響し、異なるユースケースに最適なモデルを見つけるのに役立ちます。

また、公式ベンチマークは新しいモデルが追加されるか、既存モデルが大幅に更新される時に更新される。コミュニティランキングは投票が入るにつれてリアルタイムで更新される。一貫性と公平な比較を確保するために、全てのモデルを季節ごとに再評価する。

文字誤り率 (CER) は生成された音声を転写し、入力テキストと比較することで発音の正確性を測定します。低い CER はモデルが言葉をより正確に発音することを意味します。Kokoro や Sesame CSM のようなモデルは優れた CER 得点を達成します。

テキストのサンプルを入力し、 2 つのモデルを選択し、生成をクリックします。どちらのモデルも同じテキストから音声を生成します。どちらの出力も聞いて、どちらが自然で、明瞭で、表現力があるかを判断します。それから好きなモデルに投票できます。

はい。私たちはベンチマークの方法論、テスト文、評価基準を公開しています。すべてのモデルは同じGPUハードウェアで同じ条件下でテストされます。コミュニティのメンバーは私たちが公開したテストセットとスコアリングルビックを使用して結果を再現できます。

The arena focuses on the 20+ open-source models hosted on TTS.ai. We do not directly benchmark commercial services like ElevenLabs or Google TTS, but our MOS scores and metrics are comparable to published benchmarks from those services.

速度 (リアルタイムのニーズとバッチ処理の比較)、品質 (MOS 得点)、言語サポート、特殊機能 (声のクローン、感情制御、対話)、ライセンス条件、予算 (無料とプレミアムの比較) を考慮してください。アリーナフィルタは、これらの基準に基づいてオプションを絞り込むのに役立ちます。

プレミアムモデルの主な利点は，生音質よりも，音声クローン（Ｃｈａｔｔｅｒｂｏｘ），スタイル拡散（ＳｔｙｌｅＴＴＳ２），会話音声（Ｓｅｓａｍｅ　ＣＳＭ）などの特殊な機能である。

5.0/5 (1)

投票はTTSアリーナで

AIの声に耳を傾け、最良のものに投票し、20以上のモデルのコミュニティによるランキングを探索してください。

無料登録価格を表示

TTSアリーナ

TTSアリーナ

オフィシャルベンチマーク

コミュニティ・レート

サイドバイサイド比較

20+モデルランクイン

詳細なメトリクス

フリー・トゥ・ユース

モデルズ・イン・ザ・アリーナ

Kokoro

Chatterbox

CosyVoice 2

StyleTTS 2

Sesame CSM

どうやってTTSアリーナが動くのか

ランキングを見る

モデルの比較

品質投票

君の理想のモデルを見つける

TTSアリーナって何？

ブラインドA/B比較

ELOランキング

モデル比較プレビュー

評価基準

自然

表現力

精度

最高のAI音声のランク付けを手伝ってください

よくある質問

TTSアリーナとは？

ＴＴＳモデルはどのように評価されるか。

ＭＯＳ（平均意見得点）とは何か。

どのＴＴＳモデルが１位？

モデルの品質に投票してもいい？

ベンチマークはいつ更新されますか？

ＴＴＳの文字誤り率はどの程度か。

サイドバイサイド比較はどのように機能しますか？

ベンチマーク結果は再現可能か。

商業的なＴＴＳサービスはありますか？

モデルを選ぶときにどのような要因を考慮すべきか。

フリーモデルとプレミアムモデルの比較はどうですか？

投票はTTSアリーナで