バグ/機能要求を報告

TTSアリーナ

20以上のテキストから音声への変換モデルを比較します。公式のベンチマーク、コミュニティ評価、並列比較を行います。

無料登録

サイドバイサイド比較

テキストを入力し、2 つのモデルを選び、結果を比較します。フリーティアモデルにはアカウントが必要ありません。

モデルA

モデルB

フリーモデルはアカウントなしで動作する。登録比較するのに使うのです

モデルリーダーボード

#	モデル	オフィシャル	コミュニティ	スピード	動物
1	Kokoro Lightweight 82M parameter model delivering studio-quality speech with blazing-fast inference. 82M 1200h 2024	4.8 /5	5.0 /5 1 投票	fast	Free
2	CosyVoice 2 Alibaba's scalable streaming TTS with human-parity naturalness and near-zero latency. 300M 200000h 2024	4.26 /5	まだ投票はありません	medium	Standard
3	Chatterbox State-of-the-art zero-shot voice cloning with emotion control from Resemble AI. 300M 2025	4.25 /5	まだ投票はありません	medium	Premium
4	StyleTTS 2 Human-level text-to-speech through style diffusion and adversarial training. 100M 585h 2024	4.23 /5	まだ投票はありません	medium	Premium
5	Piper A fast, local neural text to speech system optimized for Raspberry Pi and embedded devices. 15M 2023	4.15 /5	まだ投票はありません	fast	Free
6	MeloTTS High-quality multilingual text-to-speech that runs on CPU with minimal latency. 25M 2024	4.13 /5	まだ投票はありません	fast	Free
7	Dia TTS Multi-speaker dialog generation model that creates natural conversations between speakers. 1.6B 2024	4.09 /5	まだ投票はありません	medium	Standard
8	VITS Conditional variational autoencoder with adversarial learning for end-to-end text-to-speech. 25M 585h 2021	4.0 /5	まだ投票はありません	fast	Free
9	Orpheus Human-level emotional TTS model trained on 100K hours of speech data. 3B 100000h 2025	4.0 /5	まだ投票はありません	medium	Standard
10	OpenVoice Instant voice cloning with granular control over style, emotion, and accent. 300M 2024	4.0 /5	まだ投票はありません	medium	Premium
11	IndexTTS-2 Zero-shot TTS with fine-grained emotion control and high expressiveness. 300M 2025	3.91 /5	まだ投票はありません	medium	Standard
12	Spark TTS Voice cloning TTS with controllable emotion and speaking style via prompts. 500M 2025	3.9 /5	まだ投票はありません	medium	Standard
13	Parler TTS Describe the voice you want in natural language and Parler generates matching speech. 880M 45000h 2024	3.83 /5	まだ投票はありません	medium	Standard
14	Tortoise TTS Multi-voice text-to-speech focused on quality with autoregressive architecture. 400M 50000h 2022	3.7 /5	まだ投票はありません	slow	Premium
15	Bark Transformer-based text-to-audio model that generates realistic speech, music, and sound effects. 350M 100000h 2023	3.57 /5	まだ投票はありません	slow	Standard
16	Bark Small Lighter version of Bark with faster inference and lower memory usage. 150M 100000h 2023	—	まだ投票はありません	medium	Standard
17	GPT-SoVITS Few-shot voice cloning TTS that replicates any voice from just 5 seconds of audio. 200M 2024	—	まだ投票はありません	slow	Standard
18	Qwen3 TTS Alibaba's multilingual TTS with preset voices and voice design from text. 1.7B 2025	—	まだ投票はありません	medium	Standard
19	VieNeu-TTS-v2 Vietnamese + English code-switching TTS with 7 preset voices and zero-shot voice cloning. CPU-only, no GPU required. 0.3B 10000h 2026	—	まだ投票はありません	fast	Standard
20	Sesame CSM Conversational speech model generating natural dialogue with appropriate timing and emotion. 1B 2025	—	まだ投票はありません	slow	Premium
21	Chatterbox Turbo Faster Chatterbox with sub-200ms latency and paralinguistic tags for laughs, coughs, and more. 350M 2025	—	まだ投票はありません	fast	Standard
22	VoxCPM Tokenizer-free TTS producing 44.1kHz audio with context-aware paragraph consistency. 500M 1800000h 2025	—	まだ投票はありません	fast	Standard
23	Kani TTS 2 Ultra-lightweight 400M English TTS model running in just 3GB VRAM. 400M 10000h 2026	—	まだ投票はありません	fast	Free
24	OuteTTS LLM-based TTS that runs on CPU, GPU, or browser via llama.cpp and Transformers.js. 1B 5000h 2025	—	まだ投票はありません	fast	Free
25	VibeVoice Microsoft's multi-speaker long-form TTS generating up to 90 minutes with 4 distinct speakers. 1.5B 100000h 2025	—	まだ投票はありません	fast	Standard
26	Pocket TTS Lightweight 100M parameter model by Kyutai with voice cloning from a single sample. 100M 50000h 2025	—	まだ投票はありません	fast	Free
27	Kitten TTS Ultra-lightweight TTS under 80MB. Runs on CPU without GPU. 80M 2025	—	まだ投票はありません	fast	Free
28	CosyVoice3 Next-generation multilingual TTS with bi-streaming, emotion control, and zero-shot voice cloning. 500M 200000h 2025	—	まだ投票はありません	fast	Standard
29	NAMAA Saudi TTS First open Saudi-Arabic TTS. Native Saudi dialect with Chatterbox-quality voice cloning. 300M 2026	—	まだ投票はありません	medium	Standard
30	Darwin TTS Cross-modal Qwen3-TTS variant with FFN weights blended from the Qwen3-1.7B language model for sharper multilingual cloning. 2.1B 2026	—	まだ投票はありません	medium	Standard
31	MOSS-TTSD Multi-speaker dialogue continuation model — generate podcast-style conversations with up to 5 speakers and 60 minutes of coherent audio. 7B 2026	—	まだ投票はありません	medium	Standard
32	Ming-Omni TTS Compact 0.5B omni-modal speech model from inclusionAI with high-fidelity 44.1kHz output and zero-shot voice cloning. 500M 2026	—	まだ投票はありません	medium	Free
33	MOSS-TTS Nano Tiny 100M MOSS-TTS variant — same architecture, 80x smaller, free-tier latency. 100M 500000h 2026	—	まだ投票はありません	fast	Free

詳細なベンチマーク結果

公式のTTS.aiベンチマークは自然性，正確性，速度の三つの次元で得点を得た。

Kokoro

Free

自然性 4.8/5

精度 4.7/5

スピード 4.9/5

総合 4.8/5

CosyVoice 2

Standard

自然性 4.5/5

精度 4.4/5

スピード 3.8/5

総合 4.26/5

Chatterbox

Premium

自然性 4.7/5

精度 4.5/5

スピード 3.4/5

総合 4.25/5

StyleTTS 2

Premium

自然性 4.5/5

精度 4.3/5

スピード 3.8/5

総合 4.23/5

Piper

Free

自然性 3.5/5

精度 4.2/5

スピード 4.95/5

総合 4.15/5

MeloTTS

Free

自然性 3.8/5

精度 4.1/5

スピード 4.6/5

総合 4.13/5

Dia TTS

Standard

自然性 4.6/5

精度 4.3/5

スピード 3.2/5

総合 4.09/5

VITS

Free

自然性 3.4/5

精度 4.0/5

スピード 4.8/5

総合 4.0/5

Orpheus

Standard

自然性 4.3/5

精度 4.1/5

スピード 3.5/5

総合 4.0/5

OpenVoice

Premium

自然性 4.0/5

精度 4.1/5

スピード 3.9/5

総合 4.0/5

IndexTTS-2

Standard

自然性 4.3/5

精度 4.1/5

スピード 3.2/5

総合 3.91/5

Spark TTS

Standard

自然性 4.2/5

精度 4.0/5

スピード 3.4/5

総合 3.9/5

Parler TTS

Standard

自然性 4.1/5

精度 3.9/5

スピード 3.4/5

総合 3.83/5

Tortoise TTS

Premium

自然性 4.6/5

精度 4.4/5

スピード 1.8/5

総合 3.7/5

Bark

Standard

自然性 4.2/5

精度 3.8/5

スピード 2.5/5

総合 3.57/5

ベンチマーク法

テスト設定

ハードウェア: NVIDIA Tesla P40 4枚（各24GB VRAM）、合計96GB
テストテキスト: 異なる言語パターン（語り、対話、技術、感情、多言語）をカバーする5つの標準化されたパターン
評価: 自動測定（ＭＯＳ推定，ＷＥＲ，ＲＴＦ）と人間の聴取テストを組み合わせた。
実行: 各モデルを１回に１０回テストし，得点を平均した。

得点基準

自然さ(40%)： 韻律、音調、リズム、感情― どれだけ人間らしく聞こえるか？
精度 (30%): 発音正確度，単語誤り率，理解度
速度 (30%): リアルタイム因子 (オーディオ秒/生成秒)。高いほど速い。
総合: 加重平均: 0.4 x 自然度 + 0.3 x 正確度 + 0.3 x スピード

ノート: ベンチマークは特定のハードウェアとテストテキストの性能を反映します。実際の品質は入力テキスト、言語、音声選択により異なります。コミュニティ評価は多様な実際の使用に基づいた補完的な信号を提供します。

よくある質問

TTS Arenaは、公式のベンチマークテストとコミュニティの評価に基づいて、AIテキストから音声へのモデルをランク付けするリーダーボードです。モデルを並べて比較し、サンプルを聴き、最も好きなものに投票してください。

同じテキストパス，ハードウェア，評価基準を用いて各モデルで標準化されたテストを実行した。

はい! モデルの隣の星をクリックして 1 から 5 までの評価を付けてください。投票するにはログインしてください。評価はリーダーボードに表示されるコミュニティの平均に反映されます。評価はいつでも変更できます。

テキストを入力し、2 つのモデルを選択して比較をクリックします。両方のモデルは同じテキストから同時に音声を生成します。両方を聴いてどちらが良いかを投票してください。このブラインド比較は、あなたの特定のニーズに最適なモデルを特定するのに役立ちます。

自然度は音声がどれほど人間らしく聞こえるかを測定します (韻律、音調、リズム)。正確度は発音の正確さと理解性を測定します。速度はモデルが音声をリアルタイムに比べてどれほど速く生成するかを測定します。総合はすべてのメトリクスの加重平均です。

ベンチマークスコアがないモデルは、新しく追加されてテストを待つか、または特別な設定 (ゲートアクセストークンなど) を必要とするものであり、テスト中です。コミュニティ評価はこれらのモデルに対して依然として利用可能です。

公式のベンチマークはモデルが大幅に更新されるか新しいモデルが追加される度に更新されます。コミュニティの評価はユーザが投票するとリアルタイムで更新されます。ランキングデータはパフォーマンスのために5分間キャッシュされます。

無料モデル (Kokoro, Piper, VITS, MeloTTS) は0クレジット、標準モデルは1,000文字当たり2クレジット、プレミアムモデルは1,000文字当たり4クレジットで、一般的に最高の品質や音声クローンのようなユニークな機能を提供します。

多くの場合、Kokoro (フリー) は優れた品質を提供します。声のクローンには Chatterbox または CosyVoice 2 を試してください。多言語コンテンツには MeloTTS または CosyVoice 2 を試してください。表現力のあるナレーションには Bark または Dia を試してください。比較ツールを使って特定のテキストでテストしてください。

はい、フリーのモデルを使って、アカウントなしでどの2つのモデルからもオーディオを生成して比較できます。モデルに投票するにはフリーのアカウントが必要です。プレミアムモデルの比較には文字が必要です。

標準化されたテストテキスト，同一のハードウェア，すべてのモデルにおける一貫した評価基準を用いて客観性を追求した。

ベンチマークを持たないモデルはベンチマークを持つモデルより下位に位置づけられ，コミュニティの評価によって順位付けされる。

5.0/5 (1)

ファインド・ユア・パーフェクト・ボイス

Kokoro、Piper、VITS、MeloTTSでどのモデルでも無料で試してみてください。アカウントは必要ありません。

無料登録価格を表示

TTSアリーナ

サイドバイサイド比較

モデルリーダーボード

詳細なベンチマーク結果

Kokoro

CosyVoice 2

Chatterbox

StyleTTS 2

Piper

MeloTTS

Dia TTS

VITS

Orpheus

OpenVoice

IndexTTS-2

Spark TTS

Parler TTS

Tortoise TTS

Bark

ベンチマーク法

テスト設定

得点基準

よくある質問

TTSアリーナとは？

公式のベンチマークスコアはどのように計算されますか？

モデルの品質に投票してもいい？

モデル比較はどのように機能するのか。

各ベンチマークメトリクスは何を意味するのか？

なぜあるモデルにはベンチマークスコアがないのか。

ベンチマークはいつ更新されますか？

無料、標準、プレミアムの違いは何ですか？

どのモデルを使うべきですか。

ログインせずに比較ツールを使用できますか？

ベンチマークテストはバイアスがあるか？

得点が等しいときのモデルの順位はどうなるのか。

ファインド・ユア・パーフェクト・ボイス