Report Bug / Feature Request

TTS Arena — AI Voice Model Leaderboard

Ṣàfikún àwọn móòdù àkọlé-si-ìbàlẹ̀ AI. Fẹ́nú àwọn móòdù tí a sọ̀rọ̀ nípa, tẹ̀tẹ̀ fún àwọn móòdù tí a mọ́ jù lọ, ki o si wó bí àwọn móòdù TTS 20+ ṣe ǹlà nínú àwọn àwọn ààyè ìṣàfilọ́lẹ̀ wà tí a kọ̀ nípa ìjọba. Àwọn àwọn ìṣàfilọ́lẹ̀ ìṣàfilọ́lẹ̀ tí a fi hàn nípa ìṣàfilọ́lẹ̀ àwọn eniyan.

Àwọn ìṣàmúlò-ètò Àwọn Àwọn Àwọn Àwọn Àwọn Àwọn Àwọn Àwọn Àwọn ìṣàmúlò-ètò Àwọn ààyè-iṣẹ́ Àwọn àwọn àkọlé

Lọ sí àwọn ààyè-iṣẹ́ TTS Wá Àwọn Àwọn Àwọn Àwọn Àwọn Àwọn

Àwọn Àbùdá TTS Arena

Àwọn ìṣàmúlò-ètò ìṣàfarawé àwọn àwọn ìṣàmúlò-ètò AI

Àwọn Ìṣàmúlò-ètò Òfiisí

Standardized iwadi metriki pẹlu MOS (Mean Opinion Score), awọn aami ti o yatọ, awọn ọrọ ti o yatọ, ati awọn ifosiwewe akoko gidi lori gbogbo awọn awoṣe 20 +.

Àwọn ìṣàmúlò-ètò

Àwọn ìṣàmúlò-ètò àti àwọn ìṣàmúlò-ètò tí a fi pamọ́ láti àwọn òǹlò TTS òótọ́. Wòye àwọn ààyè-iṣẹ́ wò nípa àwọn ìṣàmúlò-ètò ìṣàmúlò-ètò tó dara jù fún àwọn ìṣàmúlò-ètò tó kù nípa àwọn ìṣàmúlò-ètò àwọn òǹlò.

Àwọn Àwọn Ààyè-iṣẹ́

Ṣẹ̀dà àkọlé tí a fẹ́ ní àwọn móòdù mejì tí a yatọ̀ si àti ìtalólobò ìṣàfihàn, ìṣàfihàn àti ààyè-iṣẹ́ nínú àwòrán rẹ̀.

20+ Models Ranked

Àwọn móòdù gbogbo ni TTS.ai ní a tí fi àwọn ìṣàmúlò-ètò pamọ́. Ṣàfihàn láti inú ìrárá, ìṣàfihàn, ìpèwọ̀n, àwọn àwọn ààyè-iṣẹ́, àti líǹsì láti wa àwọn móòdù tí o fẹ́.

Àwọn Àwọn Àkọlé

Deep-dive into each model's performance: latency, throughput, VRAM usage, supported languages, cloning quality, and emotional range scores.

Àwọn Ìṣàmúlò-ètò

Browse the leaderboard, compare models, and vote on quality — all completely free. No account needed to explore rankings and benchmarks.

Àwọn àwọn ìṣàmúlò-ètò nínú àwọn ààyè-iṣẹ́

Gbogbo 20+ awọn awoṣe ti o ni ifẹ-si-ifẹ fun ipo ti o ga julọ

Kokoro

Free

Lightweight 82M parameter model delivering studio-quality speech with blazing-fast inference.

Fast 5/5

Ó dara jù fún: Top-ranked free model — best speed-to-quality ratio on the leaderboard

Àwọn ààyè-iṣẹ́ Kokoro

Chatterbox

Premium

State-of-the-art zero-shot voice cloning with emotion control from Resemble AI.

Medium 5/5 Àwọn Àmì-ìwé

Ó dara jù fún: Àwọn ìṣàmúlò-ètò ìṣàfarawé àwọn ìṣàmúlò-ètò ìṣàfarawé àwọn ìṣàmúlò-ètò

Àwọn ààyè-iṣẹ́ Chatterbox

CosyVoice 2

Standard

Alibaba's scalable streaming TTS with human-parity naturalness and near-zero latency.

Medium 5/5 Àwọn Àmì-ìwé

Ó dara jù fún: Top multilingual model with human-parity naturalness scores

Àwọn ààyè-iṣẹ́ CosyVoice 2

StyleTTS 2

Premium

Human-level text-to-speech through style diffusion and adversarial training.

Medium 5/5

Ó dara jù fún: Àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn

Àwọn ààyè-iṣẹ́ StyleTTS 2

Sesame CSM

Premium

Conversational speech model generating natural dialogue with appropriate timing and emotion.

Slow 5/5

Ó dara jù fún: Àwọn àwọn àkọlé àwòrán

Àwọn ààyè-iṣẹ́ Sesame CSM

Bií a ṣe lè ló TTS Arena

Àwọn ìṣàmúlò-ètò AI

Wá Àwọn Ààyè-iṣẹ́

Wo gbogbo awọn awoṣe 20+ ti a ṣe akojọ nipasẹ didara, iyara, ati awọn ẹya ara ẹrọ. Ṣayẹwo nipasẹ ipele (ọfẹ, deede, premium) tabi awọn agbara ti o tọ.

Àwọn àwọn àwọn àwọn àwọn àwọn

Yan àwọn móòdù mejì láti mú àkọ́lé kaǹ nípa wọn. Fẹ̀ẹ̀ àwọn àtòjọ-ẹ̀yàn náà láti wòye àwọn ìṣàfihàn àti ìṣàfarawé àwọn ìṣàfihàn àwọn ìrànwọ́, ìṣàfihàn, àti àwọn ìṣàfihàn àwọn ìrànwọ́.

Àwọn àwọn ìṣàmúlò-ètò

Lẹ́yìn ìpàpọ̀, fi àwọn ìṣàmúlò-ètò tí o dara jù lọ̀wọ́. Àwọn ìṣàmúlò-ètò rẹ̀ ń fi pamọ́ sí ìpele àwọn ìjọbà láti sé ìrànwọ́ àwọn òǹlò mìíràn.

Wá Àwọn Àwọn Àwọn Àwọn Àwọn

Ló àwọn ààyè àwọn ìṣàmúlò-ètò àti àwọn ìṣàmúlò-ètò ìjọbà láti yań àwọn módèlè̀ tí o dara jù fún àwọn àwọn ìṣàmúlò-ètò rẹ̀, àwọn owó, àti àwọn ìṣàmúlò-ètò ìṣàfihàn.

Kini Ìgbà Ìṣàmúlò-ètò TTS?

Aṣàfilọ́lẹ̀ ààyè-iṣẹ́ fún ìṣàfilọ́lẹ̀ àwọn ìṣàmúlò-ètò àwòrán AI

Àwọn ìṣàfarawé A/B

The arena presents the same text spoken by two randomly selected models. You listen to both samples without knowing which model generated them, then vote for the one that sounds more natural. This blind testing removes brand bias and forces judgment based purely on audio quality.

Àkọ́lé kanna, àwọn ìṣàmúlò-ètò àìdálò-ètò meji
Àwọn orúkọ àwọn ìṣàmúlò-ètò tí a fi pamọ́ láti ìgbà ìṣàmúlò-ètò
Àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn
Kò ní ìṣàfarawé àwọn àmì-ìwé - ìṣàfarawé àwọn àmì-ìwé

Àwọn Ìṣàmúlò-ètò

Àwọn móòdù ní a tí fi ìṣàmúlò-ètò ìṣàmúlò-ètò Elo lò, àwọn àlòrítì tí a lò láti fi àwọn oṣèlù chess sí ipo. Àwọn ìṣẹ̀dà lórí móòdù tí a tí ìṣàmúlò-ètò náà jẹ́ àwọn àwọn ìtàn tí o jù lọ́wọ́lù tí a tì ìṣàmúlò-ètò tí a tí ìṣàmúlò-ètò náà lọ́wọ́lù lọ́wọ́lù lọ́wọ́lù lọ́wọ́lù lọ́wọ́lù. Nínú àwọn àwọn ìṣàmúlò-ètò pẹ̀lú àwọn ẹlẹ̀gbẹ̀ pẹ̀lú, yìí náà náà jẹ́ ìṣàmúlò-ètò tí a lè fi pamọ́ láti fi àwọn ìkúndùǹ àwọn ìṣàfilọ́lẹ̀ ìjọbà pamọ́.

Àwọn ìṣàmúlò-ètò ìpele-ìdáràn
Àwọn ìṣàmúlò-ètò ìṣàmúlò-ètò
Àwọn ìpele ìròyìn
Àwọn ìpele tí a fi pamọ́ nínú àkókò

Enter the Arena

Àwọn àwọn ìṣàfihàn ìtalolobó

Bii a ṣe le ṣe iyatọ awọn awoṣe 20+ wa ni gbogbo awọn iwọn bọtini

Àwọn ìṣàmúlò-ètò	Àwọn àwọn ààyè-iṣẹ́	Àwọn ìkúndùǹ	Ìjánu-ìsún	Àwọn Àwọn Àwọn Àwọn Àwọn Àwọn Àwọn
Kokoro	Àìfẹ́	4.5/5	Àwọn àwọn ààyè-iṣẹ́	8
Bark	Àwọn ìpéwọ̀n	4.0/5	Àwọn àwọn àwọn àwọn	13
CosyVoice2	Àwọn ìpéwọ̀n	4.5/5	Àwọn àwọn àwọn àwọn	6
Tortoise TTS	Àwọn ìṣàmúlò-ètò	4.8/5	Àwọn ìṣàmúlò-ètò	1
Chatterbox	Àwọn ìṣàmúlò-ètò	4.7/5	Àwọn àwọn àwọn àwọn	1
StyleTTS 2	Àwọn ìṣàmúlò-ètò	4.7/5	Àwọn àwọn ààyè-iṣẹ́	1

Wó Àwọn Ààyè Ààyè Nínú Ààyè

Start Rating Voices

Àwọn ìṣàmúlò-ètò ìṣàmúlò-ètò

Ohun tí o mú ìṣàmúlò-ètò TTS lọ́wọ́lọ́wọ́ nínú àwọn ààyè-iṣẹ́

Ìṣàfilọ́lẹ̀

Does it sound like a real person? Natural prosody, rhythm, and intonation patterns that match human speech. No robotic artifacts or unnatural pauses.

Ìṣàfilọ́lẹ̀

Àwọn módè́lì tí o dara jù nígbà tí o bá jẹ́ pé ìbálẹ̀ tí o tọ́ nígbà tí o bá jẹ́ pé ìbálẹ̀ tí o tọ́ nígbà tí o bá jẹ́.

Àwọn ìṣàfarawé

Does it pronounce every word correctly? Handles unusual words, numbers, abbreviations, and foreign names without errors or hallucinated sounds.

Ṣẹ̀dà àwọn àwòrán AI tí o dara jù

Àwọn ìṣàmúlò-ètò rẹ̀ jẹ́ àwọn ìṣàmúlò-ètò tí o pọ̀ jù lọ. Àwọn ìṣàmúlò-ètò ní pàtó fún àwọn ìṣàmúlò-ètò láti wa àwọn ìṣàmúlò-ètò tí o dara jù lọ.

Lọ sí àwọn ààyè-iṣẹ́ TTS

Àwọn Àtòjọ-ẹ̀yàn

Àwọn ibeere àwọn ìṣàmúlò-ètò TTS Arena àti àwọn ìṣàmúlò-ètò ìṣàmúlò-ètò

TTS Arena ní orúkọ́ àwọn amọ́jà ìṣàfarawe-ọ̀kan àti ìṣàfarawe-ọ̀kan fún àwọn móòdù àkọ́lé-si-ìbálẹ̀ AI. Ò fi àwọn móòdù 20+ pamọ́ láti dájú àwọn àwọn ìṣàfarawe-ọ̀kan àti àwọn àwọn ìṣàfarawe-ọ̀kan, láti sé iranlọwọ fún àwọn òǹlò láti wa móòdù tí o dara jù fún àwọn ìṣàfarawe-ọ̀kan wọn lọ́wọ́lú ìṣàfarawe-ọ̀kan.

Àwọn ìṣàmúlò-ètò ní pàtó ní pàtó àwọn ààyè-ètò: MOS (Mean Opinion Score) fún àwọn ààyè-ètò ìṣàfarawé, àwọn àwọn ìṣàmúlò-ètò àwọn àbùdá àwọn àbùdá àwọn àbùdá àwọn àbùdá, àwọn ààyè-ètò àwọn ààyè-ètò, àwọn ààyè-ètò àwọn ààyè-ètò, àwọn ààyè-ètò àwọn ààyè-ètò, àwọn ààyè-ètò àwọn ààyè-ètò, àwọn ààyè-ètò, àwọn ààyè-ètò, àwọn ààyè-ètò, àwọn ààyè-ètò, àwọn ààyè-ètò, àwọn ààyè-ètò, àwọn ààyè-ètò, àwọn ààyè-ètò, àwọn ààyè-ètò, àwọn ààyè-ètò, àwọn ààyè-ètò, àwọn ààyè-ètò, àwọn ààyè-ètò, àwọn ààyè-ètò, àwọn ààyè-ètò

MOS is the standard metric for evaluating speech quality. Human listeners rate speech samples on a 1-5 scale for naturalness. Scores above 4.0 are considered near-human quality. Our top models achieve MOS scores of 4.2-4.5, rivaling natural human speech recordings.

Àwọn ìṣàmúlò-ètò ní pàtó nípa àwọn ìpéwọ̀n. Kokoro tí n bọ́ nínú ìṣàmúlò-ètò ìráwọ̀n ìráwọ̀n. StyleTTS 2 tí n bọ́ nínú ìṣàmúlò-ètò MOS tí o gà jù lọ. Chatterbox tí n bọ́ nínú ìṣàmúlò-ètò ìṣàmúlò-ètò ìṣàmúlò-ètò. CosyVoice 2 tì n bọ́ nínú ìṣàmúlò-ètò ìṣàmúlò-ètò àwọn ìṣàmúlò-ètò àwọn ìṣàmúlò-ètò àwọn ìṣàmúlò-ètò àwọn ìṣàmúlò-ètò. Wòye àwọn ìṣàmúlò-ètò lọ́wọ́lọ́wọ́ nínú àwọn ìṣàmúlò-ètò nínú àwọn ìṣàmúlò-ètò nínú gbogbo àwọn ìṣàmúlò-ètò.

Yes. Listen to side-by-side comparisons and vote for the model that sounds better. Voting is free and does not require an account. Community votes directly influence the rankings and help surface the best models for different use cases.

Official benchmarks are updated when new models are added or existing models receive significant updates. Community rankings update in real-time as votes come in. We re-evaluate all models quarterly to ensure consistent and fair comparison.

Àwọn ìṣàmúlò-ètò àwọn àmì-ìwé (CER) ń tọ́ka ìṣàfihàn àwọn àmì-ìwé láti fi àwọn àkọlé tí a kọ̀ nípa ìṣàfihàn àwọn àmì-ìwé tí a kọ̀ nípa àwọn àkọlé tí a fi pamọ́. CER tí o gà jù lọ nínú àwọn àmì-ìwé náà nínú àwọn àmì-ìwé náà. Àwọn àmì-ìwé bíi Kokoro àti Sesame CSM ń gba àwọn àwọn ààyè CER tí a fẹ́.

Enter a text sample, select two models, and click generate. Both models produce audio from the same text. Listen to both outputs and judge which sounds more natural, clear, and expressive. You can then vote for your preferred model.

Yes. We publish our benchmark methodology, test sentences, and evaluation criteria. All models are tested under identical conditions on the same GPU hardware. Community members can reproduce results using our published test sets and scoring rubrics.

The arena focuses on the 20+ open-source models hosted on TTS.ai. We don't directly benchmark commercial services like ElevenLabs or Google TTS, but our MOS scores and metrics are comparable to published benchmarks from those services.

Consider your priorities: speed (real-time needs vs batch processing), quality (MOS score), language support, special features (voice cloning, emotion control, dialogue), license terms, and budget (free vs premium tier). The arena filters help narrow options by these criteria.

Kokoro (free) achieves a 5/5 quality score, matching many premium models. The main advantages of premium models are specialized features like voice cloning (Chatterbox), style diffusion (StyleTTS 2), and conversational speech (Sesame CSM) rather than raw audio quality.

5.0/5 (1)

Fi Ojú Rẹ̀ pamọ́ nínú TTS Arena

Wo awọn ọrọ AI, yan awọn ti o dara julọ, ati ṣawari awọn awoṣe 20+ wa ti a ṣe nipasẹ agbegbe.

Ṣàfihàn Wó Àwọn Ìtàn

TTS Arena — AI Voice Model Leaderboard

Àwọn Àbùdá TTS Arena

Àwọn Ìṣàmúlò-ètò Òfiisí

Àwọn ìṣàmúlò-ètò

Àwọn Àwọn Ààyè-iṣẹ́

20+ Models Ranked

Àwọn Àwọn Àkọlé

Àwọn Ìṣàmúlò-ètò

Àwọn àwọn ìṣàmúlò-ètò nínú àwọn ààyè-iṣẹ́

Kokoro

Chatterbox

CosyVoice 2

StyleTTS 2

Sesame CSM

Bií a ṣe lè ló TTS Arena

Wá Àwọn Ààyè-iṣẹ́

Àwọn àwọn àwọn àwọn àwọn àwọn

Àwọn àwọn ìṣàmúlò-ètò

Wá Àwọn Àwọn Àwọn Àwọn Àwọn

Kini Ìgbà Ìṣàmúlò-ètò TTS?

Àwọn ìṣàfarawé A/B

Àwọn Ìṣàmúlò-ètò

Àwọn àwọn ìṣàfihàn ìtalolobó

Àwọn ìṣàmúlò-ètò ìṣàmúlò-ètò

Ìṣàfilọ́lẹ̀

Ìṣàfilọ́lẹ̀

Àwọn ìṣàfarawé

Ṣẹ̀dà àwọn àwòrán AI tí o dara jù

Àwọn Àtòjọ-ẹ̀yàn

Kini Ìgbà Ìṣàmúlò-ètò TTS?

Bawo ní a ṣe fi àwọn àwọn àwòrán TTS pamọ́?

Kini MOS (Mean Opinion Score)?

Àwọn àwọn ààyè-iṣẹ́ TTS wo ní àwọn àwọn àwọn àwọn àwọn àwọn àwọn

Mò lè fi àwọn ìṣàmúlò-ètò lọ́wọ́lọ́wọ́?

Ìgbà wo nínú àwọn ìṣàfihàn àwọn ìpéwọ̀n náà tí a fi pamọ́?

Kini àwọn ìṣàmúlò-ètò àwọn àmì-ìwé nínú TTS?

Bawo ni ìpàpọ̀ ààyè-iṣẹ́ ṣe n ṣiṣẹ́?

Are benchmark results reproducible?

Ńtí ayẹyẹ̀ náà ní àwọn iṣẹ́ TTS ọ̀jà?

Àwọn fákìtì wo ni mò yẹ kí mò nígbà tí mòdè̀lì náà bá jẹ́?

Bawo ní àwọn ìṣàmúlò-ètò ọ̀fẹ́ ṣe pọ̀ jù àwọn ìṣàmúlò-ètò àwọn ìṣàmúlò-ètò àwọn?

Fi Ojú Rẹ̀ pamọ́ nínú TTS Arena