Irrapporta Bug / Feature Talba

TTS Arena — Klassifikazzjoni tal-Mudell tal-Vuċi AI

Qabbel 20+ mudelli test-to-speech. Benchmarks uffiċjali, klassifikazzjonijiet tal-komunità, u tqabbil naħa b'naħa.

Irreġistra b'xejn

Għad m'għandniex vuċijiet TTS fil-lingwa tiegħek. Għinna nżidu tiegħek! Biegħ il-vuċi tiegħek

Tqabbil naħa b'naħa

Ittajpja t-test, agħżel żewġ mudelli, u qabbel ir-riżultati. Mudelli b'saff ħieles ma jeħtieġu l-ebda kont.

Mudell A

Mudell B

Mudelli ħielsa jaħdmu mingħajr kont. Irreġistra issa biex tqabbel mudelli premium.

Mudell tal-Klassifika

#	Mudell	Uffiċjali	Il-Komunità	Veloċità	Annimali
1	Kokoro Lightweight 82M parameter model delivering studio-quality speech with blazing-fast inference. 82M 1200h 2024	4.8 /5	5.0 /5 1 vot	fast	Free
2	CosyVoice 2 Alibaba's scalable streaming TTS with human-parity naturalness and near-zero latency. 300M 200000h 2024	4.26 /5	L-ebda vot għadu	medium	Standard
3	Chatterbox State-of-the-art zero-shot voice cloning with emotion control from Resemble AI. 300M 2025	4.25 /5	L-ebda vot għadu	medium	Premium
4	StyleTTS 2 Human-level text-to-speech through style diffusion and adversarial training. 100M 585h 2024	4.23 /5	L-ebda vot għadu	medium	Premium
5	Piper A fast, local neural text to speech system optimized for Raspberry Pi and embedded devices. 15M 2023	4.15 /5	L-ebda vot għadu	fast	Free
6	MeloTTS High-quality multilingual text-to-speech that runs on CPU with minimal latency. 25M 2024	4.13 /5	L-ebda vot għadu	fast	Free
7	Dia TTS Multi-speaker dialog generation model that creates natural conversations between speakers. 1.6B 2024	4.09 /5	L-ebda vot għadu	medium	Standard
8	VITS Conditional variational autoencoder with adversarial learning for end-to-end text-to-speech. 25M 585h 2021	4.0 /5	L-ebda vot għadu	fast	Free
9	Orpheus Human-level emotional TTS model trained on 100K hours of speech data. 3B 100000h 2025	4.0 /5	L-ebda vot għadu	medium	Standard
10	OpenVoice Instant voice cloning with granular control over style, emotion, and accent. 300M 2024	4.0 /5	L-ebda vot għadu	medium	Premium
11	IndexTTS-2 Zero-shot TTS with fine-grained emotion control and high expressiveness. 300M 2025	3.91 /5	L-ebda vot għadu	medium	Standard
12	Spark TTS Voice cloning TTS with controllable emotion and speaking style via prompts. 500M 2025	3.9 /5	L-ebda vot għadu	medium	Standard
13	Parler TTS Describe the voice you want in natural language and Parler generates matching speech. 880M 45000h 2024	3.83 /5	L-ebda vot għadu	medium	Standard
14	Tortoise TTS Multi-voice text-to-speech focused on quality with autoregressive architecture. 400M 50000h 2022	3.7 /5	L-ebda vot għadu	slow	Premium
15	Bark Transformer-based text-to-audio model that generates realistic speech, music, and sound effects. 350M 100000h 2023	3.57 /5	L-ebda vot għadu	slow	Standard
16	Bark Small Lighter version of Bark with faster inference and lower memory usage. 150M 100000h 2023	—	L-ebda vot għadu	medium	Standard
17	GPT-SoVITS Few-shot voice cloning TTS that replicates any voice from just 5 seconds of audio. 200M 2024	—	L-ebda vot għadu	slow	Standard
18	Qwen3 TTS Alibaba's multilingual TTS with preset voices and voice design from text. 1.7B 2025	—	L-ebda vot għadu	medium	Standard
19	VieNeu-TTS-v2 Vietnamese + English code-switching TTS with 7 preset voices and zero-shot voice cloning. CPU-only, no GPU required. 0.3B 10000h 2026	—	L-ebda vot għadu	fast	Standard
20	Sesame CSM Conversational speech model generating natural dialogue with appropriate timing and emotion. 1B 2025	—	L-ebda vot għadu	slow	Premium
21	Chatterbox Turbo Faster Chatterbox with sub-200ms latency and paralinguistic tags for laughs, coughs, and more. 350M 2025	—	L-ebda vot għadu	fast	Standard
22	VoxCPM Tokenizer-free TTS producing 44.1kHz audio with context-aware paragraph consistency. 500M 1800000h 2025	—	L-ebda vot għadu	fast	Standard
23	Kani TTS 2 Ultra-lightweight 400M English TTS model running in just 3GB VRAM. 400M 10000h 2026	—	L-ebda vot għadu	fast	Free
24	OuteTTS LLM-based TTS that runs on CPU, GPU, or browser via llama.cpp and Transformers.js. 1B 5000h 2025	—	L-ebda vot għadu	fast	Free
25	VibeVoice Microsoft's multi-speaker long-form TTS generating up to 90 minutes with 4 distinct speakers. 1.5B 100000h 2025	—	L-ebda vot għadu	fast	Standard
26	Pocket TTS Lightweight 100M parameter model by Kyutai with voice cloning from a single sample. 100M 50000h 2025	—	L-ebda vot għadu	fast	Free
27	Kitten TTS Ultra-lightweight TTS under 80MB. Runs on CPU without GPU. 80M 2025	—	L-ebda vot għadu	fast	Free
28	CosyVoice3 Next-generation multilingual TTS with bi-streaming, emotion control, and zero-shot voice cloning. 500M 200000h 2025	—	L-ebda vot għadu	fast	Standard
29	NAMAA Saudi TTS First open Saudi-Arabic TTS. Native Saudi dialect with Chatterbox-quality voice cloning. 300M 2026	—	L-ebda vot għadu	medium	Standard
30	Darwin TTS Cross-modal Qwen3-TTS variant with FFN weights blended from the Qwen3-1.7B language model for sharper multilingual cloning. 2.1B 2026	—	L-ebda vot għadu	medium	Standard
31	MOSS-TTSD Multi-speaker dialogue continuation model — generate podcast-style conversations with up to 5 speakers and 60 minutes of coherent audio. 7B 2026	—	L-ebda vot għadu	medium	Standard
32	Ming-Omni TTS Compact 0.5B omni-modal speech model from inclusionAI with high-fidelity 44.1kHz output and zero-shot voice cloning. 500M 2026	—	L-ebda vot għadu	medium	Free
33	MOSS-TTS Nano Tiny 100M MOSS-TTS variant — same architecture, 80x smaller, free-tier latency. 100M 500000h 2026	—	L-ebda vot għadu	fast	Free

Punteġġi dettaljati tal-Punteġġ Referenzjarju

Uffiċjali TTS.ai punteġġi benchmark madwar tliet dimensjonijiet: naturalezza, preċiżjoni, u l-veloċità.

Kokoro

Free

Naturalità 4.8/5

Preċiżjoni 4.7/5

Veloċità 4.9/5

B’mod ġenerali 4.8/5

CosyVoice 2

Standard

Naturalità 4.5/5

Preċiżjoni 4.4/5

Veloċità 3.8/5

B’mod ġenerali 4.26/5

Chatterbox

Premium

Naturalità 4.7/5

Preċiżjoni 4.5/5

Veloċità 3.4/5

B’mod ġenerali 4.25/5

StyleTTS 2

Premium

Naturalità 4.5/5

Preċiżjoni 4.3/5

Veloċità 3.8/5

B’mod ġenerali 4.23/5

Piper

Free

Naturalità 3.5/5

Preċiżjoni 4.2/5

Veloċità 4.95/5

B’mod ġenerali 4.15/5

MeloTTS

Free

Naturalità 3.8/5

Preċiżjoni 4.1/5

Veloċità 4.6/5

B’mod ġenerali 4.13/5

Dia TTS

Standard

Naturalità 4.6/5

Preċiżjoni 4.3/5

Veloċità 3.2/5

B’mod ġenerali 4.09/5

VITS

Free

Naturalità 3.4/5

Preċiżjoni 4.0/5

Veloċità 4.8/5

B’mod ġenerali 4.0/5

Orpheus

Standard

Naturalità 4.3/5

Preċiżjoni 4.1/5

Veloċità 3.5/5

B’mod ġenerali 4.0/5

OpenVoice

Premium

Naturalità 4.0/5

Preċiżjoni 4.1/5

Veloċità 3.9/5

B’mod ġenerali 4.0/5

IndexTTS-2

Standard

Naturalità 4.3/5

Preċiżjoni 4.1/5

Veloċità 3.2/5

B’mod ġenerali 3.91/5

Spark TTS

Standard

Naturalità 4.2/5

Preċiżjoni 4.0/5

Veloċità 3.4/5

B’mod ġenerali 3.9/5

Parler TTS

Standard

Naturalità 4.1/5

Preċiżjoni 3.9/5

Veloċità 3.4/5

B’mod ġenerali 3.83/5

Tortoise TTS

Premium

Naturalità 4.6/5

Preċiżjoni 4.4/5

Veloċità 1.8/5

B’mod ġenerali 3.7/5

Bark

Standard

Naturalità 4.2/5

Preċiżjoni 3.8/5

Veloċità 2.5/5

B’mod ġenerali 3.57/5

Metodoloġija ta’ Referenza

Issettjar tat-test

Hardware: 4x NVIDIA Tesla P40 (24GB VRAM kull wieħed), 96GB totali
Test tat-test: 5 passaġġi standardizzati li jkopru mudelli differenti ta’ diskors (narrazzjoni, djalogu, tekniku, emozzjonali, multilingwi)
Evalwazzjoni: Metriċi awtomatizzati (stima tal-MOS, WER, RTF) flimkien ma’ testijiet ta’ smigħ uman
Runs: Kull mudell ittestjat 10 darbiet għal kull passaġġ, punteġġi medji

Kriterji ta’ punteġġ

Naturalità (40%): Prożodija, intonazzjoni, ritmu, emozzjoni — kemm huma umani dawn il-ħsejjes?
Preċiżjoni (30%): Il-korrettezza tal-pronunzja, ir-rata ta’ żbalji fil-kelma, l-intelliġibbiltà
Veloċità (30%): Fattur tal-ħin reali (sekondi awdjo / sekondi tal-ġenerazzjoni). Ogħla = aktar mgħaġġel.
B’mod ġenerali: Medja peżata: 0.4 x Naturalità + 0.3 x Preċiżjoni + 0.3 x Veloċità

Nota: Il-parametri referenzjarji jirriflettu l-prestazzjoni fuq il-ħardwer u t-testi tat-test speċifiċi tagħna. Il-kwalità fid-dinja reali tista' tvarja skont it-test tal-input, il-lingwa u l-għażla tal-vuċi.

Mistoqsijiet Frekwenti (FAQ)

L-Arena TTS huwa leaderboard li ranks AI test-to-diskors mudelli bbażati fuq testijiet benchmark uffiċjali u klassifikazzjonijiet tal-komunità. Qabbel mudelli ġenb ma' ġenb, jisimgħu kampjuni, u jivvota għal dawk li ħoss aħjar għalik.

Aħna tmexxi testijiet standardizzati fuq kull mudell li jużaw l-istess passaġġi tat-test, ħardwer, u l-kriterji evalwazzjoni. punteġġi jkopru naturalezza (kif bniedem ħsejjes), preċiżjoni (pronunzja u intelliġibbiltà), u l-veloċità (ġenerazzjoni ħin). it-testijiet kollha jużaw tagħna GPU server ma NVIDIA Tesla P40 GPUs.

Iva! Ikklikkja fuq l-istilel ħdejn kull mudell biex tikklassifikah minn 1 sa 5. Għandek bżonn li tilloggja biex tivvota. Il-klassifikazzjoni tiegħek tikkontribwixxi għall-medja tal-komunità murija fuq il-leaderboard. Tista' tbiddel il-klassifikazzjoni tiegħek fi kwalunkwe ħin.

Ikteb kwalunkwe test, agħżel żewġ mudelli, u ikklikkja Qabbel. Iż-żewġ mudelli jiġġeneraw diskors mill-istess test fl-istess ħin. Isma' t-tnejn u vvota għal liema ħoss ikun aħjar. Dan il-paragun blind jgħin biex jidentifika l-aħjar mudell għall-bżonnijiet speċifiċi tiegħek.

In-naturalità tkejjel kemm id-diskors jidher simili għall-bniedem (prożodija, intonazzjoni, ritmu). L-eżattezza tkejjel il-korrettezza u l-intelliġibbiltà tal-pronunzja. Il-veloċità tkejjel kemm il-mudell jiġġenera l-awdjo malajr meta mqabbel mal-ħin reali.

Mudelli mingħajr punteġġi ta' referenza huma jew ġodda u qed jistennew li jiġu ttestjati, jew jeħtieġu setup speċjali (bħal gated access tokens) li għadu pendenti.Klassifiki tal-Komunità għadhom disponibbli għal dawn il-mudelli.

Il-punti ta' referenza uffiċjali jiġu aġġornati meta l-mudelli jirċievu aġġornamenti sinifikanti jew meta jiżdiedu mudelli ġodda. Il-klassifikazzjonijiet tal-komunità jiġu aġġornati f'ħin reali hekk kif l-utenti jivvutaw.

Il-mudelli b'xejn (Kokoro, Piper, VITS, MeloTTS) jiswew 0 krediti.Il-mudelli standard jiswew 2 krediti għal kull 1,000 karattru.Il-mudelli premium jiswew 4 krediti għal kull 1,000 karattru u ġeneralment joffru l-ogħla kwalità jew karatteristiċi uniċi bħall-ikklonjar tal-vuċi.

Għall-biċċa l-kbira tal-każijiet ta’ użu, Kokoro (livell b’xejn) joffri kwalità eċċellenti. Għall-ikklonjar tal-vuċi, ipprova Chatterbox jew CosyVoice 2. Għal kontenut multilingwi, MeloTTS jew CosyVoice 2. Għal narrattiva espressiva, Bark jew Dia. Uża l-għodda ta’ tqabbil biex tittestja bit-test speċifiku tiegħek.

Iva, tista' tiġġenera u tqabbel l-awdjo minn kwalunkwe żewġ mudelli mingħajr ma jkollok kont billi tuża mudelli b'livell ħieles.Il-votazzjoni fuq il-mudelli teħtieġ kont b'xejn.

Aħna nistinkaw għall-oġġettività billi nużaw testi tat-test standardizzati, hardware identiku, u kriterji ta' evalwazzjoni konsistenti madwar il-mudelli kollha.Klassifiki tal-Komunità jipprovdu sinjal indipendenti addizzjonali.Il-metodoloġija tagħna hija deskritta fit-taqsima Metodoloġija Benchmark hawn taħt.

Il-mudelli huma kklassifikati primarjament skont il-punteġġ globali tal-parametru referenzjarju uffiċjali, imbagħad skont il-klassifikazzjoni medja tal-komunità bħala tiebreaker.Mudelli mingħajr parametri referenzjarji huma kklassifikati taħt dawk b'parametri referenzjarji, ordnati skont il-klassifikazzjoni tal-komunità.

5.0/5 (1)

Sib il-vuċi perfetta tiegħek

Ipprova kwalunkwe mudell b'xejn ma Kokoro, Piper, VITS, jew MeloTTS. L-ebda kont meħtieġ.

Irreġistra b'xejn Ara l-ipprezzar

TTS Arena — Klassifikazzjoni tal-Mudell tal-Vuċi AI

Tqabbil naħa b'naħa

Mudell tal-Klassifika

Punteġġi dettaljati tal-Punteġġ Referenzjarju

Kokoro

CosyVoice 2

Chatterbox

StyleTTS 2

Piper

MeloTTS

Dia TTS

VITS

Orpheus

OpenVoice

IndexTTS-2

Spark TTS

Parler TTS

Tortoise TTS

Bark

Metodoloġija ta’ Referenza

Issettjar tat-test

Kriterji ta’ punteġġ

Mistoqsijiet Frekwenti (FAQ)

X'inhu l-TTS Arena?

Kif jiġu kkalkulati l-punteġġi tal-parametri referenzjarji uffiċjali?

Nista’ nivvota fuq il-kwalità tal-mudell?

Kif jaħdem it-tqabbil tal-mudelli?

X’ifisser kull parametru referenzjarju?

Għaliex xi mudelli m’għandhomx punteġġ ta’ referenza?

Kemm-il darba jiġu aġġornati l-parametri referenzjarji?

X'inhi d-differenza bejn il-livelli b'xejn, standard u premium?

Liema mudell għandi nuża?

Nista' nuża l-għodda ta' tqabbil mingħajr ma niffirma?

It-testijiet tal-parametri referenzjarji huma preġudikati?

Kif huma kklassifikati l-mudelli meta l-punteġġi huma ugwali?

Sib il-vuċi perfetta tiegħek