Rapportér fejl / funktionsanmodning

TTS Arena! AI Voice Model Leaderboard

Sammenlign 20+ tekst-til-tale modeller. Officielle benchmarks, community ratings, og side-by-side sammenligning.

Tilmeld dig gratis

Sammenligning side for side

Skriv tekst, vælg to modeller, og sammenlign resultaterne. Gratis modeller kræver ingen konto.

Model A

Model B

Gratis modeller fungerer uden en konto. Tilmeld dig at sammenligne premium modeller.

Model Leaderboard

#	Model	De Europæiske Fællesskabers Tidende	Fællesskabet	Hastighed	Metodetrin
1	Kokoro Lightweight 82M parameter model delivering studio-quality speech with blazing-fast inference. 82M 1200h 2024	4.8 /5	5.0 /5 1 Afstemning	fast	Free
2	CosyVoice 2 Alibaba's scalable streaming TTS with human-parity naturalness and near-zero latency. 300M 200000h 2024	4.26 /5	Ingen stemmer endnu	medium	Standard
3	Chatterbox State-of-the-art zero-shot voice cloning with emotion control from Resemble AI. 300M 2025	4.25 /5	Ingen stemmer endnu	medium	Premium
4	StyleTTS 2 Human-level text-to-speech through style diffusion and adversarial training. 100M 585h 2024	4.23 /5	Ingen stemmer endnu	medium	Premium
5	Piper A fast, local neural text to speech system optimized for Raspberry Pi and embedded devices. 15M 2023	4.15 /5	Ingen stemmer endnu	fast	Free
6	MeloTTS High-quality multilingual text-to-speech that runs on CPU with minimal latency. 25M 2024	4.13 /5	Ingen stemmer endnu	fast	Free
7	Dia TTS Multi-speaker dialog generation model that creates natural conversations between speakers. 1.6B 2024	4.09 /5	Ingen stemmer endnu	medium	Standard
8	VITS Conditional variational autoencoder with adversarial learning for end-to-end text-to-speech. 25M 585h 2021	4.0 /5	Ingen stemmer endnu	fast	Free
9	Orpheus Human-level emotional TTS model trained on 100K hours of speech data. 3B 100000h 2025	4.0 /5	Ingen stemmer endnu	medium	Standard
10	OpenVoice Instant voice cloning with granular control over style, emotion, and accent. 300M 2024	4.0 /5	Ingen stemmer endnu	medium	Premium
11	IndexTTS-2 Zero-shot TTS with fine-grained emotion control and high expressiveness. 300M 2025	3.91 /5	Ingen stemmer endnu	medium	Standard
12	Spark TTS Voice cloning TTS with controllable emotion and speaking style via prompts. 500M 2025	3.9 /5	Ingen stemmer endnu	medium	Standard
13	Parler TTS Describe the voice you want in natural language and Parler generates matching speech. 880M 45000h 2024	3.83 /5	Ingen stemmer endnu	medium	Standard
14	Tortoise TTS Multi-voice text-to-speech focused on quality with autoregressive architecture. 400M 50000h 2022	3.7 /5	Ingen stemmer endnu	slow	Premium
15	Bark Transformer-based text-to-audio model that generates realistic speech, music, and sound effects. 350M 100000h 2023	3.57 /5	Ingen stemmer endnu	slow	Standard
16	Bark Small Lighter version of Bark with faster inference and lower memory usage. 150M 100000h 2023	—	Ingen stemmer endnu	medium	Standard
17	GPT-SoVITS Few-shot voice cloning TTS that replicates any voice from just 5 seconds of audio. 200M 2024	—	Ingen stemmer endnu	slow	Standard
18	Qwen3 TTS Alibaba's multilingual TTS with preset voices and voice design from text. 1.7B 2025	—	Ingen stemmer endnu	medium	Standard
19	VieNeu-TTS-v2 Vietnamese + English code-switching TTS with 7 preset voices and zero-shot voice cloning. CPU-only, no GPU required. 0.3B 10000h 2026	—	Ingen stemmer endnu	fast	Standard
20	Sesame CSM Conversational speech model generating natural dialogue with appropriate timing and emotion. 1B 2025	—	Ingen stemmer endnu	slow	Premium
21	Chatterbox Turbo Faster Chatterbox with sub-200ms latency and paralinguistic tags for laughs, coughs, and more. 350M 2025	—	Ingen stemmer endnu	fast	Standard
22	VoxCPM Tokenizer-free TTS producing 44.1kHz audio with context-aware paragraph consistency. 500M 1800000h 2025	—	Ingen stemmer endnu	fast	Standard
23	Kani TTS 2 Ultra-lightweight 400M English TTS model running in just 3GB VRAM. 400M 10000h 2026	—	Ingen stemmer endnu	fast	Free
24	OuteTTS LLM-based TTS that runs on CPU, GPU, or browser via llama.cpp and Transformers.js. 1B 5000h 2025	—	Ingen stemmer endnu	fast	Free
25	VibeVoice Microsoft's multi-speaker long-form TTS generating up to 90 minutes with 4 distinct speakers. 1.5B 100000h 2025	—	Ingen stemmer endnu	fast	Standard
26	Pocket TTS Lightweight 100M parameter model by Kyutai with voice cloning from a single sample. 100M 50000h 2025	—	Ingen stemmer endnu	fast	Free
27	Kitten TTS Ultra-lightweight TTS under 80MB. Runs on CPU without GPU. 80M 2025	—	Ingen stemmer endnu	fast	Free
28	CosyVoice3 Next-generation multilingual TTS with bi-streaming, emotion control, and zero-shot voice cloning. 500M 200000h 2025	—	Ingen stemmer endnu	fast	Standard
29	NAMAA Saudi TTS First open Saudi-Arabic TTS. Native Saudi dialect with Chatterbox-quality voice cloning. 300M 2026	—	Ingen stemmer endnu	medium	Standard
30	Darwin TTS Cross-modal Qwen3-TTS variant with FFN weights blended from the Qwen3-1.7B language model for sharper multilingual cloning. 2.1B 2026	—	Ingen stemmer endnu	medium	Standard
31	MOSS-TTSD Multi-speaker dialogue continuation model — generate podcast-style conversations with up to 5 speakers and 60 minutes of coherent audio. 7B 2026	—	Ingen stemmer endnu	medium	Standard
32	Ming-Omni TTS Compact 0.5B omni-modal speech model from inclusionAI with high-fidelity 44.1kHz output and zero-shot voice cloning. 500M 2026	—	Ingen stemmer endnu	medium	Free
33	MOSS-TTS Nano Tiny 100M MOSS-TTS variant — same architecture, 80x smaller, free-tier latency. 100M 500000h 2026	—	Ingen stemmer endnu	fast	Free

Detaljerede benchmarkscore

Officiel TTS.ai benchmark scorer på tværs af tre dimensioner: naturlighed, nøjagtighed og hastighed.

Kokoro

Free

Naturlighed 4.8/5

Nøjagtighed 4.7/5

Hastighed 4.9/5

I alt 4.8/5

CosyVoice 2

Standard

Naturlighed 4.5/5

Nøjagtighed 4.4/5

Hastighed 3.8/5

I alt 4.26/5

Chatterbox

Premium

Naturlighed 4.7/5

Nøjagtighed 4.5/5

Hastighed 3.4/5

I alt 4.25/5

StyleTTS 2

Premium

Naturlighed 4.5/5

Nøjagtighed 4.3/5

Hastighed 3.8/5

I alt 4.23/5

Piper

Free

Naturlighed 3.5/5

Nøjagtighed 4.2/5

Hastighed 4.95/5

I alt 4.15/5

MeloTTS

Free

Naturlighed 3.8/5

Nøjagtighed 4.1/5

Hastighed 4.6/5

I alt 4.13/5

Dia TTS

Standard

Naturlighed 4.6/5

Nøjagtighed 4.3/5

Hastighed 3.2/5

I alt 4.09/5

VITS

Free

Naturlighed 3.4/5

Nøjagtighed 4.0/5

Hastighed 4.8/5

I alt 4.0/5

Orpheus

Standard

Naturlighed 4.3/5

Nøjagtighed 4.1/5

Hastighed 3.5/5

I alt 4.0/5

OpenVoice

Premium

Naturlighed 4.0/5

Nøjagtighed 4.1/5

Hastighed 3.9/5

I alt 4.0/5

IndexTTS-2

Standard

Naturlighed 4.3/5

Nøjagtighed 4.1/5

Hastighed 3.2/5

I alt 3.91/5

Spark TTS

Standard

Naturlighed 4.2/5

Nøjagtighed 4.0/5

Hastighed 3.4/5

I alt 3.9/5

Parler TTS

Standard

Naturlighed 4.1/5

Nøjagtighed 3.9/5

Hastighed 3.4/5

I alt 3.83/5

Tortoise TTS

Premium

Naturlighed 4.6/5

Nøjagtighed 4.4/5

Hastighed 1.8/5

I alt 3.7/5

Bark

Standard

Naturlighed 4.2/5

Nøjagtighed 3.8/5

Hastighed 2.5/5

I alt 3.57/5

Benchmarkmetodologi

Testopsætning

Hardware: 4x NVIDIA Tesla P40 (24GB VRAM hver), 96GB i alt
Testtekst: 5 standardiserede passager, der dækker forskellige talemønstre (fortælling, dialog, teknisk, emotionel, flersproget)
Evaluering: Automatiserede målinger (MOS-estimation, WER, RTF) kombineret med lyttetest
Kører: Hver model testet 10 gange pr. passage, scorer i gennemsnit

Scoringskriterier

Naturlighed (40%): Prosody, intonation, rytme, følelser. Hvordan lyder det?
Nøjagtighed (30%): Udtale korrekthed, ordfejlrate, forståelighed
Hastighed (30%): Real-time faktor (lyd sekunder / generation sekunder). Højere = hurtigere.
Samlet set: Vejet gennemsnit: 0.4 x Naturlighed + 0.3 x Nøjagtighed + 0.3 x Hastighed

Bemærk: Benchmarks afspejler ydeevnen på vores specifikke hardware og test tekster. Den virkelige verden kvalitet kan variere baseret på input tekst, sprog og stemmevalg. Fællesskab ratings giver et komplementært signal baseret på forskellige reelle brug.

Ofte stillede spørgsmål

TTS Arena er en leaderboard, der rangerer AI tekst-til-tale modeller baseret på officielle benchmark tests og community ratings. Sammenlign modeller side om side, lytte til prøver, og stemme på dem, der lyder bedst for dig.

Vi kører standardiserede tests på hver model ved hjælp af de samme tekst passager, hardware, og evalueringskriterier. Scores dækker naturlighed (hvordan menneske det lyder), nøjagtighed (udtale og forståelighed), og hastighed (generationstid). Alle tests bruger vores GPU-server med NVIDIA Tesla P40 GPU'er.

Ja! Klik på stjernerne ved siden af enhver model for at vurdere det fra 1 til 5. Du skal være logget på for at stemme. Din rating bidrager til fællesskabets gennemsnit vist på leaderboardet. Du kan ændre din rating når som helst.

Skriv en tekst, vælg to modeller, og klik på Sammenlign. Begge modeller genererer tale fra samme tekst samtidigt. Lyt til både og stemme for hvilket lyder bedre. Denne blinde sammenligning hjælper med at identificere den bedste model til dine specifikke behov.

Naturlighed måler, hvordan menneskelig-lignende tale lyder (prosody, intonation, rytme). Nøjagtighed måler udtale korrekthed og forståelighed. Hastighed måler, hvor hurtigt modellen genererer lyd i forhold til realtid. Samlet er et vejet gennemsnit af alle målinger.

Modeller uden benchmark scores enten nytilføjet og afventer test, eller kræver særlig opsætning (som gated access tokens), der er afventende. Fællesskab ratings er stadig til rådighed for disse modeller.

Officielle benchmarks opdateres, når modellerne modtager væsentlige opdateringer, eller når nye modeller tilføjes. Fællesskabets ratings opdateres i realtid som brugere stemmer. Leaderboard data caches til 5 minutter for ydeevne.

Gratis modeller (Kokoro, Piper, VITS, MeloTTS) koster 0 tegn. Standardmodeller bruger 2x tegn (f.eks 1.000 tegn i tekst koster 2.000 tegn fra din balance). Premium modeller bruger 4x tegn og tilbyder generelt den højeste kvalitet eller unikke funktioner som stemmekloning.

For de fleste use cases, Kokoro (gratis niveau) tilbyder fremragende kvalitet. For stemme kloning, kan du prøve Chatterbox eller CosyVoice 2. For flersproget indhold, MeloTTS eller CosyVoice 2. For udtryksfuld narration, Bark eller Dia. Brug sammenligningsværktøjet til at teste med din specifikke tekst.

Ja, du kan generere og sammenligne lyd fra to modeller uden en konto ved hjælp af free-tier modeller. Afstemning på modeller kræver en gratis konto. Premium model sammenligninger kræver tegn.

Vi stræber efter objektivitet ved at bruge standardiserede testtekster, identisk hardware og konsekvente evalueringskriterier på tværs af alle modeller. Fællesskabsvurderinger giver et ekstra uafhængigt signal. Vores metode er beskrevet i afsnittet Benchmark Method nedenfor.

Modeller er rangeret primært efter officielle benchmark samlede score, derefter efter fællesskabets gennemsnitlige rating som en tiebreaker. Modeller uden benchmarks er rangeret under dem med benchmarks, bestilt af community rating.

5.0/5 (1)

Find din perfekte stemme

Prøv enhver model gratis med Kokoro, Piper, VITS, eller MeloTTS. Ingen konto kræves.

Tilmeld dig gratis Vis priser

TTS Arena! AI Voice Model Leaderboard

Sammenligning side for side

Model Leaderboard

Detaljerede benchmarkscore

Kokoro

CosyVoice 2

Chatterbox

StyleTTS 2

Piper

MeloTTS

Dia TTS

VITS

Orpheus

OpenVoice

IndexTTS-2

Spark TTS

Parler TTS

Tortoise TTS

Bark

Benchmarkmetodologi

Testopsætning

Scoringskriterier

Ofte stillede spørgsmål

Hvad er TTS Arena?

Hvordan beregnes de officielle benchmarkpoint?

Kan jeg stemme om modelkvalitet?

Hvordan fungerer modelsammenligningen?

Hvad betyder hvert benchmarkmetrisk?

Hvorfor har nogle modeller ingen benchmark score?

Hvor ofte opdateres benchmarks?

Hvad er forskellen mellem frie, standard, og premium niveauer?

Hvilken model skal jeg bruge?

Kan jeg bruge sammenligningsværktøjet uden at logge på?

Er benchmarktestene forudindtagede?

Hvordan er modeller rangeret, når scores er bundet?

Find din perfekte stemme