TTS Arena — AI 음성 모델 순위표

20개 이상의 텍스트 음성 변환 모델을 비교해 보세요. 공식 벤치마크, 커뮤니티 평가, 나란히 비교.

나란히 비교

텍스트를 입력하고 두 모델을 선택한 다음 결과를 비교합니다. 무료 계층 모델에는 계정이 필요하지 않습니다.

무료 모델은 계정없이 작동합니다. 가입하기 프리미엄 모델을 비교하려면.

모델 리더보드

# 모델 공식 커뮤니티 귀하의 평가 속도
1
Kokoro
Kokoro
Lightweight 82M parameter model delivering studio-quality speech with blazing-fast inference.
82M 1200h 2024
4.8 /5 5.0 /5
1 투표
fast Free
2
CosyVoice 2
CosyVoice 2
Alibaba's scalable streaming TTS with human-parity naturalness and near-zero latency.
300M 200000h 2024
4.26 /5 아직 투표 없음
medium Standard
3
Chatterbox
Chatterbox
State-of-the-art zero-shot voice cloning with emotion control from Resemble AI.
300M 2025
4.25 /5 아직 투표 없음
medium Premium
4
StyleTTS 2
StyleTTS 2
Human-level text-to-speech through style diffusion and adversarial training.
100M 585h 2024
4.23 /5 아직 투표 없음
medium Premium
5
Piper
Piper
A fast, local neural text to speech system optimized for Raspberry Pi and embedded devices.
15M 2023
4.15 /5 아직 투표 없음
fast Free
6
MeloTTS
MeloTTS
High-quality multilingual text-to-speech that runs on CPU with minimal latency.
25M 2024
4.13 /5 아직 투표 없음
fast Free
7
Dia TTS
Dia TTS
Multi-speaker dialog generation model that creates natural conversations between speakers.
1.6B 2024
4.09 /5 아직 투표 없음
medium Standard
8
VITS
VITS
Conditional variational autoencoder with adversarial learning for end-to-end text-to-speech.
25M 585h 2021
4.0 /5 아직 투표 없음
fast Free
9
Orpheus
Orpheus
Human-level emotional TTS model trained on 100K hours of speech data.
3B 100000h 2025
4.0 /5 아직 투표 없음
medium Standard
10
OpenVoice
OpenVoice
Instant voice cloning with granular control over style, emotion, and accent.
300M 2024
4.0 /5 아직 투표 없음
medium Premium
11
IndexTTS-2
IndexTTS-2
Zero-shot TTS with fine-grained emotion control and high expressiveness.
300M 2025
3.91 /5 아직 투표 없음
medium Standard
12
Spark TTS
Spark TTS
Voice cloning TTS with controllable emotion and speaking style via prompts.
500M 2025
3.9 /5 아직 투표 없음
medium Standard
13
Parler TTS
Parler TTS
Describe the voice you want in natural language and Parler generates matching speech.
880M 45000h 2024
3.83 /5 아직 투표 없음
medium Standard
14
Tortoise TTS
Tortoise TTS
Multi-voice text-to-speech focused on quality with autoregressive architecture.
400M 50000h 2022
3.7 /5 아직 투표 없음
slow Premium
15
Bark
Bark
Transformer-based text-to-audio model that generates realistic speech, music, and sound effects.
350M 100000h 2023
3.57 /5 아직 투표 없음
slow Standard
16
Bark Small
Bark Small
Lighter version of Bark with faster inference and lower memory usage.
150M 100000h 2023
아직 투표 없음
medium Standard
17
GLM-TTS
GLM-TTS
Achieves the lowest character error rate among open-source TTS models.
300M 2025
아직 투표 없음
medium Standard
18
GPT-SoVITS
GPT-SoVITS
Few-shot voice cloning TTS that replicates any voice from just 5 seconds of audio.
200M 2024
아직 투표 없음
slow Standard
19
Qwen3 TTS
Qwen3 TTS
Alibaba's multilingual TTS with voice cloning, preset voices, and voice design from text.
1.7B 2025
아직 투표 없음
medium Standard
20
Sesame CSM
Sesame CSM
Conversational speech model generating natural dialogue with appropriate timing and emotion.
1B 2025
아직 투표 없음
slow Premium
21
Chatterbox Turbo
Chatterbox Turbo
Faster Chatterbox with sub-200ms latency and paralinguistic tags for laughs, coughs, and more.
350M 2025
아직 투표 없음
fast Standard
22
Zonos
Zonos
Emotion-controllable TTS with fine-grained sliders for happiness, anger, sadness, and more.
1.6B 200000h 2025
아직 투표 없음
medium Standard
23
Dia 2
Dia 2
Streaming-first conversational TTS with multi-speaker dialogue and paralinguistic cues.
2B 2025
아직 투표 없음
fast Standard
24
VoxCPM
VoxCPM
Tokenizer-free TTS producing 44.1kHz audio with context-aware paragraph consistency.
500M 1800000h 2025
아직 투표 없음
fast Standard
25
OuteTTS
OuteTTS
LLM-based TTS that runs on CPU, GPU, or browser via llama.cpp and Transformers.js.
1B 5000h 2025
아직 투표 없음
fast Free
26
TADA
TADA
Zero-hallucination TTS with text-acoustic dual alignment, 5x faster than comparable LLM TTS.
1B 2026
아직 투표 없음
fast Standard
27
VibeVoice
VibeVoice
Microsoft's multi-speaker long-form TTS generating up to 90 minutes with 4 distinct speakers.
1.5B 100000h 2025
아직 투표 없음
fast Standard
28
Pocket TTS
Pocket TTS
Lightweight 100M parameter model by Kyutai with voice cloning from a single sample.
100M 50000h 2025
아직 투표 없음
fast Free
29
Kitten TTS
Kitten TTS
Ultra-lightweight TTS under 80MB. Runs on CPU without GPU.
80M 2025
아직 투표 없음
fast Free
30
CosyVoice3
CosyVoice3
Next-generation multilingual TTS with bi-streaming, emotion control, and zero-shot voice cloning.
500M 200000h 2025
아직 투표 없음
fast Standard
31
MOSS-TTS
MOSS-TTS
Ultra-long 20-language TTS supporting up to 1 hour of continuous generation with phoneme-level control.
8B 500000h 2026
아직 투표 없음
medium Premium
32
MegaTTS3
MegaTTS3
ByteDance's sparse alignment TTS with adjustable intelligibility vs. speaker similarity.
1B 100000h 2025
아직 투표 없음
slow Premium

상세한 벤치마크 점수

공식 TTS.ai 벤치마크는 자연스러움, 정확성, 속도의 세 가지 차원에서 점수를 부여합니다.

KokoroKokoro

Free
자연스러움 4.8/5
정확도 4.7/5
속도 4.9/5
전체 4.8/5

CosyVoice 2CosyVoice 2

Standard
자연스러움 4.5/5
정확도 4.4/5
속도 3.8/5
전체 4.26/5

ChatterboxChatterbox

Premium
자연스러움 4.7/5
정확도 4.5/5
속도 3.4/5
전체 4.25/5

StyleTTS 2StyleTTS 2

Premium
자연스러움 4.5/5
정확도 4.3/5
속도 3.8/5
전체 4.23/5

PiperPiper

Free
자연스러움 3.5/5
정확도 4.2/5
속도 4.95/5
전체 4.15/5

MeloTTSMeloTTS

Free
자연스러움 3.8/5
정확도 4.1/5
속도 4.6/5
전체 4.13/5

Dia TTSDia TTS

Standard
자연스러움 4.6/5
정확도 4.3/5
속도 3.2/5
전체 4.09/5

VITSVITS

Free
자연스러움 3.4/5
정확도 4.0/5
속도 4.8/5
전체 4.0/5

OrpheusOrpheus

Standard
자연스러움 4.3/5
정확도 4.1/5
속도 3.5/5
전체 4.0/5

OpenVoiceOpenVoice

Premium
자연스러움 4.0/5
정확도 4.1/5
속도 3.9/5
전체 4.0/5

IndexTTS-2IndexTTS-2

Standard
자연스러움 4.3/5
정확도 4.1/5
속도 3.2/5
전체 3.91/5

Spark TTSSpark TTS

Standard
자연스러움 4.2/5
정확도 4.0/5
속도 3.4/5
전체 3.9/5

Parler TTSParler TTS

Standard
자연스러움 4.1/5
정확도 3.9/5
속도 3.4/5
전체 3.83/5

Tortoise TTSTortoise TTS

Premium
자연스러움 4.6/5
정확도 4.4/5
속도 1.8/5
전체 3.7/5

BarkBark

Standard
자연스러움 4.2/5
정확도 3.8/5
속도 2.5/5
전체 3.57/5

벤치마크 방법론

테스트 설정

  • 하드웨어: 4x NVIDIA Tesla P40(각각 24GB VRAM), 총 96GB
  • 테스트 텍스트: 다양한 언어 패턴을 다루는 5개의 표준화된 구절 (내레이션, 대화, 기술, 감정, 다국어)
  • 평가: 인간의 청취 테스트와 결합된 자동화된 메트릭(MOS 추정, WER, RTF)
  • 실행: 각 모델은 통과시 10회 테스트되고 평균 점수가 산출됩니다.

점수 기준

  • 자연스러움 (40%) : 음조, 음조, 리듬, 감정 - 얼마나 인간적인 소리입니까?
  • 정확도 (30%) : 발음 정확도, 단어 오류율, 이해도
  • 속도 (30%): 실시간 요소 (오디오 초 / 생성 초). 높은 = 더 빠르다.
  • 전체: 가중 평균: 0.4 x 자연스러움 + 0.3 x 정확도 + 0.3 x 속도

참고: 벤치마크는 특정 하드웨어 및 테스트 텍스트에서의 성능을 반영합니다. 실제 품질은 입력 텍스트, 언어 및 음성 선택에 따라 달라질 수 있습니다. 커뮤니티 평가는 다양한 실제 사용을 기반으로 보완적인 신호를 제공합니다.

자주 묻는 질문

TTS Arena는 공식 벤치마크 테스트 및 커뮤니티 평가를 기반으로 AI 텍스트 음성 변환 모델을 순위별로 분류하는 리더보드입니다. 모델을 나란히 비교하고, 샘플을 듣고, 자신에게 가장 잘 들리는 모델에 투표할 수 있습니다.

우리는 동일한 텍스트 구절, 하드웨어, 평가 기준을 사용하여 각 모델에서 표준화된 테스트를 실행합니다. 점수는 자연스러움(인간적인 소리), 정확성(발음 및 이해도), 속도(생성 시간)를 포함합니다. 모든 테스트는 NVIDIA Tesla P40 GPU가 장착된 GPU 서버를 사용합니다.

예! 모델 옆의 별을 클릭하여 1에서 5까지 평가하세요. 투표하려면 로그인해야 합니다. 귀하의 평가는 리더보드에 표시된 커뮤니티 평균에 기여합니다. 언제든지 평가를 변경할 수 있습니다.

텍스트를 입력하고 두 모델을 선택한 다음 비교를 클릭합니다. 두 모델 모두 동일한 텍스트에서 동시에 음성을 생성합니다. 둘 다 듣고 어느 것이 더 잘 들리는지 투표합니다. 이 블라인드 비교를 통해 특정 요구에 가장 적합한 모델을 찾을 수 있습니다.

자연스러움은 음성이 얼마나 사람처럼 들리는지를 측정합니다(음조, 음조, 리듬). 정확성은 발음의 정확성과 이해도를 측정합니다. 속도는 실시간에 비해 모델이 오디오를 생성하는 속도를 측정합니다. 전체는 모든 메트릭의 가중 평균입니다.

벤치마크 점수가 없는 모델은 새로 추가되어 테스트를 기다리는 모델이거나 특별한 설정(예: 게이트 액세스 토큰)이 필요한 모델입니다. 이러한 모델에 대해서는 여전히 커뮤니티 평가를 사용할 수 있습니다.

공식 벤치마크는 모델이 중요한 업데이트를 받거나 새로운 모델이 추가될 때 업데이트됩니다. 커뮤니티 평가는 사용자가 투표하는 동안 실시간으로 업데이트됩니다. 리더보드 데이터는 성능을 위해 5분 동안 캐시됩니다.

무료 모델(Kokoro, Piper, VITS, MeloTTS)은 0 크레딧이 소요됩니다. 표준 모델은 1,000 문자당 2 크레딧이 소요됩니다. 프리미엄 모델은 1,000 문자당 4 크레딧이 소요되며 일반적으로 음성 복제와 같은 최고 품질 또는 독특한 기능을 제공합니다.

대부분의 사용 사례에서 Kokoro(무료 계층)는 뛰어난 품질을 제공합니다. 음성 복제를 위해 Chatterbox 또는 CosyVoice 2를 사용해 보십시오. 다국어 콘텐츠를 위해 MeloTTS 또는 CosyVoice 2를 사용하십시오. 표현적인 내레이션을 위해 Bark 또는 Dia를 사용하십시오. 비교 도구를 사용하여 특정 텍스트로 테스트하십시오.

예, 무료 계층 모델을 사용하여 계정 없이 두 모델의 오디오를 생성하고 비교할 수 있습니다. 모델에 대한 투표는 무료 계정이 필요합니다. 프리미엄 모델 비교는 문자가 필요합니다.

우리는 모든 모델에 대해 표준화된 테스트 텍스트, 동일한 하드웨어, 일관된 평가 기준을 사용하여 객관성을 추구합니다. 커뮤니티 평가는 추가적인 독립적인 신호를 제공합니다. 우리의 방법론은 아래의 벤치마크 방법론 섹션에 설명되어 있습니다.

모델은 주로 공식 벤치마크 전체 점수에 따라 순위가 매겨지며, 그 다음에는 커뮤니티 평균 점수가 타이브레이커 역할을 합니다. 벤치마크가 없는 모델은 벤치마크가 있는 모델보다 낮은 점수를 받으며, 커뮤니티 점수에 따라 순위가 매겨집니다.
5.0/5 (1)

개선할 수 있는 점은 무엇입니까? 고객님의 피드백이 문제를 해결하는 데 도움이 됩니다.

완벽한 목소리 찾기

Kokoro, Piper, VITS 또는 MeloTTS를 이용해 어떤 모델이든 무료로 사용해 보세요.