버그 보고 / 기능 요청

TTS Arena — AI 음성 모델 순위표

20개 이상의 텍스트 음성 변환 모델을 비교해 보세요. 공식 벤치마크, 커뮤니티 평가, 나란히 비교.

무료로 가입하기

나란히 비교

텍스트를 입력하고 두 모델을 선택한 다음 결과를 비교합니다. 무료 계층 모델에는 계정이 필요하지 않습니다.

모델 A

모델 B

무료 모델은 계정없이 작동합니다. 가입하기 프리미엄 모델을 비교하려면.

모델 리더보드

#	모델	공식	커뮤니티	속도	종
1	Kokoro Lightweight 82M parameter model delivering studio-quality speech with blazing-fast inference. 82M 1200h 2024	4.8 /5	5.0 /5 1 투표	fast	Free
2	CosyVoice 2 Alibaba's scalable streaming TTS with human-parity naturalness and near-zero latency. 300M 200000h 2024	4.26 /5	아직 투표 없음	medium	Standard
3	Chatterbox State-of-the-art zero-shot voice cloning with emotion control from Resemble AI. 300M 2025	4.25 /5	아직 투표 없음	medium	Premium
4	StyleTTS 2 Human-level text-to-speech through style diffusion and adversarial training. 100M 585h 2024	4.23 /5	아직 투표 없음	medium	Premium
5	Piper A fast, local neural text to speech system optimized for Raspberry Pi and embedded devices. 15M 2023	4.15 /5	아직 투표 없음	fast	Free
6	MeloTTS High-quality multilingual text-to-speech that runs on CPU with minimal latency. 25M 2024	4.13 /5	아직 투표 없음	fast	Free
7	Dia TTS Multi-speaker dialog generation model that creates natural conversations between speakers. 1.6B 2024	4.09 /5	아직 투표 없음	medium	Standard
8	VITS Conditional variational autoencoder with adversarial learning for end-to-end text-to-speech. 25M 585h 2021	4.0 /5	아직 투표 없음	fast	Free
9	Orpheus Human-level emotional TTS model trained on 100K hours of speech data. 3B 100000h 2025	4.0 /5	아직 투표 없음	medium	Standard
10	OpenVoice Instant voice cloning with granular control over style, emotion, and accent. 300M 2024	4.0 /5	아직 투표 없음	medium	Premium
11	IndexTTS-2 Zero-shot TTS with fine-grained emotion control and high expressiveness. 300M 2025	3.91 /5	아직 투표 없음	medium	Standard
12	Spark TTS Voice cloning TTS with controllable emotion and speaking style via prompts. 500M 2025	3.9 /5	아직 투표 없음	medium	Standard
13	Parler TTS Describe the voice you want in natural language and Parler generates matching speech. 880M 45000h 2024	3.83 /5	아직 투표 없음	medium	Standard
14	Tortoise TTS Multi-voice text-to-speech focused on quality with autoregressive architecture. 400M 50000h 2022	3.7 /5	아직 투표 없음	slow	Premium
15	Bark Transformer-based text-to-audio model that generates realistic speech, music, and sound effects. 350M 100000h 2023	3.57 /5	아직 투표 없음	slow	Standard
16	Bark Small Lighter version of Bark with faster inference and lower memory usage. 150M 100000h 2023	—	아직 투표 없음	medium	Standard
17	GPT-SoVITS Few-shot voice cloning TTS that replicates any voice from just 5 seconds of audio. 200M 2024	—	아직 투표 없음	slow	Standard
18	Qwen3 TTS Alibaba's multilingual TTS with preset voices and voice design from text. 1.7B 2025	—	아직 투표 없음	medium	Standard
19	VieNeu-TTS-v2 Vietnamese + English code-switching TTS with 7 preset voices and zero-shot voice cloning. CPU-only, no GPU required. 0.3B 10000h 2026	—	아직 투표 없음	fast	Standard
20	Sesame CSM Conversational speech model generating natural dialogue with appropriate timing and emotion. 1B 2025	—	아직 투표 없음	slow	Premium
21	Chatterbox Turbo Faster Chatterbox with sub-200ms latency and paralinguistic tags for laughs, coughs, and more. 350M 2025	—	아직 투표 없음	fast	Standard
22	VoxCPM Tokenizer-free TTS producing 44.1kHz audio with context-aware paragraph consistency. 500M 1800000h 2025	—	아직 투표 없음	fast	Standard
23	Kani TTS 2 Ultra-lightweight 400M English TTS model running in just 3GB VRAM. 400M 10000h 2026	—	아직 투표 없음	fast	Free
24	OuteTTS LLM-based TTS that runs on CPU, GPU, or browser via llama.cpp and Transformers.js. 1B 5000h 2025	—	아직 투표 없음	fast	Free
25	VibeVoice Microsoft's multi-speaker long-form TTS generating up to 90 minutes with 4 distinct speakers. 1.5B 100000h 2025	—	아직 투표 없음	fast	Standard
26	Pocket TTS Lightweight 100M parameter model by Kyutai with voice cloning from a single sample. 100M 50000h 2025	—	아직 투표 없음	fast	Free
27	Kitten TTS Ultra-lightweight TTS under 80MB. Runs on CPU without GPU. 80M 2025	—	아직 투표 없음	fast	Free
28	CosyVoice3 Next-generation multilingual TTS with bi-streaming, emotion control, and zero-shot voice cloning. 500M 200000h 2025	—	아직 투표 없음	fast	Standard
29	NAMAA Saudi TTS First open Saudi-Arabic TTS. Native Saudi dialect with Chatterbox-quality voice cloning. 300M 2026	—	아직 투표 없음	medium	Standard
30	Darwin TTS Cross-modal Qwen3-TTS variant with FFN weights blended from the Qwen3-1.7B language model for sharper multilingual cloning. 2.1B 2026	—	아직 투표 없음	medium	Standard
31	MOSS-TTSD Multi-speaker dialogue continuation model — generate podcast-style conversations with up to 5 speakers and 60 minutes of coherent audio. 7B 2026	—	아직 투표 없음	medium	Standard
32	Ming-Omni TTS Compact 0.5B omni-modal speech model from inclusionAI with high-fidelity 44.1kHz output and zero-shot voice cloning. 500M 2026	—	아직 투표 없음	medium	Free
33	MOSS-TTS Nano Tiny 100M MOSS-TTS variant — same architecture, 80x smaller, free-tier latency. 100M 500000h 2026	—	아직 투표 없음	fast	Free

상세한 벤치마크 점수

공식 TTS.ai 벤치마크는 자연스러움, 정확성, 속도의 세 가지 차원에서 점수를 부여합니다.

Kokoro

Free

자연스러움 4.8/5

정확도 4.7/5

속도 4.9/5

전체 4.8/5

CosyVoice 2

Standard

자연스러움 4.5/5

정확도 4.4/5

속도 3.8/5

전체 4.26/5

Chatterbox

Premium

자연스러움 4.7/5

정확도 4.5/5

속도 3.4/5

전체 4.25/5

StyleTTS 2

Premium

자연스러움 4.5/5

정확도 4.3/5

속도 3.8/5

전체 4.23/5

Piper

Free

자연스러움 3.5/5

정확도 4.2/5

속도 4.95/5

전체 4.15/5

MeloTTS

Free

자연스러움 3.8/5

정확도 4.1/5

속도 4.6/5

전체 4.13/5

Dia TTS

Standard

자연스러움 4.6/5

정확도 4.3/5

속도 3.2/5

전체 4.09/5

VITS

Free

자연스러움 3.4/5

정확도 4.0/5

속도 4.8/5

전체 4.0/5

Orpheus

Standard

자연스러움 4.3/5

정확도 4.1/5

속도 3.5/5

전체 4.0/5

OpenVoice

Premium

자연스러움 4.0/5

정확도 4.1/5

속도 3.9/5

전체 4.0/5

IndexTTS-2

Standard

자연스러움 4.3/5

정확도 4.1/5

속도 3.2/5

전체 3.91/5

Spark TTS

Standard

자연스러움 4.2/5

정확도 4.0/5

속도 3.4/5

전체 3.9/5

Parler TTS

Standard

자연스러움 4.1/5

정확도 3.9/5

속도 3.4/5

전체 3.83/5

Tortoise TTS

Premium

자연스러움 4.6/5

정확도 4.4/5

속도 1.8/5

전체 3.7/5

Bark

Standard

자연스러움 4.2/5

정확도 3.8/5

속도 2.5/5

전체 3.57/5

벤치마크 방법론

테스트 설정

하드웨어: 4x NVIDIA Tesla P40(각각 24GB VRAM), 총 96GB
테스트 텍스트: 다양한 언어 패턴을 다루는 5개의 표준화된 구절 (내레이션, 대화, 기술, 감정, 다국어)
평가: 인간의 청취 테스트와 결합된 자동화된 메트릭(MOS 추정, WER, RTF)
실행: 각 모델은 통과시 10회 테스트되고 평균 점수가 산출됩니다.

점수 기준

자연스러움 (40%) : 음조, 음조, 리듬, 감정 - 얼마나 인간적인 소리입니까?
정확도 (30%) : 발음 정확도, 단어 오류율, 이해도
속도 (30%): 실시간 요소 (오디오 초 / 생성 초). 높은 = 더 빠르다.
전체: 가중 평균: 0.4 x 자연스러움 + 0.3 x 정확도 + 0.3 x 속도

참고: 벤치마크는 특정 하드웨어 및 테스트 텍스트에서의 성능을 반영합니다. 실제 품질은 입력 텍스트, 언어 및 음성 선택에 따라 달라질 수 있습니다. 커뮤니티 평가는 다양한 실제 사용을 기반으로 보완적인 신호를 제공합니다.

자주 묻는 질문

TTS Arena는 공식 벤치마크 테스트 및 커뮤니티 평가를 기반으로 AI 텍스트 음성 변환 모델을 순위별로 분류하는 리더보드입니다. 모델을 나란히 비교하고, 샘플을 듣고, 자신에게 가장 잘 들리는 모델에 투표할 수 있습니다.

우리는 동일한 텍스트 구절, 하드웨어, 평가 기준을 사용하여 각 모델에서 표준화된 테스트를 실행합니다. 점수는 자연스러움(인간적인 소리), 정확성(발음 및 이해도), 속도(생성 시간)를 포함합니다. 모든 테스트는 NVIDIA Tesla P40 GPU가 장착된 GPU 서버를 사용합니다.

예! 모델 옆의 별을 클릭하여 1에서 5까지 평가하세요. 투표하려면 로그인해야 합니다. 귀하의 평가는 리더보드에 표시된 커뮤니티 평균에 기여합니다. 언제든지 평가를 변경할 수 있습니다.

텍스트를 입력하고 두 모델을 선택한 다음 비교를 클릭합니다. 두 모델 모두 동일한 텍스트에서 동시에 음성을 생성합니다. 둘 다 듣고 어느 것이 더 잘 들리는지 투표합니다. 이 블라인드 비교를 통해 특정 요구에 가장 적합한 모델을 찾을 수 있습니다.

자연스러움은 음성이 얼마나 사람처럼 들리는지를 측정합니다(음조, 음조, 리듬). 정확성은 발음의 정확성과 이해도를 측정합니다. 속도는 실시간에 비해 모델이 오디오를 생성하는 속도를 측정합니다. 전체는 모든 메트릭의 가중 평균입니다.

벤치마크 점수가 없는 모델은 새로 추가되어 테스트를 기다리는 모델이거나 특별한 설정(예: 게이트 액세스 토큰)이 필요한 모델입니다. 이러한 모델에 대해서는 여전히 커뮤니티 평가를 사용할 수 있습니다.

공식 벤치마크는 모델이 중요한 업데이트를 받거나 새로운 모델이 추가될 때 업데이트됩니다. 커뮤니티 평가는 사용자가 투표하는 동안 실시간으로 업데이트됩니다. 리더보드 데이터는 성능을 위해 5분 동안 캐시됩니다.

무료 모델(Kokoro, Piper, VITS, MeloTTS)은 0 크레딧이 소요됩니다. 표준 모델은 1,000 문자당 2 크레딧이 소요됩니다. 프리미엄 모델은 1,000 문자당 4 크레딧이 소요되며 일반적으로 음성 복제와 같은 최고 품질 또는 독특한 기능을 제공합니다.

대부분의 사용 사례에서 Kokoro(무료 계층)는 뛰어난 품질을 제공합니다. 음성 복제를 위해 Chatterbox 또는 CosyVoice 2를 사용해 보십시오. 다국어 콘텐츠를 위해 MeloTTS 또는 CosyVoice 2를 사용하십시오. 표현적인 내레이션을 위해 Bark 또는 Dia를 사용하십시오. 비교 도구를 사용하여 특정 텍스트로 테스트하십시오.

예, 무료 계층 모델을 사용하여 계정 없이 두 모델의 오디오를 생성하고 비교할 수 있습니다. 모델에 대한 투표는 무료 계정이 필요합니다. 프리미엄 모델 비교는 문자가 필요합니다.

우리는 모든 모델에 대해 표준화된 테스트 텍스트, 동일한 하드웨어, 일관된 평가 기준을 사용하여 객관성을 추구합니다. 커뮤니티 평가는 추가적인 독립적인 신호를 제공합니다. 우리의 방법론은 아래의 벤치마크 방법론 섹션에 설명되어 있습니다.

모델은 주로 공식 벤치마크 전체 점수에 따라 순위가 매겨지며, 그 다음에는 커뮤니티 평균 점수가 타이브레이커 역할을 합니다. 벤치마크가 없는 모델은 벤치마크가 있는 모델보다 낮은 점수를 받으며, 커뮤니티 점수에 따라 순위가 매겨집니다.

5.0/5 (1)

완벽한 목소리 찾기

Kokoro, Piper, VITS 또는 MeloTTS를 이용해 어떤 모델이든 무료로 사용해 보세요.

무료로 가입하기 가격 정보 보기

TTS Arena — AI 음성 모델 순위표

나란히 비교

모델 리더보드

상세한 벤치마크 점수

Kokoro

CosyVoice 2

Chatterbox

StyleTTS 2

Piper

MeloTTS

Dia TTS

VITS

Orpheus

OpenVoice

IndexTTS-2

Spark TTS

Parler TTS

Tortoise TTS

Bark

벤치마크 방법론

테스트 설정

점수 기준

자주 묻는 질문

TTS 아레나란 무엇인가요?

공식 벤치마크 점수는 어떻게 계산됩니까?

모델 품질에 투표할 수 있나요?

모델 비교는 어떻게 작동합니까?

각 벤치마크 지표는 무엇을 의미합니까?

왜 일부 모델에는 벤치마크 점수가 없습니까?

벤치마크는 얼마나 자주 업데이트됩니까?

무료, 표준 및 프리미엄 계층의 차이점은 무엇입니까?

어떤 모델을 사용해야 하나요?

로그인하지 않고도 비교 도구를 사용할 수 있습니까?

벤치마크 테스트가 편향되어 있습니까?

점수가 동률일 때 모델들은 어떻게 순위가 매겨지나요?

완벽한 목소리 찾기