TTS Arena — AI Voice Model Leaderboard (bằng tiếng Anh).

So sánh 20+ mẫu text-to-speech. Điểm chuẩn chính thức, đánh giá cộng đồng, và so sánh song song.

So sánh song song

Nhập văn bản, chọn hai mô hình, và so sánh kết quả. Mô hình miễn phí không yêu cầu tài khoản.

Các mẫu miễn phí hoạt động mà không cần tài khoản. Đăng ký để so sánh các mẫu xe cao cấp.

Bảng xếp hạng mẫu

# Mô hình Chính thức Cộng đồng Đánh giá của bạn Tốc độ Thú
1
Kokoro
Kokoro
Lightweight 82M parameter model delivering studio-quality speech with blazing-fast inference.
82M 1200h 2024
4.8 /5 5.0 /5
1 phiếu bầu
fast Free
2
CosyVoice 2
CosyVoice 2
Alibaba's scalable streaming TTS with human-parity naturalness and near-zero latency.
300M 200000h 2024
4.26 /5 Chưa có phiếu bầu
medium Standard
3
Chatterbox
Chatterbox
State-of-the-art zero-shot voice cloning with emotion control from Resemble AI.
300M 2025
4.25 /5 Chưa có phiếu bầu
medium Premium
4
StyleTTS 2
StyleTTS 2
Human-level text-to-speech through style diffusion and adversarial training.
100M 585h 2024
4.23 /5 Chưa có phiếu bầu
medium Premium
5
Piper
Piper
A fast, local neural text to speech system optimized for Raspberry Pi and embedded devices.
15M 2023
4.15 /5 Chưa có phiếu bầu
fast Free
6
MeloTTS
MeloTTS
High-quality multilingual text-to-speech that runs on CPU with minimal latency.
25M 2024
4.13 /5 Chưa có phiếu bầu
fast Free
7
Dia TTS
Dia TTS
Multi-speaker dialog generation model that creates natural conversations between speakers.
1.6B 2024
4.09 /5 Chưa có phiếu bầu
medium Standard
8
VITS
VITS
Conditional variational autoencoder with adversarial learning for end-to-end text-to-speech.
25M 585h 2021
4.0 /5 Chưa có phiếu bầu
fast Free
9
Orpheus
Orpheus
Human-level emotional TTS model trained on 100K hours of speech data.
3B 100000h 2025
4.0 /5 Chưa có phiếu bầu
medium Standard
10
OpenVoice
OpenVoice
Instant voice cloning with granular control over style, emotion, and accent.
300M 2024
4.0 /5 Chưa có phiếu bầu
medium Premium
11
IndexTTS-2
IndexTTS-2
Zero-shot TTS with fine-grained emotion control and high expressiveness.
300M 2025
3.91 /5 Chưa có phiếu bầu
medium Standard
12
Spark TTS
Spark TTS
Voice cloning TTS with controllable emotion and speaking style via prompts.
500M 2025
3.9 /5 Chưa có phiếu bầu
medium Standard
13
Parler TTS
Parler TTS
Describe the voice you want in natural language and Parler generates matching speech.
880M 45000h 2024
3.83 /5 Chưa có phiếu bầu
medium Standard
14
Tortoise TTS
Tortoise TTS
Multi-voice text-to-speech focused on quality with autoregressive architecture.
400M 50000h 2022
3.7 /5 Chưa có phiếu bầu
slow Premium
15
Bark
Bark
Transformer-based text-to-audio model that generates realistic speech, music, and sound effects.
350M 100000h 2023
3.57 /5 Chưa có phiếu bầu
slow Standard
16
Bark Small
Bark Small
Lighter version of Bark with faster inference and lower memory usage.
150M 100000h 2023
Chưa có phiếu bầu
medium Standard
17
GLM-TTS
GLM-TTS
Achieves the lowest character error rate among open-source TTS models.
300M 2025
Chưa có phiếu bầu
medium Standard
18
GPT-SoVITS
GPT-SoVITS
Few-shot voice cloning TTS that replicates any voice from just 5 seconds of audio.
200M 2024
Chưa có phiếu bầu
slow Standard
19
Qwen3 TTS
Qwen3 TTS
Alibaba's multilingual TTS with voice cloning, preset voices, and voice design from text.
1.7B 2025
Chưa có phiếu bầu
medium Standard
20
Sesame CSM
Sesame CSM
Conversational speech model generating natural dialogue with appropriate timing and emotion.
1B 2025
Chưa có phiếu bầu
slow Premium
21
Chatterbox Turbo
Chatterbox Turbo
Faster Chatterbox with sub-200ms latency and paralinguistic tags for laughs, coughs, and more.
350M 2025
Chưa có phiếu bầu
fast Standard
22
Dia 2
Dia 2
Streaming-first conversational TTS with multi-speaker dialogue and paralinguistic cues.
2B 2025
Chưa có phiếu bầu
fast Standard
23
VoxCPM
VoxCPM
Tokenizer-free TTS producing 44.1kHz audio with context-aware paragraph consistency.
500M 1800000h 2025
Chưa có phiếu bầu
fast Standard
24
OuteTTS
OuteTTS
LLM-based TTS that runs on CPU, GPU, or browser via llama.cpp and Transformers.js.
1B 5000h 2025
Chưa có phiếu bầu
fast Free
25
TADA
TADA
Zero-hallucination TTS with text-acoustic dual alignment, 5x faster than comparable LLM TTS.
1B 2026
Chưa có phiếu bầu
fast Standard
26
VibeVoice
VibeVoice
Microsoft's multi-speaker long-form TTS generating up to 90 minutes with 4 distinct speakers.
1.5B 100000h 2025
Chưa có phiếu bầu
fast Standard
27
Pocket TTS
Pocket TTS
Lightweight 100M parameter model by Kyutai with voice cloning from a single sample.
100M 50000h 2025
Chưa có phiếu bầu
fast Free
28
Kitten TTS
Kitten TTS
Ultra-lightweight TTS under 80MB. Runs on CPU without GPU.
80M 2025
Chưa có phiếu bầu
fast Free
29
CosyVoice3
CosyVoice3
Next-generation multilingual TTS with bi-streaming, emotion control, and zero-shot voice cloning.
500M 200000h 2025
Chưa có phiếu bầu
fast Standard
30
MOSS-TTS
MOSS-TTS
Ultra-long 20-language TTS supporting up to 1 hour of continuous generation with phoneme-level control.
8B 500000h 2026
Chưa có phiếu bầu
medium Premium
31
MegaTTS3
MegaTTS3
ByteDance's sparse alignment TTS with adjustable intelligibility vs. speaker similarity.
1B 100000h 2025
Chưa có phiếu bầu
slow Premium

Điểm chuẩn chi tiết

Điểm chuẩn chính thức của TTS.ai bao gồm ba chiều: tự nhiên, chính xác và tốc độ.

KokoroKokoro

Free
Tự nhiên 4.8/5
Chính xác 4.7/5
Tốc độ 4.9/5
Tổng thể 4.8/5

CosyVoice 2CosyVoice 2

Standard
Tự nhiên 4.5/5
Chính xác 4.4/5
Tốc độ 3.8/5
Tổng thể 4.26/5

ChatterboxChatterbox

Premium
Tự nhiên 4.7/5
Chính xác 4.5/5
Tốc độ 3.4/5
Tổng thể 4.25/5

StyleTTS 2StyleTTS 2

Premium
Tự nhiên 4.5/5
Chính xác 4.3/5
Tốc độ 3.8/5
Tổng thể 4.23/5

PiperPiper

Free
Tự nhiên 3.5/5
Chính xác 4.2/5
Tốc độ 4.95/5
Tổng thể 4.15/5

MeloTTSMeloTTS

Free
Tự nhiên 3.8/5
Chính xác 4.1/5
Tốc độ 4.6/5
Tổng thể 4.13/5

Dia TTSDia TTS

Standard
Tự nhiên 4.6/5
Chính xác 4.3/5
Tốc độ 3.2/5
Tổng thể 4.09/5

VITSVITS

Free
Tự nhiên 3.4/5
Chính xác 4.0/5
Tốc độ 4.8/5
Tổng thể 4.0/5

OrpheusOrpheus

Standard
Tự nhiên 4.3/5
Chính xác 4.1/5
Tốc độ 3.5/5
Tổng thể 4.0/5

OpenVoiceOpenVoice

Premium
Tự nhiên 4.0/5
Chính xác 4.1/5
Tốc độ 3.9/5
Tổng thể 4.0/5

IndexTTS-2IndexTTS-2

Standard
Tự nhiên 4.3/5
Chính xác 4.1/5
Tốc độ 3.2/5
Tổng thể 3.91/5

Spark TTSSpark TTS

Standard
Tự nhiên 4.2/5
Chính xác 4.0/5
Tốc độ 3.4/5
Tổng thể 3.9/5

Parler TTSParler TTS

Standard
Tự nhiên 4.1/5
Chính xác 3.9/5
Tốc độ 3.4/5
Tổng thể 3.83/5

Tortoise TTSTortoise TTS

Premium
Tự nhiên 4.6/5
Chính xác 4.4/5
Tốc độ 1.8/5
Tổng thể 3.7/5

BarkBark

Standard
Tự nhiên 4.2/5
Chính xác 3.8/5
Tốc độ 2.5/5
Tổng thể 3.57/5

Phương pháp so sánh

Cấu hình thử nghiệm

  • Phần cứng: 4x NVIDIA Tesla P40 (24GB VRAM mỗi), tổng cộng 96GB
  • Văn bản thử: 5 đoạn văn chuẩn hóa bao gồm các kiểu ngôn ngữ khác nhau (thuyết minh, đối thoại, kỹ thuật, cảm xúc, đa ngôn ngữ)
  • Đánh giá: Đo lường tự động (ước tính MOS, WER, RTF) kết hợp với thử nghiệm lắng nghe của con người
  • Chạy: Mỗi mẫu được kiểm tra 10 lần mỗi lần, điểm số trung bình

Điểm

  • Tự nhiên (40%): Tiếng nói, giọng điệu, nhịp điệu, cảm xúc — nó nghe có giống con người không?
  • Độ chính xác (30%): Đúng đắn phát âm, tỷ lệ lỗi từ, hiểu được
  • Tốc độ (30%) Hệ số thời gian thực (giây âm thanh / giây tạo ra). Cao hơn = nhanh hơn.
  • Tổng thể: Trung bình cân nặng: 0. 4 x Tự nhiên + 0. 3 x Chính xác + 0. 3 x Tốc độ

Ghi chú: Điểm chuẩn phản ánh hiệu suất trên phần cứng và văn bản thử nghiệm cụ thể của chúng tôi. Chất lượng thực có thể khác nhau dựa trên văn bản nhập, ngôn ngữ và lựa chọn giọng nói. Đánh giá cộng đồng cung cấp một tín hiệu bổ sung dựa trên việc sử dụng thực tế đa dạng.

Câu hỏi thường gặp

TTS Arena là một bảng xếp hạng xếp hạng các mô hình chuyển văn bản thành lời nói AI dựa trên các thử nghiệm chuẩn chính thức và đánh giá của cộng đồng. So sánh các mô hình cạnh nhau, nghe các mẫu, và bỏ phiếu cho những mẫu nghe tốt nhất với bạn.

Chúng tôi chạy thử nghiệm chuẩn hóa trên mỗi mô hình sử dụng cùng đoạn văn bản, phần cứng và tiêu chí đánh giá. Điểm bao gồm tự nhiên (nghe như con người như thế nào), chính xác (viết và hiểu được), và tốc độ (thời gian tạo). Tất cả các thử nghiệm sử dụng máy chủ GPU của chúng tôi với NVIDIA Tesla P40 GPU.

Có! Nhấn vào các ngôi sao bên cạnh bất kỳ mô hình nào để đánh giá nó từ 1 đến 5. Bạn cần phải đăng nhập để bỏ phiếu. Đánh giá của bạn góp phần vào trung bình cộng đồng được hiển thị trên bảng xếp hạng. Bạn có thể thay đổi đánh giá của mình bất cứ lúc nào.

Nhập bất kỳ văn bản nào, chọn hai mô hình, và nhấn vào So sánh. Cả hai mô hình tạo ra giọng nói từ cùng một văn bản cùng một lúc. Lắng nghe cả hai và bỏ phiếu cho cái nào nghe tốt hơn. So sánh mù giúp xác định mô hình tốt nhất cho nhu cầu cụ thể của bạn.

Độ tự nhiên đo lường âm thanh nói giống con người như thế nào (âm điệu, giọng điệu, nhịp điệu). Độ chính xác đo lường chính xác và dễ hiểu của phát âm. Tốc độ đo lường mô hình tạo âm thanh nhanh như thế nào so với thời gian thực. Tổng thể là trung bình cân bằng của tất cả các chỉ số.

Các mô hình không có điểm tiêu chuẩn hoặc mới được thêm vào và đang chờ kiểm tra, hoặc yêu cầu cài đặt đặc biệt (như token truy cập cổng) đang chờ. Đánh giá của cộng đồng vẫn có sẵn cho các mô hình này.

Các tiêu chuẩn chính thức được cập nhật khi các mô hình nhận được cập nhật đáng kể hoặc khi thêm các mô hình mới. Đánh giá của cộng đồng được cập nhật theo thời gian thực khi người dùng bỏ phiếu. Dữ liệu bảng xếp hạng được lưu trong 5 phút để xem hiệu suất.

Các mẫu miễn phí (Kokoro, Piper, VITS, MeloTTS) có giá 0 tín hiệu. Các mẫu tiêu chuẩn có giá 2 tín hiệu cho mỗi 1.000 ký tự. Các mẫu Premium có giá 4 tín hiệu cho mỗi 1.000 ký tự và thường cung cấp chất lượng cao nhất hoặc các tính năng độc đáo như sao chép giọng nói.

Đối với hầu hết các trường hợp sử dụng, Kokoro (mức miễn phí) cung cấp chất lượng tuyệt vời. Đối với sao chép giọng nói, thử Chatterbox hoặc CosyVoice 2. Đối với nội dung đa ngôn ngữ, MeloTTS hoặc CosyVoice 2. Đối với lời giải thích biểu cảm, Bark hoặc Dia. Dùng công cụ so sánh để thử với văn bản cụ thể của bạn.

Có, bạn có thể tạo và so sánh âm thanh từ bất kỳ hai mô hình nào mà không cần tài khoản bằng cách sử dụng các mô hình miễn phí. Để bỏ phiếu cho các mô hình cần một tài khoản miễn phí. So sánh các mô hình cao cấp cần các ký tự.

Chúng tôi cố gắng để khách quan bằng cách sử dụng các văn bản thử nghiệm tiêu chuẩn, phần cứng giống nhau, và tiêu chí đánh giá nhất quán trên tất cả các mô hình. Đánh giá của cộng đồng cung cấp một tín hiệu độc lập bổ sung. Phương pháp của chúng tôi được mô tả trong phần Phương pháp so sánh bên dưới.

Các mẫu được xếp hạng chủ yếu theo điểm số tổng thể chuẩn chính thức, sau đó theo đánh giá trung bình của cộng đồng như một điểm cân bằng.
5.0/5 (1)

Chúng tôi có thể cải thiện gì? phản hồi của bạn giúp chúng tôi khắc phục vấn đề.

Tìm giọng nói hoàn hảo của bạn

Thử bất kỳ mô hình nào miễn phí với Kokoro, Piper, VITS, hoặc MeloTTS. Không cần tài khoản.