Báo cáo lỗi / yêu cầu tính năng

TTS Arena — AI Voice Model Leaderboard (bằng tiếng Anh).

So sánh 20+ mẫu text-to-speech. Điểm chuẩn chính thức, đánh giá cộng đồng, và so sánh song song.

đăng ký miễn phí

So sánh song song

Nhập văn bản, chọn hai mô hình, và so sánh kết quả. Mô hình miễn phí không yêu cầu tài khoản.

Mô hình A

Kiểu B

Các mẫu miễn phí hoạt động mà không cần tài khoản. Đăng ký để so sánh các mẫu xe cao cấp.

Bảng xếp hạng mẫu

#	Mô hình	Chính thức	Cộng đồng	Tốc độ	Thú
1	Kokoro Lightweight 82M parameter model delivering studio-quality speech with blazing-fast inference. 82M 1200h 2024	4.8 /5	5.0 /5 1 phiếu bầu	fast	Free
2	CosyVoice 2 Alibaba's scalable streaming TTS with human-parity naturalness and near-zero latency. 300M 200000h 2024	4.26 /5	Chưa có phiếu bầu	medium	Standard
3	Chatterbox State-of-the-art zero-shot voice cloning with emotion control from Resemble AI. 300M 2025	4.25 /5	Chưa có phiếu bầu	medium	Premium
4	StyleTTS 2 Human-level text-to-speech through style diffusion and adversarial training. 100M 585h 2024	4.23 /5	Chưa có phiếu bầu	medium	Premium
5	Piper A fast, local neural text to speech system optimized for Raspberry Pi and embedded devices. 15M 2023	4.15 /5	Chưa có phiếu bầu	fast	Free
6	MeloTTS High-quality multilingual text-to-speech that runs on CPU with minimal latency. 25M 2024	4.13 /5	Chưa có phiếu bầu	fast	Free
7	Dia TTS Multi-speaker dialog generation model that creates natural conversations between speakers. 1.6B 2024	4.09 /5	Chưa có phiếu bầu	medium	Standard
8	VITS Conditional variational autoencoder with adversarial learning for end-to-end text-to-speech. 25M 585h 2021	4.0 /5	Chưa có phiếu bầu	fast	Free
9	Orpheus Human-level emotional TTS model trained on 100K hours of speech data. 3B 100000h 2025	4.0 /5	Chưa có phiếu bầu	medium	Standard
10	OpenVoice Instant voice cloning with granular control over style, emotion, and accent. 300M 2024	4.0 /5	Chưa có phiếu bầu	medium	Premium
11	IndexTTS-2 Zero-shot TTS with fine-grained emotion control and high expressiveness. 300M 2025	3.91 /5	Chưa có phiếu bầu	medium	Standard
12	Spark TTS Voice cloning TTS with controllable emotion and speaking style via prompts. 500M 2025	3.9 /5	Chưa có phiếu bầu	medium	Standard
13	Parler TTS Describe the voice you want in natural language and Parler generates matching speech. 880M 45000h 2024	3.83 /5	Chưa có phiếu bầu	medium	Standard
14	Tortoise TTS Multi-voice text-to-speech focused on quality with autoregressive architecture. 400M 50000h 2022	3.7 /5	Chưa có phiếu bầu	slow	Premium
15	Bark Transformer-based text-to-audio model that generates realistic speech, music, and sound effects. 350M 100000h 2023	3.57 /5	Chưa có phiếu bầu	slow	Standard
16	Bark Small Lighter version of Bark with faster inference and lower memory usage. 150M 100000h 2023	—	Chưa có phiếu bầu	medium	Standard
17	GPT-SoVITS Few-shot voice cloning TTS that replicates any voice from just 5 seconds of audio. 200M 2024	—	Chưa có phiếu bầu	slow	Standard
18	Qwen3 TTS Alibaba's multilingual TTS with preset voices and voice design from text. 1.7B 2025	—	Chưa có phiếu bầu	medium	Standard
19	VieNeu-TTS-v2 Vietnamese + English code-switching TTS with 7 preset voices and zero-shot voice cloning. CPU-only, no GPU required. 0.3B 10000h 2026	—	Chưa có phiếu bầu	fast	Standard
20	Sesame CSM Conversational speech model generating natural dialogue with appropriate timing and emotion. 1B 2025	—	Chưa có phiếu bầu	slow	Premium
21	Chatterbox Turbo Faster Chatterbox with sub-200ms latency and paralinguistic tags for laughs, coughs, and more. 350M 2025	—	Chưa có phiếu bầu	fast	Standard
22	VoxCPM Tokenizer-free TTS producing 44.1kHz audio with context-aware paragraph consistency. 500M 1800000h 2025	—	Chưa có phiếu bầu	fast	Standard
23	Kani TTS 2 Ultra-lightweight 400M English TTS model running in just 3GB VRAM. 400M 10000h 2026	—	Chưa có phiếu bầu	fast	Free
24	OuteTTS LLM-based TTS that runs on CPU, GPU, or browser via llama.cpp and Transformers.js. 1B 5000h 2025	—	Chưa có phiếu bầu	fast	Free
25	VibeVoice Microsoft's multi-speaker long-form TTS generating up to 90 minutes with 4 distinct speakers. 1.5B 100000h 2025	—	Chưa có phiếu bầu	fast	Standard
26	Pocket TTS Lightweight 100M parameter model by Kyutai with voice cloning from a single sample. 100M 50000h 2025	—	Chưa có phiếu bầu	fast	Free
27	Kitten TTS Ultra-lightweight TTS under 80MB. Runs on CPU without GPU. 80M 2025	—	Chưa có phiếu bầu	fast	Free
28	CosyVoice3 Next-generation multilingual TTS with bi-streaming, emotion control, and zero-shot voice cloning. 500M 200000h 2025	—	Chưa có phiếu bầu	fast	Standard
29	NAMAA Saudi TTS First open Saudi-Arabic TTS. Native Saudi dialect with Chatterbox-quality voice cloning. 300M 2026	—	Chưa có phiếu bầu	medium	Standard
30	Darwin TTS Cross-modal Qwen3-TTS variant with FFN weights blended from the Qwen3-1.7B language model for sharper multilingual cloning. 2.1B 2026	—	Chưa có phiếu bầu	medium	Standard
31	MOSS-TTSD Multi-speaker dialogue continuation model — generate podcast-style conversations with up to 5 speakers and 60 minutes of coherent audio. 7B 2026	—	Chưa có phiếu bầu	medium	Standard
32	Ming-Omni TTS Compact 0.5B omni-modal speech model from inclusionAI with high-fidelity 44.1kHz output and zero-shot voice cloning. 500M 2026	—	Chưa có phiếu bầu	medium	Free
33	MOSS-TTS Nano Tiny 100M MOSS-TTS variant — same architecture, 80x smaller, free-tier latency. 100M 500000h 2026	—	Chưa có phiếu bầu	fast	Free

Điểm chuẩn chi tiết

Điểm chuẩn chính thức của TTS.ai bao gồm ba chiều: tự nhiên, chính xác và tốc độ.

Kokoro

Free

Tự nhiên 4.8/5

Chính xác 4.7/5

Tốc độ 4.9/5

Tổng thể 4.8/5

CosyVoice 2

Standard

Tự nhiên 4.5/5

Chính xác 4.4/5

Tốc độ 3.8/5

Tổng thể 4.26/5

Chatterbox

Premium

Tự nhiên 4.7/5

Chính xác 4.5/5

Tốc độ 3.4/5

Tổng thể 4.25/5

StyleTTS 2

Premium

Tự nhiên 4.5/5

Chính xác 4.3/5

Tốc độ 3.8/5

Tổng thể 4.23/5

Piper

Free

Tự nhiên 3.5/5

Chính xác 4.2/5

Tốc độ 4.95/5

Tổng thể 4.15/5

MeloTTS

Free

Tự nhiên 3.8/5

Chính xác 4.1/5

Tốc độ 4.6/5

Tổng thể 4.13/5

Dia TTS

Standard

Tự nhiên 4.6/5

Chính xác 4.3/5

Tốc độ 3.2/5

Tổng thể 4.09/5

VITS

Free

Tự nhiên 3.4/5

Chính xác 4.0/5

Tốc độ 4.8/5

Tổng thể 4.0/5

Orpheus

Standard

Tự nhiên 4.3/5

Chính xác 4.1/5

Tốc độ 3.5/5

Tổng thể 4.0/5

OpenVoice

Premium

Tự nhiên 4.0/5

Chính xác 4.1/5

Tốc độ 3.9/5

Tổng thể 4.0/5

IndexTTS-2

Standard

Tự nhiên 4.3/5

Chính xác 4.1/5

Tốc độ 3.2/5

Tổng thể 3.91/5

Spark TTS

Standard

Tự nhiên 4.2/5

Chính xác 4.0/5

Tốc độ 3.4/5

Tổng thể 3.9/5

Parler TTS

Standard

Tự nhiên 4.1/5

Chính xác 3.9/5

Tốc độ 3.4/5

Tổng thể 3.83/5

Tortoise TTS

Premium

Tự nhiên 4.6/5

Chính xác 4.4/5

Tốc độ 1.8/5

Tổng thể 3.7/5

Bark

Standard

Tự nhiên 4.2/5

Chính xác 3.8/5

Tốc độ 2.5/5

Tổng thể 3.57/5

Phương pháp so sánh

Cấu hình thử nghiệm

Phần cứng: 4x NVIDIA Tesla P40 (24GB VRAM mỗi), tổng cộng 96GB
Văn bản thử: 5 đoạn văn chuẩn hóa bao gồm các kiểu ngôn ngữ khác nhau (thuyết minh, đối thoại, kỹ thuật, cảm xúc, đa ngôn ngữ)
Đánh giá: Đo lường tự động (ước tính MOS, WER, RTF) kết hợp với thử nghiệm lắng nghe của con người
Chạy: Mỗi mẫu được kiểm tra 10 lần mỗi lần, điểm số trung bình

Điểm

Tự nhiên (40%): Tiếng nói, giọng điệu, nhịp điệu, cảm xúc — nó nghe có giống con người không?
Độ chính xác (30%): Đúng đắn phát âm, tỷ lệ lỗi từ, hiểu được
Tốc độ (30%) Hệ số thời gian thực (giây âm thanh / giây tạo ra). Cao hơn = nhanh hơn.
Tổng thể: Trung bình cân nặng: 0. 4 x Tự nhiên + 0. 3 x Chính xác + 0. 3 x Tốc độ

Ghi chú: Điểm chuẩn phản ánh hiệu suất trên phần cứng và văn bản thử nghiệm cụ thể của chúng tôi. Chất lượng thực có thể khác nhau dựa trên văn bản nhập, ngôn ngữ và lựa chọn giọng nói. Đánh giá cộng đồng cung cấp một tín hiệu bổ sung dựa trên việc sử dụng thực tế đa dạng.

Câu hỏi thường gặp

TTS Arena là một bảng xếp hạng xếp hạng các mô hình chuyển văn bản thành lời nói AI dựa trên các thử nghiệm chuẩn chính thức và đánh giá của cộng đồng. So sánh các mô hình cạnh nhau, nghe các mẫu, và bỏ phiếu cho những mẫu nghe tốt nhất với bạn.

Chúng tôi chạy thử nghiệm chuẩn hóa trên mỗi mô hình sử dụng cùng đoạn văn bản, phần cứng và tiêu chí đánh giá. Điểm bao gồm tự nhiên (nghe như con người như thế nào), chính xác (viết và hiểu được), và tốc độ (thời gian tạo). Tất cả các thử nghiệm sử dụng máy chủ GPU của chúng tôi với NVIDIA Tesla P40 GPU.

Có! Nhấn vào các ngôi sao bên cạnh bất kỳ mô hình nào để đánh giá nó từ 1 đến 5. Bạn cần phải đăng nhập để bỏ phiếu. Đánh giá của bạn góp phần vào trung bình cộng đồng được hiển thị trên bảng xếp hạng. Bạn có thể thay đổi đánh giá của mình bất cứ lúc nào.

Nhập bất kỳ văn bản nào, chọn hai mô hình, và nhấn vào So sánh. Cả hai mô hình tạo ra giọng nói từ cùng một văn bản cùng một lúc. Lắng nghe cả hai và bỏ phiếu cho cái nào nghe tốt hơn. So sánh mù giúp xác định mô hình tốt nhất cho nhu cầu cụ thể của bạn.

Độ tự nhiên đo lường âm thanh nói giống con người như thế nào (âm điệu, giọng điệu, nhịp điệu). Độ chính xác đo lường chính xác và dễ hiểu của phát âm. Tốc độ đo lường mô hình tạo âm thanh nhanh như thế nào so với thời gian thực. Tổng thể là trung bình cân bằng của tất cả các chỉ số.

Các mô hình không có điểm tiêu chuẩn hoặc mới được thêm vào và đang chờ kiểm tra, hoặc yêu cầu cài đặt đặc biệt (như token truy cập cổng) đang chờ. Đánh giá của cộng đồng vẫn có sẵn cho các mô hình này.

Các tiêu chuẩn chính thức được cập nhật khi các mô hình nhận được cập nhật đáng kể hoặc khi thêm các mô hình mới. Đánh giá của cộng đồng được cập nhật theo thời gian thực khi người dùng bỏ phiếu. Dữ liệu bảng xếp hạng được lưu trong 5 phút để xem hiệu suất.

Các mẫu miễn phí (Kokoro, Piper, VITS, MeloTTS) có giá 0 tín hiệu. Các mẫu tiêu chuẩn có giá 2 tín hiệu cho mỗi 1.000 ký tự. Các mẫu Premium có giá 4 tín hiệu cho mỗi 1.000 ký tự và thường cung cấp chất lượng cao nhất hoặc các tính năng độc đáo như sao chép giọng nói.

Đối với hầu hết các trường hợp sử dụng, Kokoro (mức miễn phí) cung cấp chất lượng tuyệt vời. Đối với sao chép giọng nói, thử Chatterbox hoặc CosyVoice 2. Đối với nội dung đa ngôn ngữ, MeloTTS hoặc CosyVoice 2. Đối với lời giải thích biểu cảm, Bark hoặc Dia. Dùng công cụ so sánh để thử với văn bản cụ thể của bạn.

Có, bạn có thể tạo và so sánh âm thanh từ bất kỳ hai mô hình nào mà không cần tài khoản bằng cách sử dụng các mô hình miễn phí. Để bỏ phiếu cho các mô hình cần một tài khoản miễn phí. So sánh các mô hình cao cấp cần các ký tự.

Chúng tôi cố gắng để khách quan bằng cách sử dụng các văn bản thử nghiệm tiêu chuẩn, phần cứng giống nhau, và tiêu chí đánh giá nhất quán trên tất cả các mô hình. Đánh giá của cộng đồng cung cấp một tín hiệu độc lập bổ sung. Phương pháp của chúng tôi được mô tả trong phần Phương pháp so sánh bên dưới.

Các mẫu được xếp hạng chủ yếu theo điểm số tổng thể chuẩn chính thức, sau đó theo đánh giá trung bình của cộng đồng như một điểm cân bằng.

5.0/5 (1)

Tìm giọng nói hoàn hảo của bạn

Thử bất kỳ mô hình nào miễn phí với Kokoro, Piper, VITS, hoặc MeloTTS. Không cần tài khoản.

đăng ký miễn phí Xem giá

TTS Arena — AI Voice Model Leaderboard (bằng tiếng Anh).

So sánh song song

Bảng xếp hạng mẫu

Điểm chuẩn chi tiết

Kokoro

CosyVoice 2

Chatterbox

StyleTTS 2

Piper

MeloTTS

Dia TTS

VITS

Orpheus

OpenVoice

IndexTTS-2

Spark TTS

Parler TTS

Tortoise TTS

Bark

Phương pháp so sánh

Cấu hình thử nghiệm

Điểm

Câu hỏi thường gặp

TTS Arena là gì?

Điểm chuẩn chính thức được tính như thế nào?

Tôi có thể bỏ phiếu về chất lượng người mẫu không?

So sánh mô hình làm việc như thế nào?

Mỗi chỉ số tiêu chuẩn có nghĩa là gì?

Tại sao một số người mẫu không có điểm chuẩn?

Các tiêu chuẩn được cập nhật bao nhiêu lần?

Có gì khác biệt giữa các cấp miễn phí, tiêu chuẩn và cao cấp?

Tôi nên dùng mẫu nào?

Tôi có thể dùng công cụ so sánh mà không cần đăng nhập không?

Các bài kiểm tra có thiên vị không?

Các người mẫu được xếp hạng như thế nào khi kết quả hòa?

Tìm giọng nói hoàn hảo của bạn