Report Bug / Feature Request

TTS Arena — AI Voice Model Leaderboard (tiếng Anh)

So sánh các mô hình chuyển văn bản thành giọng nói AI. Lắng nghe cùng một văn bản được nói bởi các mô hình khác nhau, bỏ phiếu cho giọng nói có âm thanh tự nhiên nhất, và xem 20+ mô hình TTS xếp hạng như thế nào trên bảng xếp hạng do cộng đồng điều khiển. Các tiêu chuẩn khách quan đáp ứng phán quyết chủ quan của con người.

Xếp hạng mô hình Phiếu bầu cộng đồng Điểm tham chiếu Kiểm tra A/B Bảng xếp hạng

Tính năng TTS Arena

Một cách công bằng, cộng đồng điều khiển để đánh giá các mô hình giọng nói AI

Tiêu chuẩn chính thức

Đo lường đánh giá tiêu chuẩn bao gồm MOS (Mean Opinion Score), tỷ lệ lỗi nhân vật, tương đồng người nói, và yếu tố thời gian thực trên tất cả 20+ mô hình.

Đánh giá cộng đồng

Đánh giá và đánh giá gửi bởi người dùng từ người dùng TTS thực. Xem những mô hình nào hoạt động tốt nhất cho các trường hợp sử dụng cụ thể dựa trên phản hồi của cộng đồng.

So sánh cạnh cạnh

Tạo ra cùng một văn bản với hai mô hình khác nhau và so sánh chất lượng âm thanh, tự nhiên và tốc độ trực tiếp trong trình duyệt của bạn.

20+ Models Ranked

Mỗi mẫu trên TTS.ai được đánh giá và xếp hạng. Xem theo tốc độ, chất lượng, hỗ trợ ngôn ngữ, tính năng và giấy phép để tìm ra mẫu lý tưởng của bạn.

Đo lường chi tiết

Lặn sâu vào hiệu suất của mỗi mô hình: độ trễ, tốc độ truyền, sử dụng VRAM, ngôn ngữ hỗ trợ, chất lượng sao chép và điểm số phạm vi cảm xúc.

Miễn phí

Xem bảng xếp hạng, so sánh các mẫu, và bỏ phiếu về chất lượng — tất cả hoàn toàn miễn phí. Không cần tài khoản để khám phá xếp hạng và tiêu chuẩn.

Người mẫu trong sân khấu

Tất cả 20+ người mẫu cạnh tranh nhau cho vị trí số 1

KokoroKokoro

Free

Lightweight 82M parameter model delivering studio-quality speech with blazing-fast inference.

Fast 5/5

Tốt nhất cho: Mô hình miễn phí xếp hạng cao nhất — tỷ lệ tốc độ-chất lượng tốt nhất trên bảng xếp hạng

Thử đi. Kokoro

ChatterboxChatterbox

Premium

State-of-the-art zero-shot voice cloning with emotion control from Resemble AI.

Medium 5/5 Bản sao giọng

Tốt nhất cho: Mô hình sao chép giọng nói được đánh giá cao nhất với khả năng kiểm soát cảm xúc

Thử đi. Chatterbox

CosyVoice 2CosyVoice 2

Standard

Alibaba's scalable streaming TTS with human-parity naturalness and near-zero latency.

Medium 5/5 Bản sao giọng

Tốt nhất cho: Mô hình đa ngôn ngữ hàng đầu với điểm tự nhiên tương đương người

Thử đi. CosyVoice 2

StyleTTS 2StyleTTS 2

Premium

Human-level text-to-speech through style diffusion and adversarial training.

Medium 5/5

Tốt nhất cho: Điểm MOS loa đơn cao nhất trong tất cả các mẫu mã nguồn mở

Thử đi. StyleTTS 2

Sesame CSMSesame CSM

Premium

Conversational speech model generating natural dialogue with appropriate timing and emotion.

Slow 5/5

Tốt nhất cho: Mô hình nói chuyện dẫn đầu cho việc tạo đối thoại tự nhiên

Thử đi. Sesame CSM

TTS Arena hoạt động như thế nào

Đánh giá chất lượng giọng nói và giúp xếp hạng các mô hình AI tốt nhất

1

Xem bảng xếp hạng

Xem tất cả 20+ mẫu được xếp hạng theo chất lượng, tốc độ và tính năng. Triệt tiêu theo cấp (miễn phí, tiêu chuẩn, cao cấp) hoặc khả năng cụ thể.

2

So sánh các mẫu cạnh nhau

Chọn hai mô hình và tạo ra cùng một văn bản với cả hai. Lắng nghe kết quả và so sánh sự tự nhiên, rõ ràng và biểu hiện cảm xúc.

3

Đánh giá chất lượng

Sau khi so sánh, hãy bỏ phiếu cho mẫu âm thanh tốt hơn. Phiếu bầu của bạn góp phần vào xếp hạng cộng đồng và giúp người dùng khác chọn.

4

Tìm kiếm mẫu lý tưởng của bạn

Dùng dữ liệu bảng xếp hạng và đánh giá cộng đồng để chọn mô hình tốt nhất cho trường hợp sử dụng cụ thể, ngân sách và yêu cầu chất lượng của bạn.

TTS Arena là gì?

Một cách tiếp cận cộng đồng để xếp hạng các mô hình giọng nói AI

So sánh A/ B mù

Hội trường trình bày cùng một văn bản được nói bởi hai mô hình được chọn ngẫu nhiên. Bạn nghe cả hai mẫu mà không biết mô hình nào tạo ra chúng, sau đó bỏ phiếu cho mẫu có âm thanh tự nhiên hơn. Thử nghiệm mù này loại bỏ sự thiên vị thương hiệu và buộc phải phán xét dựa hoàn toàn vào chất lượng âm thanh.

  • Cùng văn bản, hai mẫu ẩn danh
  • Tên người mẫu được tiết lộ sau khi bỏ phiếu
  • Cặp ngẫu nhiên mới mỗi vòng
  • Không thiên vị thương hiệu — chất lượng âm thanh thuần khiết

Hệ thống đánh giá Elo

Các mô hình được xếp hạng bằng hệ thống xếp hạng Elo, cùng một thuật toán được dùng để xếp hạng các cầu thủ cờ vua. Chiến thắng trước một mô hình xếp hạng cao hơn sẽ có nhiều điểm hơn chiến thắng trước một mô hình xếp hạng thấp hơn. Với hàng ngàn phiếu bầu, điều này tạo ra một xếp hạng đáng tin cậy phản ánh sự ưa thích thực sự của cộng đồng.

  • Thuật toán xếp hạng dựa trên Elo
  • Đánh giá được điều chỉnh theo mỗi phiếu bầu
  • Khoảng tin cậy thống kê
  • Xếp hạng ổn định theo thời gian

Xem trước so sánh mô hình

20+ mô hình của chúng tôi so sánh trên các chiều chính

Mô hình Thú Chất lượng Tốc độ Ngôn ngữ Kênh
Kokoro Tự do 4.5/5 Đơn giản 8
Bark Mặc định 4.0/5 Trung bình 13
CosyVoice2 Mặc định 4.5/5 Trung bình 6
Tortoise TTS Cao cấp 4.8/5 Chậm 1
Chatterbox Cao cấp 4.7/5 Trung bình 1
StyleTTS 2 Cao cấp 4.7/5 Đơn giản 1

Điểm đánh giá

Điều gì làm cho một người mẫu TTS xếp hạng cao hơn trong sân khấu

Tự nhiên

Nó có nghe giống như một người thật không?

Sự biểu đạt

Giọng nói có truyền tải cảm xúc và nhấn mạnh phù hợp không?

Chính xác

Nó có phát âm đúng từng từ không? Nó có xử lý được những từ lạ, số, chữ viết tắt, và tên nước ngoài mà không có lỗi hay âm thanh ảo giác không?

Giúp xếp hạng giọng nói AI tốt nhất

Bầu chọn của bạn ảnh hưởng trực tiếp đến bảng xếp hạng. mỗi so sánh giúp cộng đồng tìm thấy những người mẫu tốt nhất.

Vào sân TTS

Câu hỏi thường gặp

Các câu hỏi thường gặp về TTS Arena và xếp hạng mẫu

TTS Arena là một công cụ xếp hạng và so sánh cho các mô hình chuyển văn bản thành lời nói AI. nó xếp hạng 20+ mô hình dựa trên các tiêu chuẩn chính thức và phiếu bầu của cộng đồng, giúp người dùng tìm ra mô hình tốt nhất cho nhu cầu của họ thông qua đánh giá tiêu chuẩn và so sánh song song.

Các mô hình được đánh giá trên nhiều chỉ số: MOS (Mean Opinion Score) cho chất lượng chủ quan, tỷ lệ lỗi nhân vật cho độ chính xác phát âm, yếu tố thời gian thực cho tốc độ, sử dụng VRAM cho hiệu quả, và phiếu bầu cộng đồng cho sự ưa thích thực tế.

MOS là chỉ số tiêu chuẩn để đánh giá chất lượng giọng nói. Người nghe đánh giá mẫu giọng nói trên thang từ 1- 5 cho sự tự nhiên. Điểm trên 4. 0 được coi là chất lượng gần giống người. Các mẫu hàng đầu của chúng tôi đạt điểm MOS từ 4. 2- 4. 5, cạnh tranh với các bản ghi giọng nói tự nhiên của người.

Điểm xếp hạng phụ thuộc vào các tiêu chí. Kokoro dẫn đầu về tỉ lệ tốc độ- chất lượng. StyleTTS 2 đạt được MOS cao nhất cho một loa. Chatterbox dẫn đầu về xếp hạng sao chép giọng nói. CosyVoice 2 dẫn đầu về chất lượng đa ngôn ngữ. Xem bảng xếp hạng để biết xếp hạng hiện tại trong mỗi hạng mục.

Có. Lắng nghe so sánh song song và bỏ phiếu cho mô hình nghe tốt hơn. Bầu chọn miễn phí và không cần tài khoản. Bầu chọn của cộng đồng ảnh hưởng trực tiếp đến xếp hạng và giúp tìm ra các mô hình tốt nhất cho các trường hợp sử dụng khác nhau.

Các tiêu chuẩn chính thức được cập nhật khi các mô hình mới được thêm vào hoặc các mô hình hiện có nhận được các cập nhật đáng kể. Xếp hạng cộng đồng được cập nhật trong thời gian thực khi các phiếu bầu đến. Chúng tôi đánh giá lại tất cả các mô hình hàng quý để đảm bảo so sánh đồng nhất và công bằng.

Tỷ lệ lỗi ký tự (CER) đo độ chính xác phát âm bằng cách phiên âm lời nói được tạo ra và so sánh nó với văn bản nhập. CER thấp hơn có nghĩa là mô hình phát âm các từ chính xác hơn. Các mô hình như Kokoro và Sesame CSM đạt điểm CER tuyệt vời.

Nhập một mẫu văn bản, chọn hai mô hình, và nhấn tạo. Cả hai mô hình tạo âm thanh từ cùng một văn bản. Lắng nghe cả hai kết quả và đánh giá âm thanh nào tự nhiên, rõ ràng và biểu cảm hơn. Sau đó bạn có thể bỏ phiếu cho mô hình bạn thích.

Có. Chúng tôi công bố phương pháp đánh giá, câu thử nghiệm và tiêu chuẩn đánh giá. Tất cả các mô hình được thử nghiệm trong điều kiện tương tự trên cùng phần cứng GPU. Các thành viên cộng đồng có thể tái tạo kết quả bằng cách sử dụng các tập thử nghiệm và điểm số được công bố của chúng tôi.

The arena focuses on the 20+ open-source models hosted on TTS.ai. We do not directly benchmark commercial services like ElevenLabs or Google TTS, but our MOS scores and metrics are comparable to published benchmarks from those services.

Xem xét ưu tiên của bạn: tốc độ (cần thiết thời gian thực vs xử lý hàng loạt), chất lượng (điểm MOS), hỗ trợ ngôn ngữ, tính năng đặc biệt (kích hoạt giọng nói, điều khiển cảm xúc, đối thoại), điều kiện giấy phép, và ngân sách (mở miễn phí vs cấp cao cấp). Các bộ lọc arena giúp thu hẹp các tùy chọn theo các tiêu chí này.

Kokoro (miễn phí) đạt được điểm chất lượng 5/5, tương đương với nhiều mẫu premium. Lợi thế chính của các mẫu premium là các tính năng chuyên biệt như sao chép giọng nói (Chatterbox), phong cách lan tỏa (StyleTTS 2), và nói chuyện (Sesame CSM) thay vì chất lượng âm thanh nguyên thủy.
5.0/5 (1)

Chúng tôi có thể cải thiện gì? phản hồi của bạn giúp chúng tôi khắc phục vấn đề.

Bầu chọn tại sân vận động TTS

Lắng nghe giọng nói AI, bỏ phiếu cho những người tốt nhất, và khám phá bảng xếp hạng cộng đồng của chúng tôi với hơn 20 mẫu.