TTS Arena - AI ແບບຟອມສຽງ Leaderboard

20+ ຂໍ້ຄວາມ-ເປັນ-ການເວົ້າແບບຈໍາລອງ. ມາດຕະຖານທາງການ, ຊຸມຊົນການຕີລາຄາ, ແລະ side-by-side ການທຽບເທົ່າ.

ພວກເຮົາຍັງບໍ່ມີສຽງ TTS ໃນພາສາຂອງທ່ານເທື່ອ. ຊ່ວຍພວກເຮົາເພີ່ມສຽງຂອງທ່ານ! ຂາຍ​ສຽງ​ຂອງທ່ານ

ການ​ປຽບທຽບ​ຂ້າງ​ຕໍ່​ຂ້າງ

ພິມຂໍ້ຄວາມ, ເລືອກແບບສອງແບບ, ແລະ ທຽບທຽບຜົນໄດ້ຮັບ. ແບບຟຣີ-ຊັ້ນບໍ່ຕ້ອງການບັນຊີ.

ແບບຟອມຟຣີເຮັດວຽກໂດຍບໍ່ມີບັນຊີ. ລົງທະບຽນ ເພື່ອປຽບທຽບແບບພິເສດ.

ຕາຕະລາງ​ຜູ້​ນໍາ​ແບບ​ແບບ

# ແບບ ທາງການ ຊຸມຊົນ ການ​ຈັດອັນດັບ​ຂອງທ່ານ ໄວ ສັດ
1
Kokoro
Kokoro
Lightweight 82M parameter model delivering studio-quality speech with blazing-fast inference.
82M 1200h 2024
4.8 /5 5.0 /5
1 ຄະແນນ
fast Free
2
CosyVoice 2
CosyVoice 2
Alibaba's scalable streaming TTS with human-parity naturalness and near-zero latency.
300M 200000h 2024
4.26 /5 ບໍ່ມີ​ຄະແນນ
medium Standard
3
Chatterbox
Chatterbox
State-of-the-art zero-shot voice cloning with emotion control from Resemble AI.
300M 2025
4.25 /5 ບໍ່ມີ​ຄະແນນ
medium Premium
4
StyleTTS 2
StyleTTS 2
Human-level text-to-speech through style diffusion and adversarial training.
100M 585h 2024
4.23 /5 ບໍ່ມີ​ຄະແນນ
medium Premium
5
Piper
Piper
A fast, local neural text to speech system optimized for Raspberry Pi and embedded devices.
15M 2023
4.15 /5 ບໍ່ມີ​ຄະແນນ
fast Free
6
MeloTTS
MeloTTS
High-quality multilingual text-to-speech that runs on CPU with minimal latency.
25M 2024
4.13 /5 ບໍ່ມີ​ຄະແນນ
fast Free
7
Dia TTS
Dia TTS
Multi-speaker dialog generation model that creates natural conversations between speakers.
1.6B 2024
4.09 /5 ບໍ່ມີ​ຄະແນນ
medium Standard
8
VITS
VITS
Conditional variational autoencoder with adversarial learning for end-to-end text-to-speech.
25M 585h 2021
4.0 /5 ບໍ່ມີ​ຄະແນນ
fast Free
9
Orpheus
Orpheus
Human-level emotional TTS model trained on 100K hours of speech data.
3B 100000h 2025
4.0 /5 ບໍ່ມີ​ຄະແນນ
medium Standard
10
OpenVoice
OpenVoice
Instant voice cloning with granular control over style, emotion, and accent.
300M 2024
4.0 /5 ບໍ່ມີ​ຄະແນນ
medium Premium
11
IndexTTS-2
IndexTTS-2
Zero-shot TTS with fine-grained emotion control and high expressiveness.
300M 2025
3.91 /5 ບໍ່ມີ​ຄະແນນ
medium Standard
12
Spark TTS
Spark TTS
Voice cloning TTS with controllable emotion and speaking style via prompts.
500M 2025
3.9 /5 ບໍ່ມີ​ຄະແນນ
medium Standard
13
Parler TTS
Parler TTS
Describe the voice you want in natural language and Parler generates matching speech.
880M 45000h 2024
3.83 /5 ບໍ່ມີ​ຄະແນນ
medium Standard
14
Tortoise TTS
Tortoise TTS
Multi-voice text-to-speech focused on quality with autoregressive architecture.
400M 50000h 2022
3.7 /5 ບໍ່ມີ​ຄະແນນ
slow Premium
15
Bark
Bark
Transformer-based text-to-audio model that generates realistic speech, music, and sound effects.
350M 100000h 2023
3.57 /5 ບໍ່ມີ​ຄະແນນ
slow Standard
16
Bark Small
Bark Small
Lighter version of Bark with faster inference and lower memory usage.
150M 100000h 2023
ບໍ່ມີ​ຄະແນນ
medium Standard
17
GLM-TTS
GLM-TTS
Achieves the lowest character error rate among open-source TTS models.
300M 2025
ບໍ່ມີ​ຄະແນນ
medium Standard
18
GPT-SoVITS
GPT-SoVITS
Few-shot voice cloning TTS that replicates any voice from just 5 seconds of audio.
200M 2024
ບໍ່ມີ​ຄະແນນ
slow Standard
19
Qwen3 TTS
Qwen3 TTS
Alibaba's multilingual TTS with voice cloning, preset voices, and voice design from text.
1.7B 2025
ບໍ່ມີ​ຄະແນນ
medium Standard
20
Sesame CSM
Sesame CSM
Conversational speech model generating natural dialogue with appropriate timing and emotion.
1B 2025
ບໍ່ມີ​ຄະແນນ
slow Premium
21
Chatterbox Turbo
Chatterbox Turbo
Faster Chatterbox with sub-200ms latency and paralinguistic tags for laughs, coughs, and more.
350M 2025
ບໍ່ມີ​ຄະແນນ
fast Standard
22
Zonos
Zonos
Emotion-controllable TTS with fine-grained sliders for happiness, anger, sadness, and more.
1.6B 200000h 2025
ບໍ່ມີ​ຄະແນນ
medium Standard
23
Dia 2
Dia 2
Streaming-first conversational TTS with multi-speaker dialogue and paralinguistic cues.
2B 2025
ບໍ່ມີ​ຄະແນນ
fast Standard
24
VoxCPM
VoxCPM
Tokenizer-free TTS producing 44.1kHz audio with context-aware paragraph consistency.
500M 1800000h 2025
ບໍ່ມີ​ຄະແນນ
fast Standard
25
OuteTTS
OuteTTS
LLM-based TTS that runs on CPU, GPU, or browser via llama.cpp and Transformers.js.
1B 5000h 2025
ບໍ່ມີ​ຄະແນນ
fast Free
26
TADA
TADA
Zero-hallucination TTS with text-acoustic dual alignment, 5x faster than comparable LLM TTS.
1B 2026
ບໍ່ມີ​ຄະແນນ
fast Standard
27
VibeVoice
VibeVoice
Microsoft's multi-speaker long-form TTS generating up to 90 minutes with 4 distinct speakers.
1.5B 100000h 2025
ບໍ່ມີ​ຄະແນນ
fast Standard
28
Pocket TTS
Pocket TTS
Lightweight 100M parameter model by Kyutai with voice cloning from a single sample.
100M 50000h 2025
ບໍ່ມີ​ຄະແນນ
fast Free
29
Kitten TTS
Kitten TTS
Ultra-lightweight TTS under 80MB. Runs on CPU without GPU.
80M 2025
ບໍ່ມີ​ຄະແນນ
fast Free
30
CosyVoice3
CosyVoice3
Next-generation multilingual TTS with bi-streaming, emotion control, and zero-shot voice cloning.
500M 200000h 2025
ບໍ່ມີ​ຄະແນນ
fast Standard
31
MOSS-TTS
MOSS-TTS
Ultra-long 20-language TTS supporting up to 1 hour of continuous generation with phoneme-level control.
8B 500000h 2026
ບໍ່ມີ​ຄະແນນ
medium Premium
32
MegaTTS3
MegaTTS3
ByteDance's sparse alignment TTS with adjustable intelligibility vs. speaker similarity.
1B 100000h 2025
ບໍ່ມີ​ຄະແນນ
slow Premium

ຄະແນນ Benchmark ລະອຽດ

TTS.ai ຢ່າງເປັນທາງການ benchmark ຄະແນນໃນສາມມິຕິ: ທໍາມະຊາດ, ຄວາມຖືກຕ້ອງ, ແລະຄວາມໄວ.

KokoroKokoro

Free
ທໍາມະຊາດ 4.8/5
ຄວາມ​ຖືກຕ້ອງ 4.7/5
ຄວາມ​ໄວ 4.9/5
ລວມ 4.8/5

CosyVoice 2CosyVoice 2

Standard
ທໍາມະຊາດ 4.5/5
ຄວາມ​ຖືກຕ້ອງ 4.4/5
ຄວາມ​ໄວ 3.8/5
ລວມ 4.26/5

ChatterboxChatterbox

Premium
ທໍາມະຊາດ 4.7/5
ຄວາມ​ຖືກຕ້ອງ 4.5/5
ຄວາມ​ໄວ 3.4/5
ລວມ 4.25/5

StyleTTS 2StyleTTS 2

Premium
ທໍາມະຊາດ 4.5/5
ຄວາມ​ຖືກຕ້ອງ 4.3/5
ຄວາມ​ໄວ 3.8/5
ລວມ 4.23/5

PiperPiper

Free
ທໍາມະຊາດ 3.5/5
ຄວາມ​ຖືກຕ້ອງ 4.2/5
ຄວາມ​ໄວ 4.95/5
ລວມ 4.15/5

MeloTTSMeloTTS

Free
ທໍາມະຊາດ 3.8/5
ຄວາມ​ຖືກຕ້ອງ 4.1/5
ຄວາມ​ໄວ 4.6/5
ລວມ 4.13/5

Dia TTSDia TTS

Standard
ທໍາມະຊາດ 4.6/5
ຄວາມ​ຖືກຕ້ອງ 4.3/5
ຄວາມ​ໄວ 3.2/5
ລວມ 4.09/5

VITSVITS

Free
ທໍາມະຊາດ 3.4/5
ຄວາມ​ຖືກຕ້ອງ 4.0/5
ຄວາມ​ໄວ 4.8/5
ລວມ 4.0/5

OrpheusOrpheus

Standard
ທໍາມະຊາດ 4.3/5
ຄວາມ​ຖືກຕ້ອງ 4.1/5
ຄວາມ​ໄວ 3.5/5
ລວມ 4.0/5

OpenVoiceOpenVoice

Premium
ທໍາມະຊາດ 4.0/5
ຄວາມ​ຖືກຕ້ອງ 4.1/5
ຄວາມ​ໄວ 3.9/5
ລວມ 4.0/5

IndexTTS-2IndexTTS-2

Standard
ທໍາມະຊາດ 4.3/5
ຄວາມ​ຖືກຕ້ອງ 4.1/5
ຄວາມ​ໄວ 3.2/5
ລວມ 3.91/5

Spark TTSSpark TTS

Standard
ທໍາມະຊາດ 4.2/5
ຄວາມ​ຖືກຕ້ອງ 4.0/5
ຄວາມ​ໄວ 3.4/5
ລວມ 3.9/5

Parler TTSParler TTS

Standard
ທໍາມະຊາດ 4.1/5
ຄວາມ​ຖືກຕ້ອງ 3.9/5
ຄວາມ​ໄວ 3.4/5
ລວມ 3.83/5

Tortoise TTSTortoise TTS

Premium
ທໍາມະຊາດ 4.6/5
ຄວາມ​ຖືກຕ້ອງ 4.4/5
ຄວາມ​ໄວ 1.8/5
ລວມ 3.7/5

BarkBark

Standard
ທໍາມະຊາດ 4.2/5
ຄວາມ​ຖືກຕ້ອງ 3.8/5
ຄວາມ​ໄວ 2.5/5
ລວມ 3.57/5

ວິທີການ​ທົດສອບ

ການ​ຕັ້ງຄ່າ​ການ​ທົດສອບ

  • ອຸປະກອນ​ຮາດແວ: 4x NVIDIA Tesla P40 (24GB VRAM ແຕ່ລະຄົນ), ລວມ 96GB
  • ຂໍ້ຄວາມ​ທົດສອບ: 5 ຂໍ້ຄວາມມາດຕະຖານທີ່ປົກຄຸມຮູບແບບການເວົ້າທີ່ແຕກຕ່າງກັນ (ການເລົ່າເລື່ອງ, ການສົນທະນາ, ເຕັກນິກ, ອາລົມ, ພາສາຫຼາຍພາສາ)
  • ການ​ຕີລາຄາ: ຕົວຊີ້ວັດອັດຕະໂນມັດ (ການຄາດຄະເນ MOS, WER, RTF) ລວມກັບການທົດສອບການຟັງຂອງມະນຸດ
  • រត់ & # 160; ៖ ທຸກໆແບບຖືກທົດສອບ 10 ຄັ້ງຕໍ່ການຜ່ານ, ຄະແນນສະເລ່ຍ

ມາດຖານ​ການ​ໃຫ້​ຄະແນນ

  • ທໍາມະຊາດ (40%): ສຽງດັງ, ສຽງດັງ, ສຽງດັງ, ສຽງດັງ, ສຽງດັງ, ສຽງດັງ.
  • ຄວາມຖືກຕ້ອງ (30%): ການອອກສຽງທີ່ຖືກຕ້ອງ, ອັດຕາຄວາມຜິດພາດຂອງຄໍາ, ຄວາມເຂົ້າໃຈ
  • ຄວາມໄວ (30%) & # 160;: ປັດໃຈ​ເວລາ​ຈິງ (ວິນາທີ​ສຽງ / ວິນາທີ​ການ​ສ້າງ). ສູງກວ່າ = ໄວກວ່າ.
  • ລວມ: ຄະແນນສະເລ່ຍ: 0.4 x ທໍາມະຊາດ + 0.3 x ຄວາມຖືກຕ້ອງ + 0.3 x ຄວາມໄວ

ចំណាំ: Benchmarks ສະແດງໃຫ້ເຫັນຜົນງານຂອງຮາດແວ ແລະ ຂໍ້ຄວາມທົດລອງສະເພາະຂອງພວກເຮົາ. ຄຸນະພາບໃນໂລກຈິງອາດຈະແຕກຕ່າງກັນໂດຍອີງໃສ່ຂໍ້ຄວາມເຂົ້າ, ພາສາ, ແລະ ການເລືອກສຽງ. ການຈັດອັນດັບຂອງຊຸມຊົນໃຫ້ສັນຍານເພີ່ມເຕີມໂດຍອີງໃສ່ການໃຊ້ງານທີ່ຫຼາກຫຼາຍ.

ຄໍາຖາມທີ່ຖາມເລື້ອຍໆ

TTS Arena ແມ່ນຕາຕະລາງອັນດັບທີ່ຈັດອັນດັບຕົວແບບ AI text-to-speech ໂດຍອີງໃສ່ການທົດສອບ benchmark ທາງການແລະການຈັດອັນດັບຂອງຊຸມຊົນ. ປຽບທຽບຕົວແບບຄຽງຂ້າງກັນ, ຟັງຕົວຢ່າງ, ແລະລົງຄະແນນສຽງ ສຳ ລັບຕົວແບບທີ່ຟັງດີທີ່ສຸດ ສຳ ລັບທ່ານ.

ພວກເຮົາປະຕິບັດການທົດສອບມາດຕະຖານໃນແຕ່ລະແບບໂດຍໃຊ້ຂໍ້ຄວາມດຽວກັນ, ຮາດແວ, ແລະມາດຖານການວິເຄາະ. ຄະແນນປົກຄຸມທໍາມະຊາດ (ມັນມີສຽງຄືກັບມະນຸດ), ຄວາມຖືກຕ້ອງ (ການອອກສຽງແລະຄວາມເຂົ້າໃຈ), ແລະຄວາມໄວ (ເວລາຜະລິດ). ການທົດສອບທັງຫມົດໃຊ້ GPU ເຊີເວີຂອງພວກເຮົາກັບ NVIDIA Tesla P40 GPUs.

ແມ່ນແລ້ວ! ຄລິກໃສ່ດາວຂ້າງລຸ່ມຂອງແບບໃດກໍ່ໄດ້ເພື່ອຈັດອັນດັບມັນຈາກ 1 ເຖິງ5. ທ່ານຕ້ອງໄດ້ເຂົ້າສູ່ລະບົບເພື່ອລົງຄະແນນສຽງ. ການຈັດອັນດັບຂອງທ່ານປະກອບສ່ວນເຂົ້າໃນອັດຕາສະເລ່ຍຂອງຊຸມຊົນທີ່ສະແດງຢູ່ໃນຕາຕະລາງຜູ້ນໍາ. ທ່ານສາມາດປ່ຽນການຈັດອັນດັບຂອງທ່ານໄດ້ທຸກເວລາ.

ພິມ​ຂໍ້ຄວາມ​ໃດ​ໜຶ່ງ, ເລືອກ​ແບບ​ສອງ​ແບບ ແລະ ຄລິກ​ທີ່ ປຽບທຽບ. ແບບທັງສອງ​ສ້າງ​ການ​ເວົ້າ​ຈາກ​ຂໍ້ຄວາມ​ດຽວກັນ​ໃນ​ເວລາ​ດຽວ​ກັນ. ຟັງ​ທັງ​ສອງ​ແບບ ແລະ ເລືອກ​ແບບ​ທີ່​ຟັງ​ດີ​ກວ່າ. ການ​ປຽບທຽບ​ແບບ​ບັງເອີນ​ນີ້ ຊ່ວຍ​ໃຫ້​ທ່ານ​ຮູ້​ຕົວ​ແບບ​ທີ່​ດີ​ທີ່​ສຸດ​ສຳລັບ​ຄວາມ​ຕ້ອງການ​ສະເພາະ​ຂອງ​ທ່ານ.

ຄວາມ​ເປັນ​ທຳ​ມະ​ຊາດ​ວັດແທກ​ວ່າ​ການ​ເວົ້າ​ມີ​ສຽງ​ຄື​ກັບ​ຄົນ​ຫຼາຍ​ປານ​ໃດ (ປະໂຫຍກ, ສຽງ​ເວົ້າ, ​ຈັງຫວະ) & # 160; ។ ຄວາມ​ຖືກຕ້ອງ​ວັດແທກ​ຄວາມ​ຖືກ​ຕ້ອງ​ຂອງ​ການ​ເວົ້າ ແລະ ຄວາມ​ເຂົ້າໃຈ​ໄດ້​ງ່າຍ & # 160; ។ ຄວາມ​ໄວ​ວັດແທກ​ວ່າ​ແບບ​ແບບ​ໃດ​ທີ່​ສ້າງ​ສຽງ​ໄວ​ເທົ່າ​ໃດ​ເມື່ອ​ທຽບ​ກັບ​ເວລາ​ຈິງ & # 160; ។ ລວມ​ທັງ​ໝົດ​ແມ່ນ​ຄະແນນ​ສະເລ່ຍ​ຂອງ​ຕົວ​ວັດ​ແທກ​ທັງ​ໝົດ & # 160; ។

ແບບທີ່ບໍ່ມີຄະແນນ benchmark ແມ່ນຖືກເພີ່ມໃໝ່ ແລະ ກຳລັງລໍຖ້າການທົດລອງ ຫຼື ຕ້ອງການການຕັ້ງຄ່າພິເສດ (ເຊັ່ນ: gated access tokens) ທີ່ຍັງລໍຖ້າຢູ່. ການຈັດອັນດັບຂອງຊຸມຊົນຍັງສາມາດໃຊ້ໄດ້ ສຳ ລັບແບບເຫຼົ່ານີ້.

ມາດຕະຖານທາງການແມ່ນໄດ້ປັບປຸງເມື່ອແບບໄດ້ຮັບການປັບປຸງທີ່ສໍາຄັນຫຼືເມື່ອມີແບບໃຫມ່ຖືກເພີ່ມ. ການຈັດອັນດັບຊຸມຊົນໄດ້ປັບປຸງໃນເວລາຈິງເມື່ອຜູ້ໃຊ້ລົງຄະແນນສຽງ. ຂໍ້ມູນ leaderboard ແມ່ນ cached ສໍາລັບ5ນາທີສໍາລັບການປະສິດຕິພາບ.

ແບບຟອມຟຣີ (Kokoro, Piper, VITS, MeloTTS) ຄ່າໃຊ້ຈ່າຍ0ເຄດິດ. ແບບຟອມມາດຕະຖານຄ່າໃຊ້ຈ່າຍ2ເຄດິດຕໍ່ 1,000 ຕົວອັກສອນ. ແບບຟອມ Premium ຄ່າໃຊ້ຈ່າຍ4ເຄດິດຕໍ່ 1,000 ຕົວອັກສອນແລະໂດຍທົ່ວໄປແລ້ວສະ ເໜີ ຄຸນະພາບສູງທີ່ສຸດຫຼືຄຸນສົມບັດທີ່ເປັນເອກະລັກເຊັ່ນການກັ່ນຕອງສຽງ.

ສຳລັບ​ການ​ໃຊ້​ງານ​ສ່ວນ​ໃຫຍ່, Kokoro (ລະດັບ​ຟຣີ) ສະຫນອງ​ຄຸນ​ນະ​ພາບ​ທີ່​ດີ​ເລີດ. ສຳ​ລັບ​ການ​ຖ່າຍ​ທອດ​ສຽງ, ພະຍາຍາມ Chatterbox ຫຼື CosyVoice 2. ສຳ​ລັບ​ເນື້ອ​ໃນ​ຫຼາຍ​ພາສາ, MeloTTS ຫຼື CosyVoice 2. ສຳ​ລັບ​ການ​ເວົ້າ​ທີ່​ມີ​ຄວາມ​ໝາຍ, Bark ຫຼື Dia. ໃຊ້​ເຄື່ອງມື​ປຽບທຽບ​ເພື່ອ​ທົດສອບ​ກັບ​ຂໍ້​ຄວາມ​ທີ່​ສະເພາະ​ຂອງ​ທ່ານ.

ຍອມຮັບ, ທ່ານສາມາດສ້າງ ແລະ ທຽບທຽບສຽງຈາກແບບໃດໆສອງແບບໂດຍບໍ່ຕ້ອງມີບັນຊີໂດຍໃຊ້ແບບຟຣີ. ການລົງຄະແນນສຽງກ່ຽວກັບແບບຮຽກຮ້ອງໃຫ້ມີບັນຊີຟຣີ. ການທຽບທຽບແບບ Premium ຮຽກຮ້ອງໃຫ້ມີຕົວອັກສອນ.

ພວກເຮົາພະຍາຍາມເພື່ອຈຸດປະສົງໂດຍການໃຊ້ຂໍ້ຄວາມການທົດສອບມາດຕະຖານ, ຄອມພິວເຕີ້ທີ່ຄ້າຍຄືກັນ, ແລະມາດຕະຖານການວິເຄາະທີ່ສອດຄ່ອງກັນໃນທຸກໆແບບ. ການຕີລາຄາຂອງຊຸມຊົນໃຫ້ສັນຍານທີ່ເປັນເອກະລາດເພີ່ມເຕີມ. ວິທີການຂອງພວກເຮົາແມ່ນໄດ້ອະທິບາຍໄວ້ໃນພາກ Benchmark Methodology ຂ້າງລຸ່ມນີ້.

ຕົວແບບຖືກຈັດອັນດັບໂດຍພື້ນຖານໂດຍຄະແນນລວມຂອງ benchmark ຢ່າງເປັນທາງການ, ຫຼັງຈາກນັ້ນໂດຍຄະແນນສະເລ່ຍຂອງຊຸມຊົນເປັນ tiebreaker. ຕົວແບບທີ່ບໍ່ມີ benchmarks ແມ່ນຈັດອັນດັບຢູ່ລຸ່ມພວກທີ່ມີ benchmarks, ຈັດຕາມຄະແນນຂອງຊຸມຊົນ.
5.0/5 (1)

ພວກເຮົາສາມາດປັບປຸງໄດ້ແນວໃດ? ຄໍາຄິດເຫັນຂອງທ່ານຊ່ວຍພວກເຮົາແກ້ໄຂບັນຫາ.

ຄົ້ນ​ຫາ​ສຽງ​ທີ່​ສົມບູນ​ຂອງ​ທ່ານ

ທົດລອງໃຊ້ແບບຟອມໃດໆໂດຍບໍ່ເສຍຄ່າກັບ Kokoro, Piper, VITS, ຫຼື MeloTTS. ບໍ່ມີບັນຊີທີ່ຕ້ອງການ.