ڦيٿي / خاصيت جي درخواست رپورٽ ڪريو

TTS Arena — AI آواز ماڊل ليڊر بورڊ

20+ متن کان ڳالهائڻ جا ماڊل مقابلو ڪريو. سرڪاري معيار، برادري جي درجي بندي، ۽ پاسي-پاسي مقابلو.

رجسٽر ڪريو

اسان پنھنجو آواز وڪرو ڪريو

پاسي پاسي مقابلو

متن لک، ٻه ماڊل چونڊ ۽ نتيجن جو مقابلو ڪر. مفت ماڊلن کي اڪائونٽ جي ضرورت نه آھي.

ماڊل A

ماڊل B

مفت ماڊل اڪائونٽ کانسواءِ ڪم ڪن ٿا. رجسٽر ٿيو اعلي معيار جي ماڊلن جي مقابلي لاءِ.

ماڊل ليڊر بورڊ

#	ماڊل	سرڪاري	برادري	رفتار	جانور
1	Kokoro Lightweight 82M parameter model delivering studio-quality speech with blazing-fast inference. 82M 1200h 2024	4.8 /5	5.0 /5 1 ووٽ	fast	Free
2	CosyVoice 2 Alibaba's scalable streaming TTS with human-parity naturalness and near-zero latency. 300M 200000h 2024	4.26 /5	اڃان ڪو ووٽ نه	medium	Standard
3	Chatterbox State-of-the-art zero-shot voice cloning with emotion control from Resemble AI. 300M 2025	4.25 /5	اڃان ڪو ووٽ نه	medium	Premium
4	StyleTTS 2 Human-level text-to-speech through style diffusion and adversarial training. 100M 585h 2024	4.23 /5	اڃان ڪو ووٽ نه	medium	Premium
5	Piper A fast, local neural text to speech system optimized for Raspberry Pi and embedded devices. 15M 2023	4.15 /5	اڃان ڪو ووٽ نه	fast	Free
6	MeloTTS High-quality multilingual text-to-speech that runs on CPU with minimal latency. 25M 2024	4.13 /5	اڃان ڪو ووٽ نه	fast	Free
7	Dia TTS Multi-speaker dialog generation model that creates natural conversations between speakers. 1.6B 2024	4.09 /5	اڃان ڪو ووٽ نه	medium	Standard
8	VITS Conditional variational autoencoder with adversarial learning for end-to-end text-to-speech. 25M 585h 2021	4.0 /5	اڃان ڪو ووٽ نه	fast	Free
9	Orpheus Human-level emotional TTS model trained on 100K hours of speech data. 3B 100000h 2025	4.0 /5	اڃان ڪو ووٽ نه	medium	Standard
10	OpenVoice Instant voice cloning with granular control over style, emotion, and accent. 300M 2024	4.0 /5	اڃان ڪو ووٽ نه	medium	Premium
11	IndexTTS-2 Zero-shot TTS with fine-grained emotion control and high expressiveness. 300M 2025	3.91 /5	اڃان ڪو ووٽ نه	medium	Standard
12	Spark TTS Voice cloning TTS with controllable emotion and speaking style via prompts. 500M 2025	3.9 /5	اڃان ڪو ووٽ نه	medium	Standard
13	Parler TTS Describe the voice you want in natural language and Parler generates matching speech. 880M 45000h 2024	3.83 /5	اڃان ڪو ووٽ نه	medium	Standard
14	Tortoise TTS Multi-voice text-to-speech focused on quality with autoregressive architecture. 400M 50000h 2022	3.7 /5	اڃان ڪو ووٽ نه	slow	Premium
15	Bark Transformer-based text-to-audio model that generates realistic speech, music, and sound effects. 350M 100000h 2023	3.57 /5	اڃان ڪو ووٽ نه	slow	Standard
16	Bark Small Lighter version of Bark with faster inference and lower memory usage. 150M 100000h 2023	—	اڃان ڪو ووٽ نه	medium	Standard
17	Indic Parler TTS High-quality speech for 8+ Indian languages with natural-language voice control. 900M 8000h 2024	—	اڃان ڪو ووٽ نه	slow	Standard
18	KhanomTan TTS Thai-first text-to-speech with a choice of speaker voices. 85M 100h 2023	—	اڃان ڪو ووٽ نه	fast	Standard
19	GPT-SoVITS Few-shot voice cloning TTS that replicates any voice from just 5 seconds of audio. 200M 2024	—	اڃان ڪو ووٽ نه	slow	Standard
20	Qwen3 TTS Alibaba's multilingual TTS with preset voices and voice design from text. 1.7B 2025	—	اڃان ڪو ووٽ نه	medium	Standard
21	VieNeu-TTS-v2 Vietnamese + English code-switching TTS with 7 preset voices and zero-shot voice cloning. CPU-only, no GPU required. 0.3B 10000h 2026	—	اڃان ڪو ووٽ نه	fast	Standard
22	Sesame CSM Conversational speech model generating natural dialogue with appropriate timing and emotion. 1B 2025	—	اڃان ڪو ووٽ نه	slow	Premium
23	Chatterbox Turbo Faster Chatterbox with sub-200ms latency and paralinguistic tags for laughs, coughs, and more. 350M 2025	—	اڃان ڪو ووٽ نه	fast	Standard
24	VoxCPM Tokenizer-free TTS producing 44.1kHz audio with context-aware paragraph consistency. 500M 1800000h 2025	—	اڃان ڪو ووٽ نه	fast	Standard
25	Kani TTS 2 Ultra-lightweight 400M English TTS model running in just 3GB VRAM. 400M 10000h 2026	—	اڃان ڪو ووٽ نه	fast	Free
26	OuteTTS LLM-based TTS that runs on CPU, GPU, or browser via llama.cpp and Transformers.js. 1B 5000h 2025	—	اڃان ڪو ووٽ نه	slow	Free
27	VibeVoice Microsoft's multi-speaker long-form TTS generating up to 90 minutes with 4 distinct speakers. 1.5B 100000h 2025	—	اڃان ڪو ووٽ نه	fast	Standard
28	Pocket TTS Lightweight 100M parameter model by Kyutai with voice cloning from a single sample. 100M 50000h 2025	—	اڃان ڪو ووٽ نه	fast	Free
29	Kitten TTS Ultra-lightweight TTS under 80MB. Runs on CPU without GPU. 80M 2025	—	اڃان ڪو ووٽ نه	fast	Free
30	CosyVoice3 Next-generation multilingual TTS with bi-streaming, emotion control, and zero-shot voice cloning. 500M 200000h 2025	—	اڃان ڪو ووٽ نه	fast	Standard
31	NAMAA Saudi TTS First open Saudi-Arabic TTS. Native Saudi dialect with Chatterbox-quality voice cloning. 300M 2026	—	اڃان ڪو ووٽ نه	medium	Standard
32	Darwin TTS Cross-modal Qwen3-TTS variant with FFN weights blended from the Qwen3-1.7B language model for sharper multilingual cloning. 2.1B 2026	—	اڃان ڪو ووٽ نه	medium	Standard
33	MOSS-TTSD Multi-speaker dialogue continuation model — generate podcast-style conversations with up to 5 speakers and 60 minutes of coherent audio. 7B 2026	—	اڃان ڪو ووٽ نه	medium	Standard
34	Ming-Omni TTS Compact 0.5B omni-modal speech model from inclusionAI with high-fidelity 44.1kHz output and zero-shot voice cloning. 500M 2026	—	اڃان ڪو ووٽ نه	medium	Free
35	MOSS-TTS Nano Tiny 100M MOSS-TTS variant — same architecture, 80x smaller, free-tier latency. 100M 500000h 2026	—	اڃان ڪو ووٽ نه	fast	Free

تفصيلي بينچ مارڪ رڪارڊ

سرڪاري TTS.ai بينچ مارڪ ٽين ابعاد ۾ اسڪور ڪري ٿو: طبيعت، دقت ۽ رفتار.

Kokoro

Free

فطرت 4.8/5

دقت 4.7/5

رفتار 4.9/5

مجموعي 4.8/5

CosyVoice 2

Standard

فطرت 4.5/5

دقت 4.4/5

رفتار 3.8/5

مجموعي 4.26/5

Chatterbox

Premium

فطرت 4.7/5

دقت 4.5/5

رفتار 3.4/5

مجموعي 4.25/5

StyleTTS 2

Premium

فطرت 4.5/5

دقت 4.3/5

رفتار 3.8/5

مجموعي 4.23/5

Piper

Free

فطرت 3.5/5

دقت 4.2/5

رفتار 4.95/5

مجموعي 4.15/5

MeloTTS

Free

فطرت 3.8/5

دقت 4.1/5

رفتار 4.6/5

مجموعي 4.13/5

Dia TTS

Standard

فطرت 4.6/5

دقت 4.3/5

رفتار 3.2/5

مجموعي 4.09/5

VITS

Free

فطرت 3.4/5

دقت 4.0/5

رفتار 4.8/5

مجموعي 4.0/5

Orpheus

Standard

فطرت 4.3/5

دقت 4.1/5

رفتار 3.5/5

مجموعي 4.0/5

OpenVoice

Premium

فطرت 4.0/5

دقت 4.1/5

رفتار 3.9/5

مجموعي 4.0/5

IndexTTS-2

Standard

فطرت 4.3/5

دقت 4.1/5

رفتار 3.2/5

مجموعي 3.91/5

Spark TTS

Standard

فطرت 4.2/5

دقت 4.0/5

رفتار 3.4/5

مجموعي 3.9/5

Parler TTS

Standard

فطرت 4.1/5

دقت 3.9/5

رفتار 3.4/5

مجموعي 3.83/5

Tortoise TTS

Premium

فطرت 4.6/5

دقت 4.4/5

رفتار 1.8/5

مجموعي 3.7/5

Bark

Standard

فطرت 4.2/5

دقت 3.8/5

رفتار 2.5/5

مجموعي 3.57/5

معياري طريقيڪار

آزمائش جي ترتيب

هارڊويئر: 4x NVIDIA Tesla P40 (24GB VRAM هر)، 96GB گڏيل
آزمائشي متن: 5 معياري حصا مختلف ڳالهائڻ جي نمونن کي ڍڪيندا آهن (قصو، گفتگو، فني، جذباتي، ڪيترن ٻولين ۾)
درجه بندي: خودڪار ميٽرڪ (MOS اندازو، WER، RTF) انسان ٻڌڻ ٽيسٽ سان گڏ
ڊرائيو: هر ماڊل 10 ڀيرا آزمايو ويو، اوسط نمبر

رڪارڊ ڪرڻ جا معيار

طبيعت (40%): پروسيڊي، انتونيشن، ريتم، احساس - اهو ڪيترو انساني آهي؟
دقت (30%): آواز جي صحيحي، لفظ جي غلطي جي شرح، سمجھائي
رفتار (30%): ريئل ٽائيم فيڪٽر (آڊيو سيڪنڊ / پيدائش سيڪنڊ). وڌيڪ = تيز.
مجموعي: اوسط وزن: 0.4 x طبيعت + 0.3 x دقت + 0.3 x رفتار

نوٽ: بينچ مارڪ اسان جي خاص هارڊويئر ۽ ٽيسٽ متن تي ڪارڪردگي ڏيکاريندا آھن. حقيقي دنيا جي معيار داخل ڪيل متن، ٻولي، ۽ آواز جي چونڊ تي منحصر ٿي سگھي ٿو. سوسائٽي جي درجي بندي مختلف حقيقي استعمال تي ٻڌل اضافي اشارو مهيا ڪري ٿي.

گھڻا پڇيا ويندا سوال

TTS Arena هڪ ليڊر بورڊ آهي جيڪو AI جي متن کان ڳالهائڻ واري ماڊل کي سرڪاري بينچ مارڪ ٽيسٽن ۽ برادري جي راين تي ٻڌل ترتيب ڏئي ٿو. ماڊلز کي هڪ ٻئي سان مقابلو ڪريو، نمونا ٻڌو، ۽ انهن لاءِ ووٽ ڏيو جيڪي توهان کي بهترين لڳن ٿا.

اسان هر ماڊل تي معياري ٽيسٽون هلائيندا آهيون جيڪي هڪجهڙا متن جا حصا، هارڊويئر، ۽ جائزو وٺڻ جا معيار استعمال ڪندا آهن. اسڪور طبعيت (اهو ڪيئن انسان وانگر لڳندو آهي)، دقت (تصويري ۽ سمجھڻ ۾ آساني)، ۽ رفتار (جديد ٿيڻ جو وقت) کي coverڪيندا آهن. سڀ ٽيسٽون اسان جي GPU سرور کي NVIDIA Tesla P40 GPUs سان استعمال ڪندا آهن.

ھائو! ڪنهن به ماڊل جي ڀرسان ستارن تي ڪلڪ ڪريو ته ان کي 1 کان 5 تائين درجو ڏيو. اوھان کي ووٽ ڏيڻ لاءِ داخل ٿيڻ جي ضرورت آھي. توھان جو درجو ٽوڪري جي اوسط ۾ حصو وٺندو آھي جيڪو ليڊر بورڊ تي ڏيکاريل آھي. توھان پنھنجي درجو ڪنهن به وقت تبديل ڪري سگھو ٿا.

ڪوبه متن لکو، ٻه ماڊل چونڊيو ۽ موازنہ تي ڪلڪ ڪريو. ٻئي ماڊل ھڪ وقت ۾ ھڪ ئي متن مان ڳالھائڻ پيدا ڪن ٿا. ٻنهي کي ٻڌو ۽ انھيءَ لاءِ ووٽ ڏيو جيڪو بھتر لڳي. ھي انڌو موازنہ توھان جي خاص ضرورتن لاءِ بھترين ماڊل ڳولڻ ۾ مدد ڏيندو آھي.

طبيعت اندازو لڳائي ٿي ته ڳالهائڻ ڪيترو انسان جهڙو لڳندو آهي (پروسوڊي، انتونيشن، ريتم). دقت اندازو لڳائي ٿي ته ڳالهائڻ صحيح ۽ سمجھڻ ۾ آسان آهي. رفتار اندازو لڳائي ٿي ته ماڊل ڪيترو جلدي آواز پيدا ڪري ٿو حقيقي وقت سان لاڳاپيل. مجموعي طور تي سڀني ميٽرڪ جو اوسط وزن آهي.

ماڊل بغير بينڪ مارڪ سکورن جا يا ته تازو شامل ڪيا ويا آهن ۽ ٽيسٽ جو انتظار ڪري رهيا آهن، يا خاص ترتيب ڏيڻ جي ضرورت آهي (جيئن ته گيٽ ٿيل رسائي ٽوڪنز) جيڪو انتظار ۾ آهي. انھن ماڊلن لاءِ ڳوٺ جي تصنيف اڃا تائين موجود آھي.

آفيشل بينچ مارڪز اپڊيٽ ڪيا ويندا آھن جڏھن ماڊل اهم اپڊيٽ حاصل ڪندا آھن يا جڏھن نوان ماڊل شامل ڪيا ويندا آھن. سماجي تصنيفون ريئل ٽائيم ۾ اپڊيٽ ڪيون وينديون آھن جڏھن صارفين ووٽ ڏيندا آھن. ليڊر بورڊ ڊيٽا ڪارڪردگي لاءِ 5 منٽن تائين لڪايو ويندو آھي.

مفت-ترتيب ماڊل (Kokoro, Piper, VITS, MeloTTS) ڪو پرائمري اضافي چارج نه کڻندا آهن ۽ توهان جي مفت مختص ڪيل رقم کي ڇڪيندا آهن. معياري ماڊل 2x ڪارڪنن کي استعمال ڪندا آهن (مثال طور، 1000 متن جا ڪارڪن توهان جي توازن مان 2000 ڪارڪنن جي قيمت). پرائمري ماڊل 4x ڪارڪنن کي استعمال ڪندا آهن ۽ عام طور تي اعليٰ معيار يا منفرد خاصيتون جهڙوڪ آواز جي کلوننگ پيش ڪندا آهن.

گھڻن استعمال جي صورتن لاءِ، ڪوڪورو (آزاد درجي) اعليٰ معيار پيش ڪري ٿو. آواز جي کلوننگ لاءِ، چاٽربڪس يا ڪوسي واءِس 2 جي ڪوشش ڪريو. ڪيترن ٻولين جي مواد لاءِ، ميلو ٽي ٽي ايس يا ڪوسي واءِس 2. اظهاري بيان لاءِ، بارڪ يا ڊيا. مقابلي جي اوزار کي استعمال ڪريو ته توهان جي مخصوص متن سان ٽيسٽ ڪريو.

ھائو، توھان ڪنهن به ٻن ماڊلن مان آڊيو پيدا ڪري سگھو ٿا ۽ انھن جو حساب ڪتاب کانسواءِ مقابلو ڪري سگھو ٿا. ماڊلن تي ووٽ ڏيڻ لاءِ مفت اڪائونٽ جي ضرورت آھي. پريميئم ماڊل جي مقابلي لاءِ ڪريڊٽ جي ضرورت آھي.

اسان معياري ٽيسٽ متنن، هڪجهڙائي هارڊويئر، ۽ سڀني ماڊلز تي مطابقت واري جائزي جي معيار کي استعمال ڪندي مقصد لاءِ ڪوشش ڪريون ٿا. برادري جي درجي بندي اضافي آزاد اشارو فراهم ڪري ٿي. اسان جي طريقيڪار هيٺ ڏنل بينچمارڪ طريقيڪار حصي ۾ بيان ڪيو ويو آهي.

ماڊل بنيادي طور تي سرڪاري بينڪ مارڪ مجموعي اسڪور جي مطابق درجه بندي ڪيا ويندا آهن، پوءِ قومي اوسط ريٽنگ جي طور تي هڪ ٽائيبرڪر جي طور تي. ماڊل بغير بينڪ مارڪ جي انهن جي هيٺان درجه بندي ڪيا ويندا آهن، قومي ريٽنگ جي ترتيب سان.

5.0/5 (1)

پنھنجو پورو آواز ڳوليو

ڪوڪورو، پيپر، VITS يا MeloTTS سان ڪنهن به ماڊل کي مفت ۾ آزمايو. ڪوبه اڪائونٽ نه گھرجي.

رجسٽر ڪريو قيمت ڏسو

TTS Arena — AI آواز ماڊل ليڊر بورڊ

پاسي پاسي مقابلو

ماڊل ليڊر بورڊ

تفصيلي بينچ مارڪ رڪارڊ

Kokoro

CosyVoice 2

Chatterbox

StyleTTS 2

Piper

MeloTTS

Dia TTS

VITS

Orpheus

OpenVoice

IndexTTS-2

Spark TTS

Parler TTS

Tortoise TTS

Bark

معياري طريقيڪار

آزمائش جي ترتيب

رڪارڊ ڪرڻ جا معيار

گھڻا پڇيا ويندا سوال

TTS آرينا ڇا آھي؟

سرڪاري معياري نمبر ڪيئن ڳڻپيا ويندا آهن؟

مان ماڊل جي معيار تي ووٽ ڏئي سگهان ٿو؟

ماڊل مقابلو ڪيئن ڪم ڪري ٿو؟

هر معياري ميٽرڪ جو مطلب ڇا آهي؟

ڪجھ ماڊلن ۾ ڪوبه معياري نمبر ڇو نه آهي؟

ڪيترو ڀيرا بينچ مارڪ اپڊيٽ ڪيا ويندا آھن؟

مفت، معياري ۽ پريميئم سطحن جي وچ ۾ فرق ڇا آهي؟

ڪھڙو ماڊل استعمال ڪجي؟

آءٌ مقابلو سافٽ ويئر داخل ٿيڻ کانسواءِ استعمال ڪري سگهان ٿو؟

ڇا بينڪ مارڪ ٽيسٽن تي ڌيان ڏنو ويو آهي؟

جڏھن نمبر برابر ھجن تڏھن ماڊلز کي ڪھڙو درجو ڏنو ويندو آھي؟

پنھنجو پورو آواز ڳوليو