Report Bug / Feature Request

টিটিএস অ্যারেনা - AI ভয়েস মডেল লিডারবোর্ড

এআই টেক্সট-টু-স্পিচ মডেলগুলোর মুখোমুখি তুলনা করুন। একই টেক্সট বিভিন্ন মডেল দ্বারা বলার কথা শুনুন, সবচেয়ে প্রাকৃতিক শব্দের জন্য ভোট দিন, এবং দেখুন ২০+ টিটিএস মডেলগুলো কিভাবে আমাদের সম্প্রদায় পরিচালিত শীর্ষস্থানীয় তালিকায় স্থান করে নিয়েছে।

মডেল রেটিং কমিউনিটি ভোট বেঞ্চমার্ক A/B পরীক্ষা লিডারবোর্ড

TTS অ্যারেনা বৈশিষ্ট্য

একটি ন্যায্য, সম্প্রদায় পরিচালিত উপায় AI ভয়েস মডেল মূল্যায়ন করার জন্য

অফিসিয়াল বেঞ্চমার্ক

মোস (মধ্যম মতামত স্কোর), অক্ষর ভুল হার, স্পিকারের সমানতা এবং সমস্ত ২০+ মডেলের বাস্তব সময় ফ্যাক্টর সহ মানসম্মত মূল্যায়ন মেট্রিকস।

সম্প্রদায়ের রেটিং

প্রকৃত TTS ব্যবহারকারীদের দ্বারা ব্যবহারকারী-প্রদানকৃত রেটিং এবং পর্যালোচনা। সম্প্রদায়ের ফিডব্যাকের ভিত্তিতে নির্দিষ্ট ব্যবহারের ক্ষেত্রে কোন মডেলটি সবচেয়ে ভালভাবে কাজ করে তা দেখুন।

পাশ-বিপাশ তুলনা

দুইটি ভিন্ন মডেল ব্যবহার করে একই টেক্সট তৈরি করুন এবং আপনার ব্রাউজার থেকে অডিও গুণমান, প্রাকৃতিকতা এবং গতি সরাসরি তুলনা করুন।

২০+ মডেল রেটিং

TTS.ai এর প্রতিটি মডেল বেঞ্চমার্ক করা এবং রেটিং করা হয়। আপনার আদর্শ মডেল খুঁজে পেতে গতি, গুণমান, ভাষা সমর্থন, বৈশিষ্ট্য এবং লাইসেন্স দ্বারা ফিল্টার করুন।

বিস্তারিত মেট্রিকস

প্রতিটি মডেলের পারফরম্যান্সে গভীরভাবে ডুবে যান: লেটেন্সি, থ্রুপুট, VRAM ব্যবহার, সমর্থিত ভাষা, ক্লোনিং গুণমান এবং আবেগিক রেঞ্জ স্কোর।

ব্যবহারের জন্য মুক্ত

প্লেয়ারদের তালিকা ব্রাউজ করুন, মডেলগুলোর তুলনা করুন এবং গুণগত মান নির্ধারণে ভোট দিন - সবকিছুই সম্পূর্ণ বিনামূল্যে। রেটিং এবং বেঞ্চমার্ক অনুসন্ধান করতে কোন অ্যাকাউন্টের প্রয়োজন নেই।

মডেলরা ময়দানে

সব ২০+ মডেল শীর্ষ স্থানের জন্য মুখোমুখি প্রতিযোগিতা করছে।

KokoroKokoro

Free

Lightweight 82M parameter model delivering studio-quality speech with blazing-fast inference.

Fast 5/5

সর্বোত্তম: শীর্ষস্থানীয় ফ্রি মডেল - লিডারবোর্ডে সর্বোত্তম গতি-গুণমানের অনুপাত

চেষ্টা করো Kokoro

ChatterboxChatterbox

Premium

State-of-the-art zero-shot voice cloning with emotion control from Resemble AI.

Medium 5/5 ভয়েস ক্লোন

সর্বোত্তম: আবেগ নিয়ন্ত্রণ ক্ষমতা সঙ্গে সর্বোচ্চ-রেটিং ভয়েস ক্লোনিং মডেল

চেষ্টা করো Chatterbox

CosyVoice 2CosyVoice 2

Standard

Alibaba's scalable streaming TTS with human-parity naturalness and near-zero latency.

Medium 5/5 ভয়েস ক্লোন

সর্বোত্তম: মানব-সমান প্রাকৃতিকতা স্কোর সহ শীর্ষ বহুভাষিক মডেল

চেষ্টা করো CosyVoice 2

StyleTTS 2StyleTTS 2

Premium

Human-level text-to-speech through style diffusion and adversarial training.

Medium 5/5

সর্বোত্তম: সব ওপেন সোর্স মডেলের মধ্যে সর্বোচ্চ একক স্পিকার MOS স্কোর

চেষ্টা করো StyleTTS 2

Sesame CSMSesame CSM

Premium

Conversational speech model generating natural dialogue with appropriate timing and emotion.

Slow 5/5

সর্বোত্তম: প্রাকৃতিক ডায়ালগ উৎপাদনের জন্য প্রধান কথোপকথন মডেল

চেষ্টা করো Sesame CSM

টিটিএস আরিয়ানের কাজ কিভাবে হয়

শব্দের গুণগত মান সম্পর্কে ভোট দিন এবং সেরা AI মডেলগুলোর রেটিং নির্ধারণে সাহায্য করুন

1

শীর্ষস্থানীয় তালিকা ব্রাউজ করুন

সব 20+ মডেল গুণমান, গতি, এবং বৈশিষ্ট্য দ্বারা শ্রেণীবদ্ধ দেখুন। স্তর (বিনামূল্যে, স্ট্যান্ডার্ড, প্রিমিয়াম) বা নির্দিষ্ট ক্ষমতা দ্বারা পরিশোধক।

2

মডেলগুলোকে পাশে পাশে তুলনা করুন

দুটি মডেল বেছে নিন এবং উভয়টি ব্যবহার করে একই ধরনের লেখা তৈরি করুন। আউটপুট শুনুন এবং প্রাকৃতিকতা, স্পষ্টতা এবং আবেগ প্রকাশের তুলনা করুন।

3

গুণগত মান নির্ধারণে ভোট দিন

তুলনা করার পরে, যে মডেলটি ভাল শোনাচ্ছে তার জন্য ভোট দিন। আপনার ভোট কমিউনিটি রেটিং-এ অবদান রাখে এবং অন্যান্য ব্যবহারকারীদের বেছে নিতে সাহায্য করে।

4

আপনার আদর্শ মডেল খুঁজুন

আপনার নির্দিষ্ট ব্যবহারের ক্ষেত্রে, বাজেট এবং গুণগত মান প্রয়োজনীয়তার জন্য সেরা মডেল নির্বাচন করতে লিডারবোর্ড তথ্য এবং সম্প্রদায় রেটিং ব্যবহার করুন।

টিটিএস আরেনা কি?

এআই ভয়েস মডেল গুলোকে শ্রেণীবিভাগ করার জন্য একটি সম্প্রদায় পরিচালিত প্রক্রিয়া

অন্ধ A/B তুলনা

এই খেলার মাঠে দুটি এলোমেলোভাবে নির্বাচিত মডেল দ্বারা একই ধরনের লেখা উচ্চারণ করা হয়। আপনি উভয় নমুনা শুনতে পারবেন কোন মডেল তা নির্ধারণ করেছে তা না জেনে, তারপর সেই মডেলটিকে ভোট দিতে পারবেন যা সবচেয়ে স্বাভাবিকভাবে শোনাচ্ছে। এই অন্ধ পরীক্ষা ব্র্যান্ড পক্ষপাত দূর করে এবং শুধুমাত্র অডিও গুণমানের উপর ভিত্তি করে বিচার করতে বাধ্য করে।

  • একই টেক্সট, দুটি নামহীন মডেল
  • ভোটের পর মডেলদের নাম প্রকাশ করা হয়েছে।
  • প্রতি রাউন্ডে নতুন এলোমেলো জুটি
  • কোন ব্র্যান্ড পক্ষপাতিত্ব নেই - বিশুদ্ধ অডিও গুণমান

Elo রেটিং সিস্টেম

এলো রেটিং সিস্টেম ব্যবহার করে মডেলগুলোর রেটিং নির্ধারণ করা হয়, যা দাবা খেলোয়াড়দের রেটিং নির্ধারণে ব্যবহৃত একই অ্যালগরিদম। উচ্চ রেটিংয়ের মডেলের বিরুদ্ধে জয়লাভ করলে নিম্ন রেটিংয়ের মডেলের বিরুদ্ধে জয়লাভের চেয়ে বেশি পয়েন্ট পাওয়া যায়। হাজার হাজার ভোটের উপর ভিত্তি করে এই রেটিং নির্ধারণ করা হয়, যা সত্যিকারের সম্প্রদায়ের পছন্দকে প্রতিফলিত করে।

  • Elo-ভিত্তিক র‍্যাঙ্কিং অ্যালগরিদম
  • প্রতিটি ভোটের সাথে রেটিং পরিবর্তিত হয়
  • পরিসংখ্যানগত নির্ভরযোগ্যতার ব্যবধান
  • সময়ের সাথে সাথে রেটিং স্থিতিশীল হচ্ছে

মডেল তুলনা প্রাকদর্শন

কীভাবে আমাদের ২০+ মডেলগুলি প্রধান দিকগুলির মধ্যে তুলনা করে

মডেল টাইমার গুণমান গতি ভাষা ক্লোনিং
Kokoro মুক্ত 4.5/5 স্থির 8
Bark ডিফল্ট 4.0/5 মধ্যম 13
CosyVoice2 ডিফল্ট 4.5/5 মধ্যম 6
Tortoise TTS প্রিমিয়াম 4.8/5 ধীর 1
Chatterbox প্রিমিয়াম 4.7/5 মধ্যম 1
StyleTTS 2 প্রিমিয়াম 4.7/5 স্থির 1

মূল্যায়নের শর্তাবলী

কিভাবে একটি টিটিএস মডেলকে আঙ্গিনায় উচ্চতর অবস্থানে নিয়ে আসতে হয়

প্রাকৃতিকতা

এটা কি সত্যিকারের একজন মানুষের মত শোনাচ্ছে? প্রাকৃতিক প্রসোডি, রীতি, এবং ইটোনেশন প্যাটার্ন যা মানুষের কথার সাথে মেলে। কোন রোবট শিল্পকর্ম বা অপ্রাকৃতিক বিরতি নেই।

অভিব্যক্তি

ভাল মডেলরা প্রশ্ন, চিৎকার, এবং আবেগগত প্রসঙ্গকে স্বাভাবিকভাবেই মোকাবেলা করে।

নির্ভুলতা

এটি কি প্রত্যেক শব্দ সঠিকভাবে উচ্চারণ করে? অপ্রচলিত শব্দ, সংখ্যা, সংক্ষিপ্ত নাম এবং বিদেশী নামগুলিকে ভুল বা অদৃশ্য শব্দ ছাড়াই পরিচালনা করে।

শ্রেষ্ঠ এআই কণ্ঠস্বর র‌্যাঙ্ক করতে সাহায্য করুন

আপনার ভোট সরাসরি শীর্ষস্থানীয়দের প্রভাবিত করে। প্রতিটি তুলনা কমিউনিটিকে সেরা মডেল খুঁজে পেতে সাহায্য করে।

TTS অঙ্গনে প্রবেশ করুন

প্রায়শ জিজ্ঞাসিত প্রশ্ন

টিটিএস অ্যারেনা এবং মডেল রেটিং সম্পর্কে সাধারণ প্রশ্ন

টিটিএস আরিনা একটি লিডারবোর্ড এবং এআই টেক্সট-টু-স্পিকার মডেলের তুলনামূলক টুল। এটি ২০+ মডেলকে সরকারি মানদণ্ড এবং সম্প্রদায়ের ভোটের ভিত্তিতে রেটিং প্রদান করে, যা ব্যবহারকারীদের তাদের প্রয়োজনের জন্য সর্বোত্তম মডেল খুঁজে পেতে সাহায্য করে।

মডেলগুলোকে একাধিক মানদণ্ডে মূল্যায়ন করা হয়: ব্যক্তিগত গুণমানের জন্য MOS (মধ্যম মতামত স্কোর), উচ্চারণ সঠিকতার জন্য অক্ষর ত্রুটি হার, গতির জন্য রিয়েল-টাইম ফ্যাক্টর, দক্ষতার জন্য VRAM ব্যবহার, এবং বাস্তব বিশ্বের পছন্দের জন্য কমিউনিটি ভোট। স্কোরগুলোকে মোট রেটিং নির্ধারণে গুরুত্ব দেওয়া হয়।

MOS হল কথার গুণমান নির্ধারণের জন্য একটি আদর্শ মানদণ্ড। মানব শ্রবণকারীরা কথার নমুনাকে ১-৫ স্কেলে প্রাকৃতিকতার জন্য রেটিং দেয়। ৪. ০ এর উপর স্কোরকে মানব-সম্মত হিসেবে বিবেচনা করা হয়। আমাদের শীর্ষ মডেলগুলি ৪. ২-৪. ৫ এর MOS স্কোর অর্জন করে, যা প্রাকৃতিক মানব কথার রেকর্ডিংয়ের প্রতিদ্বন্দ্বী।

রেটিং নির্ভর করে বিভিন্ন মানদণ্ডের উপর। কোকোরো গতির তুলনায় গুণগত মান অনুপাতে শীর্ষে। স্টাইলটিটিএস ২ সর্বোচ্চ একক স্পিকারের MOS অর্জন করেছে। চ্যাটার্বক্স ভয়েস ক্লোনিং রেটিংয়ে শীর্ষে। কোসিভয়েস ২ বহুভাষিক গুণগত মান অনুযায়ী শীর্ষে রয়েছে। প্রতিটি বিভাগে বর্তমান অবস্থান সম্পর্কে জানতে লিডারবোর্ড দেখুন।

হ্যাঁ। পাশে-পাশে তুলনা শুনুন এবং মডেলের জন্য ভোট দিন যা ভাল শোনায়। ভোট দেওয়া বিনামূল্যে এবং একটি অ্যাকাউন্ট প্রয়োজন হয় না। সম্প্রদায়ের ভোট সরাসরি রেটিং প্রভাবিত করে এবং বিভিন্ন ব্যবহারের ক্ষেত্রে সেরা মডেল বের করতে সাহায্য করে।

নতুন মডেল যোগ করা হলে অথবা বর্তমান মডেল গুরুত্বপূর্ণ আপডেট পাবার পর সরকারি বেঞ্চমার্ক আপডেট করা হয়। ভোটের মাধ্যমে সম্প্রদায়ের রেটিং বাস্তব সময়ে আপডেট করা হয়। আমরা প্রতি ত্রৈমাসিকে সব মডেল পুনরায় মূল্যায়ন করি, যাতে নিরপেক্ষ ও ন্যায্য তুলনা নিশ্চিত করা যায়।

অক্ষর ত্রুটি হার (CER) উচ্চারণ সঠিকতা পরিমাপ করে উত্‍পাদিত কথা অনুবাদ এবং ইনপুট টেক্সটের সাথে তুলনা করে । কম CER মানে মডেল শব্দ আরও সঠিকভাবে উচ্চারণ করে । মডেল যেমন কোকোরো এবং সেসাম সিএসএম অসাধারণ CER স্কোর অর্জন করে ।

একটি টেক্সট নমুনা লিখুন, দুটি মডেল বেছে নিন, এবং তৈরি করো ক্লিক করুন । উভয় মডেল একই টেক্সট থেকে অডিও উৎপাদন করে । উভয় আউটপুট শুনুন এবং সিদ্ধান্ত নিন কোনটি বেশি প্রাকৃতিক, পরিষ্কার এবং অভিব্যক্তিমূলক । তারপর আপনি আপনার পছন্দের মডেলের জন্য ভোট দিতে পারেন ।

হ্যাঁ। আমরা আমাদের বেঞ্চমার্ক পদ্ধতি, পরীক্ষার বাক্য এবং মূল্যায়নের মানদণ্ড প্রকাশ করি। সমস্ত মডেল একই জিপিইউ হার্ডওয়্যারের উপর একই শর্তের অধীনে পরীক্ষা করা হয়। সম্প্রদায়ের সদস্যরা আমাদের প্রকাশিত পরীক্ষার সেট এবং স্কোরিং রুবিক্স ব্যবহার করে ফলাফল পুনরাবৃত্তি করতে পারেন।

The arena focuses on the 20+ open-source models hosted on TTS.ai. We do not directly benchmark commercial services like ElevenLabs or Google TTS, but our MOS scores and metrics are comparable to published benchmarks from those services.

আপনার অগ্রাধিকার বিবেচনা করুন: গতি (রিয়েল-টাইম প্রয়োজন বনাম ব্যাচ প্রসেসিং), গুণমান (MOS স্কোর), ভাষা সমর্থন, বিশেষ বৈশিষ্ট্য (ভয়েস ক্লোনিং, আবেগ নিয়ন্ত্রণ, ডায়ালগ), লাইসেন্স শর্তাবলী, এবং বাজেট (বিনামূল্যে বনাম প্রিমিয়াম স্তর)। এরিয়া ফিল্টার এই মানদণ্ডের দ্বারা অপশন সংকুচিত করতে সাহায্য করে।

কোকোরো (বিনামূল্যে) ৫/৫ এর গুণগত মান অর্জন করেছে, যা অনেক প্রাইম মডেলের সাথে মিল রেখেছে। প্রাইম মডেলের প্রধান সুবিধা হচ্ছে অডিও গুণগতমানের পরিবর্তে বিশেষ বৈশিষ্ট্য যেমন ভয়েস ক্লোনিং (চ্যাটারবক্স), স্টাইল ডিফ্যুশন (স্টাইলটিটিএস ২), এবং কথোপকথন (সিসাম সিএসএম)।
5.0/5 (1)

আমরা কি উন্নতি করতে পারি? আপনার ফিডব্যাক আমাদের সমস্যা সমাধানে সাহায্য করে।

টিটিএস ময়দানে আপনার ভোট দিন

এআই-এর কণ্ঠস্বর শুনুন, সেরাদের জন্য ভোট দিন এবং ২০+ মডেলের আমাদের কমিউনিটি-চালিত লিডারবোর্ড অনুসন্ধান করুন।