Report Bug / Feature Request

TTS Arena — AI ସ୍ୱର ମଡେଲ ଲିଡରବୋର୍ଡ

AI ପାଠ୍ୟ-ରୁ-ବାକ୍ୟ ମଡେଲଗୁଡ଼ିକୁ ମୁହାଁମୁହିଁ ତୁଳନା କରନ୍ତୁ । ଭିନ୍ନ ଭିନ୍ନ ମଡେଲ ଦ୍ୱାରା କହିଥିବା ଗୋଟିଏ ପାଠ୍ୟକୁ ଶୁଣନ୍ତୁ, ସବୁଠୁ ପ୍ରାକୃତିକ ସ୍ୱର ପାଇଁ ଭୋଟ ଦିଅନ୍ତୁ, ଏବଂ ଦେଖନ୍ତୁ କିପରି 20+ TTS ମଡେଲଗୁଡ଼ିକ ଆମର ସମୁଦାୟ-ଚାଳିତ ନେତୃତ୍ୱବର୍ଗରେ ସ୍ଥାନ ପାଇଛି । ଲକ୍ଷ୍ୟବସ୍ତୁଗୁଡ଼ିକ ବ୍ୟକ୍ତିଗତ ମାନବୀୟ ବିଚାରକୁ ପୂରଣ କରିଥାଏ ।

ନମୂନା ଶ୍ରେଣୀକରଣ ସମୁଦାୟ ଭୋଟ ମାପକଗୁଡିକ A/B ପରୀକ୍ଷଣ ଲିଡରବୋର୍ଡ

TTS Arena ବିଶେଷତାଗୁଡ଼ିକName

ଏଆଇ ସ୍ୱର ମଡେଲର ମୂଲ୍ୟାୟନ ପାଇଁ ଏକ ସମାନ, ସମୁଦାୟ-ଚାଳିତ ପଦ୍ଧତି

ଅଫିସିଆଲ ବେଞ୍ଚମାର୍କ

ଏମଓଏସ (ମଧ୍ୟମ ମତ ସ୍କୋର), ଅକ୍ଷର ତ୍ରୁଟି ହାର, ଭାଷଣର ସମାନତା ଏବଂ ସମସ୍ତ 20+ ମଡେଲରେ ରିଅଲ-ଟାଇମ ଫଳକ ସମେତ ମାନକୀକୃତ ମୂଲ୍ୟାୟନ ମାପକାଠି ।

ସମୁଦାୟ ମାନ

ଚାଳକ-ସମର୍ପିତ ଆକଳନ ଏବଂ ପ୍ରକୃତ TTS ଚାଳକମାନଙ୍କଠାରୁ ସମୀକ୍ଷା। ସମୁଦାୟ ପ୍ରତିକ୍ରିୟା ଆଧାରରେ ନିର୍ଦ୍ଦିଷ୍ଟ ବ୍ୟବହାର ମାମଲାଗୁଡ଼ିକ ପାଇଁ କେଉଁ ମଡେଲଗୁଡ଼ିକ ଶ୍ରେଷ୍ଠ ଭାବରେ କାର୍ଯ୍ୟ କରିଥାଏ ତାହା ଦେଖନ୍ତୁ।

ପାର୍ଶ୍ୱ-ପ୍ରତି-ପାର୍ଶ୍ୱ ତୁଳନା

ଦୁଇଟି ଭିନ୍ନ ଭିନ୍ନ ନମୂନା ସହିତ ସମାନ ପାଠ୍ୟ ସୃଷ୍ଟି କରନ୍ତୁ ଏବଂ ଧ୍ୱନି ଗୁଣବତ୍ତା, ପ୍ରାକୃତିକତା, ଏବଂ ଗତିକୁ ଆପଣଙ୍କ ବ୍ରାଉଜରରେ ସିଧାସଳଖ ତୁଳନା କରନ୍ତୁ।

20+ ମଡେଲଗୁଡ଼ିକ ସ୍ଥାନିତ

TTS.ai ରେ ପ୍ରତ୍ୟେକ ନମୁନାକୁ ବେଞ୍ଚମାର୍କ ଏବଂ ରେଙ୍କ କରାଯାଏ। ଆପଣଙ୍କର ଆଦର୍ଶ ନମୁନାକୁ ଖୋଜିବା ପାଇଁ ଗତି, ଗୁଣବତ୍ତା, ଭାଷା ସମର୍ଥନ, ବିଶେଷତା ଏବଂ ଲାଇସେନ୍ସ ଦ୍ୱାରା ଛାଣକ କରନ୍ତୁ।

ବିସ୍ତୃତ ମାପକ

ପ୍ରତ୍ୟେକ ନମୂନାର କାର୍ଯ୍ୟଦକ୍ଷତାକୁ ଗଭୀର ଭାବରେ ବୁଝିବା: ଲାଟେନସି, ଥ୍ରୁପୁଟ, VRAM ବ୍ୟବହାର, ସମର୍ଥିତ ଭାଷା, କ୍ଲୋନିଂ ଗୁଣବତ୍ତା, ଏବଂ ଭାବଗତ ରେଞ୍ଜ ସ୍କୋର।

ବ୍ୟବହାର ପାଇଁ ମୁକ୍ତ

ଲିଡରବୋର୍ଡକୁ ବ୍ରାଉଜ କରନ୍ତୁ, ନମୂନାଗୁଡ଼ିକୁ ତୁଳନା କରନ୍ତୁ, ଏବଂ ଗୁଣବତ୍ତା ଉପରେ ଭୋଟ ଦିଅନ୍ତୁ - ସବୁକିଛି ସମ୍ପୂର୍ଣ୍ଣ ମୁକ୍ତ। କୌଣସି ଖାତାକୁ ରେଙ୍କିଙ୍ଗ ଏବଂ ବେଞ୍ଚମାର୍କକୁ ଅନୁଧ୍ୟାନ କରିବା ପାଇଁ ଆବଶ୍ୟକ ନାହିଁ।

କ୍ଷେତ୍ରରେ ନମୁନା

ସମସ୍ତ 20+ ମଡେଲ ଶୀର୍ଷ ସ୍ଥାନ ପାଇଁ ମୁହାଁମୁହିଁ ପ୍ରତିଯୋଗିତା କରୁଛନ୍ତି ।

KokoroKokoro

Free

Lightweight 82M parameter model delivering studio-quality speech with blazing-fast inference.

Fast 5/5

ଏହା ପାଇଁ ଉତ୍ତମ: ସର୍ବାଧିକ ସ୍ଥାନ ପାଇଥିବା ମୁକ୍ତ ମଡେଲ - ନେତୃବୃନ୍ଦରେ ଶ୍ରେଷ୍ଠ ଗତିରେ ଗୁଣବତ୍ତା ଅନୁପାତ

ଚେଷ୍ଟାକରନ୍ତୁ Kokoro

ChatterboxChatterbox

Premium

State-of-the-art zero-shot voice cloning with emotion control from Resemble AI.

Medium 5/5 ଧ୍ୱନି କ୍ଲୋନିଂName

ଏହା ପାଇଁ ଉତ୍ତମ: ଭାବନା ନିୟନ୍ତ୍ରଣ କ୍ଷମତା ସହିତ ସର୍ବାଧିକ-ରେଟିଂ ଧ୍ୱନି କ୍ଲୋନ ମଡେଲ

ଚେଷ୍ଟାକରନ୍ତୁ Chatterbox

CosyVoice 2CosyVoice 2

Standard

Alibaba's scalable streaming TTS with human-parity naturalness and near-zero latency.

Medium 5/5 ଧ୍ୱନି କ୍ଲୋନିଂName

ଏହା ପାଇଁ ଉତ୍ତମ: ମାନବ-ସମାନ ପ୍ରାକୃତିକତା ସ୍କୋର ସହିତ ଶ୍ରେଷ୍ଠ ବହୁଭାଷୀ ମଡେଲ

ଚେଷ୍ଟାକରନ୍ତୁ CosyVoice 2

StyleTTS 2StyleTTS 2

Premium

Human-level text-to-speech through style diffusion and adversarial training.

Medium 5/5

ଏହା ପାଇଁ ଉତ୍ତମ: ସମସ୍ତ ମୁକ୍ତ ଉତ୍ସ ମଡେଲଗୁଡ଼ିକ ମଧ୍ୟରେ ସର୍ବାଧିକ ଏକକ-ସ୍ପିକର MOS ସ୍କୋର

ଚେଷ୍ଟାକରନ୍ତୁ StyleTTS 2

Sesame CSMSesame CSM

Premium

Conversational speech model generating natural dialogue with appropriate timing and emotion.

Slow 5/5

ଏହା ପାଇଁ ଉତ୍ତମ: ପ୍ରାକୃତିକ ବାର୍ତ୍ତାଳାପ ଉତ୍ପାଦନ ପାଇଁ ନେତୃତ୍ୱପୂର୍ଣ୍ଣ ବାର୍ତ୍ତାଳାପ ଭାଷା ମଡେଲ

ଚେଷ୍ଟାକରନ୍ତୁ Sesame CSM

TTS Arena କିପରି କାର୍ଯ୍ୟ କରେ

ସ୍ୱର ଗୁଣବତ୍ତା ଉପରେ ଭୋଟ ଦିଅନ୍ତୁ ଏବଂ ଶ୍ରେଷ୍ଠ ଆଇଆଇ ମଡେଲଗୁଡ଼ିକୁ ରେଙ୍କ କରିବାରେ ସହାୟତା କରନ୍ତୁ

1

ଲିଡରବୋର୍ଡକୁ ବ୍ରାଉଜ କରନ୍ତୁ

ସମସ୍ତ 20+ ମଡେଲଗୁଡ଼ିକୁ ଗୁଣବତ୍ତା, ବେଗ, ଏବଂ ବିଶେଷତା ଦ୍ୱାରା ସ୍ଥାନିତ ଦେଖନ୍ତୁ। ସ୍ତର (ମୁକ୍ତ, ମାନକ, ପ୍ରୀମିୟମ) କିମ୍ବା ନିର୍ଦ୍ଦିଷ୍ଟ କ୍ଷମତା ଦ୍ୱାରା ଛାଣକ କରନ୍ତୁ।

2

ଆଡ଼କୁ-ଆଡକୁ ନମୂନାଗୁଡ଼ିକୁ ତୁଳନା କରନ୍ତୁ

ଦୁଇଟି ନମୂନା ବାଛନ୍ତୁ ଏବଂ ଉଭୟ ସହିତ ସମାନ ପାଠ୍ୟ ନିର୍ମାଣ କରନ୍ତୁ। ନିର୍ଗମକୁ ଶୁଣନ୍ତୁ ଏବଂ ପ୍ରାକୃତିକତା, ସ୍ପଷ୍ଟତା ଏବଂ ଭାବପ୍ରବଣ ଅଭିବ୍ୟକ୍ତିକୁ ତୁଳନା କରନ୍ତୁ।

3

ଗୁଣବତ୍ତା ଉପରେ ଭୋଟ ଦିଅନ୍ତୁ

ତୁଳନା କରିବା ପରେ, ଭଲ ଭାବରେ ଶୁଣାଯାଉଥିବା ମଡେଲ ପାଇଁ ଭୋଟ ଦିଅନ୍ତୁ। ଆପଣଙ୍କର ଭୋଟ ସମୁଦାୟ ରେଙ୍କିଙ୍ଗରେ ଯୋଗଦାନ କରିଥାଏ ଏବଂ ଅନ୍ୟ ଚାଳକମାନଙ୍କୁ ଚୟନ କରିବାରେ ସହାୟତା କରିଥାଏ।

4

ଆପଣଙ୍କର ଆଦର୍ଶ ନମୁନାକୁ ଖୋଜନ୍ତୁ

ଆପଣଙ୍କର ନିର୍ଦ୍ଦିଷ୍ଟ ବ୍ୟବହାର ମାମଲା, ବଜେଟ ଏବଂ ଗୁଣବତ୍ତା ଆବଶ୍ୟକତା ପାଇଁ ଶ୍ରେଷ୍ଠ ମଡେଲ ବାଛିବା ପାଇଁ ଲିଡରବୋର୍ଡ ତଥ୍ୟ ଏବଂ ସମୁଦାୟ ରେଟିଂ ବ୍ୟବହାର କରନ୍ତୁ ।

ଟିଟିଏସ ଆରେନାକୁ କିପରି କୁହାଯାଏ?

ଏଆଇ ସ୍ୱର ମଡେଲଗୁଡ଼ିକର ରେଙ୍କିଙ୍ଗ ପାଇଁ ଏକ ସମୁଦାୟ ଆଧାରିତ ପଦ୍ଧତି

ଅନ୍ଧ A/B ତୁଳନା

କ୍ଷେତ୍ରଟି ଦୁଇଟି ଅନିର୍ଦ୍ଦିଷ୍ଟ ଭାବରେ ଚୟିତ ମଡେଲ ଦ୍ଵାରା କହିଥିବା ସମାନ ପାଠ୍ୟକୁ ପ୍ରଦର୍ଶନ କରେ। ଆପଣ ଉଭୟ ନମୁନାକୁ ଶୁଣନ୍ତି ତାହା ଜାଣିବା ବିନା ଯେ କେଉଁ ମଡେଲ ଏହାକୁ ସୃଷ୍ଟି କରିଛି, ତା'ପରେ ଅଧିକ ପ୍ରାକୃତିକ ଶବ୍ଦ ହେଉଥିବା ପାଇଁ ଭୋଟ ଦିଅନ୍ତୁ। ଏହି ଅନ୍ଧ ପରୀକ୍ଷଣ ବ୍ରାଣ୍ଡ ପକ୍ଷପାତିତାକୁ ଦୂର କରିଥାଏ ଏବଂ ସ୍ୱଚ୍ଛ ଧ୍ୱନି ଗୁଣବତ୍ତା ଉପରେ ଆଧାରିତ ନ୍ୟାୟ ଦିଏ।

  • ସମାନ ପାଠ୍ୟ, ଦୁଇଟି ଅଜ୍ଞାତ ନମୂନା
  • ଭୋଟଦାନ ପରେ ମଡେଲଙ୍କ ନାମ ପ୍ରକାଶିତ
  • ପ୍ରତ୍ୟେକ ରାଉଣ୍ଡରେ ନୂତନ ଅନିର୍ଦ୍ଦିଷ୍ଟ ଯୋଡି
  • କୌଣସି ବ୍ରାଣ୍ଡ ପକ୍ଷପାତିତା ନାହିଁ - ସ୍ୱଚ୍ଛ ଧ୍ୱନି ଗୁଣବତ୍ତା

Elo ରେଟିଂ ତନ୍ତ୍ର

ମଡେଲଗୁଡ଼ିକୁ Elo ରେଟିଂ ପଦ୍ଧତି ବ୍ୟବହାର କରି ରେଟିଂ ଦିଆଯାଏ, ଚେସ ଖେଳାଳିମାନଙ୍କୁ ରେଟିଂ ଦେବା ପାଇଁ ବ୍ୟବହାର ହେଉଥିବା ସମାନ ଆଲଗୋରିଦମ। ଉଚ୍ଚ-ରେଟିଂ ମଡେଲ ବିରୁଦ୍ଧରେ ବିଜୟ ହାସଲ କରିବା ନିମ୍ନ-ରେଟିଂ ମଡେଲ ବିରୁଦ୍ଧରେ ବିଜୟ ହାସଲ କରିବା ଅପେକ୍ଷା ଅଧିକ ପଏଣ୍ଟ ଆୟ କରିଥାଏ। ହଜାର ହଜାର ଭୋଟରେ, ଏହା ଏକ ବିଶ୍ୱସନୀୟ ରେଟିଂ ଉତ୍ପାଦନ କରେ ଯାହା ପ୍ରକୃତ ସମୁଦାୟ ପସନ୍ଦକୁ ପ୍ରତିଫଳିତ କରେ।

  • Elo-ଆଧାରିତ ରେଙ୍କ ଆଲଗୋରିଦମ
  • ପ୍ରତ୍ୟେକ ଭୋଟ ସହିତ ରେଟିଂକୁ ସନ୍ତୁଳନ କରନ୍ତୁ
  • ପରିସଂଖ୍ୟାନ ଆସ୍ଥା ଅବଧି
  • ସମୟ ସହିତ ରେଙ୍କିଙ୍ଗ ସ୍ଥିର ହୁଏ

ନମୂନା ତୁଳନା ପ୍ରାକଦର୍ଶନ

ପ୍ରମୁଖ ଦିଗଗୁଡ଼ିକରେ ଆମର 20+ ମଡେଲର ତୁଳନା କିପରି ହେଉଛି

ଆକାର ଅକ୍ଟୋବର ଗୁଣବତ୍ତା ବେଗ ଭାଷାName କ୍ଲୋନ କରୁଅଛି
Kokoro ମୁକ୍ତ 4.5/5 ସ୍ଥିର 8
Bark ପୂର୍ବନିର୍ଦ୍ଧାରିତ 4.0/5 ମଧ୍ଯମ 13
CosyVoice2 ପୂର୍ବନିର୍ଦ୍ଧାରିତ 4.5/5 ମଧ୍ଯମ 6
Tortoise TTS ପ୍ରୀମିୟମ 4.8/5 ଧୀରେ ଧୀରେ 1
Chatterbox ପ୍ରୀମିୟମ 4.7/5 ମଧ୍ଯମ 1
StyleTTS 2 ପ୍ରୀମିୟମ 4.7/5 ସ୍ଥିର 1

ମୂଲ୍ୟାୟନ ମାପକାଠି

ଆଇଟିଟିଏସର ମଡେଲକୁ କ୍ଷେତ୍ରରେ ଉଚ୍ଚ ସ୍ଥାନ ଦେଇଥାଏ କିଏ

ପ୍ରାକୃତିକତା

ଏହା ଗୋଟିଏ ପ୍ରକୃତ ବ୍ୟକ୍ତି ପରି ଶୁଣାଯାଉଛି କି? ପ୍ରାକୃତିକ ପ୍ରୋସୋଡି, ରିଦମ, ଏବଂ ଇଣ୍ଟୋନେସନ ନମୂନା ଯାହାକି ମାନବୀୟ ଭାଷା ସହିତ ମେଳ ଖାଉଛି। କୌଣସି ରୋବୋଟିକ୍ ଆର୍ଟିଫେକ୍ଟ କିମ୍ବା ଅପ୍ରକୃତିକ ବିରତି ନାହିଁ।

ଅଭିବ୍ୟକ୍ତି

ଭଲ ମଡେଲ ପ୍ରଶ୍ନ, ଉଚ୍ଚାରଣ ଏବଂ ଭାବପ୍ରବଣ ପରିବେଶକୁ ସ୍ୱାଭାବିକ ଭାବେ ପରିଚାଳନା କରିଥାନ୍ତି ।

ସଠିକତା

ଏହା ପ୍ରତ୍ୟେକ ଶବ୍ଦକୁ ସଠିକ ଭାବରେ ଉଚ୍ଚାରଣ କରେ କି? ଅସାଧାରଣ ଶବ୍ଦ, ସଂଖ୍ୟା, ସଂକ୍ଷିପ୍ତ ନାମ, ଏବଂ ବିଦେଶୀ ନାମଗୁଡ଼ିକୁ ତ୍ରୁଟି କିମ୍ବା ହାଲସିନାଟ ଧ୍ୱନି ବିନା ପରିଚାଳନା କରେ।

ଶ୍ରେଷ୍ଠ AI ସ୍ୱରଗୁଡ଼ିକୁ ରେଙ୍କ କରିବାରେ ସହାୟତା କରନ୍ତୁ

ଆପଣଙ୍କ ଭୋଟ ସିଧାସଳଖ ଲିଡରବୋର୍ଡକୁ ପ୍ରଭାବିତ କରେ । ପ୍ରତ୍ୟେକ ତୁଳନା ସମୁଦାୟକୁ ଶ୍ରେଷ୍ଠ ମଡେଲ ଖୋଜିବାକୁ ସହାୟତା କରେ ।

TTS କ୍ଷେତ୍ରକୁ ପ୍ରବେଶ କରନ୍ତୁ

ପ୍ରାୟ ପଚରାଯାଉଥିବା ପ୍ରଶ୍ନName

TTS Arena ଏବଂ ମଡେଲ ରେଙ୍କିଙ୍ଗ ବିଷୟରେ ସାଧାରଣ ପ୍ରଶ୍ନ

ଆଇଟିଟିଏସ ଆରେନା ଏକ ଲିଡରବୋର୍ଡ ଏବଂ ଆଇଟିଟିଏସ ମଡେଲଗୁଡ଼ିକର ତୁଳନା ସାଧନ ଯାହାକି 20+ ମଡେଲକୁ ଡିଜିଟାଲ ମାଧ୍ୟମରେ ଡିଜିଟାଲ ମାଧ୍ୟମରେ ଡିଜିଟାଲ ମାଧ୍ୟମରେ ଡିଜିଟାଲ ମାଧ୍ୟମରେ ଡିଜିଟାଲ ମାଧ୍ୟମରେ ଡିଜିଟାଲ ମାଧ୍ୟମରେ ଡିଜିଟାଲ ମାଧ୍ୟମରେ ଡିଜିଟାଲ ମାଧ୍ୟମରେ ଡିଜିଟାଲ ମାଧ୍ୟମରେ ଡିଜିଟାଲ ମାଧ୍ୟମରେ ଡିଜିଟାଲ ମାଧ୍ୟମରେ ଡିଜିଟାଲ ମାଧ୍ୟମରେ ଡିଜିଟାଲ ମାଧ୍ୟମରେ ଡିଜିଟାଲ ମାଧ୍ୟମରେ ଡିଜିଟାଲ ମାଧ୍ୟମରେ ଡିଜିଟାଲ ମାଧ୍ୟମରେ ଡିଜିଟାଲ ମାଧ୍ୟମରେ ଡିଜିଟାଲ ମାଧ୍ୟମରେ ଡିଜିଟାଲ ମାଧ୍ୟମରେ ଡିଜିଟାଲ ମାଧ୍ୟମରେ ଡିଜିଟାଲ ମାଧ୍ୟମରେ ଡିଜିଟାଲ ମାଧ୍ୟମରେ ଡିଜିଟାଲ ମାଧ୍ୟମରେ ଡିଜିଟାଲ ମାଧ୍ୟମରେ ଡିଜିଟାଲ ମାଧ୍ୟମରେ ଡିଜିଟାଲ ମାଧ୍ୟମରେ ଡିଜିଟାଲ ମାଧ୍ୟମରେ ଡିଜିଟାଲ ମାଧ୍ୟମରେ ଡିଜିଟାଲ ମାଧ୍ୟମରେ ଡିଜିଟାଲ ମାଧ୍ୟମରେ ଡିଜିଟାଲ ମାଧ୍ୟମରେ ଡିଜିଟାଲ ମାଧ୍ୟମରେ ଡିଜିଟାଲ ମାଧ୍ୟମରେ ଡିଜିଟାଲ ମାଧ୍ୟମରେ ଡିଜିଟାଲ ମାଧ୍ୟମରେ ଡିଜିଟାଲ ମାଧ୍ୟମରେ ଡିଜିଟାଲ ମାଧ୍ୟମରେ ଡିଜିଟାଲ ମାଧ୍ୟମରେ ଡିଜିଟାଲ ମାଧ୍ୟମରେ ଡିଜିଟାଲ ମାଧ୍ୟମରେ ଡିଜିଟାଲ ମାଧ୍ୟମରେ ଡିଜିଟାଲ ମାଧ୍ୟମରେ ଡିଜିଟାଲ ମାଧ୍ୟମରେ ଡିଜିଟାଲ ମାଧ୍ୟମରେ ଡିଜିଟାଲ ମାଧ୍ୟମରେ ଡିଜିଟାଲ ମାଧ୍ୟମରେ ଡିଜିଟାଲ ମାଧ୍ୟମରେ ଡିଜିଟାଲ ମାଧ୍ୟମରେ ଡିଜିଟାଲ ମାଧ୍ୟମରେ ଡିଜିଟାଲ ମାଧ୍ୟମରେ ଡିଜିଟାଲ ମାଧ୍ୟମରେ ଡିଜିଟାଲ ମାଧ୍ୟମରେ ଡିଜିଟାଲ ମାଧ୍ୟମରେ ଡିଜିଟାଲ ମାଧ୍ୟମରେ ଡିଜିଟାଲ ମାଧ୍ୟମରେ ଡିଜିଟାଲ ମାଧ୍ୟମରେ ଡିଜିଟାଲ ମାଧ୍ୟମରେ ଡିଜିଟାଲ ମାଧ୍ୟମରେ ଡିଜି

ନମୂନାଗୁଡ଼ିକୁ ଏକାଧିକ ମାପକାଠିରେ ମୂଲ୍ୟାୟନ କରାଯାଏ: MOS (ମଧ୍ଯମ ମତ ସ୍କୋର) ବ୍ୟକ୍ତିଗତ ଗୁଣବତ୍ତା ପାଇଁ, ଉଚ୍ଚାରଣ ସଠିକତା ପାଇଁ ଅକ୍ଷର ତ୍ରୁଟି ହାର, ଗତି ପାଇଁ ରିୟଲ-ଟାଇମ କାରକ, ଦକ୍ଷତା ପାଇଁ VRAM ବ୍ୟବହାର, ଏବଂ ପ୍ରକୃତ ବିଶ୍ୱ ପସନ୍ଦ ପାଇଁ ସମୁଦାୟ ଭୋଟ। ସ୍କୋରଗୁଡ଼ିକୁ ସମଗ୍ର ରେଙ୍କିଙ୍ଗ ନିର୍ମାଣ କରିବା ପାଇଁ ଓଜନ କରାଯାଏ।

MOS ହେଉଛି ଭାଷା ଗୁଣବତ୍ତାର ଆକଳନ ପାଇଁ ମାନକ ମାପକ। ମାନବ ଶ୍ରୋତାମାନେ ପ୍ରାକୃତିକତା ପାଇଁ 1-5 ମାପକାଠିରେ ଭାଷା ନମୁନାକୁ ମାପନ୍ତି। 4.0 ଠାରୁ ଉର୍ଦ୍ଧ୍ବ ସ୍କୋରକୁ ପାଖାପାଖି-ମାନବ ଗୁଣବତ୍ତା ଭାବରେ ବିବେଚନା କରାଯାଏ। ଆମର ଶ୍ରେଷ୍ଠ ମଡେଲଗୁଡ଼ିକ 4.2-4.5 ର MOS ସ୍କୋର ହାସଲ କରିଥାନ୍ତି, ପ୍ରାକୃତିକ ମାନବ ଭାଷା ରେକର୍ଡିଂର ପ୍ରତିଦ୍ୱନ୍ଦ୍ୱିତା କରିଥାଏ।

ରେଙ୍କଗୁଡ଼ିକ ମାପକାଠି ଉପରେ ନିର୍ଭର କରିଥାଏ। Kokoro ଗତି-ରୁ-ଗୁଣମାନ ଅନୁପାତରେ ଆଗରେ ଅଛି। StyleTTS2ସର୍ବୋଚ୍ଚ ଏକକ-ବକ୍ତା MOSକୁ ହାସଲ କରିଛି। Chatterbox ସ୍ୱର କ୍ଲୋନିଂ ରେଙ୍କଗୁଡ଼ିକରେ ଆଗରେ ଅଛି। CosyVoice2ବହୁଭାଷା ଗୁଣମାନରେ ଆଗରେ ଅଛି। ପ୍ରତ୍ୟେକ ବିଭାଗରେ ବର୍ତ୍ତମାନ ସ୍ଥିତି ପାଇଁ ଲିଡରବୋର୍ଡକୁ ଯାଞ୍ଚ କରନ୍ତୁ।

ହଁ। ପାର୍ଶ୍ଵ-ପାର୍ଶ୍ଵ ତୁଳନା ଶୁଣନ୍ତୁ ଏବଂ ମଡେଲ ପାଇଁ ଭୋଟ ଦିଅନ୍ତୁ ଯାହା ଭଲ ଭାବରେ ଶୁଣାଯାଏ। ଭୋଟ ଦେବା ମୁକ୍ତ ଏବଂ ଖାତା ଆବଶ୍ୟକ କରେ ନାହିଁ। ସମୁଦାୟ ଭୋଟ ସିଧାସଳଖ ରେଙ୍କିଙ୍ଗକୁ ପ୍ରଭାବିତ କରେ ଏବଂ ଭିନ୍ନ ଭିନ୍ନ ବ୍ୟବହାର ମାମଲା ପାଇଁ ଶ୍ରେଷ୍ଠ ମଡେଲକୁ ଉପସ୍ଥାପନ କରିବାରେ ସହାୟତା କରେ।

ନୂଆ ମଡେଲ ଯୋଗ ହେବା ବା ବୈଧ ମଡେଲଗୁଡ଼ିକ ଗୁରୁତ୍ୱପୂର୍ଣ୍ଣ ଅଦ୍ୟତନ ପାଇବା ସମୟରେ ସରକାରୀ ମାପକାଠି ଅଦ୍ୟତନ କରାଯାଏ । ସମୁଦାୟ ରେଙ୍କିଂ ଭୋଟ ଆସିବା ପରେ ରିୟଲ ଟାଇମରେ ଅଦ୍ୟତନ କରାଯାଏ ।

ଅକ୍ଷର ତ୍ରୁଟି ହାର (CER) ଉତ୍ପନ୍ନ ବାକ୍ୟକୁ ଅନୁବାଦ କରି ଏବଂ ଏହାକୁ ନିବେଶ ପାଠ୍ୟ ସହିତ ତୁଳନା କରି ଉଚ୍ଚାରଣ ସଠିକତାକୁ ମାପଥାଏ। ଗୋଟିଏ ନିମ୍ନ CER ଅର୍ଥ ହେଉଛି ମଡେଲ ଶବ୍ଦଗୁଡ଼ିକୁ ଅଧିକ ସଠିକ ଭାବରେ ଉଚ୍ଚାରଣ କରିଥାଏ। Kokoro ଏବଂ Sesame CSM ଭଳି ମଡେଲଗୁଡ଼ିକ ଉତ୍ତମ CER ସ୍କୋର ହାସଲ କରିଥାଏ।

ଗୋଟିଏ ପାଠ୍ୟ ନମୂନା ଭରଣ କରନ୍ତୁ, ଦୁଇଟି ନମୂନା ବାଛନ୍ତୁ, ଏବଂ ନିର୍ମାଣ କରନ୍ତୁ କ୍ଲିକ କରନ୍ତୁ। ଉଭୟ ନମୂନା ସମାନ ପାଠ୍ୟରୁ ଧ୍ୱନି ଉତ୍ପାଦନ କରିଥାଏ। ଉଭୟ ନିର୍ଗମକୁ ଶୁଣନ୍ତୁ ଏବଂ ବିଚାର କରନ୍ତୁ କେଉଁଟି ଅଧିକ ପ୍ରାକୃତିକ, ସ୍ପଷ୍ଟ, ଏବଂ ଅଭିବ୍ୟକ୍ତିମୂଳକ। ଆପଣ ତା'ପରେ ଆପଣଙ୍କ ପସନ୍ଦର ନମୂନା ପାଇଁ ଭୋଟ ଦେଇପାରିବେ।

ହଁ, ଆମେ ଆମର ବେଞ୍ଚମାର୍କ ପ୍ରଣାଳୀ, ପରୀକ୍ଷଣ ବାକ୍ୟ, ଏବଂ ମୂଲ୍ୟାୟନ ମାପକାଠି ପ୍ରକାଶ କରୁଛୁ। ସମସ୍ତ ମଡେଲଗୁଡ଼ିକୁ ସମାନ GPU ହାର୍ଡୱେର ଉପରେ ସମାନ ପରିସ୍ଥିତିରେ ପରୀକ୍ଷଣ କରାଯାଏ। ସମୁଦାୟ ସଦସ୍ୟମାନେ ଆମର ପ୍ରକାଶିତ ପରୀକ୍ଷଣ ସେଟ ଏବଂ ସ୍କୋରିଂ ବିଷୟବସ୍ତୁଗୁଡ଼ିକୁ ବ୍ୟବହାର କରି ଫଳାଫଳକୁ ପୁନଃପ୍ରସାରଣ କରିପାରିବେ।

ଏହି କ୍ଷେତ୍ରରେ TTS.aiରେ ହୋଷ୍ଟ କରାଯାଇଥିବା 20+ ମୁକ୍ତ ଉତ୍ସ ମଡେଲ ଉପରେ ଧ୍ୟାନ କେନ୍ଦ୍ରିତ କରାଯାଇଛି। ଆମେ ସିଧାସଳଖ ବାଣିଜ୍ୟିକ ସେବା ଯେପରିକି ElevenLabs କିମ୍ବା Google TTSକୁ ବେଞ୍ଚମାର୍କ କରୁନାହିଁ, କିନ୍ତୁ ଆମର MOS ସ୍କୋର ଏବଂ ମେଟ୍ରିକଗୁଡ଼ିକ ସେହି ସେବାଗୁଡ଼ିକରୁ ପ୍ରକାଶିତ ବେଞ୍ଚମାର୍କଗୁଡ଼ିକ ସହିତ ତୁଳନାଯୋଗ୍ୟ।

ଆପଣଙ୍କର ପ୍ରାଥମିକତାଗୁଡ଼ିକୁ ଚିନ୍ତା କରନ୍ତୁ: ବେଗ (ସତ୍ୟକାଳୀନ ଆବଶ୍ୟକତା ବିରୁଦ୍ଧରେ ବ୍ୟାଚ ପ୍ରକ୍ରିୟା), ଗୁଣବତ୍ତା (MOS ସ୍କୋର), ଭାଷା ସମର୍ଥନ, ବିଶେଷ ଗୁଣ (ବାକ୍ୟ କ୍ଲୋନିଂ, ଭାବନା ନିୟନ୍ତ୍ରଣ, ବାର୍ତ୍ତାଳାପ), ଲାଇସେନ୍ସ ନିୟମ, ଏବଂ ବଜେଟ (ମୁକ୍ତ ବିରୁଦ୍ଧରେ ପ୍ରୀମିୟମ୍ ସ୍ତର)। ଆରେନା ଛାଣକଗୁଡ଼ିକ ଏହି ମାପକାଠି ଦ୍ୱାରା ବିକଳ୍ପଗୁଡ଼ିକୁ ସୀମିତ କରିବାରେ ସହାୟତା କରିଥାଏ।

କୋକୋରୋ (ମୁକ୍ତ) 5/5 ଗୁଣବତ୍ତା ସ୍କୋର ହାସଲ କରିଥାଏ, ଅନେକ ପ୍ରୀମିୟମ ମଡେଲ ସହିତ ମେଳ ଖାଉଥାଏ। ପ୍ରୀମିୟମ ମଡେଲର ପ୍ରମୁଖ ଉପକାରିତା ହେଉଛି ସ୍ୱର କ୍ଲୋନିଂ (ଚାଟରବକ୍ସ), ଶୈଳୀ ପ୍ରସାରଣ (ଶୈଳୀTTS2), ଏବଂ କଥନ (ସିସମ CSM) ପରି ବିଶେଷ ବିଶେଷତାଗୁଡ଼ିକ ଅତିରିକ୍ତ ଧ୍ୱନି ଗୁଣବତ୍ତା ବଦଳରେ।
5.0/5 (1)

ଆମେ କଣ ସୁଧାରିପାରିବା? ଆପଣଙ୍କର ପ୍ରତିକ୍ରିୟା ଆମକୁ ସମସ୍ୟାର ସମାଧାନ କରିବାରେ ସହାୟକ ହୋଇଥାଏ ।

TTS କ୍ଷେତ୍ରରେ ଆପଣଙ୍କ ଭୋଟ ଦିଅନ୍ତୁ

ଏଆଇର ସ୍ୱର ଶୁଣନ୍ତୁ, ଶ୍ରେଷ୍ଠଙ୍କ ପାଇଁ ଭୋଟ ଦିଅନ୍ତୁ ଏବଂ ଆମର 20+ ମଡେଲର ସମୁଦାୟ ଆଧାରିତ ଲିଡରବୋର୍ଡକୁ ଅନୁଧ୍ୟାନ କରନ୍ତୁ ।