TTSA - ALA - യുടെ മാതൃകാമാതൃക

AI ടെക്സ്റ്റില്‍ നിന്നും മെസ്സേജ് മാലകള്‍ തലയില്‍ നിന്നും തലയിലേക്ക്. വ്യത്യസ്ഥ മോഡലുകള്‍ സംസാരിക്കുന്ന അതേ പാഠം കേള്‍ക്കുക, ഏറ്റവും സ്വാഭാവികമായ ശബ്ദങ്ങള്‍ക്ക് വോട്ട് ചെയ്യുക, പിന്നെ 20+ TTS നമ്മുടെ സമൂഹം റെഡ്വീന്‍ ലീഡര്‍ബോര്‍ഡില്‍ എങ്ങനെ നില നില്‍ക്കുന്നു എന്നറിയിക്കൂ.

മോഡല്‍ റൌണ്ടിങ്ങ് സമൂഹം ബീഞ്ച്മാര്‍ക്ക്star name A/B പരീക്ഷണം നേതാവ്ബോര്‍ഡ്

ടി. ടി. എ. ഡി.

ഒരു സുപ്രഭാതവും സമൂഹം-റിവന്‍ മാര്‍ഗ്ഗം AI വോള്‍ഡ് മോഡലുകള്‍ വിലയിരുത്താനുള്ള മാര്‍ഗ്ഗം.

ഔദ്യോഗിക ബീഞ്ച് മാര്‍ക്ക്സ്

എംഎസ്സ് (മെയ്ഞ്ചല്‍ ക്ലെയര്‍), കഥാപാത്ര നിരക്ക്, പ്രസംഗസങ്കലനം, ശരിക്കുള്ള സമയം, 20+ മോഡലുകള്‍ക്കിടയില്‍.

സമൂഹ നിബന്ധനകള്‍

യഥാര്‍ത്ഥ ടിടിഎസ് ഉപയോക്താക്കളില്‍ നിന്നും ഉപയോക്താവിന്‍റെ റെക്കോര്‍ഡുകളും പുനരവലോകനവും. സമൂഹം അടിസ്ഥാനമാക്കിയുള്ള പ്രത്യേക ഉപയോഗ കേസുകള്‍ക്കു് ഏതു് മോഡ്യൂളുകള്‍ നന്നായി പ്രവര്‍ത്തിക്കുന്നു എന്നു് കാണുക.

സൈഡ്-ഡയഡ് താരതമ്യം

നിങ്ങളുടെ ബ്രൌസറില്‍ നേരിട്ട് ഓഡിയോ ഗുണവും പ്രകൃതിയും വേഗതയും താരതമ്യം ചെയ്യുക.

20+ മോഡല്‍ റൌണ്ട് ചെയ്തു

TTS.ai - ലെ ഓരോ മോഡലും ബെഞ്ച് മാക്സിമേറ്റും സ്ഥാനക്കയറ്റവും ആണ്. വേഗത, ഗുണമേന്മ, ഭാഷാ പിന്തുണ, വിശേഷതകൾ, ലൈസന്‍സ്‌ എന്നിവയിലൂടെയുള്ള ഫില്‍‌റ്റര്‍.

വിശദമായ മെട്രിക്സ്

ഓരോ മാതൃകയുടെയും പ്രകടനത്തില്‍ ആഴത്തില്‍ പ്രവര്‍ത്തിപ്പിയ്ക്കുക: ലോറിനി, പാസ്‌ടൈഡ്, VRAM ഉപയോഗം, പിന്തുണയുള്ള ഭാഷകള്‍, ക്ളോറൈന്‍ ഗുണമേന്മ, വൈകാരിക പരിധികള്‍ എന്നിവയുടെ സ്കോര്‍.

ഉപയോഗത്തിനുള്ള സ്വതന്ത്രം

സ്റ്റേഡിയം, മാതൃകകൾ, വോട്ടുകൾ എന്നിവയെ താരതമ്യം ചെയ്‌തുനോക്കുക —⁠ എല്ലാം സ്വതന്ത്രമാണ്‌.

അരാബയിലെ മാതൃകകൾ

എല്ലാ 20+ മോഡലുകള്‍ക്കും മുകളിലെ സൂപ്പറിലേക്ക് തല ഉയര്‍ത്തല്‍ മത്സരം നടത്തുന്നു

KokoroKokoro

Free

Lightweight 82M parameter model delivering studio-quality speech with blazing-fast inference.

Fast 5/5

ഏറ്റവും നല്ല സ്കോര്‍: ഏറ്റവും മുകളിലുള്ള ഫ്രീ മോഡ് — സീനര്‍ ബോര്‍ഡില്‍ ഏറ്റവും വേഗത്തില്‍-വേര്‍ഡ് റേറ്റ് റേഷ്യോ

ശ്രമിക്കൂ Kokoro

ChatterboxChatterbox

Premium

State-of-the-art zero-shot voice cloning with emotion control from Resemble AI.

Medium 5/5 ശബ്ദ ക്ളൈനിങ്ങ്

ഏറ്റവും നല്ല സ്കോര്‍: ഉയര്‍ന്ന ശബ്ദ- നിരീക്ഷകന്‍ മോഡല്‍ വികാരചിഹ്നങ്ങളോടു് കൂടിയതു്

ശ്രമിക്കൂ Chatterbox

CosyVoice 2CosyVoice 2

Standard

Alibaba's scalable streaming TTS with human-parity naturalness and near-zero latency.

Medium 5/5 ശബ്ദ ക്ളൈനിങ്ങ്

ഏറ്റവും നല്ല സ്കോര്‍: മനുഷ്യസഹജമായ സ്വാഭാവിക സ്കോറുകള്‍ ഉള്ള ഏറ്റവും ഉയര്‍ന്ന ബഹുഭാഷാ മോഡല്‍

ശ്രമിക്കൂ CosyVoice 2

StyleTTS 2StyleTTS 2

Premium

Human-level text-to-speech through style diffusion and adversarial training.

Medium 5/5

ഏറ്റവും നല്ല സ്കോര്‍: ഏറ്റവും കൂടിയ MOS സ്കോര്‍ എല്ലാ തുറന്ന സോഴ്സ് മോഡലുകള്‍

ശ്രമിക്കൂ StyleTTS 2

Sesame CSMSesame CSM

Premium

Conversational speech model generating natural dialogue with appropriate timing and emotion.

Slow 5/5

ഏറ്റവും നല്ല സ്കോര്‍: സ്വാഭാവികമായ ഡയലോഗ് ഉല്‍പാദനത്തിനു് സംവാദസജ്ജമാതൃക നല്‍കുക

ശ്രമിക്കൂ Sesame CSM

TTS - ന്‍റെ പ്രവര്‍ത്തനങ്ങള്‍

എയ്‌ ഐ മോഡൽ

1

നേതാവിനെ പരതുക

20+ മോഡ്യൂളുകള്‍ ഗുണവും വേഗതയും വിശേഷതകളും ഉപയോഗിച്ചു് ക്രമീകരിച്ചിരിക്കുന്നു കാണുക. സ്ലേറ്റര്‍ (ഫ്ളോറന്റ്, സ്റ്റാന്‍ഡേര്‍ഡ്, ഇന്‍ഫറന്‍സ്) അല്ലെങ്കില്‍ പ്രത്യേക കഴിവുകള്‍ ഉപയോഗിച്ചു് ഫില്‍റ്റര്‍.

2

മോഡലുകള്‍ സൈഡ്- സെഡ് ആയി താരതമ്യം ചെയ്യുക

രണ്ട് മോഡലുകള്‍ തെരഞ്ഞെടുത്ത് രണ്ടു് ചേര്‍ച്ചയായി ഒരേ പദാവലി സൃഷ്ടിക്കുക. ഫലം ശ്രദ്ധിക്കുക, പ്രകൃതിയെ താരതമ്യം ചെയ്യുക, വ്യക്തമാക്കുക, വൈകാരികമായ ഭാവം മാറ്റുക.

3

താപനിലയിലെ വോട്ടെ

താരതമ്യം ചെയ്‌തശേഷം, നല്ലതായി തോന്നുന്ന മാതൃകയ്‌ക്കു വോട്ട് നടത്തുക.

4

നിങ്ങളുടെ അനുയോജ്യ മാതൃക കണ്ടുപിടിയ്ക്കുക

നിങ്ങളുടെ പ്രത്യേക ഉപയോഗ കേസ്, ബജറ്റ്‌, ഗുണമേന്മ എന്നിവയ്‌ക്കുള്ള ഏറ്റവും നല്ല മാതൃക തിരഞ്ഞെടുക്കാനുപയോഗിക്കുക.

എന്താണ്‌ TTSA?

ഒരു സമൂഹ-ദ്രോവേന്‍ AILA വോള്‍ഡ് മോഡല്‍സിലേക്ക്.

അന്ധമായ A/B താരതമ്യം

ഈ നടുക്കു രണ്ടു മൊബൈല്‍ തെരഞ്ഞെടുത്തത് ഒരേ പദാവലിയാണ്. ഏതു മാതൃക ഉണ്ടാക്കിയെന്ന് അറിയാതെ നിങ്ങള്‍ കേള്‍ക്കുന്നു, കൂടുതല്‍ സ്വാഭാവികമായി തോന്നുന്ന ഒന്നിനു വോട്ടു ചെയ്യുന്നു. ഈ അന്ധമായ പരീക്ഷണം ആവര്‍ത്തിക്കാന്‍ ബാധ്യസ്ഥത നീക്കം ചെയ്യുന്നു. ഓഡിയോ ഗുണമേന്തരത്തില്‍ മാത്രം അടിസ്ഥാനമാക്കിയുള്ള ന്യായവിസ്താരം നിര്‍ബന്ധിക്കുന്നു.

  • ഒരേ ടെക്സ്റ്റ്, രണ്ട് അജ്ഞാത മോഡലുകള്‍
  • പ്രൊഫൈലിനു് ശേഷംమోഡ് നാമങ്ങള്‍ വെളിപ്പെടുത്തിയിരിക്കുന്ന മോഡല്‍ നാമങ്ങള്‍
  • ഓരോ റൗണ്ടിലും പുതിയ ജോഡികള്‍
  • ബ്രാന്‍ഡ്‌ പാസ്‌വേര്‍ഡ്‌ —⁠ ശുദ്ധ ഓഡിയോ ഗുണമേന്മ

എലോ റേറ്റിങ് സിസ്റ്റം

എല്യോ റേറ്റിങ് സിസ്റ്റം ഉപയോഗിക്കുന്നു, അതേ ആല്‍ഗരിതം ചെസ്സ് പ്ലേയറുകള്‍ക്ക് ഉപയോഗിക്കുന്നു. ഉയര്‍ന്ന ഒരു മോഡലിന്റെ നേരെ വിജയം നേടുന്നത്, താഴ്ന്ന ഒന്നിനെതിരെ ജയിക്കുന്നതിനേക്കാള്‍ കൂടുതല്‍ പോയിന്റുകള്‍ നേടുന്നു. ആയിരക്കണക്കിന് വോട്ടുകള്‍, യഥാര്‍ത്ഥ സമൂഹത്തിന്‍റെ മുന്‍ഗണന പ്രതിഫലിപ്പിക്കുന്ന ആശ്രയയോഗ്യമായ ഒരു ഏര്‍പ്പാട് ഉണ്ടാക്കുന്നു.

  • എലോ- അടിസ്ഥാനമാക്കിയുള്ള അല്‍ഗരിതം
  • റേറ്ററുകള്‍ ഓരോ വോട്ടുകളുമായി പൊരുത്തപ്പെടുന്നു
  • സ്റ്റെറ്റിക്കല്‍ വിശ്വാസത്തിന്റെ ഇടവേള
  • ഘടികാരങ്ങള്‍ കാലാന്തരത്തിൽ സ്ഥിരീകരിക്കുന്നു

മോഡല്‍ താരതമ്യം തിരനോട്ടം

നമ്മുടെ 20+ മോഡലുകള്‍ കീയുടെ അളവുകളുമായി എങ്ങനെ താരതമ്യം ചെയ്യുന്നു.

മോഡ് ടിയെര്‍ നിലവാരം വേഗത ഭാഷകള്‍ ക്ളൈനിങ്ങ്
Kokoro ഫ്രീ 4.5/5 വേഗത 8
Bark സ്റ്റാന്‍ഡേര്‍ഡ് 4.0/5 ഇടത്തരം 13
CosyVoice2 സ്റ്റാന്‍ഡേര്‍ഡ് 4.5/5 ഇടത്തരം 6
Tortoise TTS പ്രിമിയം 4.8/5 പതുക്കെ 1
Chatterbox പ്രിമിയം 4.7/5 ഇടത്തരം 1
StyleTTS 2 പ്രിമിയം 4.7/5 വേഗത 1

മൂല്യനിര്‍ണ്ണയങ്ങള്‍

ഗോദയിൽ ഒരു ടിടിഎസ്‌ മാതൃക ഉയർന്നുവരാൻ ഇടയാക്കുന്നത്‌ എന്താണ്‌?

പ്രകൃതിദത്തം

അത്‌ ഒരു യഥാർഥ വ്യക്തിയെപ്പോലെ തോന്നുന്നുണ്ടോ?

പ്രകടനം

ഈ ശബ്ദത്തിന്‌ ഉചിതമായ വികാരങ്ങളും പ്രാധാന്യവും നൽകാനാകുമോ?

കൃത്യത മൂല്ല്യം

ഓരോ വാക്കും ശരിയായി പ്രസ്‌താവിക്കുന്നുണ്ടോ?

ഏറ്റവും നല്ല ശബ്ദങ്ങൾ ഉന്നമിപ്പിക്കാൻ സഹായിക്കുക

എല്ലാ താരതമ്യങ്ങളും ഏറ്റവും മികച്ച മാതൃകകൾ കണ്ടെത്താൻ സമൂഹത്തെ സഹായിക്കുന്നു.

ടിടിഎസ് അരാബില്‍ നല്‍കുക

പലപ്പോഴും ചോദിക്കപ്പെടുന്ന ചോദ്യങ്ങൾ

ടിടിഎസ്‌ അരാബിനെയും മാതൃകാഗതക്കാരെയും കുറിച്ചുള്ള പൊതുചോദ്യങ്ങൾ

TTS അരാണൊരു നേതാവ്, AITLS - ല്‍ നിന്നും മെയിലിങ് മോഡലുകള്‍ക്കുള്ള ഒരു നേതാവ്, താരതമ്യം ചെയ്യുന്ന ഉപകരണം. ഇത് ഔദ്യോഗിക ബെഞ്ച് മാര്‍ക്കുകളും സമൂഹ വോട്ട്കളും അടിസ്ഥാനമാക്കി 20+ മോഡലുകള്‍ കണക്കാക്കുന്നു. ഉപയോക്താക്കള്‍ക്ക് സാധാരണമായി നിരീക്ഷകമായി നിരീശ്വരമായി കണക്കാക്കി, സഹജമായി താരതമ്യം ചെയ്തു് തങ്ങളുടെ ആവശ്യങ്ങള്‍ക്കായി ഏറ്റവും നല്ല മാതൃക കണ്ടെത്തുന്നു.

മോഡിഫയര്‍ അനവധി മെട്രിക്സുകളില്‍ കണക്കാക്കിയിട്ടുണ്ട്: MOS (മെയ്ന്‍ ക്ലിക്ക് സ്കോര്‍), ഉച്ചാരണം, അക്ഷരങ്ങളുടെ നിരക്ക്, വേഗത, VRAM മൂലകങ്ങള്‍, യഥാര്‍ത്ഥ ലോക- ലോക- മുന്‍ഗണനകള്‍ എന്നിവയ്ക്കു് യഥാര്‍ത്ഥ വിലകള്‍. സ്കോറുകള്‍ ഒരു മൊത്തത്തില്‍ ഉല്‍പാദിപ്പിക്കാന്‍ ആവശ്യമുണ്ട്.

MOS എന്നത് സംസാരത്തിന്റെ ഗുണത്തെ വിലയിരുത്താനുള്ള നിലവാരം ആണ്. ശ്രോതാക്കളുടെ സംസാരനിരക്ക് 1-5 നിരക്കില്‍, പ്രകൃതിയെക്കുറിച്ചുള്ള സാങ്കേതികതയില്‍. സ്കോറുകള്‍ 4-5 മീറ്ററുകള്‍ അടുത്ത് കണക്കാക്കുന്നു. നമ്മുടെ പ്രധാന മോഡലുകള്‍ 4-2 മില്ലിമീറ്റര്‍ വര്‍ദ്ധിക്കുന്നു.

റേഡിയന്റുകള്‍ മാനദണ്ഡത്തെ ആശ്രയിച്ചിരിക്കുന്നു. കോക്കോറോ വേഗത്തില്‍ നിന്നും സാങ്കേതിക നിലവാരത്തില്‍ നയിക്കുന്നു. സ്റ്റൈല്‍ടിറ്റ്സ് 2 ഏറ്റവും കൂടിയ സ്പ്രെറ്റര്‍ - എംഎസ്‌. സ്പോര്‍ട്ടര്‍ ബോക്സുകള്‍ കണ്‍വെയേഴ്സ് (Chift MOS) വര്‍ദ്ധിപ്പിക്കുന്നു. കോസിവ്യൂസ് 2 വര്‍ഗ്ഗീയ ഗുണമേന്‍ഷ്യസുകള്‍ക്ക് വര്‍ദ്ധിപ്പിക്കുന്നു. ഓരോ വിഭാഗത്തില്‍ നിന്നും തലസ്ഥാന സ്ഥാനങ്ങള്‍ പരിശോധിക്കുക.

അതെ. മെച്ചമായി തോന്നുന്ന മാതൃകയ്ക്കായി കൂട്ടുകെട്ടും വോട്ടും കേള്‍ക്കുക. വോളിങ്ങ് സ്വതന്ത്രമാണ്, അക്കൗണ്ടില്‍ അഭ്യര്‍ത്ഥമില്ല. സമൂഹ വോട്ടുകള്‍ കമ്പ്യൂട്ടറുകളെ നേരിട്ട് സ്വാധീനിക്കുന്നു, വ്യത്യസ്‌ത ഉപയോഗ കേസുകള്‍ക്ക് ഏറ്റവും നല്ല മാതൃകകള്‍ പരത്തുന്നു.

ഔദ്യോഗിക ബെഞ്ച് മാര്‍ക്കുകള്‍ ചേര്‍ന്നാല്‍, പുതിയ മോഡലുകള്‍ ചേര്‍ത്താല്‍, അല്ലെങ്കില്‍ നിലവിലുള്ള മോഡലുകള്‍ക്ക് ശ്രദ്ധേയമായ പുതുക്കങ്ങള്‍ ലഭിക്കുന്നു. യഥാര്‍ത്ഥ സമയങ്ങളില്‍ വോട്ടുകള്‍ വരുമ്പോള്‍, കമ്മ്യൂണിസ്റ്റ് കമ്മ്യൂണിറ്റിന്‍മാര്‍, നമ്മള്‍ എല്ലാ മോഡലുകള്‍ക്കും ഒരേ രീതിയില്‍ ചേര്‍ന്നു, നീതിപൂര്‍ണ്ണമായ താരതമ്യം ഉറപ്പു വരുത്തുന്നു.

അക്ഷരത്തിലുള്ള പിശകിന്റെ നിരക്ക് (CER) കൃത്യത അളക്കുമ്പോള്‍ സംസാരം നിര്‍മ്മിക്കുകയും അതിനെ ഇന്‍പുട്ട് പാഠവുമായി താരതമ്യം നടത്തുകയും ചെയ്യുന്നു. താഴെയുള്ള CER എന്നത് വാക്കുകളെ കൂടുതല്‍ കൃത്യതയോടെ നിര്‍വ്വചിക്കുകയും ചെയ്യുന്നു. കോക്കോറോയും സെയ്‌എം സിഎസ്എം സിആര്‍ സെര്‍വര്‍ പോലുള്ള മോഡലുകള്‍ മികച്ച സെര്‍വര്‍ നേടുന്നു.

ഒരു പദാവലി സാമ്പിള്‍ നല്‍കുക, രണ്ട് മോഡലുകള്‍ തെരഞ്ഞെടുത്ത്, നിര്‍മ്മിക്കുക. രണ്ടു മോഡും ഒരേ പാഠത്തില്‍ നിന്നും ഓഡിയോ നിര്‍മ്മിക്കുക. കൂടുതല്‍ സ്വാഭാവികവും, വ്യക്തമായി, സാങ്കേതികവുമായ ശബ്ദങ്ങള്‍ കേള്‍ക്കുക. നിങ്ങള്‍ക്കിഷ്ടമുള്ള മാതൃകയ്ക്കായി വോട്ട് ചെയ്യുവാന്‍ കഴിയും.

നമ്മുടെ ബെഞ്ച്മാര്‍ക്ക്‌ മാര്‍ക്കറ്റുകളുടെ സാങ്കേതികവിദ്യ, ടെസ്റ്റ് വാക്യങ്ങള്‍, കണക്കുകൂട്ടല്‍ എന്നിവ ഞങ്ങള്‍ പ്രസിദ്ധീകരിക്കുന്നു. എല്ലാ മോഡലുകള്‍ക്കും ഒരേ പോലെ GPU ഹാര്‍ഡ്‌വെയര്‍ ഉള്ള സാഹചര്യങ്ങളില്‍ പരിശോധിക്കപ്പെടുന്നു. നമ്മുടെ പ്രസിഡന്റുകള്‍ക്ക് നമ്മുടെ പ്രസദ്ധ ടെസ്റ്റന്റ് സെറ്റിംഗ് സെറ്റുകളും ട്രൂപ്പുകളും ഉപയോഗിച്ച് ഫലങ്ങള്‍ പുനര്‍നിര്‍മ്മിക്കാന്‍ കഴിയും.

20+ തുറക്കാവുന്ന മോഡലുകള്‍ TTS.ai-ല്‍ ചേര്‍ന്നിരിക്കുന്നു. ഞങ്ങള്‍ക്ക് നേരിട്ട് ബെന്‍ഗ്ലിക്ക് വാണിജ്യ സേനകള്‍ ലഭ്യമല്ല. പക്ഷേ, ഞങ്ങളുടെ പിസ് സ്കോര്‍കളും മെട്രിക്‌സും ആ സേവനങ്ങളില്‍ നിന്ന് ബെഞ്ച് മാർക്ക് പ്രസി ദ്ധീകൃതമായി പ്രസിദ്ധീകരിക്കുന്നു.

നിങ്ങളുടെ മുന്‍ഗണനകള്‍ ശ്രദ്ധിക്കുക: (യഥാര്‍ത്ഥ സമയം vscraption) വേഗതയുടെ ആവശ്യ‌മുണ്ട് (MOS സ്കോര്‍ഡ്), ഭാഷയുടെ വിശേഷതകള്‍ (MOS), പ്രത്യേക വിശേഷതകള്‍ പിന്തുണ, ഇന്‍റര്‍റര്‍ നിയന്ത്രണം, ലൈസന്‍സ് നിബന്ധനകള്‍, ബജറി (സ്വയം), ബജറി (സ്വയം) എന്നിവയാണു്. ഗോര്‍മുള്‍ ഫില്‍റ്റുകള്‍ക്ക് ഈ മാനദഗ്ചയമുള്ള ഐച്ഛികങ്ങള്‍ക്ക് സഹായകമാണ്.

കൊക്കോറോ (ഫ്രീസി) ഒരു 5/5 ഗുണമേന്മയുള്ള സ്കോര്‍ നേടുന്നു, പല മൊബൈല്‍ മോഡലുകള്‍ തമ്മില്‍ പൊരുത്തപ്പെടുന്ന ഒരു സ്കോളര്‍. ശബ്ദസങ്കലനത്തിന്‍റെ പ്രധാന പ്രയോജനങ്ങള്‍ ക്യുറൈന്‍ (ചുറ്റര്‍ബോക്സ്), ശൈലി ഡിഫ്യൂസ് (ടിടിടിടിഎസ്2), സാറ്റലൈ സിഎസ്എം (സിഎസ്എം സിഎഎം) എന്നിവയാണ്.
5.0/5 (1)

നിങ്ങളുടെ പ്രതികരണം പ്രശ്‌നങ്ങൾ പരിഹരിക്കാൻ നമ്മെ സഹായിക്കുന്നു.

നിങ്ങളുടെ വോട്ടെയെ ടിടിഎസ്‌ ഓറയിൽ എറിയുക

AI ശബ്ദം കേള്‍ക്കൂ, ഏറ്റവും മികച്ച വോട്ട്, 20+ മോഡലുകളുടെ നമ്മുടെ സമൂഹ-ഡ്രിവന്‍ തലവന്‍ ബോര്‍ഡ് പരിശോധിക്കൂ.