സംസാരത്തിനുള്ള II പദാവലി

തുറക്കുന്ന ഏഐ മോഡലുകള്‍ ഉപയോഗിച്ചു് ടെക്സ്റ്റിലേക്ക് പദാവലികള്‍ മാറ്റുക. ഉപയോഗിക്കാനാവശ്യമില്ലാത്ത, അക്കൌണ്ട് ആവശ്യമില്ല.

ഫ്രീ ആയി ഒപ്പ് വയ്ക്കുക

നിന്‍റെ ഭാഷയില്‍ ടിടിഎസ് ശബ്ദങ്ങളില്ല, നിന്‍റെ ശബ്ദം കൂട്ടാന്‍ ഞങ്ങളെ സഹായിക്കൂ! ശബ്ദം വിൽക്കുക

0/500 അക്ഷരങ്ങള്‍ · Sign up for 5,000 per generation →

ഒപ്പ് വയ്ക്ക്. 5,000 ക്യാരക്ടര്‍ പരിധിയ്ക്കു്

എസ്എസ്എംഎല്‍ മോഡ് (നല്ല നിയന്ത്രണത്തിനു വേണ്ടിയുള്ള സംസാരം)

കൃത്യമായ നിയന്ത്രണത്തിനായി SSML തൊങ്ങലില്‍ വാചകം പൊതിയുക:

<speak><prosody rate="slow">Slow speech</prosody></speak>

അടയാളമിടല്‍ / സ്റ്റൈല്‍ ടാഗുകള്‍Constellation name (optional)

പ്രസവത്തെ ബാധിക്കുന്ന വികാര സൂചനകൾ (മോഡം പിന്തുണ വ്യത്യാസം):

ഉച്ചാരണം നിഘണ്ടുQuery

ഇഷ്ടപ്പെട്ട ഉച്ചാരണം നിര്‍വ്വചിക്കുക (വാക്ക് = ഉച്ചാരണം):

പിച്ച് 0

-12 +12

AI മോഡല്‍

ശബ്ദം

ഭാഷ

ഔട്ട്പുട്ട് ഫോര്‍മാറ്റ്

വേഗത 1.0x

0.5x 2.0x

പൈപ്പര്‍, വി.ടി.സ്, മെലോട്ടിക്സ്

നിങ്ങള്‍ ഉണ്ടാക്കിയ ഓഡിയോ ഇവിടെ പ്രത്യക്ഷപ്പെടും. ഒരു മാതൃക തെരഞ്ഞെടുക്കുക, പദാവലി നല്‍കുക, നിര്‍മ്മിക്കുക എന്നിവ നിര്‍മ്മിക്കുക.

സാമ്പിളിന്റെ വിശദാംശങ്ങള്‍

Kokoro

Free

Kokoro is an 82 million parameter text-to-speech model that punches well above its weight class. Despite its tiny size, it produces remarkably natural and expressive speech. Kokoro supports multiple languages including English, Japanese, Chinese, and Korean with a variety of expressive voices. It runs incredibly fast — generating audio nearly 100x faster than real-time on a GPU.

രചയിതാവു്:	Hexgrad
അനുമതി:	Apache 2.0
വേഗത	Fast
നിലവാരം:
ഭാഷകള്‍	11 ഭാഷകള്‍
വാറം	1.5GB
ശബ്ദ ക്ളൈനിങ്ങ്	പിന്തുണ ലഭ്യമല്ല

വിശേഷതകള്‍:

82M parameters Ultra-fast Expressive voices Multilingual Streaming support

ഏറ്റവും നല്ല സ്കോര്‍:: High-quality TTS with minimal latency, streaming applications

മെച്ചമായ ഫലങ്ങളുടെ സൂചനകൾ

പ്രകൃതിയിലെ ഇടവേളകള്‍ക്കും സ്ഥാപനങ്ങള്‍ക്കും ശരിയായി ചുരുക്കിപ്പറയല്‍ ഉപയോഗിക്കുക
വ്യക്തമായ ഉളള ഉച്ചാരണംക്കായി അക്ഷരത്തെറ്റു് നമ്പറുകളും അക്ഷരത്തെറ്റു്
വാക്യാംശങ്ങള്‍ക്കിടയില്‍ ചെറിയ ഇടവേളകള്‍ സൃഷ്ടിക്കാന്‍ കോമകള്‍ ചേര്‍ക്കുക
ദീര്‍ഘമായ ഇടവേളകള്‍ നടത്താന്‍ (...) എലിപ്ലിസിസ് ഉപയോഗിക്കുക
കോക്കോറോ അല്ലെങ്കിൽ കൊസിവോയിസ്‌ 2 പ്ലേഗുകൾ പ്രകൃതിവിപത്തുകൾക്കായി ശ്രമിക്കുക
ഒന്നിലധികം സ്കോട്ട്ലര്‍ ഡയലോഗുകള്‍ക്കും പോര്‍ച്ചുഗല്‍ ഉള്ളടക്കത്തിനുമായി Dia ഉപയോഗിക്കുക

ക്യാരക്ടര്‍ ഉപയോഗം

ടിയെര്‍	1 കെ അക്ഷരങ്ങളുടെ വില
ഫ്രീ	0 അഡ്മിനിസ് (അപരിചിതം)
സ്റ്റാന്‍ഡേര്‍ഡ്	2 ക്രെഡിറ്റ്‌ / 1K അക്ഷരങ്ങൾ
പ്രിമിയം	4 ക്രെഡിറ്റ്‌ / 1K അക്ഷരങ്ങൾ

കൂടുതല്‍ അക്ഷരങ്ങള്‍ എടുക്കുക

സംസാരത്തിന്‍റെ കാര്യത്തിൽ ഐഐ (II) പാഠങ്ങൾ

പ്രൊഫഷണല്‍-വിദഗ്ദ്ധമായ മൂന്നു പടികളില്‍ നിര്‍മ്മിക്കുക. സാങ്കേതികമായ അറിവില്ല.

സ്റ്റെപ്പ് 1

പാഠം നല്‍കുക

ടൈപ്പ്, ഒട്ടിക്കുക, അല്ലെങ്കില്‍ നിങ്ങള്‍ക്കു് സംസാരരീതിയിലാക്കാന്‍ ഇഷ്ടമുള്ള പദാവലി അപ്‌ലോഡ് ചെയ്യുക. ലോഗ് ചെയ്യാന്‍ ഓരോ തലമുറയിലും 5,000 അക്ഷരങ്ങള്‍ ചേര്‍ക്കുന്നു. കൂടുതല്‍ ഉച്ചാരണം, കൂടുതല്‍ ഉച്ചാരണം, അമര്‍ത്തല്‍ എന്നിവയ്ക്കായി എസ്എസ്എംഎംഎല്‍ ടാഗുകള്‍ ചേര്‍ക്കുക അല്ലെങ്കില്‍ SSML ടാഗുകള്‍ ചേര്‍ക്കുക.

സ്റ്റെപ്പ് 2

മോഡല്‍ & ശബ്ദം തെരഞ്ഞെടുക്കുക

മൂന്നു സ്ലേറ്റുകളുടെ കൂടെയുള്ള 20+A മോഡലുകള്‍ തെരഞ്ഞെടുക്കുക. നിങ്ങളുടെ ഉള്ളടക്കം, ലക്ഷ്യ‌‌ ഭാഷ തെരഞ്ഞെടുക്കുക, റെക്കോഡ് വേഗത, 0. 0x മുതല്‍ 2. 0x വരെ മാറ്റുക, നിങ്ങള്‍ക്കിഷ്ടപ്പെട്ട ഔട്ട്പുട്ട് ഫോര്‍മാറ്റ് (MMP3, OAV, OGC, FLC) തെരഞ്ഞെടുക്കുക.

സ്റ്റെപ്പ് 3

ഡൌണ്‍ലോട് & സൃഷ്ടിയ്ക്കുക

നിങ്ങളുടെ ഓഡിയോ നിര്‍മ്മാണം ക്ലിക്ക് ചെയ്യുക. സെക്കന്‍ഡുകളില്‍ നിങ്ങളുടെ ഓഡിയോ സെക്കന്‍ഡുകളില്‍ തന്നെ തയ്യാറാക്കിയിരിയ്ക്കുന്നു. അച്ചടിച്ച കളിയുമായി മുന്‍കാഴ്ച, തെരഞ്ഞെടുത്ത രീതിയില്‍ ഡൌണ്‍ലോഡ് ചെയ്യുക അല്ലെങ്കില്‍ ഒരു പങ്കാളിത്ത കണ്ണി പകര്‍ത്തുക. സംക്രമീകരണത്തിനായി API ഉപയോഗിക്കുക.

വാക്കുകളുടെ ഉപയോഗ കേസുകള്‍ക്കുള്ള വാചകം

വര്‍ഷങ്ങള്‍ക്കുള്ളില്‍ ഓഡിയോ വിവരങ്ങള്‍ ഉണ്ടാക്കുന്ന രീതികള്‍ രൂപകല്പന ചെയ്യുന്നുണ്ട്.

ശബ്ദ പുസ്തകങ്ങള്‍

എല്ലാ പുസ്തകങ്ങളും സ്റ്റുഡിയോ- ഇന്‍റര്‍നാഷണല്‍ ഇന്‍റര്‍നാഷണല്‍ ഇന്‍റലിജന്‍സ് ആയി വേര്‍തിരിയ്ക്കുക. അക്ഷരങ്ങളുടെ സംഭാഷണത്തിനുള്ള പല്ലിഫോര്‍ഡര്‍ പിന്തുണ.

ചലച്ചിത്രശബ്ദങ്ങള്‍Name

യൂട്ടൂബ്, ടിക്ടോക്ക്, ഇന്‍സ്റ്റാറാം റെല്‍സുകള്‍, റീല്‍സ്. 100+ ശബ്ദം അല്ലെങ്കില്‍ സ്വയം ക്ലോക്ക് ചെയ്യുക.

പോസ്റ്റ്സ്പോര്‍ട്ടുകള്‍

ഒന്നിലധികം AI ശബ്ദങ്ങള്‍ ഉപയോഗിച്ച് സ്ക്രിപ്റ്റുകളില്‍ നിന്നുള്ള പോഡ്‌വര്‍ക്കിലുളള വിതരണങ്ങള്‍ നിര്‍മ്മിക്കുക. പ്രകൃതിയില്‍ രണ്ടു് ശബ്ദങ്ങള്‍ക്കു് Dia ഉപയോഗിക്കുക.

കളി

എൻപിസി സംവാദജാലകം, ഡിസൈനുകൾ, 30+ ഭാഷകൾ എന്നിവയ്ക്കായി അഭിനയിക്കുന്നു.

ഇ- പഠിപ്പിക്കല്‍

സാങ്കേതിക ഉപകരണങ്ങള്‍, പ്രസംഗങ്ങള്‍, പരിശീലനം എന്നിവ ഓഡിയോകളായി മാറ്റുക. ആഗോള പ്ലാറ്റ്ഫോമിനുള്ള അനവധി ഭാഷാ പിന്തുണ.

സാമീപ്യത

വെബ്ബ്, രേഖകള്‍, ആപ്ലാസ് എന്നിവ പ്രവര്‍ത്തിപ്പിയ്ക്കുക. സ്ക്രീന്‍ വായനാ നിര്‍ണ്ണയം, ലേഖന-അടിസ്ഥാനം എന്നിവയില്‍ നിന്നും മാറ്റുന്നു.

IVR & ഫോണ്‍ സിസ്റ്റങ്ങള്‍Name

IVIVR സിസ്റ്റം, ഫോണ്‍ മെനസ്, കസ്റ്റമര്‍ സര്‍വീസ്. കോള്‍ സെന്‍സുകള്‍ക്കായി താഴേക്ക് നീന്തുന്നു.

സോഷ്യൽ മാധ്യമങ്ങൾ

Tiktoktaphics, ഇന്‍സ്റ്റാറം റെല്‍സ്, ട്വിറ്റര്‍/എക്സ് ചര്‍ച്ച്, യൂട്ടൂബ് ഷോര്‍ട്ടുകള്‍. വേഗം, സ്വതന്ത്ര മോഡലുകള്‍.

സ്ട്രീമിങ്

TVTS മുന്നറിയിപ്പുകള്‍, ചാറ്റ്-ഫോള്‍ട്ട്, AI കോ-hosts, ഡിസ്ഡോര്‍ഡ് ബോള്‍സ്. കുറവ്, 100+ ശബ്ദം, സ്ട്രീംമെയില്‍സ് പൊരുത്തപ്പെടുന്നു.

വിപണനം

അഡ്‌വെയർസ്‌, വീഡിയോകൾ, ഉത്‌പന്നങ്ങൾ ഡീമോസ്‌, ശസ്‌ത്രക്രിയകൾ എന്നിവയെ കുറിച്ച് വിശകലനം ചെയ്യുക.

ഡബ്ബിങ് & പ്രാദേശികവല്‍ക്കരണം

30+ ഭാഷകളില്‍ ശബ്ദവുമായി ചേരുന്ന AI. സ്വയം- വിച്ഛേദനം, പ്രസംഗക കണ്ടെത്തല്‍ എന്നിവയില്‍ പരിഭാഷപ്പെടുത്തുക.

ധ്യാനവും സൗന്ദര്യവും

അത്‌ എങ്ങനെയാണു സംഭവിക്കുന്നത്‌?

എല്ലാ അക്ഷരങ്ങളും & പണിയായുധങ്ങളും കാണുക

എല്ലാ പദാവലിയും സംസാര മോഡലുകളിലേക്കു്

Detailed specifications for every AI model available on TTS.ai. Compare quality, speed, language support, and features to find the perfect model for your project.

Kokoro

Free

കൊക്കോറോ ഒരു 82 ദശലക്ഷം പരാമീറ്റര്‍ ടെക്സ്റ്റുകള്‍ക്കുള്ള ടെക്സ്റ്റുകള്‍ ആണ്. തൂക്കത്തില്‍ കൂടുതല്‍ കൂടുന്ന ഒരു ചെറിയ അക്ഷരം ഉണ്ടെങ്കില്‍, അത് വളരെ സ്വാഭാവികവും വര്‍ദ്ധിപ്പിക്കുന്ന സംസാരം ഉല്‍പാദിപ്പിക്കുന്നു. കോക്കോറോ ഇംഗ്ലീഷ്, ജപ്പനീസ്, ചൈനീസ്, കൊറിയന്‍ തുടങ്ങിയ പല ഭാഷകള്‍ക്കു പിന്തുണ ചെയ്യുന്നു. വളരെ വേഗത്തില്‍ അത് GPU-സമയത്ത് പ്രവര്‍ത്തിക്കുന്നതിലും വേഗത്തില്‍ പ്രവര്‍ത്തിക്കുന്നു.

രചയിതാവു്::
Hexgrad

അനുമതി::
Apache 2.0

വേഗത:
Fast

നിലവാരം::

ഭാഷകള്‍:
en, ja, zh, ko, fr, de, it, pt, es, hi, ru

വാറം:
1.5GB

ശബ്ദ ക്ളൈനിങ്ങ്:
ഇല്ല

1 കെ അക്ഷരങ്ങളുടെ വില:
ഫ്രീ

82M പരാമീറ്ററുകള്‍ അള്‍ട്ര- വേഗത്തില്‍ ശബ്ദങ്ങൾ മള്‍ട്ടിപ്പിള്‍ സ്റ്റ്രീമിനുള്ള പിന്തുണ

ഏറ്റവും നല്ല സ്കോര്‍:: വളരെ കുറഞ്ഞ ലോഞ്ച്, സ്റ്റ്രീം പ്രയോഗങ്ങളുള്ള ഉയര്‍ന്ന ടിടിഎസ്Name

ശ്രമിക്കൂ Kokoro

Piper

Free

പിപ്പര്‍, VITS and Lystempy and Ids and Is and Lystem Strints- ല്‍ നിര്‍മ്മിച്ച ഭാരം കുറഞ്ഞ ടെക്സ്റ്റ് എഞ്ചിന്‍ ആണ്. ഇതു് പൂര്‍ണ്ണമായും CPU- യില്‍ പ്രവര്‍ത്തനസജ്ജമാക്കുന്നു. മോര്‍ന്ന ഉപകരണങ്ങള്‍, ഹോം-നൈമാറ്റം, പ്രയോഗങ്ങള്‍ക്ക് ഓണ്‍ലിറ്റില്‍ ആവശ്യമുളള ഉപകരണങ്ങള്‍. 30+-ല്‍ കൂടുതല്‍ ശബ്ദങ്ങള്‍ ഉള്ളതിനാല്‍, ഒരു റാസ്പെറിബെറി 4-ല്‍ ശബ്ദോപൈന്‍ വേഗതയില്‍, പാപ്പര്‍ പ്രവര്‍ത്തിപ്പിക്കുന്നു.

രചയിതാവു്::
Rhasspy

അനുമതി::
MIT

വേഗത:
Fast

നിലവാരം::

ഭാഷകള്‍:
en, de, fr, es, it, pt, nl, pl, ru, zh, ja, ko, ar, cs, da, fi, el, hu, is, ka, kk, ne, no, ro, sk, sr, sv, sw, tr, uk, vi

വാറം:
0 (CPU only)

ശബ്ദ ക്ളൈനിങ്ങ്:
ഇല്ല

1 കെ അക്ഷരങ്ങളുടെ വില:
ഫ്രീ

സിപിയു- സൌഹൃദം ഓഫ്‌ലൈന്‍ സാധ്യമാണു് 100+ ശബ്ദങ്ങള്‍ 30+ ഭാഷകള്‍Name എസ്എസ്എംഎല്‍ പിന്തുണ

ഏറ്റവും നല്ല സ്കോര്‍:: ത്വരിതപ്പെടുത്തല്‍, ആക്സസിബിളിറ്റി, എംബഡ് ചെയ്ത പ്രയോഗങ്ങള്‍

ശ്രമിക്കൂ Piper

VITS

Free

VITS (അന്ത്യ-ഘടകത്തില്‍ നിന്ന് വായിക്കാന്‍ പഠിക്കല്‍) ഒരു സമാന്തര രീതിയാണ്. അത്, ഇപ്പോഴത്തെ രണ്ട് കേന്ദ്ര മോഡലുകള്‍ക്കപ്പുറം പ്രകൃതിയിലെ ശബ്ദോപകരണങ്ങള്‍ ഉണ്ടാക്കുന്ന ശബ്ദ രീതിയാണ്. അപ്പോള്‍, പരമ്പരാഗത പരിവര്‍ത്തനം, പരമ്പരാഗികമായ പരിശീലന പ്രക്രിയകള്‍, പ്രകൃതിയില്‍ ശ്രദ്ധേയമായ പുരോഗതി നേടുന്നു.

രചയിതാവു്::
Jaehyeon Kim et al.

അനുമതി::
MIT

വേഗത:
Fast

നിലവാരം::

ഭാഷകള്‍:
en, zh, ja, ko

വാറം:
1GB

ശബ്ദ ക്ളൈനിങ്ങ്:
ഇല്ല

1 കെ അക്ഷരങ്ങളുടെ വില:
ഫ്രീ

അവസാന-ഘടകത്തില്‍ നിന്നും സിന്‍റ്റാസിസ് നാച്ചുറല്‍ പ്രൊജക്ട് വേഗത്തില്‍ അനവധി സംസാരകര്‍

ഏറ്റവും നല്ല സ്കോര്‍:: സാധാരണ ടെക്സ്റ്റില്‍ നിന്നും സ്വാഭാവികമായ സംയോജകങ്ങളുമായി പ്രവര്‍ത്തിപ്പിയ്ക്കുക

ശ്രമിക്കൂ VITS

MeloTTS

Free

Mylottts ആണ് ഇംഗ്ലീഷ്, ബ്രിട്ടീഷ്, ബ്രിട്ടീഷ്, ഓസ്ട്രേലിയ, സ്പാനിഷ്, ചൈനീസ്, ചൈനീസ്, കൊറിയന് പിന്തുണയുള്ള ഒരു ബഹുഭാഷാ ലൈബ്രറി. സിപിയു-ടൈം-ടൈം-ടൈം വേഗതക്കു സമീപത്തുള്ള പാഠം വളരെ വേഗത്തില്‍ പ്രവര്‍ത്തിക്കുന്നു.

രചയിതാവു്::
MyShell.ai

അനുമതി::
MIT

വേഗത:
Fast

നിലവാരം::

ഭാഷകള്‍:
en, es, fr, zh, ja, ko

വാറം:
0.5GB (GPU optional)

ശബ്ദ ക്ളൈനിങ്ങ്:
ഇല്ല

1 കെ അക്ഷരങ്ങളുടെ വില:
ഫ്രീ

സിപിയു- പ്രാവര്‍ത്തികമാക്കല്‍ മള്‍ട്ടിപ്പിള്‍ അനവധി ആവര്‍ത്തനങ്ങള്‍ പ്രവര്‍ത്തനസജ്ജം കുറഞ്ഞ ലാറ്റന്‍സി

ഏറ്റവും നല്ല സ്കോര്‍:: വേഗത്തില്‍, ബഹുഭാഷാ TTS ആവശ്യമുളള പ്രയോഗങ്ങള്‍ ഉല്‍പാദിപ്പിക്കുന്നു

ശ്രമിക്കൂ MeloTTS

Bark

Standard

സണ്‍ബോയുടെ ബാര്‍ ഒരു പരിഷ്കരിക്കുന്ന ടെക്സ്റ്റ് മോഡല്‍ ആണ്. ഇത് വളരെ സാങ്കേതികവും വര്‍ദ്ധനവുമായുള്ള സംസാരം, വര്‍ദ്ധന, പശ്ചാത്തല ശബ്ദം, ശബ്ദങ്ങള്‍ തുടങ്ങിയ ശബ്ദങ്ങള്‍ ഉണ്ടാക്കാന്‍ കഴിയും. ഇത് ചിരി, നെടുവീര്‍പ്പിടല്‍, കരച്ച എന്നിവപോലുള്ള നാവിക സന്ദേശങ്ങള്‍ ഉല്‍പാദിപ്പിക്കാന്‍ കഴിയും. ബാര്‍ക്ക് 100- ലക്കങ്ങള്‍ക്കും 13+ ഭാഷകള്‍ക്കും കൂടുതല്‍ പിന്തുണ നല്‍കാന്‍ കഴിയും.

രചയിതാവു്::
Suno

അനുമതി::
MIT

വേഗത:
Slow

നിലവാരം::

ഭാഷകള്‍:
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr

വാറം:
5GB

ശബ്ദ ക്ളൈനിങ്ങ്:
ഇല്ല

1 കെ അക്ഷരങ്ങളുടെ വില:
2x

ശബ്ദ പ്രഭാവങ്ങള്‍ ചിരി/തുറക്കുക സംഗീതത്തിന്റെ ഉല്‍പ്പന്നംName 100+ സംസാരകര്‍ മള്‍ട്ടിപ്പിള്‍

ഏറ്റവും നല്ല സ്കോര്‍:: വികാരങ്ങളും ശബ്ദങ്ങളും ഉള്ള ഓഡിയോ പുസ്തകങ്ങള്‍ നിര്‍മ്മിക്കുക

ശ്രമിക്കൂ Bark

Bark Small

Standard

ബാര്‍ക്ക് ചെറുതാണു് ബാര്‍ക്ക് മോഡലിന്‍റെ ദ്രാവകം. ചില ഓഡിയോ ഗുണങ്ങള്‍ വേഗത്തിലും, ഓര്‍മ്മകളുടെ ആവശ്യങ്ങള്‍ കുറയ്ക്കുന്നു. വികാരങ്ങളാലും, ചിരിയാലും, പല ഭാഷകളാലും സംസാരം സൃഷ്ടിക്കാനുള്ള കഴിവ് ഇതു നിലനിറുത്തുന്നു.

രചയിതാവു്::
Suno

അനുമതി::
MIT

വേഗത:
Medium

നിലവാരം::

ഭാഷകള്‍:
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr

വാറം:
2GB

ശബ്ദ ക്ളൈനിങ്ങ്:
ഇല്ല

1 കെ അക്ഷരങ്ങളുടെ വില:
2x

ഇളം ഭാരം ഫുള്‍ ബാര്‍ക്കിനെക്കാള്‍ വേഗത്തില്‍ ഹൃദയസ്‌പർശിയായ സംസാരം മള്‍ട്ടിപ്പിള്‍

ഏറ്റവും നല്ല സ്കോര്‍:: പൂര്‍ണ്ണമായും ബാര്‍ക്ക് വളരെ വേഗതയില്‍ ആയിരിക്കുമ്പോള്‍ ത്വരിതഗതിയിലുള്ള ഓഡിയോ ഓഡിയോ

ശ്രമിക്കൂ Bark Small

CosyVoice 2

Standard

"കോസിയോയിസ്" (Cosyoses), ടോങ്ബാബ 2 ടോങ്ബയ്യ്ക്കിയുടെ ക്യാപ്റ്റന്‍ ഭാഷയില്‍ മനുഷ്യന്‍റെ അപൂര്‍വ്വമായ ലാബിനെ നിര്‍ബന്ധപൂര്‍വ്വമായ ഭാഷാഗുണം നേടിയെടുക്കുന്നു. ഇത് യഥാര്‍ത്ഥ സമയ പ്രയോഗങ്ങള്‍ക്ക് അനുയോജ്യമാക്കുന്നു. ഇത് "ഇന്‍സെന്‍സ്" (Sinty) എന്ന സങ്കര്‍ച്ച" (Syints) എന്ന സങ്കര്‍ച്ചയെ പിന്‍വലിപ്പിക്കാന്‍ ഉപയോഗിക്കുന്നു.

രചയിതാവു്::
Alibaba (Tongyi Lab)

അനുമതി::
Apache 2.0

വേഗത:
Medium

നിലവാരം::

ഭാഷകള്‍:
en, zh, ja, ko, fr, de, it, es

വാറം:
4GB

ശബ്ദ ക്ളൈനിങ്ങ്:
അതെ

1 കെ അക്ഷരങ്ങളുടെ വില:
2x

സ്ട്രീമിങ് സീറോ- ഹോട്ട് ക്ലോണ്‍ ക്രോസ്സ്- ഇനം കമ്പ്യൂട്ടര്‍ നിയന്ത്രണം മനുഷ്യ-പങ്കാളി

ഏറ്റവും നല്ല സ്കോര്‍:: ശരിയായ പ്രയോഗങ്ങള്‍, ടിടിഎസ് നീക്കുന്നു, ശബ്ദസഹായികള്‍

ശ്രമിക്കൂ CosyVoice 2

Dia TTS

Standard

'നാറി ലാബ്സ്' ഉപയോഗിച്ചു് ഒരു 1.6B പരാമീറ്റര്‍ വര്‍ദ്ധനത്തിനുള്ള മാതൃകയാണ്. ഒന്നില്‍ കൂടുതല്‍ ശബ്ദ സംവാദങ്ങള്‍ നിര്‍മ്മിക്കുന്നതിനുളള ഒരു ഫയല്‍- മെസ്സേജ് നിര്‍മ്മിച്ചിട്ടുള്ളതു്. ഇതു് രണ്ട് സംസാരക്കാര്‍ തമ്മില്‍ ശരിയായ ഇടവേള, പ്രൊസസ്സിങ്, പ്രോസോഡി, വൈകാരിക ഭാവങ്ങള്‍ എന്നിവയുമായി സമ്പര്‍ക്കത്തില്‍ സംവാദങ്ങള്‍ ഉണ്ടാക്കാന്‍ സാധിക്കുന്നു. ഡിയ അനുയോജ്യമാണ് സ്പാനിഷ്- ശൈലികള്‍, ഓഡിയോപുസ്തകങ്ങള്‍, ഇന്റര്‍ ಸಂಭಾಷಣೆകള്‍ എന്നിവ നിര്‍മ്മിക്കുന്നത്, ഇന്ററാക്റ്റല്‍ സംഭാഷണം എന്നിവ നിര്‍മ്മിക്കുന്നത്.

രചയിതാവു്::
Nari Labs

അനുമതി::
Apache 2.0

വേഗത:
Medium

നിലവാരം::

ഭാഷകള്‍:
en

വാറം:
4GB

ശബ്ദ ക്ളൈനിങ്ങ്:
ഇല്ല

1 കെ അക്ഷരങ്ങളുടെ വില:
2x

മള്‍ട്ടി- സ്പ്രെറ്റര്‍ ഡയലോഗ് ഉല്‍പാദിപ്പിക്കുന്നുComment നാച്ചുറല്‍ തിരിച്ചു് കടക്കുക വൈകാരികമായ ഭാവം 160ബി പരാമീറ്ററുകള്‍

ഏറ്റവും നല്ല സ്കോര്‍:: പോളിഷ്, ഓഡിയോപുസ്തകങ്ങളുടെ ഡയലോഗുകള്‍, വര്‍ത്തമാനം

ശ്രമിക്കൂ Dia TTS

Parler TTS

Standard

പാര്‍ലര്‍ ടിടിഎസ് എന്നത് ഒരു സാധാരണ ഭാഷാ വിവരണങ്ങള്‍ ഉപയോഗിച്ച് നിര്‍മ്മിച്ച സംസാരം നിയന്ത്രിക്കുന്നു. നിങ്ങള്‍ ശബ്ദങ്ങള്‍ തെരഞ്ഞെടുക്കുന്നതിനു് പകരം, നിങ്ങള്‍ ഒരു ചെറിയ ബ്രിട്ടീഷ് ഉച്ചാരണം ഉപയോഗിച്ചു് (ഉദാര്‍ത്ഥമായി സംസാരിക്കുന്നു), പാര്‍ലര്‍ ആ വിവരണവുമായി പൊരുത്തപ്പെടുത്തുന്നു. ഇത് നിര്‍മ്മാണ പ്രയോഗങ്ങള്‍ക്ക് അനുയോജ്യമാക്കുന്നു.

രചയിതാവു്::
Hugging Face

അനുമതി::
Apache 2.0

വേഗത:
Medium

നിലവാരം::

ഭാഷകള്‍:
en

വാറം:
4GB

ശബ്ദ ക്ളൈനിങ്ങ്:
ഇല്ല

1 കെ അക്ഷരങ്ങളുടെ വില:
2x

ശബ്ദവിവരണം സാധാരണ ഭാഷാ നിയന്ത്രണം മാറ്റാവുന്ന ശബ്ദസൃഷ്ടി ശബ്ദങ്ങള്‍ വേണ്ട

ഏറ്റവും നല്ല സ്കോര്‍:: നിങ്ങള്‍ക്കു് ഇഷ്ടമുള്ള ശബ്ദങ്ങളുടെ വിശേഷതകള്‍ ആവശ്യമുള്ള സൃഷ്ടിയ്ക്കുന്ന പ്രയോഗങ്ങള്‍Name

ശ്രമിക്കൂ Parler TTS

GLM-TTS

Standard

Shipa AI- ന്റെ GLM-TTS ഒരു ലേഖന- വായനാ സിസ്റ്റം ആണ്. ലാമാ- വായനാ നിര്‍മ്മാണ സംവിധാനത്തില്‍ ചേര്‍ച്ചയേറിയ ഒരു ലേഖന- വായനാ നിര്‍മ്മാണ വ്യവസ്ഥയാണ്. അതു് ഏറ്റവും കൃത്യമായ ഉച്ചാരണം ഉല്‍പാദിപ്പിക്കുന്നു. glM-TS ഇംഗ്ലീഷ്, ഇംഗ്ലീഷ്‌, ചൈനീസ് 3- 10 സെക്കന്‍ഡറുകളില്‍ നിന്നുള്ള ശബ്ദസഞ്ചയങ്ങള്‍ ഉപയോഗിച്ച് പിന്‍വലിക്കുന്നു.

രചയിതാവു്::
Zhipu AI

അനുമതി::
GLM-4 License

വേഗത:
Medium

നിലവാരം::

ഭാഷകള്‍:
en, zh

വാറം:
4GB

ശബ്ദ ക്ളൈനിങ്ങ്:
അതെ

1 കെ അക്ഷരങ്ങളുടെ വില:
2x

ഏറ്റവും കുറഞ്ഞ പിശകിന്റെ നിരക്ക് ശബ്ദമിശ്രണോപാധി പാറ്റേണ്‍ ചെയ്തവComment നാച്ചുറല്‍ പ്രൊജക്ട്

ഏറ്റവും നല്ല സ്കോര്‍:: പ്രയോഗങ്ങള്‍ക്കു് കൂടിയ ഉളള ഉച്ചാരണം ആവശ്യമാണു്

ശ്രമിക്കൂ GLM-TTS

IndexTTS-2

Standard

ExtTS- 2 ആണ് ഒരു പുരോഗമിച്ച ടെക്സ്റ്റ്- ലേഖന സിസ്റ്റം. അത് പൂജ്യം- ഹോട്ട്-ടൈന്‍ ശബ്ദ നിയന്ത്രണത്തില്‍ മികച്ച വികാര നിയന്ത്രണം ഉള്ളതാണ്. ഇതു് ചില വികാരവിനിമയങ്ങളുമായി സംസാരം സൃഷ്ട്ടിക്കുന്നത് സന്തോഷവും, ശോചനവും, ശോചനവും, ശോചനീയവുമായ പരിശീലന വിവരങ്ങള്‍ ഇല്ലാത്തവര്‍ക്കായിയോ ഭയാദകരവുമായ സംസാരം സൃഷ്ടിക്കും. ആ മാതൃക നിര്‍മ്മിച്ച സംസാരത്തിന്റെ വികാരപ്രകടനത്തെ കൃത്യമായി നിയന്ത്രിക്കാന്‍ വെക്സറുകള്‍ ഉപയോഗിക്കുന്നു.

രചയിതാവു്::
Index Team

അനുമതി::
Bilibili Model License

വേഗത:
Medium

നിലവാരം::

ഭാഷകള്‍:
en, zh

വാറം:
4GB

ശബ്ദ ക്ളൈനിങ്ങ്:
അതെ

1 കെ അക്ഷരങ്ങളുടെ വില:
2x

കമ്പ്യൂട്ടര്‍ നിയന്ത്രണം സീറോ- ഹോട്ട് എമുലേറ്റര്‍ വെക്ടര്‍സ് ക്രിയാത്മകമായ സംസാരം നല്ല നിയന്ത്രിത നിയന്ത്രണം

ഏറ്റവും നല്ല സ്കോര്‍:: വികാരചിഹ്നങ്ങള്‍ പ്രകാശിതമാക്കല്‍, ഓഡിയോ പുസ്തകങ്ങള്‍, വിര്‍ച്ച്വല്‍ സഹായികള്‍Name

ശ്രമിക്കൂ IndexTTS-2

Spark TTS

Standard

ആര്‍ടിഎസ് ഓഡിയോ ഉപയോഗിച്ചു് സ്കോട്ട് ചെയ്യാവുന്ന ഒരു ലേഖന- വായനാ മോഡല്‍ ആണ് അത് ശബ്ദത്തെ നിയന്ത്രിക്കാന്‍ കഴിയുന്ന വികാരവും സംസാരരീതിയുമായി കൂട്ടിചേര്‍ക്കുന്നു. കുറിപ്പ് ഓഡിയോ ഉപയോഗിച്ചു് 5 സെക്കന്‍റുകളോളം ശബ്ദത്തില്‍ മോണിറ്റര്‍ ആവര്‍ത്തിക്കുകയും, ശീര്‍ഷകങ്ങളോടെയും, ശൈലികളാല്‍ സംസാരം നിര്‍മ്മിക്കുകയും ചെയ്യും. StTS പ്ലെയിസ് ആക്ടിക്കല്‍ നിയന്ത്രണ സിസ്റ്റം ഉപയോഗിയ്ക്കുന്നു.

രചയിതാവു്::
SparkAudio

അനുമതി::
CC BY-NC-SA 4.0

വേഗത:
Medium

നിലവാരം::

ഭാഷകള്‍:
en, zh

വാറം:
4GB

ശബ്ദ ക്ളൈനിങ്ങ്:
അതെ

1 കെ അക്ഷരങ്ങളുടെ വില:
2x

ശബ്ദമിശ്രണോപാധി കമ്പ്യൂട്ടര്‍ നിയന്ത്രണം ശൈലിയുടെ നിയന്ത്രണം ഉറപ്പ് വരുത്തല്‍ പ്രാവര്‍ത്തികമാക്കുക 5- സെക്കന്റ് ക്ളൈന്‍

ഏറ്റവും നല്ല സ്കോര്‍:: ഉള്ളടക്കത്തിന്റെ സൃഷ്ടിയില്‍ ക്ലോണ്‍ഡ് ശബ്ദവും വൈകാരിക നിയന്ത്രണവും

ശ്രമിക്കൂ Spark TTS

GPT-SoVITS

Standard

GPT- സോടിവിഎസ് GPT- സോപ്- സ്റ്റൈല്‍ ഭാഷാ ക്രമം ചേര്‍ക്കുന്നു (സങ്കീര്‍ത്തനം) ശക്തിയേറിയ ഏതാനും ഫോറന്‍സിലിങ്ങുകള്‍ക്കു് സിന്‍സെന്‍ഫോര്‍സ് (സംഗീറ്റിങ് സിന്‍സെന്‍സിസ്) ശക്തിയേറിയ ചില ശബ്ദങ്ങള്‍ ഉപയോഗിച്ചു് സിന്‍സെന്‍സിസിസിസ് (സ്പീലിങ് ശബ്ദസങ്കലനം). ഇത് 5 സെക്കന്‍ഡ് ശബ്ദങ്ങള്‍ പോലെ തന്നെ, സംസാരത്തിന്‍റെ പ്രത്യേക വിശേഷതകള്‍ സൂക്ഷിക്കുമ്പോള്‍ പുതിയ ശബ്ദവും നിര്‍മ്മിക്കാന്‍ കഴിയും. ഇതു് സംസാരത്തിന്‍റെയും ശബ്ദത്തിന്‍റെയും ശബ്ദത്തിന്‍റെ ശബ്ദത്തിന്‍റെ സിന്‍റെ സജ്ജമാക്കുവാന്‍ കഴിയും.

രചയിതാവു്::
RVC-Boss

അനുമതി::
MIT

വേഗത:
Slow

നിലവാരം::

ഭാഷകള്‍:
en, zh, ja, ko

വാറം:
6GB

ശബ്ദ ക്ളൈനിങ്ങ്:
അതെ

1 കെ അക്ഷരങ്ങളുടെ വില:
2x

5- സെക്കന്റ് ക്ളൈന്‍ പാട്ടുപാടുന്ന ശബ്ദം അല്പം-ചുറ്റില്‍ പഠിക്കല്‍ വളരെ വിശ്വസ്‌തത ക്രോസ്സ്- ഇനം

ഏറ്റവും നല്ല സ്കോര്‍:: ശബ്ദമിശ്രണോപാധി, സിനിത്തസിസ് പാട്ട്, ഉള്ളടക്കമുള്ള ശബ്ദങ്ങള്‍ പുനര്‍നിര്‍മ്മാണം

ശ്രമിക്കൂ GPT-SoVITS

Orpheus

Standard

ഓര്‍ഫിയസിന് മനുഷ്യതലത്തിലെ വൈകാരിക ഭാവം നേടുന്ന ഒരു വലിയ ടെക്സ്റ്റിന്റെ മാതൃകയാണ്. 100,000 മണിക്കൂറില്‍ കൂടുതല്‍ വ്യത്യസ്തമായ ഭാഷാവിവരങ്ങള്‍ക്ക് പരിശീലനം നല്‍കുമ്പോള്‍, സ്വാഭാവിക വികാരങ്ങളോടും, ഊന്നല്‍യോടും, സംസാരരീതിയോടും കൂടി സംസാരരീതികളോടും കൂടിയ സംസാരം വികസിപ്പിച്ചെടുക്കാന്‍ കഴിയും. ഓര്‍ഫിയസിന്, മനുഷ്യന്റെ റെക്കോര്‍ഡുകളില്‍ നിന്നും വളരെ വിപുലമായ സംസാരം ഉണ്ടാക്കാന്‍ കഴിയും.

രചയിതാവു്::
Canopy Labs

അനുമതി::
Llama 3.2 Community

വേഗത:
Medium

നിലവാരം::

ഭാഷകള്‍:
en

വാറം:
4GB

ശബ്ദ ക്ളൈനിങ്ങ്:
ഇല്ല

1 കെ അക്ഷരങ്ങളുടെ വില:
2x

മനുഷ്യന്റെ തലച്ചോറിന്‍റെ വികാരം 100K മണിക്കൂര്‍ പരിശീലനം സാധാരണ മർമപ്രധാനമായ ക്രിയാത്മകമായ സംസാരം

ഏറ്റവും നല്ല സ്കോര്‍:: ഉയര്‍ന്ന വികാരപ്രവര്‍ത്തനം, ശബ്ദങ്ങള്‍, ശബ്ദങ്ങള്‍, പ്രവര്‍ത്തനംName

ശ്രമിക്കൂ Orpheus

Chatterbox

Premium

റെസ്പര്‍ച്ചര്‍ ബോക്സ് റെസ്ലിള്‍ എഡ്ജെറ്റ്- ഹോട്ട്- ഹോട്ട് സ്റ്റൈല്‍ മോഡല്‍ ആണ്. ഇതു് ഏതെങ്കിലും ശബ്ദത്തെ കൃത്യതയോടെ സജ്ജീകരിക്കാന്‍ കഴിയും. ഇതു് ഒരു റെമിബ്രേരി മാത്രമല്ല സംസാരരീതിയും വൈകാരിക വൈദഗ്ധ്യങ്ങളും കൂടി സജ്ജീകരിക്കും. സല്ലാപകരമായ വികാരനിയന്ത്രണവും സജ്ജീകരിക്കുന്നു, ശബ്ദത്തിന്റെ സ്വയമായ ശബ്ദത്തിന്റെ സ്വരം മാറ്റാന്‍ നിങ്ങളെ അനുവദിക്കുന്നു.

രചയിതാവു്::
Resemble AI

അനുമതി::
MIT

വേഗത:
Medium

നിലവാരം::

ഭാഷകള്‍:
en

വാറം:
4GB

ശബ്ദ ക്ളൈനിങ്ങ്:
അതെ

1 കെ അക്ഷരങ്ങളുടെ വില:
4x

സീറോ- ഹോട്ട് ക്ലോണ്‍ കമ്പ്യൂട്ടര്‍ നിയന്ത്രണം വളരെ വിശ്വസ്‌തത ശൈലി കൈമാറ്റം ഒറ്റ സാമ്പിള്‍ ക്ളൈന്‍സ്

ഏറ്റവും നല്ല സ്കോര്‍:: വിദഗ്‌ധമായ ശബ്ദമിശ്രണോപാധികൾ വൈകാരിക നിയന്ത്രണവും തൃപ്‌തികരമായ സൃഷ്ടിയും

ശ്രമിക്കൂ Chatterbox

Tortoise TTS

Premium

TTS ഒരു യാന്ത്രിക- ശബ്ദ- വായനാ സംവിധാനം ആണ് വേഗത്തില്‍ ശബ്ദത്തിന്റെ ഗുണമേന്മ മുന്‍ഗണന നല്‍കുന്നത്. ഇതു് ഡാല്‍- എ എഇ സ്പെക്ട് സ്ക്രീനില്‍ ഏറ്റവും കൂടിയ പ്രകൃതിസങ്കീര്‍ പോലെയുള്ള സംസാരം നിര്‍മ്മിക്കാന്‍ ഡിസൈനര്‍ ഉപയോഗിക്കുന്നു. പല പകരങ്ങളെക്കാളും വേഗത കുറവാണെങ്കിലും, തുറന്ന സസ്തനിയില്‍ ഏറ്റവും സാങ്കേതികമായ ചില സാങ്കേതിക സംസാരം നിര്‍മ്മിക്കുന്നു.

രചയിതാവു്::
James Betker

അനുമതി::
Apache 2.0

വേഗത:
Slow

നിലവാരം::

ഭാഷകള്‍:
en

വാറം:
8GB

ശബ്ദ ക്ളൈനിങ്ങ്:
അതെ

1 കെ അക്ഷരങ്ങളുടെ വില:
4x

ഏറ്റവും കൂടിയ ഗുണമേന്മ മള്‍ട്ടി- റേഡിയന്‍ ഡാല്‍-ഇ കെട്ടിടം ശബ്ദമിശ്രണോപാധി സ്വയം സൂക്ഷിക്കല്‍

ഏറ്റവും നല്ല സ്കോര്‍:: ശബ്ദപുസ്തകങ്ങള്‍, അപ്ഡേറ്റ്, ഗുണമേന്മ- പ്രാരംഭ പ്രയോഗങ്ങള്‍

ശ്രമിക്കൂ Tortoise TTS

StyleTTS 2

Premium

സ്റ്റൈല്‍ടിടിഎസ് 2 മാനവ- ലെ ലെ ലെമെന്‍റ് ടിടിഎസ് സിന്‍സിസ് (TTTTS), വലിയ ഭാഷാസങ്കലന പരിശീലനം ഉപയോഗിച്ചു് ഡിഫ്യൂഷന്‍ ചേര്‍ക്കുന്നു. അതു് ഒരേ- വര്‍ത്തമാന മോഡലുകള്‍ ഉപയോഗിച്ചു് പൂര്‍ണ്ണമായ ശബ്ദോപകരണം ഉണ്ടാക്കുന്നു. സ്റ്റൈല്‍സ് 2 മനുഷ്യഭാഷാ വ്യ‌ത്യ‌‌നത്തിന്‍റെ മുഴുവന്‍ വ്യ‌‌ത്യ‌‌നവും കൈമാറ്റം നേടുന്നതിനായി ഡിഡിറ്റൂസൈന്‍സിന്‍ ശൈലി ഉപയോഗിക്കുന്നു.

രചയിതാവു്::
Columbia University

അനുമതി::
MIT

വേഗത:
Medium

നിലവാരം::

ഭാഷകള്‍:
en

വാറം:
4GB

ശബ്ദ ക്ളൈനിങ്ങ്:
ഇല്ല

1 കെ അക്ഷരങ്ങളുടെ വില:
4x

മനുഷ്യന്റെ നില ഫൈല്‍ ഡിഫ്യൂഷന്‍ നിയമപരമായ പരിശീലനം നാച്ചുറല്‍ വ്യ‌‌ത്യ‌‌സ്‌ വളരെ വിശ്വസ്‌തത

ഏറ്റവും നല്ല സ്കോര്‍:: സ്റ്റുഡിയോ- സ്റ്റുഡിയോ- ഏകപ്രവര്‍ത്തകന്‍ സിന്‍തിസ്, പ്രൊഫഷണല്‍ ചരിത്രം

ശ്രമിക്കൂ StyleTTS 2

OpenVoice

Premium

MyShell. ഓപ്പണ്‍Voice ഓപ്പണ്‍ വോയിസ്, ശബ്ദ നിയന്ത്രണം, വികാരം, താളം, ഓപ്പണ്‍, ഇടവേള, ആംഗ്യഭാഷ എന്നിവയുമായി ശബ്ദമിശ്രണോപാധികള്‍ സജ്ജീകരിക്കുന്നു. ഇതു് ഒരു ചെറിയ ഓഡിയോ ക്ളൈപ്പ് ക്ലിപ്, പല ഭാഷകളില്‍ നിന്നും ശബ്ദമുണ്ടാക്കുന്നു. ശബ്ദമിശ്രണം സൂക്ഷിക്കുന്നു. ശബ്ദമിശ്രണം മാറ്റാന്‍ അനുവദിക്കുന്നു, ശബ്ദക്രമം അനുവദിക്കുന്നു.

രചയിതാവു്::
MyShell.ai / MIT

അനുമതി::
MIT

വേഗത:
Medium

നിലവാരം::

ഭാഷകള്‍:
en, zh, ja, ko, fr, de, es, it

വാറം:
4GB

ശബ്ദ ക്ളൈനിങ്ങ്:
അതെ

1 കെ അക്ഷരങ്ങളുടെ വില:
4x

ഇന്‍സ്റ്റന്റ് ക്ലോണ്‍usa. kgm ശബ്ദം മാറ്റുന്നു കമ്പ്യൂട്ടര്‍ നിയന്ത്രണം കണ്‍ട്രോള്‍ കണ്ട്രോള്‍ മള്‍ട്ടിപ്പിള്‍

ഏറ്റവും നല്ല സ്കോര്‍:: നല്ല രീതിയിലുള്ള ശൈലിയുള്ള ശബ്ദചിഹ്നം, ശബ്ദം മാറ്റല്‍

ശ്രമിക്കൂ OpenVoice

Qwen3 TTS

Standard

ക്വെന്‍3-TS എന്നത് അലിബാ ക്വെന്‍ ടീമില്‍ നിന്നുള്ള 1.7 ബില്ല്യണ്‍ പരാമീറ്റര്‍ ടെക്സ്- മെഡിക്കല്‍ അലിബാ ക്വെന്‍ ടീമില്‍ നിന്നും. ഇതു് മൂന്നു രീതിയില്‍ പിന്തുണയ്ക്കുന്നു: കണ്‍സ്ട്രേഷന്‍ (വിവരം), ശബ്ദവിവരം, ശബ്ദത്തിന്റെ 3 സെക്കന്‍ഡുകളില്‍ നിന്നു് (9 സംസാരകര്‍), നിങ്ങള്‍ക്ക് സ്വാഭാവിക ഭാഷയില്‍ വിശദീകരിക്കുന്ന ഒരു അസാധാരണമായ ശബ്ദ രീതി. അത് 10 ഭാഷകളാല്‍, പ്രകൃതിയില്‍, പ്രകൃതിയില്‍, സ്വാഭാവികമായി പ്രവര്‍ത്തനസജ്ജം എന്നിവ ഉള്‍പ്പെടുന്നു.

രചയിതാവു്::
Alibaba (Qwen)

അനുമതി::
Apache 2.0

വേഗത:
Medium

നിലവാരം::

ഭാഷകള്‍:
en, zh, ja, ko, de, fr, ru, pt, es, it

വാറം:
7GB

ശബ്ദ ക്ളൈനിങ്ങ്:
അതെ

1 കെ അക്ഷരങ്ങളുടെ വില:
2x

ശബ്ദമിശ്രണോപാധി 9 പ്രാരംഭ ശബ്ദങ്ങൾ പദാവലിയില്‍ നിന്നു് ശബ്ദ ഘടന കമ്പ്യൂട്ടര്‍ നിയന്ത്രണം 10 ഭാഷകള്‍

ഏറ്റവും നല്ല സ്കോര്‍:: യഥേഷ്ടം ഉള്ളടക്കങ്ങള്‍ ക്ളൈന്‍ അല്ലെങ്കില്‍ യഥേഷ്ടം ശബ്ദ ഘടനയുപയോഗിച്ചു്

ശ്രമിക്കൂ Qwen3 TTS

Sesame CSM

Premium

സിഎസ്എം (സംഭാഷണഭാഷാ സംസാരം) സജ്ജീകരിക്കുന്നതിനുള്ള ഒരു ബില്യണ്‍ പരാമീറ്റര്‍ മോഡല്‍ ആണ്. ഇതു് സമയോപകരണങ്ങള്‍, പിന്‍ഭാഗത്തുള്ള പ്രതികരണങ്ങള്‍, വൈകാരിക പ്രതികരണങ്ങള്‍, സംഭാഷണങ്ങള്‍ എന്നിവ ഉള്‍ക്കൊള്ളുന്ന മനുഷ്യസഹജമായ സംഭാഷണരീതികള്‍ ഉള്‍ക്കൊള്ളുന്നു. സിഎസ്എം സൃഷ്ട്ടിക്കുന്ന ശബ്ദത്തിനു പകരം സ്വാഭാവികമായൊരു സംഭാഷണം പോലെയുള്ള ശബ്ദങ്ങള്‍ ഉണ്ടാക്കുന്നു.

രചയിതാവു്::
Sesame

അനുമതി::
Apache 2.0

വേഗത:
Slow

നിലവാരം::

ഭാഷകള്‍:
en

വാറം:
8GB

ശബ്ദ ക്ളൈനിങ്ങ്:
ഇല്ല

1 കെ അക്ഷരങ്ങളുടെ വില:
4x

വര്‍ത്തമാനം സാധാരണ സമയം പ്രവര്‍ത്തിപ്പിയ്ക്കുക പുറകോട്ട് ചാനല്‍ 1ബി പരാമീറ്ററുകള്‍

ഏറ്റവും നല്ല സ്കോര്‍:: AI സഹായികള്‍, ചാറ്റ്ബോട്ട്സ്, വര്‍ത്തമാനം AI പ്രയോഗങ്ങള്‍

ശ്രമിക്കൂ Sesame CSM

Chatterbox Turbo

Standard

ചാറ്റര്‍ബോ ട്രെയിലര്‍ ടര്‍ബോ, ചാറ്റല്‍ എയ്റ്റര്‍ എ-ഐ- ല്‍ നിന്നും ചാറ്റര്‍ബോയിലെ ഒരു 350M പരാമീറ്റര്‍ അപ്ഗ്രേഷന്‍ ആണ്. ഇതു് സബ്- ഡയറക്ടറി- മെഡിക്കല്‍ ഉപയോഗിച്ചു് 6x- സമയം വേഗത നല്‍കുന്നു. [k], [cap], നേരിട്ട് ടെക്സ്റ്റില്‍ ലഭ്യമാക്കിയ എല്ലാ ശബ്ദങ്ങളും ഉള്‍പ്പെടുത്തുന്നു.

രചയിതാവു്::
Resemble AI

അനുമതി::
MIT

വേഗത:
Fast

നിലവാരം::

ഭാഷകള്‍:
en

വാറം:
2GB

ശബ്ദ ക്ളൈനിങ്ങ്:
അതെ

1 കെ അക്ഷരങ്ങളുടെ വില:
2x

സബ്- ഡസ്കിന്‍സ് ലോണ്‍സി പാരനലിക്വിറ്റിക് തൊങ്ങല്‍ 6x യഥാര്‍ത്ഥ സമയം ശബ്ദമിശ്രണോപാധി ജലാംശം

ഏറ്റവും നല്ല സ്കോര്‍:: റിയല്‍ ടൈം ശബ്ദം ഏജന്റ്, സാധാരണ ശബ്ദങ്ങളോടെയുള്ള സംസാരം

ശ്രമിക്കൂ Chatterbox Turbo

Zonos

Standard

സോണോസ് v1. സോനോസ് vCE. സന്തോഷത്തിനും, കോപത്തിനും, ദുഃഖത്തിനും, വിസ്മയത്തിനും വേണ്ടിയുള്ള സ്ലൈഡറുകളുമായി ചേര്‍ക്കുന്ന ഒരു 160B പരാമീറ്റര്‍ മാതൃകയാണ്. അത് ഒരു പരിവര്‍ത്തനംകാരനും എസ്‌എസ്എം (കൂര്‍-സ്പെയിസ്) മാതൃകയും ഏര്‍പ്പാടും ഏര്‍പ്പാടില്‍ 200K++-ടൈല്‍ നിന്നും 1030 സെക്കന്‍ഡില്‍ നിന്ന് വോള്‍ഡ്-ടൈല്‍ ശബ്ദവിവരം നല്‍കുന്നു.

രചയിതാവു്::
Zyphra

അനുമതി::
Apache 2.0

വേഗത:
Medium

നിലവാരം::

ഭാഷകള്‍:
en, ja, zh, fr, de

വാറം:
6GB

ശബ്ദ ക്ളൈനിങ്ങ്:
അതെ

1 കെ അക്ഷരങ്ങളുടെ വില:
2x

കമ്പ്യൂട്ടര്‍ നിയന്ത്രണം ശബ്ദമിശ്രണോപാധി എസ്എസ്എം കെട്ടിടം മള്‍ട്ടിപ്പിള്‍ പിച്ച്/നിരക്കല്‍ നിയന്ത്രണം

ഏറ്റവും നല്ല സ്കോര്‍:: വികാരാധീനവും ശബ്ദ ഘടനാ സ്റ്റുഡിയോയുമായുള്ള ശബ്ദപ്രഭാഷണം

ശ്രമിക്കൂ Zonos

Dia 2

Standard

[S1] [S2], [S2] എന്നീ വര്‍ത്തമാനങ്ങള്‍ക്കുള്ള ഡയലോഗ് പിന്തുണക്കുന്നു.

രചയിതാവു്::
Nari Labs

അനുമതി::
Apache 2.0

വേഗത:
Fast

നിലവാരം::

ഭാഷകള്‍:
en

വാറം:
4GB

ശബ്ദ ക്ളൈനിങ്ങ്:
ഇല്ല

1 കെ അക്ഷരങ്ങളുടെ വില:
2x

ഔട്ട്പുട്ട് സ്റ്റ്രീമിങ് മള്‍ട്ടി- സ്പ്രെറ്റര്‍ കുറഞ്ഞ ലാറ്റന്‍സി പാരങ്കോഡിക് ക്വിസ് 2 മിനിറ്റ് വരെ ഔട്ട്പുട്ട്

ഏറ്റവും നല്ല സ്കോര്‍:: ശരിയായ ശബ്ദോപകരണങ്ങള്‍, ഡയലോഗ് ഉല്‍പാദിപ്പിക്കല്‍, ഒഴുക്കുന്ന പ്രയോഗങ്ങള്‍Name

ശ്രമിക്കൂ Dia 2

VoxCPM

Standard

ഓപ്പണ്‍ ബിഎംഎംഎംഐ 1. 1 എന്ന ഓപ്പണ്‍ ബിബിഎം ഉപയോഗിച്ചു് ഒരു നോവല്‍- ഫ്രീ ടിടിഎസ് മോഡല്‍ ആണു്, ഇതു് ഡിസ്ട്രേറ്റിറ്റിന്റെ ലക്ഷണങ്ങള്‍ക്ക് പകരം നിരന്തരം സ്പെയിസിലാണു്. ഇതു് ഹൈഫൈല്‍ ഓഡിയോ സജ്ജീകരിക്കുന്നു, 3- 10 സെക്കന്‍ഡുകളില്‍ നിന്നു്‍ നിന്നു് പൂജ്യമായ ശബ്ദങ്ങള്‍ സജ്ജീകരിക്കുന്നു, പിന്നെ ഇംഗ്ലീഷ് സംസാരത്തിനും ഇംഗ്ലീഷ് ശബ്ദത്തിനും നിങ്ങള്‍ക്ക് അനുയോജ്യമാവും നല്‍കുന്നു.

രചയിതാവു്::
OpenBMB

അനുമതി::
Apache 2.0

വേഗത:
Fast

നിലവാരം::

ഭാഷകള്‍:
en, zh

വാറം:
4GB

ശബ്ദ ക്ളൈനിങ്ങ്:
അതെ

1 കെ അക്ഷരങ്ങളുടെ വില:
2x

44.1khz ഓഡിയോ ടോക്കന്‍സി- ഫ്രീName ക്രോസ്സ്- ഇയല്‍ ക്ളൈന്‍new- zealand. kgm സന്ദര്‍ഭ- നിരീക്ഷകന്‍ ലോറ ഫുള്‍- ഇന്‍റിങ്

ഏറ്റവും നല്ല സ്കോര്‍:: ശബ്ദ- സംയോജകങ്ങള്‍, ഓഡിയോ പുസ്തകങ്ങള്‍, ശബ്ദത്തിന്റെ നീളം കൂടിയ ഫോര്‍മാറ്റ് എന്നിവ

ശ്രമിക്കൂ VoxCPM

OuteTTS

Free

പ്രത്യേ‌‌ക നിര്‍മ്മാണ കേന്ദ്രം സൂക്ഷിക്കുമ്പോള്‍, ടെക്സ്റ്റില്‍ നിന്നും ഇന്‍സ്റ്റാള്‍സുമായി വലിയ ഭാഷാമാലകള്‍ വിടുന്നു. Lama. Cc/ GPUP (CPU), ഹാന്‍ഡ് മോണിറ്ററുകള്‍ (എക്‌സിഎം), എക്‌എംഎംഎഫ്‌എഫ്‌വി‌വ്യൂ (എക്‌സി), വിന്യാസുകള്‍ (എക്‌എഫ്‌എഫ്‌എംഎസ്‌എംഎസ്) എന്നിവ ഉള്‍പ്പെടെ പല ബാക്കുകള്‍ പിന്തുണയ്ക്കുന്നു. സ്പോണ്‍സര്‍ പ്രൊഫൈല്‍സുകള്‍ (ജോണ്‍സസ്സുകള്‍) എന്ന രീതിയില്‍ ശബ്ദസജ്ജമാക്കിയുള്ള ശബ്ദകര്‍മ്മങ്ങള്‍ (ജെസാന്‍).

രചയിതാവു്::
OuteAI

അനുമതി::
Apache 2.0

വേഗത:
Fast

നിലവാരം::

ഭാഷകള്‍:
en

വാറം:
2GB

ശബ്ദ ക്ളൈനിങ്ങ്:
അതെ

1 കെ അക്ഷരങ്ങളുടെ വില:
ഫ്രീ

സിപിയു ഇന്‍ഫറന്‍സ് ബ്രൌസര്‍ ഇന്‍ഫറന്‍സ് ശബ്ദമിശ്രണോപാധി അനവധി ബാക്കെന്‍ഡുകള്‍ ശബ്ദകര്‍ത്താവിന്റെ പ്രൊഫൈലുകള്‍

ഏറ്റവും നല്ല സ്കോര്‍:: എക്ട്രേറ്റമെന്റ്, ബ്രൌസര്‍- അടിസ്ഥാനമാക്കിയുള്ള TTS, കുറഞ്ഞ- റിസോഴ്സ് പരിസരം

ശ്രമിക്കൂ OuteTTS

TADA

Standard

TAA (Text- Access Audican AI) ഹ്യൂമ (Textic AI), ലോമ 3.2- ല്‍ നിര്‍മ്മിച്ച ഒരു ജോഡി യോക്കേഷന്‍ നിര്‍മ്മിച്ച ഒരു നോവലിലെ രൂപകല്പനയില്‍ ദ്രാവകങ്ങള്‍ നീക്കം ചെയ്യുന്ന ഒരു ഡയറ്റക്റ്റ് ഡിറ്റക്റ്റ് മാതൃകയാണ്.

രചയിതാവു്::
Hume AI

അനുമതി::
MIT

വേഗത:
Fast

നിലവാരം::

ഭാഷകള്‍:
en

വാറം:
5GB

ശബ്ദ ക്ളൈനിങ്ങ്:
ഇല്ല

1 കെ അക്ഷരങ്ങളുടെ വില:
2x

സെറോ വൈറസ് 5x 87M TTS ಗಿಂತ വേഗത്തില്‍ വൈകാരികമായ ഭാവം 700 ഓഡിയോ കോണ്‍ടെക്സ്റ്റ് ഡബിള്‍ സെറ്റ്

ഏറ്റവും നല്ല സ്കോര്‍:: ഉയര്‍ന്ന കമ്മ്യൂണിറ്റി ഹാള്‍സിനേഷന്‍ സംസാരം, വൈകാരിക ഭാവം, വേഗത്തില്‍ പ്രവര്‍ത്തനം

ശ്രമിക്കൂ TADA

VibeVoice

Standard

Microsofts-നുളള വിബ്യോസ് രണ്ടു രീതിയില്‍ ലഭ്യമാകുന്നു: 1.5B മോഡും (മുഴുവനും 90 മിനിട്ട് വരെയുള്ള വരികള്‍), 1.5-നും (മുഴു ശബ്ദകര്‍ത്താവ്), 1.5-ആം സമയ മാതൃകയും 1.0-ആം ഓഡിയോ അഭ്യാസമുള്ള ആദ്യത്തെ ഓഡിയോ അക്കങ്ങള്‍ നിര്‍മ്മിക്കുന്നു. കുറിപ്പുകാരന്‍ സ്പാക്കില്‍ നിന്നും ശബ്ദകര്‍ഷത്തില്‍ നിന്നും ശബ്ദകര്‍ഷത്തില്‍ നിന്നും മിക്നോട്ടണ്‍ ടിടിഎസ് നിര്‍മ്മിച്ചു്‍ ഉല്‍പാദിപ്പിക്കുന്ന ശബ്ദോപകരണങ്ങള്‍ ഉല്‍പാദിപ്പിക്കുന്നു.

രചയിതാവു്::
Microsoft

അനുമതി::
MIT

വേഗത:
Fast

നിലവാരം::

ഭാഷകള്‍:
en, zh

വാറം:
4GB

ശബ്ദ ക്ളൈനിങ്ങ്:
ഇല്ല

1 കെ അക്ഷരങ്ങളുടെ വില:
2x

മള്‍ട്ടി- സ്പ്രെറ്റര്‍ 90 മിനിട്ട് വരെ പോസ്റ്റ്‌കാര്‍ഡ് ഉല്‍പാദിപ്പിക്കുന്നു സ്പീക്കര്‍ സ്ഥിരത 200ms സ്റ്റ്രീമിങ്

ഏറ്റവും നല്ല സ്കോര്‍:: പോളിഷ്, ഓഡിയോ പുസ്തകങ്ങള്‍, ഗുണഗണങ്ങള്‍

ശ്രമിക്കൂ VibeVoice

Pocket TTS

Free

ക്യുടി (മോടിയുടെ പ്രതിനിധികള്‍) പോക്കറ്റ് ടിഎസ് (മോഷിയുടെ പ്രതിനിധികള്‍) ഒരു കംപ്യൂട്ടര്‍ റെക്കോര്‍ഡ്- ടെക്സ്- ടെക്സ്റ്റുകള്‍ (കോണ്‍ക്കാറ്റില്‍ കൂടുതല്‍ തുളച്ചെടുക്കുന്ന ഒരു കംപ്യൂട്ടര്‍ ടെക്സ്- ടെക്സ്- റൈല്‍ അഗ്രമാക്കല്‍) ആണ്. ഇതു സിപിയുപിയു പ്രവര്‍ത്തിയ്ക്കു് പ്രാവര്‍ത്തികമായി പ്രവര്‍ത്തിപ്പിക്കുന്നു, ഒരു ഓഡിയോ മാതൃകയില്‍ നിന്നും പൂജ്യ- ഹോട്ട്- ഹോട്ട്- ഹോട്ട് വോള്‍ വോള്‍ വോള്‍ഡിക്കോളുകള്‍ പിന്തുണയ്ക്കുന്നു, സ്വാഭാവികമായ സംസാരങ്ങള്‍ ഉല്‍പാദിപ്പിക്കുന്നു. ചെറിയ വലുപ്പവും താഴ്ന്ന പരിസ്ഥിതിയും സജ്ജീകരിക്കുന്നു.

രചയിതാവു്::
Kyutai

അനുമതി::
MIT

വേഗത:
Fast

നിലവാരം::

ഭാഷകള്‍:
en, fr

വാറം:
1GB

ശബ്ദ ക്ളൈനിങ്ങ്:
അതെ

1 കെ അക്ഷരങ്ങളുടെ വില:
ഫ്രീ

100എം പരാമീറ്ററുകള്‍ സിപിയു ഇന്‍ഫറന്‍സ് ശബ്ദമിശ്രണോപാധി ഒറ്റ- സാമ്പില്‍ ക്ളോറന്‍ എഡ്ജ്- സജ്ജീകരണം

ഏറ്റവും നല്ല സ്കോര്‍:: ചെറിയ വലിപ്പം, സിപിയു- ഒറ്റ പരിസ്ഥിതി, വേഗത്തിലുള്ള ശബ്ദമിശ്രണോപാധി

ശ്രമിക്കൂ Pocket TTS

Kitten TTS

Free

Kitten TTS by KittenML is an ultra-lightweight text-to-speech model built on ONNX. With variants from 15M to 80M parameters (25-80 MB on disk), it delivers high-quality voice synthesis on CPU without requiring a GPU. Features 8 built-in voices, adjustable speech speed, and built-in text preprocessing for numbers, currencies, and units. Ideal for edge deployment and low-latency applications.

രചയിതാവു്::
KittenML

അനുമതി::
Apache 2.0

വേഗത:
Fast

നിലവാരം::

ഭാഷകള്‍:
en

വാറം:
0GB

ശബ്ദ ക്ളൈനിങ്ങ്:
ഇല്ല

1 കെ അക്ഷരങ്ങളുടെ വില:
ഫ്രീ

CPU-only inference Under 80MB model size 8 built-in voices Speed control ONNX-based 24kHz output

ഏറ്റവും നല്ല സ്കോര്‍:: Fast lightweight TTS, edge deployment, low-latency applications

ശ്രമിക്കൂ Kitten TTS

CosyVoice3

Standard

CosyVoice3 is the latest evolution from Alibaba's FunAudioLLM team. It features bi-streaming inference with ~150ms latency, instruction-based control for emotion/speed/volume, and improved speaker similarity for zero-shot cloning. Supports 9 languages plus 18 Chinese dialects. RL-tuned variant delivers state-of-the-art prosody.

രചയിതാവു്::
Alibaba (FunAudioLLM)

അനുമതി::
Apache 2.0

വേഗത:
Fast

നിലവാരം::

ഭാഷകള്‍:
en, zh, ja, ko, de, es, fr, it, ru

വാറം:
4GB

ശബ്ദ ക്ളൈനിങ്ങ്:
അതെ

1 കെ അക്ഷരങ്ങളുടെ വില:
2x

Bi-streaming Emotion control Voice cloning Speed/volume control Instruction following

ഏറ്റവും നല്ല സ്കോര്‍:: Multilingual production TTS, real-time applications, voice cloning

ശ്രമിക്കൂ CosyVoice3

MOSS-TTS

Premium

MOSS-TTS from OpenMOSS supports generation of up to 1 hour of continuous speech across 20 languages. Features token-level duration control, phoneme-level pronunciation control via IPA/Pinyin, and code-switching between languages. The 8B production model delivers state-of-the-art quality with zero-shot voice cloning from reference audio.

രചയിതാവു്::
OpenMOSS

അനുമതി::
Apache 2.0

വേഗത:
Medium

നിലവാരം::

ഭാഷകള്‍:
en, zh, de, es, fr, ja, it, hu, ko, ru, fa, ar, pl, pt, cs, da, sv, el, tr

വാറം:
16GB

ശബ്ദ ക്ളൈനിങ്ങ്:
അതെ

1 കെ അക്ഷരങ്ങളുടെ വില:
4x

Ultra-long generation 20 languages Voice cloning Duration control Pronunciation control Code-switching

ഏറ്റവും നല്ല സ്കോര്‍:: Audiobooks, long-form content, multilingual production

ശ്രമിക്കൂ MOSS-TTS

MegaTTS3

Premium

MegaTTS3 from ByteDance uses a novel sparse alignment mechanism combined with a latent diffusion transformer. Features adjustable trade-off between speech intelligibility and speaker similarity for zero-shot voice cloning.

രചയിതാവു്::
ByteDance

അനുമതി::
Apache 2.0

വേഗത:
Slow

നിലവാരം::

ഭാഷകള്‍:
en, zh

വാറം:
8GB

ശബ്ദ ക്ളൈനിങ്ങ്:
അതെ

1 കെ അക്ഷരങ്ങളുടെ വില:
4x

Voice cloning Adjustable similarity Cross-lingual

ഏറ്റവും നല്ല സ്കോര്‍:: High-fidelity voice cloning

ശ്രമിക്കൂ MegaTTS3

പ്രിമിയം

രചയിതാവു്::
OpenMOSS

അനുമതി::
Apache 2.0

വേഗത:
Medium

നിലവാരം::

ഭാഷകള്‍:
en, zh, de, es, fr, ja, it, hu, ko, ru, fa, ar, pl, pt, cs, da, sv, el, tr

ശബ്ദ ക്ളൈനിങ്ങ്:
അതെ

വാറം:
16GB

1 കെ അക്ഷരങ്ങളുടെ വില:
4x

Ultra-long generation20 languagesVoice cloningDuration controlPronunciation controlCode-switching

ഏറ്റവും നല്ല സ്കോര്‍:: Audiobooks, long-form content, multilingual production

ശ്രമിക്കൂ MOSS-TTS

MegaTTS3

പ്രിമിയം

രചയിതാവു്::
ByteDance

അനുമതി::
Apache 2.0

വേഗത:
Slow

നിലവാരം::

ഭാഷകള്‍:
en, zh

ശബ്ദ ക്ളൈനിങ്ങ്:
അതെ

വാറം:
8GB

1 കെ അക്ഷരങ്ങളുടെ വില:
4x

Voice cloningAdjustable similarityCross-lingual

ഏറ്റവും നല്ല സ്കോര്‍:: High-fidelity voice cloning

ശ്രമിക്കൂ MegaTTS3

മോഡല്‍ താരതമ്യം ടേബിള്‍

മോഡ്	രചയിതാവു്:	ടിയെര്‍	വേഗത	ഭാഷകള്‍	വാറം	അനുമതി:	പാരമ്പര്യങ്ങള്‍
Kokoro	Hexgrad	Free	Fast	11	1.5GB	Apache 2.0	ഫ്രീ	ഉപയോഗിക്കുക
Piper	Rhasspy	Free	Fast	31	0 (CPU only)	MIT	ഫ്രീ	ഉപയോഗിക്കുക
VITS	Jaehyeon Kim et al.	Free	Fast	4	1GB	MIT	ഫ്രീ	ഉപയോഗിക്കുക
MeloTTS	MyShell.ai	Free	Fast	6	0.5GB (GPU optional)	MIT	ഫ്രീ	ഉപയോഗിക്കുക
Bark	Suno	Standard	Slow	13	5GB	MIT	2	ഉപയോഗിക്കുക
Bark Small	Suno	Standard	Medium	13	2GB	MIT	2	ഉപയോഗിക്കുക
CosyVoice 2	Alibaba (Tongyi Lab)	Standard	Medium	8	4GB	Apache 2.0	2	ഉപയോഗിക്കുക
Dia TTS	Nari Labs	Standard	Medium	1	4GB	Apache 2.0	2	ഉപയോഗിക്കുക
Parler TTS	Hugging Face	Standard	Medium	1	4GB	Apache 2.0	2	ഉപയോഗിക്കുക
GLM-TTS	Zhipu AI	Standard	Medium	2	4GB	GLM-4 License	2	ഉപയോഗിക്കുക
IndexTTS-2	Index Team	Standard	Medium	2	4GB	Bilibili Model License	2	ഉപയോഗിക്കുക
Spark TTS	SparkAudio	Standard	Medium	2	4GB	CC BY-NC-SA 4.0	2	ഉപയോഗിക്കുക
GPT-SoVITS	RVC-Boss	Standard	Slow	4	6GB	MIT	2	ഉപയോഗിക്കുക
Orpheus	Canopy Labs	Standard	Medium	1	4GB	Llama 3.2 Community	2	ഉപയോഗിക്കുക
Chatterbox	Resemble AI	Premium	Medium	1	4GB	MIT	4	ഉപയോഗിക്കുക
Tortoise TTS	James Betker	Premium	Slow	1	8GB	Apache 2.0	4	ഉപയോഗിക്കുക
StyleTTS 2	Columbia University	Premium	Medium	1	4GB	MIT	4	ഉപയോഗിക്കുക
OpenVoice	MyShell.ai / MIT	Premium	Medium	8	4GB	MIT	4	ഉപയോഗിക്കുക
Qwen3 TTS	Alibaba (Qwen)	Standard	Medium	10	7GB	Apache 2.0	2	ഉപയോഗിക്കുക
Sesame CSM	Sesame	Premium	Slow	1	8GB	Apache 2.0	4	ഉപയോഗിക്കുക
Chatterbox Turbo	Resemble AI	Standard	Fast	1	2GB	MIT	2	ഉപയോഗിക്കുക
Zonos	Zyphra	Standard	Medium	5	6GB	Apache 2.0	2	ഉപയോഗിക്കുക
Dia 2	Nari Labs	Standard	Fast	1	4GB	Apache 2.0	2	ഉപയോഗിക്കുക
VoxCPM	OpenBMB	Standard	Fast	2	4GB	Apache 2.0	2	ഉപയോഗിക്കുക
OuteTTS	OuteAI	Free	Fast	1	2GB	Apache 2.0	ഫ്രീ	ഉപയോഗിക്കുക
TADA	Hume AI	Standard	Fast	1	5GB	MIT	2	ഉപയോഗിക്കുക
VibeVoice	Microsoft	Standard	Fast	2	4GB	MIT	2	ഉപയോഗിക്കുക
Pocket TTS	Kyutai	Free	Fast	2	1GB	MIT	ഫ്രീ	ഉപയോഗിക്കുക
Kitten TTS	KittenML	Free	Fast	1	0GB	Apache 2.0	ഫ്രീ	ഉപയോഗിക്കുക
CosyVoice3	Alibaba (FunAudioLLM)	Standard	Fast	9	4GB	Apache 2.0	2	ഉപയോഗിക്കുക
MOSS-TTS	OpenMOSS	Premium	Medium	19	16GB	Apache 2.0	4	ഉപയോഗിക്കുക
MegaTTS3	ByteDance	Premium	Slow	2	8GB	Apache 2.0	4	ഉപയോഗിക്കുക

സംസാര പ്ലാറ്റിലെ ഏറ്റവും വിപുലമായ പാഠം

വായനയ്‌ക്കായി TTS.ai പേരെ തിരഞ്ഞെടുക്കേണ്ടത്‌ എന്തുകൊണ്ട്?

TTS.ai ലോകത്തിന്റെ ഏറ്റവും നല്ല തുറന്ന് തുറക്കുന്ന ലിപ്റ്ററി മോഡലുകളെ ഒരു ശബ്ദ എഞ്ചില്‍ പൂട്ടിയതുപോലെയല്ല, TTS.ai 88+ മോഡലുകള്‍, നിങ്ങള്‍ക്ക് കോക്വി, ഷ്യോ, എംഫിയ, എൻടിഐഎ, സുനിവോ, സുനിവോ, സുനിവോ, സൊന്‍, സൊന്‍ഡ്യു, റ്റൂ, റ്റംഗ്വ സര്‍വകവ സർവകലാശാലയില്‍ നിന്നും നിങ്ങള്‍ക്ക് 20+ മോഡലുകള്‍ നല്‍കുന്നു.

എല്ലാ മോഡലും എംടി, അപ്പാച്ചര്‍ 2.0 അല്ലെങ്കില്‍ സമാനമായ റെസ്ട്രിക് ലൈസന്‍സ് ആണ്, നിങ്ങളുടെ പ്രോജക്ടുകളില്‍ നിര്‍മ്മിക്കപ്പെട്ടിട്ടുള്ള ശബ്ദോപകരണങ്ങള്‍ ഉപയോഗിക്കാന്‍ നിങ്ങള്‍ക്ക് വാണിജ്യ അവകാശങ്ങള്‍ ഉണ്ട്. നിങ്ങള്‍ക്ക് വേഗത്തില്‍, ശബ്ദപുസ്തകങ്ങള്‍ക്കും പോര്‍ച്ചുഗലുകളുടെയും സ്റ്റുഡിയോ- സ്റ്റുഡിയോ ഔട്ട്ഡിയോ ഔട്ട്പുട്ടുകള്‍ക്ക് വേണ്ടിയുള്ള ഇന്‍സെറ്റ് ഔട്ട്പുട്ട് ഔട്ട്പുട്ടുകള്‍ ആവശ്യമുണ്ടെങ്കില്‍, TTS.ai-000 എല്ലാ പ്രയോഗങ്ങള്‍ക്കും ശരിയായ മാതൃകയാണു്.

സ്വതന്ത്ര മോഡലുകൾ, അക്കൗണ്ട് ആവശ്യമില്ല

മൂന്നു സ്വതന്ത്ര ടിടിഎസ് മോഡലുകള്‍ ഉപയോഗിച്ച് ഉടന്‍ തുടങ്ങുക: Pyper (വലിപ്പം, ഭാരം കുറഞ്ഞത്), വി. ടി. ടി. ടി. യും (മുന്‍കുലമായ നോര്‍മല്‍ നോര്‍- വിന്‍സ്), മെലോടിറ്റസ് സിന്‍സിസ് (മള്‍ട്ടി- ഭാഷ പിന്തുണ). ഒരു ഒപ്പോ, ക്രെഡിറ്റ് കാര്‍ഡിറ്റ് കാർഡോ, തലമുറകളില്‍ പരിധികളില്ല. സ്വതന്ത്ര മോഡല്‍, ഇംഗ്ലീഷ്, പല ഭാഷകളും ഇംഗ്ലീഷ്, പല പ്രയോഗങ്ങള്‍ക്ക് അനുയോജ്യമായ ഫലങ്ങള്‍ നല്‍കുന്നു.

GPU- അപ്രതീക്ഷിതമായ പ്രക്രിയ

എല്ലാ TTS മോഡലുകളും സ്പെഷ്യല്‍ എടിഐഐഐഎ ജിപിയു പിയുഎസ് ല്‍ വേഗതയും അനുസൃതമായ തലമുറകള്‍ക്കായി പ്രവര്‍ത്തിക്കുന്നു. സ്വതന്ത്ര മോഡലുകള്‍ കൊക്കോറോ, കോസിവോസ്2, ബാര്‍ക്ക് ശരാശരി 3-5 സെക്കന്‍ഡുകള്‍. ടോര്‍ട്ടോയിസ്, ചാറ്റര്‍ട്ടര്‍ബോള്‍ പോലുള്ള ഏറ്റവും കൂടിയ ഗുണമേന്മമായ മാതൃകകള്‍ 5-15 സെക്കന്‍ഡുകളില്‍ നല്‍കുന്നു.

30+ ഭാഷകള്‍ പിന്തുണയ്ക്കുന്നു

ഇംഗ്ലീഷില്‍, സ്പാനിഷ്, ഫ്രഞ്ച്, ജര്‍മ്മന്‍, പോര്‍ച്ചുഗീസ്, ചൈനീസ്, ചൈനീസ്, കൊറിയ, ഹിന്ദി, ഹിന്ദി, റഷ്യന്‍ തുടങ്ങിയ 30 - ലേറെ ഭാഷകളില്‍ സംസാരം നിര്‍മ്മിക്കുക. പല മോഡല്‍കാര്‍ക്കും ഒരു ഭാഷയില്‍ പിന്തുണയുണ്ട്. നിങ്ങള്‍ക്ക് സംസാരിക്കാന്‍ കഴിയും.

രചയിതാവു്, റീഡ്ഡി API

ഞങ്ങളുടെ ഓപ്പണ്‍ എയ്ഐ- യോജിപ്പുള്ള TTS.ai പ്രയോഗങ്ങള്‍ക്ക് വേണ്ടിയുള്ള പ്രവര്‍ത്തികള്‍ക്ക് വേണ്ടി മാറ്റിവെയ്ക്കുക. ഒരു അവസാനം 20+ മോഡലുകള്‍ക്ക്. പൈഥണ്‍, സി. എം.ജി. സി. എം. എസ്.എ.എം. സി. എസ്. എം. എസ്. എം. എം.

പലപ്പോഴും ചോദിക്കപ്പെടുന്ന ചോദ്യങ്ങൾ

പ്രസ്താവത്തിനുള്ള പദാവലി (TTS) ഒരു ഐ ടെക്നോളജി ആണ്. പാഠങ്ങള്‍ എഴുതുന്ന സ്വഭാവമുള്ള ശബ്ദമാക്കി മാറ്റുന്ന ഒരു ഐഐ സാങ്കേതികവിദ്യ. കൊക്കോറോ, ചാറ്റര്‍ട്ടര്‍ബോക്സ്, കോസിയോസ് 2 തുടങ്ങിയ ആധുനിക ടെക്നോളജി മോഡലുകള്‍ ഗൌരവമായി മനുഷ്യന്റെ ശബ്ദം കേള്‍ക്കാന്‍ പഠിക്കുന്നു.

നിങ്ങളുടെ ആവശ്യങ്ങളെ ആശ്രയിച്ചിരിക്കുന്നു. വേഗത്തില്‍ മുന്‍കാഴ്ചകള്‍ക്കായി, PyloTTS അല്ലെങ്കില്‍ മെലോട്ടിക്സ് (സ്വയമുണ്ടായി, വേഗത്തില്‍) ഉപയോഗിക്കുക. ഉയര്‍ന്ന ഗുണമേന്മയ്ക്കായി കൊക്കോറോ അല്ലെങ്കില്‍ കോസിവോസ് 2 (സാധാരണ ടൈക്ക്) ഉപയോഗിക്കുക. ശബ്ദസങ്കലനോ, ചാറ്റര്‍ട്ടബോക്സ് അല്ലെങ്കില്‍ GPTITS (പ്രകാശക- സോവിയല്‍) ഉപയോഗിക്കാന്‍ ശ്രമിക്കുക. ഡയലോഗ്/ GPTITS- യുടെ ഉള്ളടയ്ക്കുന്നതിനു്, DATS( പ്രൊഫൈല്‍ ഫോര്‍മാറ്റ്). ഓരോ മോഡലിലും വിവിധ ശക്തികള്‍ ഉണ്ട്.

അതെ, TTS.ai കൊക്കോറോ, പിപ്പര്‍, വി.റ്റി. വ്ലോട്ടിസ്, മെലോട്ടിസ് മോഡലുകളുമായി ഫ്രീ ടെക്സ്റ്റുകള്‍ നല്‍കുന്നു. ഒരു മണിക്കൂറില്‍ 500 അക്ഷരങ്ങളും 3 തലമുറകളും നല്‍കേണ്ട കാര്യമില്ല. ഒരു സ്വതന്ത്ര അക്കൗണ്ടിനു് 15 മാര്‍ട്ടിലേയും, എല്ലാ മോഡലുകളും ലഭ്യമാണ്.

ഇംഗ്ലീഷ്‌, സ്‌പാനീഷ്‌, ഫ്രഞ്ച്, ജർമൻ, പോർച്ചുഗീസ്‌, പോർച്ചുഗീസ്‌, ചൈനീസ്‌, ചൈനീസ്‌, ചൈനീസ്‌, ചൈനീസ്‌, അറബി, റഷ്യൻ, ഹിന്ദി, ഹിന്ദി എന്നിവ ഉൾപ്പെടെ 30+ ഭാഷകൾ ഉൾപ്പെടെയുള്ള ഭാഷകളെയെല്ലാം നമ്മുടെ ടിടിഎസ്‌ മോഡൽ മാതൃകയിലൂടെ വ്യത്യസ്‌തമാക്കുന്നു.

അതെ, TTS.ai ല്‍ നിര്‍മ്മിച്ച ശബ്ദങ്ങള്‍ വാണിജ്യത്തില്‍ ഉപയോഗിക്കാം. നമ്മുടെ എല്ലാ മോഡലുകള്‍ക്കും തുറന്നുള്ള ലൈസന്‍സുകള്‍ (MIT, അച്ചോദസ് 2.0). പ്രത്യേക കാരണങ്ങള്‍ക്കായി ഓരോ മോഡല്‍ ലൈസന്‍സുകള്‍ പരിശോധിക്കാം. നിങ്ങളുടെ പ്രൊജക്റ്റിനു വേണ്ടി നിങ്ങള്‍ ഉപയോഗിക്കുന്ന പ്രത്യേക മാതൃകയുടെ ലൈസന്‍സിന്റെ ലൈസന്‍സുകള്‍ പുനരവലോകനം ചെയ്യാന്‍ ഞങ്ങള്‍ ആവശ്യപ്പെടുന്നു.

TTS.ai MP3, WAV, OGG, FLC ഔട്ട്പുട്ട് ഫോര്‍മാറ്റുകള്‍ പിന്തുണയ്ക്കുന്നു. MP3 നെറ്റ്‌വര്‍ക്കില്‍ കൂടുതല്‍ ഓഡിയോ പ്രവര്‍ത്തനങ്ങള്‍ക്കായി ശുപാര്‍ശ ചെയ്യുന്നു. നിങ്ങള്‍ക്കു് ഞങ്ങളുടെ ഓഡിയോ ലിറ്ററര്‍ ഉപകരണം ഉപയോഗിച്ചു് ശൈലികള്‍ മാറ്റാം.

ശബ്ദമിശ്രണോപാധി ഒരു ചെറിയ ഓഡിയോ മാതൃക (5- 30 സെക്കന്‍ഡുകളില്‍) നിന്നും ഒരു പ്രത്യേക ശബ്ദത്തെ അനുവദിയ്ക്കാന്‍ (II) ഉപയോഗിക്കുന്നു. ലക്ഷ്യം റിക്കോര്‍ഡ് ബോക്സ്, ചാറ്റര്‍ബോക്സ്, GPT- SVIS, അല്ലെങ്കില്‍ ഓപ്പണ്‍വിസ് പുതിയ സംസാരം ആ ശബ്ദത്തില്‍ പുതിയ ശബ്ദമുണ്ടാക്കും. ഗുണനിലവാരം വൃത്തിയേറിയതും, കൂടുതല്‍ ദൈര്‍ഘ്യമുള്ളതും ഓപ്പറേറ്റ് ഓഡിയോഡിയോ ആയി വര്‍ദ്ധിപ്പിക്കുന്നു.

ഒരു അപേക്ഷയ്ക്കായി റെജിസ്റ്റര്‍ ചെയ്ത ഉപയോക്താക്കള്‍ക്ക് 500 അക്ഷരങ്ങള്‍ വരെ സൃഷ്ടിയ്ക്കാം. അപേക്ഷയ്ക്കായി 5,000 അക്ഷരങ്ങള്‍ വരെ ഉയരുന്നു. ഏറെക്കുറെ അക്ഷരങ്ങള്‍ക്കു് ഓഡിയോ നിര്‍മ്മിക്കപ്പെട്ടിരിക്കുന്നു. അഭ്യര്‍ത്ഥനയ്ക്കായി API ഉപയോക്താക്കള്‍ക്ക് 10,000 അക്ഷരങ്ങള്‍ വരെ പ്രവര്‍ത്തനസജ്ജമാക്കാം.

എസ്എസ്എംഎംഎല്‍ (പ്രഭാഷണ സിന്റാക്യുസ് സിന്റാപ് ഭാഷ) ഈ മാതൃകയില്‍ വ്യത്യാസം ഉണ്ട്. പൈപ്പറും മറ്റു ചില മോഡലുകളും അടിസ്ഥാന എസ്എംഎംഎല്‍ ടാഗുകളും നിര്‍ദ്ദേശങ്ങള്‍, ഉച്ചാരണം, ഉച്ചാരണം എന്നിവയ്ക്കായി പിന്തുണക്കുന്ന അടിസ്ഥാന എസ്‌എംഎംഎല്‍ എംഎല്‍ എല്‍ ടാഗുകള്‍. മാതൃസ്ഥ പിന്തുണ ഇല്ലാത്ത മോഡലുകള്‍ക്ക്, പ്രൊജക്ടൈറ്റില്‍ പ്രാവര്‍ത്തികവും വരികളും ഉപയോഗിക്കാം.

അതെ, മിക്ക മോഡലുകള്‍ക്കും 0. 0x- ല്‍ നിന്നും 2. 0x- ല്‍ നിന്നും വേഗതയില്‍ മാറ്റം വരുത്തുന്നു. ബാര്‍ക്കും പാര്‍ലറും പോലുള്ള ചില മോഡ്യൂളുകള്‍ കീലും സ്റ്റൈല്‍ നിയന്ത്രണവും അനുവദിക്കുന്നു. നിങ്ങള്‍ക്കു് വേഗമായ സജ്ജീകരണ പാനല്‍ അല്ലെങ്കില്‍ API വേഗതയുള്ള പരാമീറ്ററുകള്‍ സജ്ജീകരിയ്ക്കാം.

അതെ, സംയോജിപ്പിക്കല്‍ ലഭ്യമാക്കല്‍ ലഭ്യമാണ്. നിങ്ങള്‍ക്ക് ഒന്നിലധികം ടെക്സ്റ്റുകള്‍ API കോളോ സ്ക്രിപ്റ്റോ പ്രൊസസ്സോ സമര്‍പ്പിക്കാം, അവയെല്ലാം പ്രവര്‍ത്തിപ്പിയ്ക്കപ്പെടുകയും ചെയ്തിരിക്കുന്നു. ഇതു് ഓഡിയോ ബുക്ക് അദ്ധ്യായങ്ങള്‍, ഇ-വിഗേറ്റിങ് മോഡുകള്‍, അല്ലെങ്കില്‍ ഡയലോഗ് ഡയലോഗ് സ്ക്രിപ്റ്റ് സ്ക്രിപ്റ്റുകള്‍ എന്നിവയ്ക്കെല്ലാം അനുയോജ്യമാണ്.

നിങ്ങളുടെ അക്കൌണ്ടില്‍ നിന്നുള്ള ഒരു API കീ നിര്‍മ്മിക്കൂ, എന്നിട്ട് PAST AST API അറ്റാക്ക്മെന്റ്, മാതൃക, ശബ്ദത്തിന്റെ പരാമീറ്റര്‍ എന്നിവയുമായി പോസ്റ്റ് അക്കങ്ങള്‍ അയക്കുക. ഞങ്ങള്‍ പൈഥണ്‍, JavaScript and cROS- ല്‍ കോഡ് ഉദാഹരണങ്ങള്‍ നല്‍കുന്നു. API ഓപ്പറേറ്റ് വളരെ കുറഞ്ഞ മാറ്റങ്ങളോടെ പ്രവര്‍ത്തിക്കുന്നു.

5.0/5 (3)

സംസാരത്തിലേക്കു് വാചകം മാറ്റി ആരംഭിക്കുക

TTS.ai ഉപയോഗിച്ച് ആയിരക്കണക്കിന് രൂപകൽപ്പനക്കാരോടൊപ്പം ചേരുക 15,000 ലിപികള്‍ ഒരു പുതിയ അക്കൗണ്ടില്‍ ചേര്‍ക്കുക. ഫ്രീ മോഡല്‍ മാര്‍ക്കറ്റില്‍ ഒപ്പു വെക്കാതെ.

ഫ്രീ ആയി ഒപ്പ് വയ്ക്കുക അഭിഭാഷണങ്ങള്‍ കാണുക

സംസാരത്തിനുള്ള II പദാവലി

ടിടിഎസ് സ്‌നേഹിക്കുന്നു, കൂട്ടുകാരോട് പറയൂ!

സാമ്പിളിന്റെ വിശദാംശങ്ങള്‍

Kokoro

മെച്ചമായ ഫലങ്ങളുടെ സൂചനകൾ

ക്യാരക്ടര്‍ ഉപയോഗം

സംസാരത്തിന്‍റെ കാര്യത്തിൽ ഐഐ (II) പാഠങ്ങൾ

പാഠം നല്‍കുക

മോഡല്‍ & ശബ്ദം തെരഞ്ഞെടുക്കുക

ഡൌണ്‍ലോട് & സൃഷ്ടിയ്ക്കുക

വാക്കുകളുടെ ഉപയോഗ കേസുകള്‍ക്കുള്ള വാചകം

ശബ്ദ പുസ്തകങ്ങള്‍

ചലച്ചിത്രശബ്ദങ്ങള്‍Name

പോസ്റ്റ്സ്പോര്‍ട്ടുകള്‍

കളി

ഇ- പഠിപ്പിക്കല്‍

സാമീപ്യത

IVR & ഫോണ്‍ സിസ്റ്റങ്ങള്‍Name

സോഷ്യൽ മാധ്യമങ്ങൾ

സ്ട്രീമിങ്

വിപണനം

ഡബ്ബിങ് & പ്രാദേശികവല്‍ക്കരണം

ധ്യാനവും സൗന്ദര്യവും

എല്ലാ പദാവലിയും സംസാര മോഡലുകളിലേക്കു്

Kokoro

Piper

VITS

MeloTTS

Bark

Bark Small

CosyVoice 2

Dia TTS

Parler TTS

GLM-TTS

IndexTTS-2

Spark TTS

GPT-SoVITS

Orpheus

Chatterbox

Tortoise TTS

StyleTTS 2

OpenVoice

Qwen3 TTS

Sesame CSM

Chatterbox Turbo

Zonos

Dia 2

VoxCPM

OuteTTS

TADA

VibeVoice

Pocket TTS

Kitten TTS

CosyVoice3

MOSS-TTS

MegaTTS3

Kokoro

Piper

VITS

MeloTTS

OuteTTS

Pocket TTS

Kitten TTS

Bark

Bark Small

CosyVoice 2

Dia TTS

Parler TTS

GLM-TTS

IndexTTS-2

Spark TTS

GPT-SoVITS

Orpheus

Qwen3 TTS

Chatterbox Turbo

Zonos

Dia 2

VoxCPM

TADA

VibeVoice