സംസാരത്തിനുള്ള II പദാവലി

തുറക്കുന്ന ഏഐ മോഡലുകള്‍ ഉപയോഗിച്ചു് ടെക്സ്റ്റിലേക്ക് പദാവലികള്‍ മാറ്റുക. ഉപയോഗിക്കാനാവശ്യമില്ലാത്ത, അക്കൌണ്ട് ആവശ്യമില്ല.

ഫ്രീ ആയി ഒപ്പ് വയ്ക്കുക

നിന്‍റെ ഭാഷയില്‍ ടിടിഎസ് ശബ്ദങ്ങളില്ല, നിന്‍റെ ശബ്ദം കൂട്ടാന്‍ ഞങ്ങളെ സഹായിക്കൂ! ശബ്ദം വിൽക്കുക

0/500 അക്ഷരങ്ങള്‍ · തലമുറയിൽ 5,000 പേർക്ക് ഒപ്പിടുക →

ഒപ്പ് വയ്ക്ക്. 5,000 ക്യാരക്ടര്‍ പരിധിയ്ക്കു്

എസ്എസ്എംഎല്‍ മോഡ് (നല്ല നിയന്ത്രണത്തിനു വേണ്ടിയുള്ള സംസാരം)

കൃത്യമായ നിയന്ത്രണത്തിനായി SSML തൊങ്ങലില്‍ വാചകം പൊതിയുക:

<speak><prosody rate="slow">Slow speech</prosody></speak>

അടയാളമിടല്‍ / സ്റ്റൈല്‍ ടാഗുകള്‍Constellation name (optional)

പ്രസവത്തെ ബാധിക്കുന്ന വികാര സൂചനകൾ (മോഡം പിന്തുണ വ്യത്യാസം):

ഉച്ചാരണം നിഘണ്ടുQuery

ഇഷ്ടപ്പെട്ട ഉച്ചാരണം നിര്‍വ്വചിക്കുക (വാക്ക് = ഉച്ചാരണം):

പിച്ച് 0

-12 +12

AI മോഡല്‍

ശബ്ദം

ഭാഷ

ഔട്ട്പുട്ട് ഫോര്‍മാറ്റ്

വേഗത 1.0x

0.5x 2.0x

പൈപ്പര്‍, വി.ടി.സ്, മെലോട്ടിക്സ്

നിങ്ങള്‍ ഉണ്ടാക്കിയ ഓഡിയോ ഇവിടെ പ്രത്യക്ഷപ്പെടും. ഒരു മാതൃക തെരഞ്ഞെടുക്കുക, പദാവലി നല്‍കുക, നിര്‍മ്മിക്കുക എന്നിവ നിര്‍മ്മിക്കുക.

സാമ്പിളിന്റെ വിശദാംശങ്ങള്‍

Chatterbox Turbo

Standard

Chatterbox Turbo by Resemble AI is a 350M parameter upgrade to Chatterbox, delivering up to 6x real-time speed with sub-200ms latency. It supports paralinguistic tags like [laugh], [cough], and [chuckle] directly in text. Includes Perth watermarking on all generated audio for provenance tracking.

രചയിതാവു്:	Resemble AI
അനുമതി:	MIT
വേഗത	Fast
നിലവാരം:
ഭാഷകള്‍	1 ഭാഷ
വാറം	2GB
ശബ്ദ ക്ളൈനിങ്ങ്	പിന്തുണ

വിശേഷതകള്‍:

Sub-200ms latency Paralinguistic tags 6x real-time Voice cloning Watermarking

ഏറ്റവും നല്ല സ്കോര്‍:: Real-time voice agents, expressive speech with natural sounds

മെച്ചമായ ഫലങ്ങളുടെ സൂചനകൾ

പ്രകൃതിയിലെ ഇടവേളകള്‍ക്കും സ്ഥാപനങ്ങള്‍ക്കും ശരിയായി ചുരുക്കിപ്പറയല്‍ ഉപയോഗിക്കുക
വ്യക്തമായ ഉളള ഉച്ചാരണംക്കായി അക്ഷരത്തെറ്റു് നമ്പറുകളും അക്ഷരത്തെറ്റു്
വാക്യാംശങ്ങള്‍ക്കിടയില്‍ ചെറിയ ഇടവേളകള്‍ സൃഷ്ടിക്കാന്‍ കോമകള്‍ ചേര്‍ക്കുക
ദീര്‍ഘമായ ഇടവേളകള്‍ നടത്താന്‍ (...) എലിപ്ലിസിസ് ഉപയോഗിക്കുക
കോക്കോറോ അല്ലെങ്കിൽ കൊസിവോയിസ്‌ 2 പ്ലേഗുകൾ പ്രകൃതിവിപത്തുകൾക്കായി ശ്രമിക്കുക
ഒന്നിലധികം സ്കോട്ട്ലര്‍ ഡയലോഗുകള്‍ക്കും പോര്‍ച്ചുഗല്‍ ഉള്ളടക്കത്തിനുമായി Dia ഉപയോഗിക്കുക

ക്യാരക്ടര്‍ ഉപയോഗം

ടിയെര്‍	1 കെ അക്ഷരങ്ങളുടെ വില
ഫ്രീ	0 അഡ്മിനിസ് (അപരിചിതം)
സ്റ്റാന്‍ഡേര്‍ഡ്	2 ക്രെഡിറ്റ്‌ / 1K അക്ഷരങ്ങൾ
പ്രിമിയം	4 ക്രെഡിറ്റ്‌ / 1K അക്ഷരങ്ങൾ

കൂടുതല്‍ അക്ഷരങ്ങള്‍ എടുക്കുക

സംസാരത്തിന്‍റെ കാര്യത്തിൽ ഐഐ (II) പാഠങ്ങൾ

പ്രൊഫഷണല്‍-വിദഗ്ദ്ധമായ മൂന്നു പടികളില്‍ നിര്‍മ്മിക്കുക. സാങ്കേതികമായ അറിവില്ല.

സ്റ്റെപ്പ് 1

പാഠം നല്‍കുക

ടൈപ്പ്, ഒട്ടിക്കുക, അല്ലെങ്കില്‍ നിങ്ങള്‍ക്കു് സംസാരരീതിയിലാക്കാന്‍ ഇഷ്ടമുള്ള പദാവലി അപ്‌ലോഡ് ചെയ്യുക. ലോഗ് ചെയ്യാന്‍ ഓരോ തലമുറയിലും 5,000 അക്ഷരങ്ങള്‍ ചേര്‍ക്കുന്നു. കൂടുതല്‍ ഉച്ചാരണം, കൂടുതല്‍ ഉച്ചാരണം, അമര്‍ത്തല്‍ എന്നിവയ്ക്കായി എസ്എസ്എംഎംഎല്‍ ടാഗുകള്‍ ചേര്‍ക്കുക അല്ലെങ്കില്‍ SSML ടാഗുകള്‍ ചേര്‍ക്കുക.

സ്റ്റെപ്പ് 2

മോഡല്‍ & ശബ്ദം തെരഞ്ഞെടുക്കുക

മൂന്നു സ്ലേറ്റുകളുടെ കൂടെയുള്ള 20+A മോഡലുകള്‍ തെരഞ്ഞെടുക്കുക. നിങ്ങളുടെ ഉള്ളടക്കം, ലക്ഷ്യ‌‌ ഭാഷ തെരഞ്ഞെടുക്കുക, റെക്കോഡ് വേഗത, 0. 0x മുതല്‍ 2. 0x വരെ മാറ്റുക, നിങ്ങള്‍ക്കിഷ്ടപ്പെട്ട ഔട്ട്പുട്ട് ഫോര്‍മാറ്റ് (MMP3, OAV, OGC, FLC) തെരഞ്ഞെടുക്കുക.

സ്റ്റെപ്പ് 3

ഡൌണ്‍ലോട് & സൃഷ്ടിയ്ക്കുക

നിങ്ങളുടെ ഓഡിയോ നിര്‍മ്മാണം ക്ലിക്ക് ചെയ്യുക. സെക്കന്‍ഡുകളില്‍ നിങ്ങളുടെ ഓഡിയോ സെക്കന്‍ഡുകളില്‍ തന്നെ തയ്യാറാക്കിയിരിയ്ക്കുന്നു. അച്ചടിച്ച കളിയുമായി മുന്‍കാഴ്ച, തെരഞ്ഞെടുത്ത രീതിയില്‍ ഡൌണ്‍ലോഡ് ചെയ്യുക അല്ലെങ്കില്‍ ഒരു പങ്കാളിത്ത കണ്ണി പകര്‍ത്തുക. സംക്രമീകരണത്തിനായി API ഉപയോഗിക്കുക.

വാക്കുകളുടെ ഉപയോഗ കേസുകള്‍ക്കുള്ള വാചകം

വര്‍ഷങ്ങള്‍ക്കുള്ളില്‍ ഓഡിയോ വിവരങ്ങള്‍ ഉണ്ടാക്കുന്ന രീതികള്‍ രൂപകല്പന ചെയ്യുന്നുണ്ട്.

ശബ്ദ പുസ്തകങ്ങള്‍

എല്ലാ പുസ്തകങ്ങളും സ്റ്റുഡിയോ- ഇന്‍റര്‍നാഷണല്‍ ഇന്‍റര്‍നാഷണല്‍ ഇന്‍റലിജന്‍സ് ആയി വേര്‍തിരിയ്ക്കുക. അക്ഷരങ്ങളുടെ സംഭാഷണത്തിനുള്ള പല്ലിഫോര്‍ഡര്‍ പിന്തുണ.

ചലച്ചിത്രശബ്ദങ്ങള്‍Name

യൂട്ടൂബ്, ടിക്ടോക്ക്, ഇന്‍സ്റ്റാറാം റെല്‍സുകള്‍, റീല്‍സ്. 100+ ശബ്ദം അല്ലെങ്കില്‍ സ്വയം ക്ലോക്ക് ചെയ്യുക.

പോസ്റ്റ്സ്പോര്‍ട്ടുകള്‍

ഒന്നിലധികം AI ശബ്ദങ്ങള്‍ ഉപയോഗിച്ച് സ്ക്രിപ്റ്റുകളില്‍ നിന്നുള്ള പോഡ്‌വര്‍ക്കിലുളള വിതരണങ്ങള്‍ നിര്‍മ്മിക്കുക. പ്രകൃതിയില്‍ രണ്ടു് ശബ്ദങ്ങള്‍ക്കു് Dia ഉപയോഗിക്കുക.

കളി

എൻപിസി സംവാദജാലകം, ഡിസൈനുകൾ, 30+ ഭാഷകൾ എന്നിവയ്ക്കായി അഭിനയിക്കുന്നു.

ഇ- പഠിപ്പിക്കല്‍

സാങ്കേതിക ഉപകരണങ്ങള്‍, പ്രസംഗങ്ങള്‍, പരിശീലനം എന്നിവ ഓഡിയോകളായി മാറ്റുക. ആഗോള പ്ലാറ്റ്ഫോമിനുള്ള അനവധി ഭാഷാ പിന്തുണ.

സാമീപ്യത

വെബ്ബ്, രേഖകള്‍, ആപ്ലാസ് എന്നിവ പ്രവര്‍ത്തിപ്പിയ്ക്കുക. സ്ക്രീന്‍ വായനാ നിര്‍ണ്ണയം, ലേഖന-അടിസ്ഥാനം എന്നിവയില്‍ നിന്നും മാറ്റുന്നു.

IVR & ഫോണ്‍ സിസ്റ്റങ്ങള്‍Name

IVIVR സിസ്റ്റം, ഫോണ്‍ മെനസ്, കസ്റ്റമര്‍ സര്‍വീസ്. കോള്‍ സെന്‍സുകള്‍ക്കായി താഴേക്ക് നീന്തുന്നു.

സോഷ്യൽ മാധ്യമങ്ങൾ

Tiktoktaphics, ഇന്‍സ്റ്റാറം റെല്‍സ്, ട്വിറ്റര്‍/എക്സ് ചര്‍ച്ച്, യൂട്ടൂബ് ഷോര്‍ട്ടുകള്‍. വേഗം, സ്വതന്ത്ര മോഡലുകള്‍.

സ്ട്രീമിങ്

TVTS മുന്നറിയിപ്പുകള്‍, ചാറ്റ്-ഫോള്‍ട്ട്, AI കോ-hosts, ഡിസ്ഡോര്‍ഡ് ബോള്‍സ്. കുറവ്, 100+ ശബ്ദം, സ്ട്രീംമെയില്‍സ് പൊരുത്തപ്പെടുന്നു.

വിപണനം

അഡ്‌വെയർസ്‌, വീഡിയോകൾ, ഉത്‌പന്നങ്ങൾ ഡീമോസ്‌, ശസ്‌ത്രക്രിയകൾ എന്നിവയെ കുറിച്ച് വിശകലനം ചെയ്യുക.

ഡബ്ബിങ് & പ്രാദേശികവല്‍ക്കരണം

30+ ഭാഷകളില്‍ ശബ്ദവുമായി ചേരുന്ന AI. സ്വയം- വിച്ഛേദനം, പ്രസംഗക കണ്ടെത്തല്‍ എന്നിവയില്‍ പരിഭാഷപ്പെടുത്തുക.

ധ്യാനവും സൗന്ദര്യവും

അത്‌ എങ്ങനെയാണു സംഭവിക്കുന്നത്‌?

എല്ലാ അക്ഷരങ്ങളും & പണിയായുധങ്ങളും കാണുക

എല്ലാ പദാവലിയും സംസാര മോഡലുകളിലേക്കു്

Detailed specifications for every AI model available on TTS.ai. Compare quality, speed, language support, and features to find the perfect model for your project.

Kokoro

Free

കൊക്കോറോ ഒരു 82 ദശലക്ഷം പരാമീറ്റര്‍ ടെക്സ്റ്റുകള്‍ക്കുള്ള ടെക്സ്റ്റുകള്‍ ആണ്. തൂക്കത്തില്‍ കൂടുതല്‍ കൂടുന്ന ഒരു ചെറിയ അക്ഷരം ഉണ്ടെങ്കില്‍, അത് വളരെ സ്വാഭാവികവും വര്‍ദ്ധിപ്പിക്കുന്ന സംസാരം ഉല്‍പാദിപ്പിക്കുന്നു. കോക്കോറോ ഇംഗ്ലീഷ്, ജപ്പനീസ്, ചൈനീസ്, കൊറിയന്‍ തുടങ്ങിയ പല ഭാഷകള്‍ക്കു പിന്തുണ ചെയ്യുന്നു. വളരെ വേഗത്തില്‍ അത് GPU-സമയത്ത് പ്രവര്‍ത്തിക്കുന്നതിലും വേഗത്തില്‍ പ്രവര്‍ത്തിക്കുന്നു.

രചയിതാവു്::
Hexgrad

അനുമതി::
Apache 2.0

വേഗത:
Fast

നിലവാരം::

ഭാഷകള്‍:
en, ja, zh, fr, it, pt, es, hi

വാറം:
1.5GB

ശബ്ദ ക്ളൈനിങ്ങ്:
ഇല്ല

1 കെ അക്ഷരങ്ങളുടെ വില:
ഫ്രീ

82M പരാമീറ്ററുകള്‍ അള്‍ട്ര- വേഗത്തില്‍ ശബ്ദങ്ങൾ മള്‍ട്ടിപ്പിള്‍ സ്റ്റ്രീമിനുള്ള പിന്തുണ

ഏറ്റവും നല്ല സ്കോര്‍:: വളരെ കുറഞ്ഞ ലോഞ്ച്, സ്റ്റ്രീം പ്രയോഗങ്ങളുള്ള ഉയര്‍ന്ന ടിടിഎസ്Name

ശ്രമിക്കൂ Kokoro

Piper

Free

പിപ്പര്‍, VITS and Lystempy and Ids and Is and Lystem Strints- ല്‍ നിര്‍മ്മിച്ച ഭാരം കുറഞ്ഞ ടെക്സ്റ്റ് എഞ്ചിന്‍ ആണ്. ഇതു് പൂര്‍ണ്ണമായും CPU- യില്‍ പ്രവര്‍ത്തനസജ്ജമാക്കുന്നു. മോര്‍ന്ന ഉപകരണങ്ങള്‍, ഹോം-നൈമാറ്റം, പ്രയോഗങ്ങള്‍ക്ക് ഓണ്‍ലിറ്റില്‍ ആവശ്യമുളള ഉപകരണങ്ങള്‍. 30+-ല്‍ കൂടുതല്‍ ശബ്ദങ്ങള്‍ ഉള്ളതിനാല്‍, ഒരു റാസ്പെറിബെറി 4-ല്‍ ശബ്ദോപൈന്‍ വേഗതയില്‍, പാപ്പര്‍ പ്രവര്‍ത്തിപ്പിക്കുന്നു.

രചയിതാവു്::
Rhasspy

അനുമതി::
MIT

വേഗത:
Fast

നിലവാരം::

ഭാഷകള്‍:
en, de, fr, es, it, pt, nl, pl, ru, zh, ar, cs, da, fi, el, hu, is, ka, kk, ne, no, ro, sk, sr, sv, sw, tr, uk, vi

വാറം:
0 (CPU only)

ശബ്ദ ക്ളൈനിങ്ങ്:
ഇല്ല

1 കെ അക്ഷരങ്ങളുടെ വില:
ഫ്രീ

സിപിയു- സൌഹൃദം ഓഫ്‌ലൈന്‍ സാധ്യമാണു് 100+ ശബ്ദങ്ങള്‍ 30+ ഭാഷകള്‍Name എസ്എസ്എംഎല്‍ പിന്തുണ

ഏറ്റവും നല്ല സ്കോര്‍:: ത്വരിതപ്പെടുത്തല്‍, ആക്സസിബിളിറ്റി, എംബഡ് ചെയ്ത പ്രയോഗങ്ങള്‍

ശ്രമിക്കൂ Piper

VITS

Free

VITS (അന്ത്യ-ഘടകത്തില്‍ നിന്ന് വായിക്കാന്‍ പഠിക്കല്‍) ഒരു സമാന്തര രീതിയാണ്. അത്, ഇപ്പോഴത്തെ രണ്ട് കേന്ദ്ര മോഡലുകള്‍ക്കപ്പുറം പ്രകൃതിയിലെ ശബ്ദോപകരണങ്ങള്‍ ഉണ്ടാക്കുന്ന ശബ്ദ രീതിയാണ്. അപ്പോള്‍, പരമ്പരാഗത പരിവര്‍ത്തനം, പരമ്പരാഗികമായ പരിശീലന പ്രക്രിയകള്‍, പ്രകൃതിയില്‍ ശ്രദ്ധേയമായ പുരോഗതി നേടുന്നു.

രചയിതാവു്::
Jaehyeon Kim et al.

അനുമതി::
MIT

വേഗത:
Fast

നിലവാരം::

ഭാഷകള്‍:
en, de, es, fr, pt, nl, fi, hu, bg, ja, pl

വാറം:
1GB

ശബ്ദ ക്ളൈനിങ്ങ്:
ഇല്ല

1 കെ അക്ഷരങ്ങളുടെ വില:
ഫ്രീ

അവസാന-ഘടകത്തില്‍ നിന്നും സിന്‍റ്റാസിസ് നാച്ചുറല്‍ പ്രൊജക്ട് വേഗത്തില്‍ അനവധി സംസാരകര്‍

ഏറ്റവും നല്ല സ്കോര്‍:: സാധാരണ ടെക്സ്റ്റില്‍ നിന്നും സ്വാഭാവികമായ സംയോജകങ്ങളുമായി പ്രവര്‍ത്തിപ്പിയ്ക്കുക

ശ്രമിക്കൂ VITS

MeloTTS

Free

Mylottts ആണ് ഇംഗ്ലീഷ്, ബ്രിട്ടീഷ്, ബ്രിട്ടീഷ്, ഓസ്ട്രേലിയ, സ്പാനിഷ്, ചൈനീസ്, ചൈനീസ്, കൊറിയന് പിന്തുണയുള്ള ഒരു ബഹുഭാഷാ ലൈബ്രറി. സിപിയു-ടൈം-ടൈം-ടൈം വേഗതക്കു സമീപത്തുള്ള പാഠം വളരെ വേഗത്തില്‍ പ്രവര്‍ത്തിക്കുന്നു.

രചയിതാവു്::
MyShell.ai

അനുമതി::
MIT

വേഗത:
Fast

നിലവാരം::

ഭാഷകള്‍:
en, es, fr, zh, ja, ko

വാറം:
0.5GB (GPU optional)

ശബ്ദ ക്ളൈനിങ്ങ്:
ഇല്ല

1 കെ അക്ഷരങ്ങളുടെ വില:
ഫ്രീ

സിപിയു- പ്രാവര്‍ത്തികമാക്കല്‍ മള്‍ട്ടിപ്പിള്‍ അനവധി ആവര്‍ത്തനങ്ങള്‍ പ്രവര്‍ത്തനസജ്ജം കുറഞ്ഞ ലാറ്റന്‍സി

ഏറ്റവും നല്ല സ്കോര്‍:: വേഗത്തില്‍, ബഹുഭാഷാ TTS ആവശ്യമുളള പ്രയോഗങ്ങള്‍ ഉല്‍പാദിപ്പിക്കുന്നു

ശ്രമിക്കൂ MeloTTS

Bark

Standard

സണ്‍ബോയുടെ ബാര്‍ ഒരു പരിഷ്കരിക്കുന്ന ടെക്സ്റ്റ് മോഡല്‍ ആണ്. ഇത് വളരെ സാങ്കേതികവും വര്‍ദ്ധനവുമായുള്ള സംസാരം, വര്‍ദ്ധന, പശ്ചാത്തല ശബ്ദം, ശബ്ദങ്ങള്‍ തുടങ്ങിയ ശബ്ദങ്ങള്‍ ഉണ്ടാക്കാന്‍ കഴിയും. ഇത് ചിരി, നെടുവീര്‍പ്പിടല്‍, കരച്ച എന്നിവപോലുള്ള നാവിക സന്ദേശങ്ങള്‍ ഉല്‍പാദിപ്പിക്കാന്‍ കഴിയും. ബാര്‍ക്ക് 100- ലക്കങ്ങള്‍ക്കും 13+ ഭാഷകള്‍ക്കും കൂടുതല്‍ പിന്തുണ നല്‍കാന്‍ കഴിയും.

രചയിതാവു്::
Suno

അനുമതി::
MIT

വേഗത:
Slow

നിലവാരം::

ഭാഷകള്‍:
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr

വാറം:
5GB

ശബ്ദ ക്ളൈനിങ്ങ്:
ഇല്ല

1 കെ അക്ഷരങ്ങളുടെ വില:
2x

ശബ്ദ പ്രഭാവങ്ങള്‍ ചിരി/തുറക്കുക സംഗീതത്തിന്റെ ഉല്‍പ്പന്നംName 100+ സംസാരകര്‍ മള്‍ട്ടിപ്പിള്‍

ഏറ്റവും നല്ല സ്കോര്‍:: വികാരങ്ങളും ശബ്ദങ്ങളും ഉള്ള ഓഡിയോ പുസ്തകങ്ങള്‍ നിര്‍മ്മിക്കുക

ശ്രമിക്കൂ Bark

Bark Small

Standard

ബാര്‍ക്ക് ചെറുതാണു് ബാര്‍ക്ക് മോഡലിന്‍റെ ദ്രാവകം. ചില ഓഡിയോ ഗുണങ്ങള്‍ വേഗത്തിലും, ഓര്‍മ്മകളുടെ ആവശ്യങ്ങള്‍ കുറയ്ക്കുന്നു. വികാരങ്ങളാലും, ചിരിയാലും, പല ഭാഷകളാലും സംസാരം സൃഷ്ടിക്കാനുള്ള കഴിവ് ഇതു നിലനിറുത്തുന്നു.

രചയിതാവു്::
Suno

അനുമതി::
MIT

വേഗത:
Medium

നിലവാരം::

ഭാഷകള്‍:
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr

വാറം:
2GB

ശബ്ദ ക്ളൈനിങ്ങ്:
ഇല്ല

1 കെ അക്ഷരങ്ങളുടെ വില:
2x

ഇളം ഭാരം ഫുള്‍ ബാര്‍ക്കിനെക്കാള്‍ വേഗത്തില്‍ ഹൃദയസ്‌പർശിയായ സംസാരം മള്‍ട്ടിപ്പിള്‍

ഏറ്റവും നല്ല സ്കോര്‍:: പൂര്‍ണ്ണമായും ബാര്‍ക്ക് വളരെ വേഗതയില്‍ ആയിരിക്കുമ്പോള്‍ ത്വരിതഗതിയിലുള്ള ഓഡിയോ ഓഡിയോ

ശ്രമിക്കൂ Bark Small

CosyVoice 2

Standard

"കോസിയോയിസ്" (Cosyoses), ടോങ്ബാബ 2 ടോങ്ബയ്യ്ക്കിയുടെ ക്യാപ്റ്റന്‍ ഭാഷയില്‍ മനുഷ്യന്‍റെ അപൂര്‍വ്വമായ ലാബിനെ നിര്‍ബന്ധപൂര്‍വ്വമായ ഭാഷാഗുണം നേടിയെടുക്കുന്നു. ഇത് യഥാര്‍ത്ഥ സമയ പ്രയോഗങ്ങള്‍ക്ക് അനുയോജ്യമാക്കുന്നു. ഇത് "ഇന്‍സെന്‍സ്" (Sinty) എന്ന സങ്കര്‍ച്ച" (Syints) എന്ന സങ്കര്‍ച്ചയെ പിന്‍വലിപ്പിക്കാന്‍ ഉപയോഗിക്കുന്നു.

രചയിതാവു്::
Alibaba (Tongyi Lab)

അനുമതി::
Apache 2.0

വേഗത:
Medium

നിലവാരം::

ഭാഷകള്‍:
en, zh, ja, ko, fr, de, it, es

വാറം:
4GB

ശബ്ദ ക്ളൈനിങ്ങ്:
അതെ

1 കെ അക്ഷരങ്ങളുടെ വില:
2x

സ്ട്രീമിങ് സീറോ- ഹോട്ട് ക്ലോണ്‍ ക്രോസ്സ്- ഇനം കമ്പ്യൂട്ടര്‍ നിയന്ത്രണം മനുഷ്യ-പങ്കാളി

ഏറ്റവും നല്ല സ്കോര്‍:: ശരിയായ പ്രയോഗങ്ങള്‍, ടിടിഎസ് നീക്കുന്നു, ശബ്ദസഹായികള്‍

ശ്രമിക്കൂ CosyVoice 2

Dia TTS

Standard

'നാറി ലാബ്സ്' ഉപയോഗിച്ചു് ഒരു 1.6B പരാമീറ്റര്‍ വര്‍ദ്ധനത്തിനുള്ള മാതൃകയാണ്. ഒന്നില്‍ കൂടുതല്‍ ശബ്ദ സംവാദങ്ങള്‍ നിര്‍മ്മിക്കുന്നതിനുളള ഒരു ഫയല്‍- മെസ്സേജ് നിര്‍മ്മിച്ചിട്ടുള്ളതു്. ഇതു് രണ്ട് സംസാരക്കാര്‍ തമ്മില്‍ ശരിയായ ഇടവേള, പ്രൊസസ്സിങ്, പ്രോസോഡി, വൈകാരിക ഭാവങ്ങള്‍ എന്നിവയുമായി സമ്പര്‍ക്കത്തില്‍ സംവാദങ്ങള്‍ ഉണ്ടാക്കാന്‍ സാധിക്കുന്നു. ഡിയ അനുയോജ്യമാണ് സ്പാനിഷ്- ശൈലികള്‍, ഓഡിയോപുസ്തകങ്ങള്‍, ഇന്റര്‍ ಸಂಭಾಷಣೆകള്‍ എന്നിവ നിര്‍മ്മിക്കുന്നത്, ഇന്ററാക്റ്റല്‍ സംഭാഷണം എന്നിവ നിര്‍മ്മിക്കുന്നത്.

രചയിതാവു്::
Nari Labs

അനുമതി::
Apache 2.0

വേഗത:
Medium

നിലവാരം::

ഭാഷകള്‍:
en

വാറം:
4GB

ശബ്ദ ക്ളൈനിങ്ങ്:
ഇല്ല

1 കെ അക്ഷരങ്ങളുടെ വില:
2x

മള്‍ട്ടി- സ്പ്രെറ്റര്‍ ഡയലോഗ് ഉല്‍പാദിപ്പിക്കുന്നുComment നാച്ചുറല്‍ തിരിച്ചു് കടക്കുക വൈകാരികമായ ഭാവം 160ബി പരാമീറ്ററുകള്‍

ഏറ്റവും നല്ല സ്കോര്‍:: പോളിഷ്, ഓഡിയോപുസ്തകങ്ങളുടെ ഡയലോഗുകള്‍, വര്‍ത്തമാനം

ശ്രമിക്കൂ Dia TTS

Parler TTS

Standard

പാര്‍ലര്‍ ടിടിഎസ് എന്നത് ഒരു സാധാരണ ഭാഷാ വിവരണങ്ങള്‍ ഉപയോഗിച്ച് നിര്‍മ്മിച്ച സംസാരം നിയന്ത്രിക്കുന്നു. നിങ്ങള്‍ ശബ്ദങ്ങള്‍ തെരഞ്ഞെടുക്കുന്നതിനു് പകരം, നിങ്ങള്‍ ഒരു ചെറിയ ബ്രിട്ടീഷ് ഉച്ചാരണം ഉപയോഗിച്ചു് (ഉദാര്‍ത്ഥമായി സംസാരിക്കുന്നു), പാര്‍ലര്‍ ആ വിവരണവുമായി പൊരുത്തപ്പെടുത്തുന്നു. ഇത് നിര്‍മ്മാണ പ്രയോഗങ്ങള്‍ക്ക് അനുയോജ്യമാക്കുന്നു.

രചയിതാവു്::
Hugging Face

അനുമതി::
Apache 2.0

വേഗത:
Medium

നിലവാരം::

ഭാഷകള്‍:
en

വാറം:
4GB

ശബ്ദ ക്ളൈനിങ്ങ്:
ഇല്ല

1 കെ അക്ഷരങ്ങളുടെ വില:
2x

ശബ്ദവിവരണം സാധാരണ ഭാഷാ നിയന്ത്രണം മാറ്റാവുന്ന ശബ്ദസൃഷ്ടി ശബ്ദങ്ങള്‍ വേണ്ട

ഏറ്റവും നല്ല സ്കോര്‍:: നിങ്ങള്‍ക്കു് ഇഷ്ടമുള്ള ശബ്ദങ്ങളുടെ വിശേഷതകള്‍ ആവശ്യമുള്ള സൃഷ്ടിയ്ക്കുന്ന പ്രയോഗങ്ങള്‍Name

ശ്രമിക്കൂ Parler TTS

IndexTTS-2

Standard

ExtTS- 2 ആണ് ഒരു പുരോഗമിച്ച ടെക്സ്റ്റ്- ലേഖന സിസ്റ്റം. അത് പൂജ്യം- ഹോട്ട്-ടൈന്‍ ശബ്ദ നിയന്ത്രണത്തില്‍ മികച്ച വികാര നിയന്ത്രണം ഉള്ളതാണ്. ഇതു് ചില വികാരവിനിമയങ്ങളുമായി സംസാരം സൃഷ്ട്ടിക്കുന്നത് സന്തോഷവും, ശോചനവും, ശോചനവും, ശോചനീയവുമായ പരിശീലന വിവരങ്ങള്‍ ഇല്ലാത്തവര്‍ക്കായിയോ ഭയാദകരവുമായ സംസാരം സൃഷ്ടിക്കും. ആ മാതൃക നിര്‍മ്മിച്ച സംസാരത്തിന്റെ വികാരപ്രകടനത്തെ കൃത്യമായി നിയന്ത്രിക്കാന്‍ വെക്സറുകള്‍ ഉപയോഗിക്കുന്നു.

രചയിതാവു്::
Index Team

അനുമതി::
Bilibili Model License

വേഗത:
Medium

നിലവാരം::

ഭാഷകള്‍:
en, zh

വാറം:
4GB

ശബ്ദ ക്ളൈനിങ്ങ്:
അതെ

1 കെ അക്ഷരങ്ങളുടെ വില:
2x

കമ്പ്യൂട്ടര്‍ നിയന്ത്രണം സീറോ- ഹോട്ട് എമുലേറ്റര്‍ വെക്ടര്‍സ് ക്രിയാത്മകമായ സംസാരം നല്ല നിയന്ത്രിത നിയന്ത്രണം

ഏറ്റവും നല്ല സ്കോര്‍:: വികാരചിഹ്നങ്ങള്‍ പ്രകാശിതമാക്കല്‍, ഓഡിയോ പുസ്തകങ്ങള്‍, വിര്‍ച്ച്വല്‍ സഹായികള്‍Name

ശ്രമിക്കൂ IndexTTS-2

Spark TTS

Standard

ആര്‍ടിഎസ് ഓഡിയോ ഉപയോഗിച്ചു് സ്കോട്ട് ചെയ്യാവുന്ന ഒരു ലേഖന- വായനാ മോഡല്‍ ആണ് അത് ശബ്ദത്തെ നിയന്ത്രിക്കാന്‍ കഴിയുന്ന വികാരവും സംസാരരീതിയുമായി കൂട്ടിചേര്‍ക്കുന്നു. കുറിപ്പ് ഓഡിയോ ഉപയോഗിച്ചു് 5 സെക്കന്‍റുകളോളം ശബ്ദത്തില്‍ മോണിറ്റര്‍ ആവര്‍ത്തിക്കുകയും, ശീര്‍ഷകങ്ങളോടെയും, ശൈലികളാല്‍ സംസാരം നിര്‍മ്മിക്കുകയും ചെയ്യും. StTS പ്ലെയിസ് ആക്ടിക്കല്‍ നിയന്ത്രണ സിസ്റ്റം ഉപയോഗിയ്ക്കുന്നു.

രചയിതാവു്::
SparkAudio

അനുമതി::
CC BY-NC-SA 4.0

വേഗത:
Medium

നിലവാരം::

ഭാഷകള്‍:
en, zh

വാറം:
4GB

ശബ്ദ ക്ളൈനിങ്ങ്:
അതെ

1 കെ അക്ഷരങ്ങളുടെ വില:
2x

ശബ്ദമിശ്രണോപാധി കമ്പ്യൂട്ടര്‍ നിയന്ത്രണം ശൈലിയുടെ നിയന്ത്രണം ഉറപ്പ് വരുത്തല്‍ പ്രാവര്‍ത്തികമാക്കുക 5- സെക്കന്റ് ക്ളൈന്‍

ഏറ്റവും നല്ല സ്കോര്‍:: ഉള്ളടക്കത്തിന്റെ സൃഷ്ടിയില്‍ ക്ലോണ്‍ഡ് ശബ്ദവും വൈകാരിക നിയന്ത്രണവും

ശ്രമിക്കൂ Spark TTS

GPT-SoVITS

Standard

GPT- സോടിവിഎസ് GPT- സോപ്- സ്റ്റൈല്‍ ഭാഷാ ക്രമം ചേര്‍ക്കുന്നു (സങ്കീര്‍ത്തനം) ശക്തിയേറിയ ഏതാനും ഫോറന്‍സിലിങ്ങുകള്‍ക്കു് സിന്‍സെന്‍ഫോര്‍സ് (സംഗീറ്റിങ് സിന്‍സെന്‍സിസ്) ശക്തിയേറിയ ചില ശബ്ദങ്ങള്‍ ഉപയോഗിച്ചു് സിന്‍സെന്‍സിസിസിസ് (സ്പീലിങ് ശബ്ദസങ്കലനം). ഇത് 5 സെക്കന്‍ഡ് ശബ്ദങ്ങള്‍ പോലെ തന്നെ, സംസാരത്തിന്‍റെ പ്രത്യേക വിശേഷതകള്‍ സൂക്ഷിക്കുമ്പോള്‍ പുതിയ ശബ്ദവും നിര്‍മ്മിക്കാന്‍ കഴിയും. ഇതു് സംസാരത്തിന്‍റെയും ശബ്ദത്തിന്‍റെയും ശബ്ദത്തിന്‍റെ ശബ്ദത്തിന്‍റെ സിന്‍റെ സജ്ജമാക്കുവാന്‍ കഴിയും.

രചയിതാവു്::
RVC-Boss

അനുമതി::
MIT

വേഗത:
Slow

നിലവാരം::

ഭാഷകള്‍:
en, zh, ja, ko

വാറം:
6GB

ശബ്ദ ക്ളൈനിങ്ങ്:
അതെ

1 കെ അക്ഷരങ്ങളുടെ വില:
2x

5- സെക്കന്റ് ക്ളൈന്‍ പാട്ടുപാടുന്ന ശബ്ദം അല്പം-ചുറ്റില്‍ പഠിക്കല്‍ വളരെ വിശ്വസ്‌തത ക്രോസ്സ്- ഇനം

ഏറ്റവും നല്ല സ്കോര്‍:: ശബ്ദമിശ്രണോപാധി, സിനിത്തസിസ് പാട്ട്, ഉള്ളടക്കമുള്ള ശബ്ദങ്ങള്‍ പുനര്‍നിര്‍മ്മാണം

ശ്രമിക്കൂ GPT-SoVITS

Orpheus

Standard

ഓര്‍ഫിയസിന് മനുഷ്യതലത്തിലെ വൈകാരിക ഭാവം നേടുന്ന ഒരു വലിയ ടെക്സ്റ്റിന്റെ മാതൃകയാണ്. 100,000 മണിക്കൂറില്‍ കൂടുതല്‍ വ്യത്യസ്തമായ ഭാഷാവിവരങ്ങള്‍ക്ക് പരിശീലനം നല്‍കുമ്പോള്‍, സ്വാഭാവിക വികാരങ്ങളോടും, ഊന്നല്‍യോടും, സംസാരരീതിയോടും കൂടി സംസാരരീതികളോടും കൂടിയ സംസാരം വികസിപ്പിച്ചെടുക്കാന്‍ കഴിയും. ഓര്‍ഫിയസിന്, മനുഷ്യന്റെ റെക്കോര്‍ഡുകളില്‍ നിന്നും വളരെ വിപുലമായ സംസാരം ഉണ്ടാക്കാന്‍ കഴിയും.

രചയിതാവു്::
Canopy Labs

അനുമതി::
Llama 3.2 Community

വേഗത:
Medium

നിലവാരം::

ഭാഷകള്‍:
en

വാറം:
4GB

ശബ്ദ ക്ളൈനിങ്ങ്:
ഇല്ല

1 കെ അക്ഷരങ്ങളുടെ വില:
2x

മനുഷ്യന്റെ തലച്ചോറിന്‍റെ വികാരം 100K മണിക്കൂര്‍ പരിശീലനം സാധാരണ മർമപ്രധാനമായ ക്രിയാത്മകമായ സംസാരം

ഏറ്റവും നല്ല സ്കോര്‍:: ഉയര്‍ന്ന വികാരപ്രവര്‍ത്തനം, ശബ്ദങ്ങള്‍, ശബ്ദങ്ങള്‍, പ്രവര്‍ത്തനംName

ശ്രമിക്കൂ Orpheus

Chatterbox

Premium

റെസ്പര്‍ച്ചര്‍ ബോക്സ് റെസ്ലിള്‍ എഡ്ജെറ്റ്- ഹോട്ട്- ഹോട്ട് സ്റ്റൈല്‍ മോഡല്‍ ആണ്. ഇതു് ഏതെങ്കിലും ശബ്ദത്തെ കൃത്യതയോടെ സജ്ജീകരിക്കാന്‍ കഴിയും. ഇതു് ഒരു റെമിബ്രേരി മാത്രമല്ല സംസാരരീതിയും വൈകാരിക വൈദഗ്ധ്യങ്ങളും കൂടി സജ്ജീകരിക്കും. സല്ലാപകരമായ വികാരനിയന്ത്രണവും സജ്ജീകരിക്കുന്നു, ശബ്ദത്തിന്റെ സ്വയമായ ശബ്ദത്തിന്റെ സ്വരം മാറ്റാന്‍ നിങ്ങളെ അനുവദിക്കുന്നു.

രചയിതാവു്::
Resemble AI

അനുമതി::
MIT

വേഗത:
Medium

നിലവാരം::

ഭാഷകള്‍:
en

വാറം:
4GB

ശബ്ദ ക്ളൈനിങ്ങ്:
അതെ

1 കെ അക്ഷരങ്ങളുടെ വില:
4x

സീറോ- ഹോട്ട് ക്ലോണ്‍ കമ്പ്യൂട്ടര്‍ നിയന്ത്രണം വളരെ വിശ്വസ്‌തത ശൈലി കൈമാറ്റം ഒറ്റ സാമ്പിള്‍ ക്ളൈന്‍സ്

ഏറ്റവും നല്ല സ്കോര്‍:: വിദഗ്‌ധമായ ശബ്ദമിശ്രണോപാധികൾ വൈകാരിക നിയന്ത്രണവും തൃപ്‌തികരമായ സൃഷ്ടിയും

ശ്രമിക്കൂ Chatterbox

Tortoise TTS

Premium

TTS ഒരു യാന്ത്രിക- ശബ്ദ- വായനാ സംവിധാനം ആണ് വേഗത്തില്‍ ശബ്ദത്തിന്റെ ഗുണമേന്മ മുന്‍ഗണന നല്‍കുന്നത്. ഇതു് ഡാല്‍- എ എഇ സ്പെക്ട് സ്ക്രീനില്‍ ഏറ്റവും കൂടിയ പ്രകൃതിസങ്കീര്‍ പോലെയുള്ള സംസാരം നിര്‍മ്മിക്കാന്‍ ഡിസൈനര്‍ ഉപയോഗിക്കുന്നു. പല പകരങ്ങളെക്കാളും വേഗത കുറവാണെങ്കിലും, തുറന്ന സസ്തനിയില്‍ ഏറ്റവും സാങ്കേതികമായ ചില സാങ്കേതിക സംസാരം നിര്‍മ്മിക്കുന്നു.

രചയിതാവു്::
James Betker

അനുമതി::
Apache 2.0

വേഗത:
Slow

നിലവാരം::

ഭാഷകള്‍:
en

വാറം:
8GB

ശബ്ദ ക്ളൈനിങ്ങ്:
അതെ

1 കെ അക്ഷരങ്ങളുടെ വില:
4x

ഏറ്റവും കൂടിയ ഗുണമേന്മ മള്‍ട്ടി- റേഡിയന്‍ ഡാല്‍-ഇ കെട്ടിടം ശബ്ദമിശ്രണോപാധി സ്വയം സൂക്ഷിക്കല്‍

ഏറ്റവും നല്ല സ്കോര്‍:: ശബ്ദപുസ്തകങ്ങള്‍, അപ്ഡേറ്റ്, ഗുണമേന്മ- പ്രാരംഭ പ്രയോഗങ്ങള്‍

ശ്രമിക്കൂ Tortoise TTS

StyleTTS 2

Premium

സ്റ്റൈല്‍ടിടിഎസ് 2 മാനവ- ലെ ലെ ലെമെന്‍റ് ടിടിഎസ് സിന്‍സിസ് (TTTTS), വലിയ ഭാഷാസങ്കലന പരിശീലനം ഉപയോഗിച്ചു് ഡിഫ്യൂഷന്‍ ചേര്‍ക്കുന്നു. അതു് ഒരേ- വര്‍ത്തമാന മോഡലുകള്‍ ഉപയോഗിച്ചു് പൂര്‍ണ്ണമായ ശബ്ദോപകരണം ഉണ്ടാക്കുന്നു. സ്റ്റൈല്‍സ് 2 മനുഷ്യഭാഷാ വ്യ‌ത്യ‌‌നത്തിന്‍റെ മുഴുവന്‍ വ്യ‌‌ത്യ‌‌നവും കൈമാറ്റം നേടുന്നതിനായി ഡിഡിറ്റൂസൈന്‍സിന്‍ ശൈലി ഉപയോഗിക്കുന്നു.

രചയിതാവു്::
Columbia University

അനുമതി::
MIT

വേഗത:
Medium

നിലവാരം::

ഭാഷകള്‍:
en

വാറം:
4GB

ശബ്ദ ക്ളൈനിങ്ങ്:
ഇല്ല

1 കെ അക്ഷരങ്ങളുടെ വില:
4x

മനുഷ്യന്റെ നില ഫൈല്‍ ഡിഫ്യൂഷന്‍ നിയമപരമായ പരിശീലനം നാച്ചുറല്‍ വ്യ‌‌ത്യ‌‌സ്‌ വളരെ വിശ്വസ്‌തത

ഏറ്റവും നല്ല സ്കോര്‍:: സ്റ്റുഡിയോ- സ്റ്റുഡിയോ- ഏകപ്രവര്‍ത്തകന്‍ സിന്‍തിസ്, പ്രൊഫഷണല്‍ ചരിത്രം

ശ്രമിക്കൂ StyleTTS 2

OpenVoice

Premium

MyShell. ഓപ്പണ്‍Voice ഓപ്പണ്‍ വോയിസ്, ശബ്ദ നിയന്ത്രണം, വികാരം, താളം, ഓപ്പണ്‍, ഇടവേള, ആംഗ്യഭാഷ എന്നിവയുമായി ശബ്ദമിശ്രണോപാധികള്‍ സജ്ജീകരിക്കുന്നു. ഇതു് ഒരു ചെറിയ ഓഡിയോ ക്ളൈപ്പ് ക്ലിപ്, പല ഭാഷകളില്‍ നിന്നും ശബ്ദമുണ്ടാക്കുന്നു. ശബ്ദമിശ്രണം സൂക്ഷിക്കുന്നു. ശബ്ദമിശ്രണം മാറ്റാന്‍ അനുവദിക്കുന്നു, ശബ്ദക്രമം അനുവദിക്കുന്നു.

രചയിതാവു്::
MyShell.ai / MIT

അനുമതി::
MIT

വേഗത:
Medium

നിലവാരം::

ഭാഷകള്‍:
en, zh, ja, ko, fr, es

വാറം:
4GB

ശബ്ദ ക്ളൈനിങ്ങ്:
അതെ

1 കെ അക്ഷരങ്ങളുടെ വില:
4x

ഇന്‍സ്റ്റന്റ് ക്ലോണ്‍usa. kgm ശബ്ദം മാറ്റുന്നു കമ്പ്യൂട്ടര്‍ നിയന്ത്രണം കണ്‍ട്രോള്‍ കണ്ട്രോള്‍ മള്‍ട്ടിപ്പിള്‍

ഏറ്റവും നല്ല സ്കോര്‍:: നല്ല രീതിയിലുള്ള ശൈലിയുള്ള ശബ്ദചിഹ്നം, ശബ്ദം മാറ്റല്‍

ശ്രമിക്കൂ OpenVoice

Qwen3 TTS

Standard

ക്വെന്‍3-TS എന്നത് അലിബാ ക്വെന്‍ ടീമില്‍ നിന്നുള്ള 1.7 ബില്ല്യണ്‍ പരാമീറ്റര്‍ ടെക്സ്- മെഡിക്കല്‍ അലിബാ ക്വെന്‍ ടീമില്‍ നിന്നും. ഇതു് മൂന്നു രീതിയില്‍ പിന്തുണയ്ക്കുന്നു: കണ്‍സ്ട്രേഷന്‍ (വിവരം), ശബ്ദവിവരം, ശബ്ദത്തിന്റെ 3 സെക്കന്‍ഡുകളില്‍ നിന്നു് (9 സംസാരകര്‍), നിങ്ങള്‍ക്ക് സ്വാഭാവിക ഭാഷയില്‍ വിശദീകരിക്കുന്ന ഒരു അസാധാരണമായ ശബ്ദ രീതി. അത് 10 ഭാഷകളാല്‍, പ്രകൃതിയില്‍, പ്രകൃതിയില്‍, സ്വാഭാവികമായി പ്രവര്‍ത്തനസജ്ജം എന്നിവ ഉള്‍പ്പെടുന്നു.

രചയിതാവു്::
Alibaba (Qwen)

അനുമതി::
Apache 2.0

വേഗത:
Medium

നിലവാരം::

ഭാഷകള്‍:
en, zh, ja, ko, de, fr, ru, pt, es, it

വാറം:
7GB

ശബ്ദ ക്ളൈനിങ്ങ്:
അതെ

1 കെ അക്ഷരങ്ങളുടെ വില:
2x

ശബ്ദമിശ്രണോപാധി 9 പ്രാരംഭ ശബ്ദങ്ങൾ പദാവലിയില്‍ നിന്നു് ശബ്ദ ഘടന കമ്പ്യൂട്ടര്‍ നിയന്ത്രണം 10 ഭാഷകള്‍

ഏറ്റവും നല്ല സ്കോര്‍:: യഥേഷ്ടം ഉള്ളടക്കങ്ങള്‍ ക്ളൈന്‍ അല്ലെങ്കില്‍ യഥേഷ്ടം ശബ്ദ ഘടനയുപയോഗിച്ചു്

ശ്രമിക്കൂ Qwen3 TTS

Sesame CSM

Premium

സിഎസ്എം (സംഭാഷണഭാഷാ സംസാരം) സജ്ജീകരിക്കുന്നതിനുള്ള ഒരു ബില്യണ്‍ പരാമീറ്റര്‍ മോഡല്‍ ആണ്. ഇതു് സമയോപകരണങ്ങള്‍, പിന്‍ഭാഗത്തുള്ള പ്രതികരണങ്ങള്‍, വൈകാരിക പ്രതികരണങ്ങള്‍, സംഭാഷണങ്ങള്‍ എന്നിവ ഉള്‍ക്കൊള്ളുന്ന മനുഷ്യസഹജമായ സംഭാഷണരീതികള്‍ ഉള്‍ക്കൊള്ളുന്നു. സിഎസ്എം സൃഷ്ട്ടിക്കുന്ന ശബ്ദത്തിനു പകരം സ്വാഭാവികമായൊരു സംഭാഷണം പോലെയുള്ള ശബ്ദങ്ങള്‍ ഉണ്ടാക്കുന്നു.

രചയിതാവു്::
Sesame

അനുമതി::
Apache 2.0

വേഗത:
Slow

നിലവാരം::

ഭാഷകള്‍:
en

വാറം:
8GB

ശബ്ദ ക്ളൈനിങ്ങ്:
ഇല്ല

1 കെ അക്ഷരങ്ങളുടെ വില:
4x

വര്‍ത്തമാനം സാധാരണ സമയം പ്രവര്‍ത്തിപ്പിയ്ക്കുക പുറകോട്ട് ചാനല്‍ 1ബി പരാമീറ്ററുകള്‍

ഏറ്റവും നല്ല സ്കോര്‍:: AI സഹായികള്‍, ചാറ്റ്ബോട്ട്സ്, വര്‍ത്തമാനം AI പ്രയോഗങ്ങള്‍

ശ്രമിക്കൂ Sesame CSM

Chatterbox Turbo

Standard

ചാറ്റര്‍ബോ ട്രെയിലര്‍ ടര്‍ബോ, ചാറ്റല്‍ എയ്റ്റര്‍ എ-ഐ- ല്‍ നിന്നും ചാറ്റര്‍ബോയിലെ ഒരു 350M പരാമീറ്റര്‍ അപ്ഗ്രേഷന്‍ ആണ്. ഇതു് സബ്- ഡയറക്ടറി- മെഡിക്കല്‍ ഉപയോഗിച്ചു് 6x- സമയം വേഗത നല്‍കുന്നു. [k], [cap], നേരിട്ട് ടെക്സ്റ്റില്‍ ലഭ്യമാക്കിയ എല്ലാ ശബ്ദങ്ങളും ഉള്‍പ്പെടുത്തുന്നു.

രചയിതാവു്::
Resemble AI

അനുമതി::
MIT

വേഗത:
Fast

നിലവാരം::

ഭാഷകള്‍:
en

വാറം:
2GB

ശബ്ദ ക്ളൈനിങ്ങ്:
അതെ

1 കെ അക്ഷരങ്ങളുടെ വില:
2x

സബ്- ഡസ്കിന്‍സ് ലോണ്‍സി പാരനലിക്വിറ്റിക് തൊങ്ങല്‍ 6x യഥാര്‍ത്ഥ സമയം ശബ്ദമിശ്രണോപാധി ജലാംശം

ഏറ്റവും നല്ല സ്കോര്‍:: റിയല്‍ ടൈം ശബ്ദം ഏജന്റ്, സാധാരണ ശബ്ദങ്ങളോടെയുള്ള സംസാരം

ശ്രമിക്കൂ Chatterbox Turbo

VoxCPM

Standard

ഓപ്പണ്‍ ബിഎംഎംഎംഐ 1. 1 എന്ന ഓപ്പണ്‍ ബിബിഎം ഉപയോഗിച്ചു് ഒരു നോവല്‍- ഫ്രീ ടിടിഎസ് മോഡല്‍ ആണു്, ഇതു് ഡിസ്ട്രേറ്റിറ്റിന്റെ ലക്ഷണങ്ങള്‍ക്ക് പകരം നിരന്തരം സ്പെയിസിലാണു്. ഇതു് ഹൈഫൈല്‍ ഓഡിയോ സജ്ജീകരിക്കുന്നു, 3- 10 സെക്കന്‍ഡുകളില്‍ നിന്നു്‍ നിന്നു് പൂജ്യമായ ശബ്ദങ്ങള്‍ സജ്ജീകരിക്കുന്നു, പിന്നെ ഇംഗ്ലീഷ് സംസാരത്തിനും ഇംഗ്ലീഷ് ശബ്ദത്തിനും നിങ്ങള്‍ക്ക് അനുയോജ്യമാവും നല്‍കുന്നു.

രചയിതാവു്::
OpenBMB

അനുമതി::
Apache 2.0

വേഗത:
Fast

നിലവാരം::

ഭാഷകള്‍:
en, zh

വാറം:
4GB

ശബ്ദ ക്ളൈനിങ്ങ്:
അതെ

1 കെ അക്ഷരങ്ങളുടെ വില:
2x

44.1khz ഓഡിയോ ടോക്കന്‍സി- ഫ്രീName ക്രോസ്സ്- ഇയല്‍ ക്ളൈന്‍new- zealand. kgm സന്ദര്‍ഭ- നിരീക്ഷകന്‍ ലോറ ഫുള്‍- ഇന്‍റിങ്

ഏറ്റവും നല്ല സ്കോര്‍:: ശബ്ദ- സംയോജകങ്ങള്‍, ഓഡിയോ പുസ്തകങ്ങള്‍, ശബ്ദത്തിന്റെ നീളം കൂടിയ ഫോര്‍മാറ്റ് എന്നിവ

ശ്രമിക്കൂ VoxCPM

Kani TTS 2

Free

കനി-TS-2 എന്ന ക്വെറി- എം- എം- എം- എംഎംഒസ്‌എംഎം‌എം‌‌‌എം‌‌‌എം‌‌‌‌എം‌എം‌‌‌‌എം‌‌‌‌‌‌എം‌‌‌‌‌‌‌‌സ്‌ മോഡല്‍ ആണ്. ഇത് വെറും 3GB vNAMAM- vood- 10 സെക്കന്‍ഡുകളില്‍ പ്രവര്‍ത്തിക്കുന്നതും ഒരു 1002 സെക്കന്‍ഡുകളില്‍ നിന്ന് 1010 സെക്കന്‍ഡുകള്‍ ഉല്‍പാദിപ്പിക്കുന്നതുമാണ്. ഇപ്പോള്‍ പുറത്തുവരുന്ന ഒരു പൊതുവായ ഇംഗ്ലീഷ്‌ - ബീജെന്‍ഡി-എം-എംഡി-എംസ്‌-എംഡി-എം-എം-എംഡിടിടിടിടിടിടിടിടിഎംഡി-എംബോഡിഡിഡിഡിഡിഗ് (RLORLORE) എന്ന ശബ്ദത്തെ ശബ്ദങ്ങള്‍ കാണിക്കാന്‍ ആവശ്യമില്ല.

രചയിതാവു്::
NineNineSix

അനുമതി::
Apache 2.0

വേഗത:
Fast

നിലവാരം::

ഭാഷകള്‍:
en

വാറം:
3GB

ശബ്ദ ക്ളൈനിങ്ങ്:
ഇല്ല

1 കെ അക്ഷരങ്ങളുടെ വില:
ഫ്രീ

3GB VRAM അള്‍ട്ര- വേഗത്തില്‍ ഇളം ഭാരം നാനോകോഡെക് ഫ്രീ

ഏറ്റവും നല്ല സ്കോര്‍:: വേഗത്തിലുള്ള ഇംഗ്ലീഷുകാര്‍ഡ് ഹാര്‍ഡ്‌വെയര്‍, വേഗത്തിലുള്ള പ്രിവ്യൂകള്‍

ശ്രമിക്കൂ Kani TTS 2

OuteTTS

Free

പ്രത്യേ‌‌ക നിര്‍മ്മാണ കേന്ദ്രം സൂക്ഷിക്കുമ്പോള്‍, ടെക്സ്റ്റില്‍ നിന്നും ഇന്‍സ്റ്റാള്‍സുമായി വലിയ ഭാഷാമാലകള്‍ വിടുന്നു. Lama. Cc/ GPUP (CPU), ഹാന്‍ഡ് മോണിറ്ററുകള്‍ (എക്‌സിഎം), എക്‌എംഎംഎഫ്‌എഫ്‌വി‌വ്യൂ (എക്‌സി), വിന്യാസുകള്‍ (എക്‌എഫ്‌എഫ്‌എംഎസ്‌എംഎസ്) എന്നിവ ഉള്‍പ്പെടെ പല ബാക്കുകള്‍ പിന്തുണയ്ക്കുന്നു. സ്പോണ്‍സര്‍ പ്രൊഫൈല്‍സുകള്‍ (ജോണ്‍സസ്സുകള്‍) എന്ന രീതിയില്‍ ശബ്ദസജ്ജമാക്കിയുള്ള ശബ്ദകര്‍മ്മങ്ങള്‍ (ജെസാന്‍).

രചയിതാവു്::
OuteAI

അനുമതി::
Apache 2.0

വേഗത:
Fast

നിലവാരം::

ഭാഷകള്‍:
en

വാറം:
2GB

ശബ്ദ ക്ളൈനിങ്ങ്:
അതെ

1 കെ അക്ഷരങ്ങളുടെ വില:
ഫ്രീ

സിപിയു ഇന്‍ഫറന്‍സ് ബ്രൌസര്‍ ഇന്‍ഫറന്‍സ് ശബ്ദമിശ്രണോപാധി അനവധി ബാക്കെന്‍ഡുകള്‍ ശബ്ദകര്‍ത്താവിന്റെ പ്രൊഫൈലുകള്‍

ഏറ്റവും നല്ല സ്കോര്‍:: എക്ട്രേറ്റമെന്റ്, ബ്രൌസര്‍- അടിസ്ഥാനമാക്കിയുള്ള TTS, കുറഞ്ഞ- റിസോഴ്സ് പരിസരം

ശ്രമിക്കൂ OuteTTS

VibeVoice

Standard

Microsofts-നുളള വിബ്യോസ് രണ്ടു രീതിയില്‍ ലഭ്യമാകുന്നു: 1.5B മോഡും (മുഴുവനും 90 മിനിട്ട് വരെയുള്ള വരികള്‍), 1.5-നും (മുഴു ശബ്ദകര്‍ത്താവ്), 1.5-ആം സമയ മാതൃകയും 1.0-ആം ഓഡിയോ അഭ്യാസമുള്ള ആദ്യത്തെ ഓഡിയോ അക്കങ്ങള്‍ നിര്‍മ്മിക്കുന്നു. കുറിപ്പുകാരന്‍ സ്പാക്കില്‍ നിന്നും ശബ്ദകര്‍ഷത്തില്‍ നിന്നും ശബ്ദകര്‍ഷത്തില്‍ നിന്നും മിക്നോട്ടണ്‍ ടിടിഎസ് നിര്‍മ്മിച്ചു്‍ ഉല്‍പാദിപ്പിക്കുന്ന ശബ്ദോപകരണങ്ങള്‍ ഉല്‍പാദിപ്പിക്കുന്നു.

രചയിതാവു്::
Microsoft

അനുമതി::
MIT

വേഗത:
Fast

നിലവാരം::

ഭാഷകള്‍:
en, zh

വാറം:
4GB

ശബ്ദ ക്ളൈനിങ്ങ്:
ഇല്ല

1 കെ അക്ഷരങ്ങളുടെ വില:
2x

മള്‍ട്ടി- സ്പ്രെറ്റര്‍ 90 മിനിട്ട് വരെ പോസ്റ്റ്‌കാര്‍ഡ് ഉല്‍പാദിപ്പിക്കുന്നു സ്പീക്കര്‍ സ്ഥിരത 200ms സ്റ്റ്രീമിങ്

ഏറ്റവും നല്ല സ്കോര്‍:: പോളിഷ്, ഓഡിയോ പുസ്തകങ്ങള്‍, ഗുണഗണങ്ങള്‍

ശ്രമിക്കൂ VibeVoice

Pocket TTS

Free

ക്യുടി (മോടിയുടെ പ്രതിനിധികള്‍) പോക്കറ്റ് ടിഎസ് (മോഷിയുടെ പ്രതിനിധികള്‍) ഒരു കംപ്യൂട്ടര്‍ റെക്കോര്‍ഡ്- ടെക്സ്- ടെക്സ്റ്റുകള്‍ (കോണ്‍ക്കാറ്റില്‍ കൂടുതല്‍ തുളച്ചെടുക്കുന്ന ഒരു കംപ്യൂട്ടര്‍ ടെക്സ്- ടെക്സ്- റൈല്‍ അഗ്രമാക്കല്‍) ആണ്. ഇതു സിപിയുപിയു പ്രവര്‍ത്തിയ്ക്കു് പ്രാവര്‍ത്തികമായി പ്രവര്‍ത്തിപ്പിക്കുന്നു, ഒരു ഓഡിയോ മാതൃകയില്‍ നിന്നും പൂജ്യ- ഹോട്ട്- ഹോട്ട്- ഹോട്ട് വോള്‍ വോള്‍ വോള്‍ഡിക്കോളുകള്‍ പിന്തുണയ്ക്കുന്നു, സ്വാഭാവികമായ സംസാരങ്ങള്‍ ഉല്‍പാദിപ്പിക്കുന്നു. ചെറിയ വലുപ്പവും താഴ്ന്ന പരിസ്ഥിതിയും സജ്ജീകരിക്കുന്നു.

രചയിതാവു്::
Kyutai

അനുമതി::
MIT

വേഗത:
Fast

നിലവാരം::

ഭാഷകള്‍:
en, fr

വാറം:
1GB

ശബ്ദ ക്ളൈനിങ്ങ്:
അതെ

1 കെ അക്ഷരങ്ങളുടെ വില:
ഫ്രീ

100എം പരാമീറ്ററുകള്‍ സിപിയു ഇന്‍ഫറന്‍സ് ശബ്ദമിശ്രണോപാധി ഒറ്റ- സാമ്പില്‍ ക്ളോറന്‍ എഡ്ജ്- സജ്ജീകരണം

ഏറ്റവും നല്ല സ്കോര്‍:: ചെറിയ വലിപ്പം, സിപിയു- ഒറ്റ പരിസ്ഥിതി, വേഗത്തിലുള്ള ശബ്ദമിശ്രണോപാധി

ശ്രമിക്കൂ Pocket TTS

Kitten TTS

Free

KetenML- ല്‍ നിര്‍മ്മിച്ച റ്റൈന്‍ ടിടിഎസ്, ഓനെന്‍എംഎംഎല്‍ നിര്‍മ്മിച്ച ക്യുഎം ഡിഫന്‍സ് (25- 80 എം- ടെര്‍മിനല്‍), സിപിയു- 80 പരാമീറ്റര്‍ (diBയില്‍), സിപിയു- 8- ല്‍ നിര്‍മ്മിക്കാവുന്ന ശബ്ദങ്ങള്‍ ആവശ്യമില്ലാത്തതിനാല്‍ സിപിയു- എംഎം- ല്‍ ശബ്ദങ്ങള്‍ നല്‍കുന്നു. വര്‍ഗ്ഗ- ശബ്ദങ്ങള്‍ക്കു് മാറ്റം വരുത്തുന്നു, ശബ്ദങ്ങള്‍, വര്‍ദ്ധിപ്പിക്കുന്നു, അക്ഷരങ്ങള്‍ക്കുള്ള മുന്‍കാഴ്ചകള്‍, അഗ്രകോടികരണങ്ങള്‍, അഡ്രചുരചുരുതമായ പ്രയോഗങ്ങള്‍ എന്നിവയ്ക്കു്‍ നല്‍കുന്നു.

രചയിതാവു്::
KittenML

അനുമതി::
Apache 2.0

വേഗത:
Fast

നിലവാരം::

ഭാഷകള്‍:
en

വാറം:
0GB

ശബ്ദ ക്ളൈനിങ്ങ്:
ഇല്ല

1 കെ അക്ഷരങ്ങളുടെ വില:
ഫ്രീ

സിപിയു- മാത്രമുള്ള ഇന്‍ഫറന്‍സി 80എം. ബി മോഡലിന്റെ വലിപ്പം 8 നിർമിച്ച ശബ്ദങ്ങൾ വേഗതയുടെ നിയന്ത്രണം ONX- അടിസ്ഥാനപരമായ 24kHz ഔട്ട്പുട്ട്

ഏറ്റവും നല്ല സ്കോര്‍:: വേഗത്തിലുള്ള ടിടിഎസ്, ഇലക്ട്രോണിക്, കുറവുള്ള പ്രയോഗങ്ങള്‍Name

ശ്രമിക്കൂ Kitten TTS

CosyVoice3

Standard

അലിബാ ഓഡിയോൾഎം ടീമില്‍ നിന്നും ഏറ്റവും പുതിയ പരിണാമം. ഇതു് ബാബായുടെ ഓഡിയോ ടീമില്‍ നിന്നും ഏറ്റവും പുതിയ പരിണാമമാണു്. ഇതു്, 11150-ല്‍ നിന്നുള്ള അഭ്യര്‍ത്ഥനാ നിയന്ത്രണം, പ്രബോധനം അടിസ്ഥാനമാക്കിയുള്ള നിയന്ത്രണം, ഹോട്ട്-ഹോട്ട്-ടൈന് കൂടുതല്‍ വര്‍ദ്ധിച്ച ശബ്ദകര്‍മ്മങ്ങള്‍. 9 ഭാഷകളും, 18 ചൈനീസ്‌ ഭാഷകളും പിന്തുണ ചെയ്യുന്നു.

രചയിതാവു്::
Alibaba (FunAudioLLM)

അനുമതി::
Apache 2.0

വേഗത:
Fast

നിലവാരം::

ഭാഷകള്‍:
en, zh, ja, ko, de, es, fr, it, ru

വാറം:
4GB

ശബ്ദ ക്ളൈനിങ്ങ്:
അതെ

1 കെ അക്ഷരങ്ങളുടെ വില:
2x

രണ്ടു- ദിശയിലാക്കല്‍ കമ്പ്യൂട്ടര്‍ നിയന്ത്രണം ശബ്ദമിശ്രണോപാധി വേഗത/വൂള്‍ഡ് നിയന്ത്രണം താഴെ പറയുന്ന നിര്‍ദ്ദേശം

ഏറ്റവും നല്ല സ്കോര്‍:: മള്‍ട്ടിപ്പിള്‍ ഉല്‍പാദന TTS, റിയല്‍- ടൈം പ്രയോഗങ്ങള്‍, ശബ്ദമിശ്രണോപാധി

ശ്രമിക്കൂ CosyVoice3

NAMAA Saudi TTS

Standard

NAMA സൗദി ടിടിഎസ് ഒരു സൗദി അറേബ്യൻ അറേബ്യൻ ആണ്. റെസിമുലയുടെ സപ്ലേറ്റ്‌ ബോക്സില്‍ ഉപയോഗിച്ചത്. അള്‍ജിയൻ സ്പീഷീസിനു് അപ്രസിദ്ധമായ സാംസ്‌ട്രേറ്റ് ഭാഷയും സാംസ്കാരിക സാംസ്കാരിക സാംസ്കാരിക സാംസ്കാരിക സാംസ്കാരിക സാംസ്കാരിക സാറ്റലൈഡും ആംഗികമായ ഉച്ചഭാഷാരണം ഉണ്ടാക്കുന്നു. പാരക്രമണത്തിന്‍റെ ശബ്ദത്തിന്‍റെ ശബ്ദവും നിയന്ത്രണവും TTS.ai-ല്‍.

രചയിതാവു്::
NAMAA Space

അനുമതി::
MIT

വേഗത:
Medium

നിലവാരം::

ഭാഷകള്‍:
ar

വാറം:
6GB

ശബ്ദ ക്ളൈനിങ്ങ്:
അതെ

1 കെ അക്ഷരങ്ങളുടെ വില:
2x

സൌദി അറബി ഭാഷName ആധുനിക സ്റ്റാന്‍ഡേര്‍ഡ് അറബി സീറോ- ഹോട്ട് ശബ്ദം ക്ളൈന്‍ കമ്പ്യൂട്ടര്‍ നിയന്ത്രണം ലോക്കല്‍ ഉച്ചാരണം

ഏറ്റവും നല്ല സ്കോര്‍:: സൗദി ശ്രോതാക്കള്‍ക്കുള്ള അറബി ഉള്ളടക്കം, MSATATH, ഖാലീജി-ആല്‍ട്ടണ്‍ ശബ്ദങ്ങള്‍, അറബി ശബ്ദപുസ്തകങ്ങള്‍

ശ്രമിക്കൂ NAMAA Saudi TTS

Darwin TTS

Standard

Dargin-TTS- 1- 1. 7B - ഫ്‌ളൈന്‍ - ബാഞ്ചിന്‍റെ വിശദാംശങ്ങള്‍ ക്വെന്‍3-TTS-TS- 1- 1- 1- 1- ല്‍ (8.7% വര്‍ത്തമാനകര്‍ ക്വെന്‍=3.6% യില്‍ ചേര്‍ന്നവര്‍ക്ക് ക്വെന്‍-1-1. 7B-B-B-ആം-ആം വര്‍ണ്ണങ്ങള്‍ തമ്മില്‍ കൂട്ടിചേര്‍ത്തിരിക്കുന്നു. ഈ മിശ്രണങ്ങള്‍ വീണ്ടും നിര്‍മ്മിക്കുകയും, കൊറിയന്‍ വര്‍ദ്ധിപ്പിക്കുകയും, ചൈനീസ്‌, ജപ്പാന്‍ കൂട്ടുകയും ചെയ്യുന്നു.

രചയിതാവു്::
FINAL-Bench

അനുമതി::
Apache 2.0

വേഗത:
Medium

നിലവാരം::

ഭാഷകള്‍:
en, ko, ja, zh

വാറം:
7GB

ശബ്ദ ക്ളൈനിങ്ങ്:
അതെ

1 കെ അക്ഷരങ്ങളുടെ വില:
2x

ശബ്ദമിശ്രണോപാധി ക്രോസ്സ്- ഇനം എഫ്എഫ്എന്‍- ബ്ലഡ്ഡ് 4 കോർ ഭാഷകൾ ക്വെന്‍3 നെറ്റ്‌വര്‍ക്ക്Name

ഏറ്റവും നല്ല സ്കോര്‍:: ഇംഗ്ലീഷ് / കൊറിയ / ജപ്പാന്‍ / ചൈനീസ്‌/ ഒറ്റ പരാമർശത്തോടെ കുറുകെയുള്ള ശബ്ദമിശ്രണോപാധി

ശ്രമിക്കൂ Darwin TTS

MOSS-TTSD

Standard

ഓപ്പണ്‍ എസ്‌എസ്‌- ടിടിഎസ്‌ vC. 0 ഓഡിയോയില്‍ നിന്നും സംഭാഷണങ്ങള്‍ തുടരുന്ന 7B ഡയലോഗ് അഭ്യര്‍ത്ഥനയാണ്. [S1], [S2] ല്‍ നിന്നു് 5 [Shtt-2] ശബ്ദകര്‍ത്താവുകള്‍ (S2], 3- 10 കുറിപ്പില്‍ നിന്നും 60 വരെയുള്ള സജീവമായ ശബ്ദ സംവാദജാലകം, 20 ഭാഷകളില്‍ നിന്നു് ഒരേ- ഘടികാരമായ 60 മിനിറ്റുകള്‍ വരെയുള്ള ഒരു സംവാദജാലകം.

രചയിതാവു്::
OpenMOSS

അനുമതി::
Apache 2.0

വേഗത:
Medium

നിലവാരം::

ഭാഷകള്‍:
en, zh

വാറം:
12GB

ശബ്ദ ക്ളൈനിങ്ങ്:
അതെ

1 കെ അക്ഷരങ്ങളുടെ വില:
2x

ഒന്നിലധികം ശബ്ദകര്‍ത്താവ് ഡയലോഗ് 5 പ്രഭാഷകർ വരെ 60 മില്ല് ക്യാരക്ടര്‍ ഓഡിയോ ശബ്ദമിശ്രണോപാധി പോളിഷ്-പ്രോഗ്രൈസ്ഡ്

ഏറ്റവും നല്ല സ്കോര്‍:: സ്കോട്ട്ലൈറ്റുകള്‍, ഓഡിയോ പുസ്തകങ്ങള്‍, ഡയലോഗ്, പല ശബ്ദങ്ങളുള്ള സംഭാഷണത്തിലുള്ള സംവാദം

ശ്രമിക്കൂ MOSS-TTSD

Ming-Omni TTS

Free

Ming- stan- Maty- 0. 5B ആണ് ക്യാപ്- ബാക്ക്- എം- എം- മെഡല്‍ നിര്‍മ്മിച്ച ഒരു കമ്പ്യൂട്ടര്‍ സംസാര രീതി. ബ്രെയിം- ബൈം- പാത്ത്- പാഞ്ച്- ഡീലിങ് ഡീലര്‍ ഉപയോഗിച്ച് നിര്‍മ്മിച്ചുള്ള ഒബ്ടൈമല്‍ ആല്‍ഫോര്‍ഡ് ആല്‍ഫില്‍. റിഫയര്‍ 44.41.44kH (ഏര്‍ഡ് സിഡിയുടെ ഗുണമേന്‍ഡി), 3++-ല്‍ നിന്നും ല്‍ നിന്നും പൂജ്‍ - Shift-ല്‍ ശബ്ദം സജ്ജമായുള്ള ശബ്ദത്തെ പിന്തുണയ്ക്കുന്നു. കൂടാതെ /BMEner contronser contrasting ons (cystem), J. JSyston onc. J. stonc. onc.

രചയിതാവു്::
inclusionAI

അനുമതി::
Apache 2.0

വേഗത:
Medium

നിലവാരം::

ഭാഷകള്‍:
en, zh

വാറം:
3GB

ശബ്ദ ക്ളൈനിങ്ങ്:
അതെ

1 കെ അക്ഷരങ്ങളുടെ വില:
ഫ്രീ

44.1khjz ഔട്ട്പുട്ട് ശബ്ദമിശ്രണോപാധി കമ്പ്യൂട്ടര്‍ നിയന്ത്രണം ഡയലക്ടര്‍ നിയന്ത്രണം ബിജിഎം തലമുറ കോംപൌണ്ട് CRLB

ഏറ്റവും നല്ല സ്കോര്‍:: ഉയര്‍ന്ന- ഗുണഗണങ്ങള്‍, വികാരചിഹ്നങ്ങള്‍, ശബ്ദങ്ങള്‍ പ്രവര്‍ത്തനം, ചൈനീസ് ഓഡിയോ ബുക്ക് ഉള്ളടക്കങ്ങള്‍

ശ്രമിക്കൂ Ming-Omni TTS

MOSS-TTS Nano

Free

MOSS-TTS-Nano-100M is OpenMOSS's compact 100M-parameter variant of the MOSS-TTS family, sharing the delay-transformer architecture. Trades the 8B model's peak quality for ~80x smaller weights and dramatically lower per-request VRAM, making it suitable for free-tier and high-throughput deployments. Same 20-language reach.

രചയിതാവു്::
OpenMOSS

അനുമതി::
Apache 2.0

വേഗത:
Fast

നിലവാരം::

ഭാഷകള്‍:
en, zh, de, es, fr, ja, it, ko, ru, ar, pt

വാറം:
2GB

ശബ്ദ ക്ളൈനിങ്ങ്:
അതെ

1 കെ അക്ഷരങ്ങളുടെ വില:
ഫ്രീ

Compact 100M Fast inference Multilingual Voice cloning Same MOSS family

ഏറ്റവും നല്ല സ്കോര്‍:: Free-tier TTS, high-volume production, low-latency interactive use

ശ്രമിക്കൂ MOSS-TTS Nano

Kokoro

ഫ്രീ

Kokoro is an 82 million parameter text-to-speech model that punches well above its weight class. Despite its tiny size, it produces remarkably natural and expressive speech. Kokoro supports multiple languages including English, Japanese, Chinese, and Korean with a variety of expressive voices. It runs incredibly fast — generating audio nearly 100x faster than real-time on a GPU.

രചയിതാവു്::
Hexgrad

അനുമതി::
Apache 2.0

വേഗത:
Fast

നിലവാരം::

ഭാഷകള്‍: en, ja, zh, fr, it, pt, es, hi

ഏറ്റവും നല്ല സ്കോര്‍:: High-quality TTS with minimal latency, streaming applications

സ്വതന്ത്രമായി ശ്രമിക്കുക

Piper

ഫ്രീ

Piper is a lightweight text-to-speech engine developed by Rhasspy that uses VITS and larynx architectures. It runs entirely on CPU, making it ideal for edge devices, home automation, and applications requiring offline TTS. With over 100 voices across 30+ languages, Piper delivers natural-sounding speech at real-time speeds even on a Raspberry Pi 4.

രചയിതാവു്::
Rhasspy

അനുമതി::
MIT

വേഗത:
Fast

നിലവാരം::

ഭാഷകള്‍: en, de, fr, es, it, pt, nl, pl, ru, zh, ar, cs, da, fi, el, hu, is, ka, kk, ne, no, ro, sk, sr, sv, sw, tr, uk, vi

ഏറ്റവും നല്ല സ്കോര്‍:: Quick previews, accessibility, and embedded applications

സ്വതന്ത്രമായി ശ്രമിക്കുക

VITS

ഫ്രീ

VITS (Variational Inference with adversarial learning for end-to-end Text-to-Speech) is a parallel end-to-end TTS method that generates more natural sounding audio than current two-stage models. It adopts variational inference augmented with normalizing flows and an adversarial training process, achieving a significant improvement in naturalness.

രചയിതാവു്::
Jaehyeon Kim et al.

അനുമതി::
MIT

വേഗത:
Fast

നിലവാരം::

ഭാഷകള്‍: en, de, es, fr, pt, nl, fi, hu, bg, ja, pl

ഏറ്റവും നല്ല സ്കോര്‍:: General-purpose text-to-speech with natural prosody

സ്വതന്ത്രമായി ശ്രമിക്കുക

MeloTTS

ഫ്രീ

MeloTTS by MyShell.ai is a multilingual TTS library supporting English (American, British, Indian, Australian), Spanish, French, Chinese, Japanese, and Korean. It is extremely fast, processing text at near real-time speed on CPU alone. MeloTTS is designed for production use and supports both CPU and GPU inference.

രചയിതാവു്::
MyShell.ai

അനുമതി::
MIT

വേഗത:
Fast

നിലവാരം::

ഭാഷകള്‍: en, es, fr, zh, ja, ko

ഏറ്റവും നല്ല സ്കോര്‍:: Production applications needing fast, multilingual TTS

സ്വതന്ത്രമായി ശ്രമിക്കുക

Kani TTS 2

ഫ്രീ

Kani-TTS-2 by NineNineSix is an ultra-lightweight 400M parameter model built on a Liquid AI LFM2 backbone with NVIDIA NanoCodec. It runs in just 3GB VRAM and produces ~10 seconds of speech in ~2 seconds on an A100 (RTF 0.2). The current public release ships an English-only `kani-tts-2-en` checkpoint and does not expose the speaker-embedding hook needed for voice cloning — use Chatterbox / IndexTTS2 / F5-TTS for cloning, or Kokoro / MeloTTS for non-English.

രചയിതാവു്::
NineNineSix

അനുമതി::
Apache 2.0

വേഗത:
Fast

നിലവാരം::

ഭാഷകള്‍: en

ഏറ്റവും നല്ല സ്കോര്‍:: Fast English generation on low-VRAM hardware, quick previews

സ്വതന്ത്രമായി ശ്രമിക്കുക

OuteTTS

ഫ്രീ

OuteTTS extends large language models with text-to-speech capabilities while preserving the original architecture. It supports multiple backends including llama.cpp (CPU/GPU), Hugging Face Transformers, ExLlamaV2, VLLM, and even browser inference via Transformers.js. Features zero-shot voice cloning through speaker profiles saved as JSON.

രചയിതാവു്::
OuteAI

അനുമതി::
Apache 2.0

വേഗത:
Fast

നിലവാരം::

ഭാഷകള്‍: en

ഏറ്റവും നല്ല സ്കോര്‍:: Edge deployment, browser-based TTS, low-resource environments

സ്വതന്ത്രമായി ശ്രമിക്കുക

Pocket TTS

ഫ്രീ

Pocket TTS by Kyutai (creators of Moshi) is a compact 100M parameter text-to-speech model that punches well above its weight. It runs efficiently on CPU, supports zero-shot voice cloning from a single audio sample, and produces natural-sounding speech. The small model size makes it ideal for edge deployment and low-resource environments.

രചയിതാവു്::
Kyutai

അനുമതി::
MIT

വേഗത:
Fast

നിലവാരം::

ഭാഷകള്‍: en, fr

ഏറ്റവും നല്ല സ്കോര്‍:: Lightweight deployment, CPU-only environments, quick voice cloning

സ്വതന്ത്രമായി ശ്രമിക്കുക

Kitten TTS

ഫ്രീ

Kitten TTS by KittenML is an ultra-lightweight text-to-speech model built on ONNX. With variants from 15M to 80M parameters (25-80 MB on disk), it delivers high-quality voice synthesis on CPU without requiring a GPU. Features 8 built-in voices, adjustable speech speed, and built-in text preprocessing for numbers, currencies, and units. Ideal for edge deployment and low-latency applications.

രചയിതാവു്::
KittenML

അനുമതി::
Apache 2.0

വേഗത:
Fast

നിലവാരം::

ഭാഷകള്‍: en

ഏറ്റവും നല്ല സ്കോര്‍:: Fast lightweight TTS, edge deployment, low-latency applications

സ്വതന്ത്രമായി ശ്രമിക്കുക

Ming-Omni TTS

ഫ്രീ

Ming-omni-tts-0.5B by inclusionAI is a compact omni-modal speech model built on the BailingMM dense backbone with a Patch-by-Patch flow-matching audio decoder. Delivers 44.1kHz output (near CD quality), supports zero-shot voice cloning from a 3+ second reference, and includes built-in emotion / dialect / BGM control via JSON instructions. Excellent stability — 0.83% WER on Chinese benchmarks.

രചയിതാവു്::
inclusionAI

അനുമതി::
Apache 2.0

വേഗത:
Medium

നിലവാരം::

ഭാഷകള്‍: en, zh

സ്റ്റാന്‍ഡേര്‍ഡ്

രചയിതാവു്::
Resemble AI

അനുമതി::
MIT

വേഗത:
Fast

നിലവാരം::

ഭാഷകള്‍:
en

ശബ്ദ ക്ളൈനിങ്ങ്:
അതെ

Sub-200ms latencyParalinguistic tags6x real-timeVoice cloningWatermarking

ഏറ്റവും നല്ല സ്കോര്‍:: Real-time voice agents, expressive speech with natural sounds

ശ്രമിക്കൂ Chatterbox Turbo

VoxCPM

സ്റ്റാന്‍ഡേര്‍ഡ്

VoxCPM 1.5 by OpenBMB is a novel tokenizer-free TTS model that operates in continuous space rather than discrete tokens. It produces high-fidelity 44.1kHz audio, supports zero-shot voice cloning from 3-10 seconds, and maintains consistency across paragraphs. Cross-language cloning lets you apply an English voice to Chinese speech and vice versa.

രചയിതാവു്::
OpenBMB

അനുമതി::
Apache 2.0

വേഗത:
Fast

നിലവാരം::

ഭാഷകള്‍:
en, zh

ശബ്ദ ക്ളൈനിങ്ങ്:
അതെ

44.1kHz audioTokenizer-freeCross-lingual cloningContext-awareLoRA fine-tuning

ഏറ്റവും നല്ല സ്കോര്‍:: High-fidelity audio, audiobooks, long-form content with voice consistency

ശ്രമിക്കൂ VoxCPM

VibeVoice

സ്റ്റാന്‍ഡേര്‍ഡ്

VibeVoice from Microsoft generates long-form speech up to 90 minutes with support for 4 simultaneous speakers, making it ideal for podcasts and dialogues. The Realtime 0.5B variant achieves ~300ms latency for interactive use. Supports speaker tags for multi-turn dialogue generation.

രചയിതാവു്::
Microsoft

അനുമതി::
MIT

വേഗത:
Fast

നിലവാരം::

ഭാഷകള്‍:
en, zh

ശബ്ദ ക്ളൈനിങ്ങ്:
ഇല്ല

Multi-speakerLong-form (90 min)Podcast generationDialogueLow latency

ഏറ്റവും നല്ല സ്കോര്‍:: Podcasts, dialogues, long-form narration, multi-speaker content

ശ്രമിക്കൂ VibeVoice

CosyVoice3

സ്റ്റാന്‍ഡേര്‍ഡ്

CosyVoice3 is the latest evolution from Alibaba's FunAudioLLM team. It features bi-streaming inference with ~150ms latency, instruction-based control for emotion/speed/volume, and improved speaker similarity for zero-shot cloning. Supports 9 languages plus 18 Chinese dialects. RL-tuned variant delivers state-of-the-art prosody.

രചയിതാവു്::
Alibaba (FunAudioLLM)

അനുമതി::
Apache 2.0

വേഗത:
Fast

നിലവാരം::

ഭാഷകള്‍:
en, zh, ja, ko, de, es, fr, it, ru

ശബ്ദ ക്ളൈനിങ്ങ്:
അതെ

Bi-streamingEmotion controlVoice cloningSpeed/volume controlInstruction following

ഏറ്റവും നല്ല സ്കോര്‍:: Multilingual production TTS, real-time applications, voice cloning

ശ്രമിക്കൂ CosyVoice3

NAMAA Saudi TTS

സ്റ്റാന്‍ഡേര്‍ഡ്

NAMAA Saudi TTS is a Saudi Arabic fine-tune of Resemble AI's ChatterboxMultilingual. Trained by NAMAA Space on authentic Saudi-dialect speech, it produces natural Modern Standard Arabic and Saudi colloquial pronunciation that generic multilingual models cannot match. Inherits Chatterbox's zero-shot voice cloning and emotion control via reference audio prompts. The first open-weights Arabic TTS deployed on TTS.ai.

രചയിതാവു്::
NAMAA Space

അനുമതി::
MIT

വേഗത:
Medium

നിലവാരം::

ഭാഷകള്‍:
ar

ശബ്ദ ക്ളൈനിങ്ങ്:
അതെ

Saudi Arabic dialectModern Standard ArabicZero-shot voice cloningEmotion controlNative pronunciation

ഏറ്റവും നല്ല സ്കോര്‍:: Arabic content for Saudi audiences, MSA narration, Khaleeji-dialect voice agents, Arabic audiobooks

ശ്രമിക്കൂ NAMAA Saudi TTS

Darwin TTS

സ്റ്റാന്‍ഡേര്‍ഡ്

Darwin-TTS-1.7B-Cross by FINAL-Bench is a research variant of Qwen3-TTS-1.7B where 84 talker-FFN tensors (8.6%) are blended at α=3% with the matching tensors from Qwen3-1.7B-Base. The blend is built without retraining and produces noticeably crisper cross-lingual voice cloning across Korean, English, Japanese, and Chinese. Operates in zero-shot voice-clone mode (3 seconds reference audio).

രചയിതാവു്::
FINAL-Bench

അനുമതി::
Apache 2.0

വേഗത:
Medium

നിലവാരം::

ഭാഷകള്‍:
en, ko, ja, zh

ശബ്ദ ക്ളൈനിങ്ങ്:
അതെ

Voice cloningCross-lingualFFN-blended4 core languagesQwen3 backbone

ഏറ്റവും നല്ല സ്കോര്‍:: Cross-lingual voice cloning between English / Korean / Japanese / Chinese with a single reference voice

മോഡ്	രചയിതാവു്:	ടിയെര്‍	വേഗത	ഭാഷകള്‍	വാറം	അനുമതി:	പാരമ്പര്യങ്ങള്‍
Kokoro	Hexgrad	Free	Fast	8	1.5GB	Apache 2.0	ഫ്രീ	ഉപയോഗിക്കുക
Piper	Rhasspy	Free	Fast	29	0 (CPU only)	MIT	ഫ്രീ	ഉപയോഗിക്കുക
VITS	Jaehyeon Kim et al.	Free	Fast	11	1GB	MIT	ഫ്രീ	ഉപയോഗിക്കുക
MeloTTS	MyShell.ai	Free	Fast	6	0.5GB (GPU optional)	MIT	ഫ്രീ	ഉപയോഗിക്കുക
Bark	Suno	Standard	Slow	13	5GB	MIT	2	ഉപയോഗിക്കുക
Bark Small	Suno	Standard	Medium	13	2GB	MIT	2	ഉപയോഗിക്കുക
CosyVoice 2	Alibaba (Tongyi Lab)	Standard	Medium	8	4GB	Apache 2.0	2	ഉപയോഗിക്കുക
Dia TTS	Nari Labs	Standard	Medium	1	4GB	Apache 2.0	2	ഉപയോഗിക്കുക
Parler TTS	Hugging Face	Standard	Medium	1	4GB	Apache 2.0	2	ഉപയോഗിക്കുക
IndexTTS-2	Index Team	Standard	Medium	2	4GB	Bilibili Model License	2	ഉപയോഗിക്കുക
Spark TTS	SparkAudio	Standard	Medium	2	4GB	CC BY-NC-SA 4.0	2	ഉപയോഗിക്കുക
GPT-SoVITS	RVC-Boss	Standard	Slow	4	6GB	MIT	2	ഉപയോഗിക്കുക
Orpheus	Canopy Labs	Standard	Medium	1	4GB	Llama 3.2 Community	2	ഉപയോഗിക്കുക
Chatterbox	Resemble AI	Premium	Medium	1	4GB	MIT	4	ഉപയോഗിക്കുക
Tortoise TTS	James Betker	Premium	Slow	1	8GB	Apache 2.0	4	ഉപയോഗിക്കുക
StyleTTS 2	Columbia University	Premium	Medium	1	4GB	MIT	4	ഉപയോഗിക്കുക
OpenVoice	MyShell.ai / MIT	Premium	Medium	6	4GB	MIT	4	ഉപയോഗിക്കുക
Qwen3 TTS	Alibaba (Qwen)	Standard	Medium	10	7GB	Apache 2.0	2	ഉപയോഗിക്കുക
Sesame CSM	Sesame	Premium	Slow	1	8GB	Apache 2.0	4	ഉപയോഗിക്കുക
Chatterbox Turbo	Resemble AI	Standard	Fast	1	2GB	MIT	2	ഉപയോഗിക്കുക
VoxCPM	OpenBMB	Standard	Fast	2	4GB	Apache 2.0	2	ഉപയോഗിക്കുക
Kani TTS 2	NineNineSix	Free	Fast	1	3GB	Apache 2.0	ഫ്രീ	ഉപയോഗിക്കുക
OuteTTS	OuteAI	Free	Fast	1	2GB	Apache 2.0	ഫ്രീ	ഉപയോഗിക്കുക
VibeVoice	Microsoft	Standard	Fast	2	4GB	MIT	2	ഉപയോഗിക്കുക
Pocket TTS	Kyutai	Free	Fast	2	1GB	MIT	ഫ്രീ	ഉപയോഗിക്കുക
Kitten TTS	KittenML	Free	Fast	1	0GB	Apache 2.0	ഫ്രീ	ഉപയോഗിക്കുക
CosyVoice3	Alibaba (FunAudioLLM)	Standard	Fast	9	4GB	Apache 2.0	2	ഉപയോഗിക്കുക
NAMAA Saudi TTS	NAMAA Space	Standard	Medium	1	6GB	MIT	2	ഉപയോഗിക്കുക
Darwin TTS	FINAL-Bench	Standard	Medium	4	7GB	Apache 2.0	2	ഉപയോഗിക്കുക
MOSS-TTSD	OpenMOSS	Standard	Medium	2	12GB	Apache 2.0	2	ഉപയോഗിക്കുക
Ming-Omni TTS	inclusionAI	Free	Medium	2	3GB	Apache 2.0	ഫ്രീ	ഉപയോഗിക്കുക
MOSS-TTS Nano	OpenMOSS	Free	Fast	11	2GB	Apache 2.0	ഫ്രീ	ഉപയോഗിക്കുക

സംസാര പ്ലാറ്റിലെ ഏറ്റവും വിപുലമായ പാഠം

വായനയ്‌ക്കായി TTS.ai പേരെ തിരഞ്ഞെടുക്കേണ്ടത്‌ എന്തുകൊണ്ട്?

TTS.ai ലോകത്തിന്റെ ഏറ്റവും നല്ല തുറന്ന് തുറക്കുന്ന ലിപ്റ്ററി മോഡലുകളെ ഒരു ശബ്ദ എഞ്ചില്‍ പൂട്ടിയതുപോലെയല്ല, TTS.ai 88+ മോഡലുകള്‍, നിങ്ങള്‍ക്ക് കോക്വി, ഷ്യോ, എംഫിയ, എൻടിഐഎ, സുനിവോ, സുനിവോ, സുനിവോ, സൊന്‍, സൊന്‍ഡ്യു, റ്റൂ, റ്റംഗ്വ സര്‍വകവ സർവകലാശാലയില്‍ നിന്നും നിങ്ങള്‍ക്ക് 20+ മോഡലുകള്‍ നല്‍കുന്നു.

എല്ലാ മോഡലും എംടി, അപ്പാച്ചര്‍ 2.0 അല്ലെങ്കില്‍ സമാനമായ റെസ്ട്രിക് ലൈസന്‍സ് ആണ്, നിങ്ങളുടെ പ്രോജക്ടുകളില്‍ നിര്‍മ്മിക്കപ്പെട്ടിട്ടുള്ള ശബ്ദോപകരണങ്ങള്‍ ഉപയോഗിക്കാന്‍ നിങ്ങള്‍ക്ക് വാണിജ്യ അവകാശങ്ങള്‍ ഉണ്ട്. നിങ്ങള്‍ക്ക് വേഗത്തില്‍, ശബ്ദപുസ്തകങ്ങള്‍ക്കും പോര്‍ച്ചുഗലുകളുടെയും സ്റ്റുഡിയോ- സ്റ്റുഡിയോ ഔട്ട്ഡിയോ ഔട്ട്പുട്ടുകള്‍ക്ക് വേണ്ടിയുള്ള ഇന്‍സെറ്റ് ഔട്ട്പുട്ട് ഔട്ട്പുട്ടുകള്‍ ആവശ്യമുണ്ടെങ്കില്‍, TTS.ai-000 എല്ലാ പ്രയോഗങ്ങള്‍ക്കും ശരിയായ മാതൃകയാണു്.

സ്വതന്ത്ര മോഡലുകൾ, അക്കൗണ്ട് ആവശ്യമില്ല

മൂന്നു സ്വതന്ത്ര ടിടിഎസ് മോഡലുകള്‍ ഉപയോഗിച്ച് ഉടന്‍ തുടങ്ങുക: Pyper (വലിപ്പം, ഭാരം കുറഞ്ഞത്), വി. ടി. ടി. ടി. യും (മുന്‍കുലമായ നോര്‍മല്‍ നോര്‍- വിന്‍സ്), മെലോടിറ്റസ് സിന്‍സിസ് (മള്‍ട്ടി- ഭാഷ പിന്തുണ). ഒരു ഒപ്പോ, ക്രെഡിറ്റ് കാര്‍ഡിറ്റ് കാർഡോ, തലമുറകളില്‍ പരിധികളില്ല. സ്വതന്ത്ര മോഡല്‍, ഇംഗ്ലീഷ്, പല ഭാഷകളും ഇംഗ്ലീഷ്, പല പ്രയോഗങ്ങള്‍ക്ക് അനുയോജ്യമായ ഫലങ്ങള്‍ നല്‍കുന്നു.

GPU- അപ്രതീക്ഷിതമായ പ്രക്രിയ

എല്ലാ TTS മോഡലുകളും സ്പെഷ്യല്‍ എടിഐഐഐഎ ജിപിയു പിയുഎസ് ല്‍ വേഗതയും അനുസൃതമായ തലമുറകള്‍ക്കായി പ്രവര്‍ത്തിക്കുന്നു. സ്വതന്ത്ര മോഡലുകള്‍ കൊക്കോറോ, കോസിവോസ്2, ബാര്‍ക്ക് ശരാശരി 3-5 സെക്കന്‍ഡുകള്‍. ടോര്‍ട്ടോയിസ്, ചാറ്റര്‍ട്ടര്‍ബോള്‍ പോലുള്ള ഏറ്റവും കൂടിയ ഗുണമേന്മമായ മാതൃകകള്‍ 5-15 സെക്കന്‍ഡുകളില്‍ നല്‍കുന്നു.

30+ ഭാഷകള്‍ പിന്തുണയ്ക്കുന്നു

ഇംഗ്ലീഷില്‍, സ്പാനിഷ്, ഫ്രഞ്ച്, ജര്‍മ്മന്‍, പോര്‍ച്ചുഗീസ്, ചൈനീസ്, ചൈനീസ്, കൊറിയ, ഹിന്ദി, ഹിന്ദി, റഷ്യന്‍ തുടങ്ങിയ 30 - ലേറെ ഭാഷകളില്‍ സംസാരം നിര്‍മ്മിക്കുക. പല മോഡല്‍കാര്‍ക്കും ഒരു ഭാഷയില്‍ പിന്തുണയുണ്ട്. നിങ്ങള്‍ക്ക് സംസാരിക്കാന്‍ കഴിയും.

രചയിതാവു്, റീഡ്ഡി API

ഞങ്ങളുടെ ഓപ്പണ്‍ എയ്ഐ- യോജിപ്പുള്ള TTS.ai പ്രവര്‍ത്തിപ്പിക്കുക. ഒരു അവസാനം, 20+ മോഡലുകള്‍ക്ക്. പൈത്തോണ്‍, സി. എം.ജി. എസ്.എം.എം. എസ്.എം.എം. സി. എസ്. എം. എസ്.എം. സി. എസ്.

പലപ്പോഴും ചോദിക്കപ്പെടുന്ന ചോദ്യങ്ങൾ

പ്രസ്താവത്തിനുള്ള പദാവലി (TTS) ഒരു ഐ ടെക്നോളജി ആണ്. പാഠങ്ങള്‍ എഴുതുന്ന സ്വഭാവമുള്ള ശബ്ദമാക്കി മാറ്റുന്ന ഒരു ഐഐ സാങ്കേതികവിദ്യ. കൊക്കോറോ, ചാറ്റര്‍ട്ടര്‍ബോക്സ്, കോസിയോസ് 2 തുടങ്ങിയ ആധുനിക ടെക്നോളജി മോഡലുകള്‍ ഗൌരവമായി മനുഷ്യന്റെ ശബ്ദം കേള്‍ക്കാന്‍ പഠിക്കുന്നു.

നിങ്ങളുടെ ആവശ്യങ്ങളെ ആശ്രയിച്ചിരിക്കുന്നു. വേഗത്തില്‍ മുന്‍കാഴ്ചകള്‍ക്കായി, PyloTTS അല്ലെങ്കില്‍ മെലോട്ടിക്സ് (സ്വയമുണ്ടായി, വേഗത്തില്‍) ഉപയോഗിക്കുക. ഉയര്‍ന്ന ഗുണമേന്മയ്ക്കായി കൊക്കോറോ അല്ലെങ്കില്‍ കോസിവോസ് 2 (സാധാരണ ടൈക്ക്) ഉപയോഗിക്കുക. ശബ്ദസങ്കലനോ, ചാറ്റര്‍ട്ടബോക്സ് അല്ലെങ്കില്‍ GPTITS (പ്രകാശക- സോവിയല്‍) ഉപയോഗിക്കാന്‍ ശ്രമിക്കുക. ഡയലോഗ്/ GPTITS- യുടെ ഉള്ളടയ്ക്കുന്നതിനു്, DATS( പ്രൊഫൈല്‍ ഫോര്‍മാറ്റ്). ഓരോ മോഡലിലും വിവിധ ശക്തികള്‍ ഉണ്ട്.

അതെ, TTS.ai കൊക്കോറോ, പിപ്പര്‍, വി.റ്റി. വ്ലോട്ടിസ്, മെലോട്ടിസ് മോഡലുകളുമായി ഫ്രീ ടെക്സ്റ്റുകള്‍ നല്‍കുന്നു. ഒരു മണിക്കൂറില്‍ 500 അക്ഷരങ്ങളും 3 തലമുറകളും നല്‍കേണ്ട കാര്യമില്ല. ഒരു സ്വതന്ത്ര അക്കൗണ്ടിനു് 15 മാര്‍ട്ടിലേയും, എല്ലാ മോഡലുകളും ലഭ്യമാണ്.

ഇംഗ്ലീഷ്‌, സ്‌പാനീഷ്‌, ഫ്രഞ്ച്, ജർമൻ, പോർച്ചുഗീസ്‌, പോർച്ചുഗീസ്‌, ചൈനീസ്‌, ചൈനീസ്‌, ചൈനീസ്‌, ചൈനീസ്‌, അറബി, റഷ്യൻ, ഹിന്ദി, ഹിന്ദി എന്നിവ ഉൾപ്പെടെ 30+ ഭാഷകൾ ഉൾപ്പെടെയുള്ള ഭാഷകളെയെല്ലാം നമ്മുടെ ടിടിഎസ്‌ മോഡൽ മാതൃകയിലൂടെ വ്യത്യസ്‌തമാക്കുന്നു.

അതെ, TTS.ai ല്‍ നിര്‍മ്മിച്ച ശബ്ദങ്ങള്‍ വാണിജ്യത്തില്‍ ഉപയോഗിക്കാം. നമ്മുടെ എല്ലാ മോഡലുകള്‍ക്കും തുറന്നുള്ള ലൈസന്‍സുകള്‍ (MIT, അച്ചോദസ് 2.0). പ്രത്യേക കാരണങ്ങള്‍ക്കായി ഓരോ മോഡല്‍ ലൈസന്‍സുകള്‍ പരിശോധിക്കാം. നിങ്ങളുടെ പ്രൊജക്റ്റിനു വേണ്ടി നിങ്ങള്‍ ഉപയോഗിക്കുന്ന പ്രത്യേക മാതൃകയുടെ ലൈസന്‍സിന്റെ ലൈസന്‍സുകള്‍ പുനരവലോകനം ചെയ്യാന്‍ ഞങ്ങള്‍ ആവശ്യപ്പെടുന്നു.

TTS.ai MP3, WAV, OGG, FLC ഔട്ട്പുട്ട് ഫോര്‍മാറ്റുകള്‍ പിന്തുണയ്ക്കുന്നു. MP3 നെറ്റ്‌വര്‍ക്കില്‍ കൂടുതല്‍ ഓഡിയോ പ്രവര്‍ത്തനങ്ങള്‍ക്കായി ശുപാര്‍ശ ചെയ്യുന്നു. നിങ്ങള്‍ക്കു് ഞങ്ങളുടെ ഓഡിയോ ലിറ്ററര്‍ ഉപകരണം ഉപയോഗിച്ചു് ശൈലികള്‍ മാറ്റാം.

ശബ്ദമിശ്രണോപാധി ഒരു ചെറിയ ഓഡിയോ മാതൃക (5- 30 സെക്കന്‍ഡുകളില്‍) നിന്നും ഒരു പ്രത്യേക ശബ്ദത്തെ അനുവദിയ്ക്കാന്‍ (II) ഉപയോഗിക്കുന്നു. ലക്ഷ്യം റിക്കോര്‍ഡ് ബോക്സ്, ചാറ്റര്‍ബോക്സ്, GPT- SVIS, അല്ലെങ്കില്‍ ഓപ്പണ്‍വിസ് പുതിയ സംസാരം ആ ശബ്ദത്തില്‍ പുതിയ ശബ്ദമുണ്ടാക്കും. ഗുണനിലവാരം വൃത്തിയേറിയതും, കൂടുതല്‍ ദൈര്‍ഘ്യമുള്ളതും ഓപ്പറേറ്റ് ഓഡിയോഡിയോ ആയി വര്‍ദ്ധിപ്പിക്കുന്നു.

ഒരു അപേക്ഷയ്ക്കായി റെജിസ്റ്റര്‍ ചെയ്ത ഉപയോക്താക്കള്‍ക്ക് 500 അക്ഷരങ്ങള്‍ വരെ സൃഷ്ടിയ്ക്കാം. അപേക്ഷയ്ക്കായി 5,000 അക്ഷരങ്ങള്‍ വരെ ഉയരുന്നു. ഏറെക്കുറെ അക്ഷരങ്ങള്‍ക്കു് ഓഡിയോ നിര്‍മ്മിക്കപ്പെട്ടിരിക്കുന്നു. അഭ്യര്‍ത്ഥനയ്ക്കായി API ഉപയോക്താക്കള്‍ക്ക് 10,000 അക്ഷരങ്ങള്‍ വരെ പ്രവര്‍ത്തനസജ്ജമാക്കാം.

എസ്എസ്എംഎംഎല്‍ (പ്രഭാഷണ സിന്റാക്യുസ് സിന്റാപ് ഭാഷ) ഈ മാതൃകയില്‍ വ്യത്യാസം ഉണ്ട്. പൈപ്പറും മറ്റു ചില മോഡലുകളും അടിസ്ഥാന എസ്എംഎംഎല്‍ ടാഗുകളും നിര്‍ദ്ദേശങ്ങള്‍, ഉച്ചാരണം, ഉച്ചാരണം എന്നിവയ്ക്കായി പിന്തുണക്കുന്ന അടിസ്ഥാന എസ്‌എംഎംഎല്‍ എംഎല്‍ എല്‍ ടാഗുകള്‍. മാതൃസ്ഥ പിന്തുണ ഇല്ലാത്ത മോഡലുകള്‍ക്ക്, പ്രൊജക്ടൈറ്റില്‍ പ്രാവര്‍ത്തികവും വരികളും ഉപയോഗിക്കാം.

അതെ, മിക്ക മോഡലുകള്‍ക്കും 0. 0x- ല്‍ നിന്നും 2. 0x- ല്‍ നിന്നും വേഗതയില്‍ മാറ്റം വരുത്തുന്നു. ബാര്‍ക്കും പാര്‍ലറും പോലുള്ള ചില മോഡ്യൂളുകള്‍ കീലും സ്റ്റൈല്‍ നിയന്ത്രണവും അനുവദിക്കുന്നു. നിങ്ങള്‍ക്കു് വേഗമായ സജ്ജീകരണ പാനല്‍ അല്ലെങ്കില്‍ API വേഗതയുള്ള പരാമീറ്ററുകള്‍ സജ്ജീകരിയ്ക്കാം.

അതെ, സംയോജിപ്പിക്കല്‍ ലഭ്യമാക്കല്‍ ലഭ്യമാണ്. നിങ്ങള്‍ക്ക് ഒന്നിലധികം ടെക്സ്റ്റുകള്‍ API കോളോ സ്ക്രിപ്റ്റോ പ്രൊസസ്സോ സമര്‍പ്പിക്കാം, അവയെല്ലാം പ്രവര്‍ത്തിപ്പിയ്ക്കപ്പെടുകയും ചെയ്തിരിക്കുന്നു. ഇതു് ഓഡിയോ ബുക്ക് അദ്ധ്യായങ്ങള്‍, ഇ-വിഗേറ്റിങ് മോഡുകള്‍, അല്ലെങ്കില്‍ ഡയലോഗ് ഡയലോഗ് സ്ക്രിപ്റ്റ് സ്ക്രിപ്റ്റുകള്‍ എന്നിവയ്ക്കെല്ലാം അനുയോജ്യമാണ്.

നിങ്ങളുടെ അക്കൌണ്ടില്‍ നിന്നുള്ള ഒരു API കീ നിര്‍മ്മിക്കൂ, എന്നിട്ട് PAST AST API അറ്റാക്ക്മെന്റ്, മാതൃക, ശബ്ദത്തിന്റെ പരാമീറ്റര്‍ എന്നിവയുമായി പോസ്റ്റ് അക്കങ്ങള്‍ അയക്കുക. ഞങ്ങള്‍ പൈഥണ്‍, JavaScript and cROS- ല്‍ കോഡ് ഉദാഹരണങ്ങള്‍ നല്‍കുന്നു. API ഓപ്പറേറ്റ് വളരെ കുറഞ്ഞ മാറ്റങ്ങളോടെ പ്രവര്‍ത്തിക്കുന്നു.

5.0/5 (4)

സംസാരത്തിലേക്കു് വാചകം മാറ്റി ആരംഭിക്കുക

TTS.ai ഉപയോഗിച്ച് ആയിരക്കണക്കിന് രൂപകൽപ്പനക്കാരോടൊപ്പം ചേരുക 15,000 ലിപികള്‍ ഒരു പുതിയ അക്കൗണ്ടില്‍ ചേര്‍ക്കുക. ഫ്രീ മോഡല്‍ മാര്‍ക്കറ്റില്‍ ഒപ്പു വെക്കാതെ.

ഫ്രീ ആയി ഒപ്പ് വയ്ക്കുക അഭിഭാഷണങ്ങള്‍ കാണുക

സംസാരത്തിനുള്ള II പദാവലി

ടിടിഎസ് സ്‌നേഹിക്കുന്നു, കൂട്ടുകാരോട് പറയൂ!

സാമ്പിളിന്റെ വിശദാംശങ്ങള്‍

Chatterbox Turbo

മെച്ചമായ ഫലങ്ങളുടെ സൂചനകൾ

ക്യാരക്ടര്‍ ഉപയോഗം

സംസാരത്തിന്‍റെ കാര്യത്തിൽ ഐഐ (II) പാഠങ്ങൾ

പാഠം നല്‍കുക

മോഡല്‍ & ശബ്ദം തെരഞ്ഞെടുക്കുക

ഡൌണ്‍ലോട് & സൃഷ്ടിയ്ക്കുക

വാക്കുകളുടെ ഉപയോഗ കേസുകള്‍ക്കുള്ള വാചകം

ശബ്ദ പുസ്തകങ്ങള്‍

ചലച്ചിത്രശബ്ദങ്ങള്‍Name

പോസ്റ്റ്സ്പോര്‍ട്ടുകള്‍

കളി

ഇ- പഠിപ്പിക്കല്‍

സാമീപ്യത

IVR & ഫോണ്‍ സിസ്റ്റങ്ങള്‍Name

സോഷ്യൽ മാധ്യമങ്ങൾ

സ്ട്രീമിങ്

വിപണനം

ഡബ്ബിങ് & പ്രാദേശികവല്‍ക്കരണം

ധ്യാനവും സൗന്ദര്യവും

എല്ലാ പദാവലിയും സംസാര മോഡലുകളിലേക്കു്

Kokoro

Piper

VITS

MeloTTS

Bark

Bark Small

CosyVoice 2

Dia TTS

Parler TTS

IndexTTS-2

Spark TTS

GPT-SoVITS

Orpheus

Chatterbox

Tortoise TTS

StyleTTS 2

OpenVoice

Qwen3 TTS

Sesame CSM

Chatterbox Turbo

VoxCPM

Kani TTS 2

OuteTTS

VibeVoice

Pocket TTS

Kitten TTS

CosyVoice3

NAMAA Saudi TTS

Darwin TTS

MOSS-TTSD

Ming-Omni TTS

MOSS-TTS Nano

Kokoro

Piper

VITS

MeloTTS

Kani TTS 2

OuteTTS

Pocket TTS

Kitten TTS

Ming-Omni TTS

MOSS-TTS Nano

Bark

Bark Small

CosyVoice 2

Dia TTS

Parler TTS

IndexTTS-2

Spark TTS

GPT-SoVITS

Orpheus

Qwen3 TTS

Chatterbox Turbo

VoxCPM

VibeVoice

CosyVoice3