എന്താണ് സംസാരം (TTS)?
സംസാരത്തിനായുള്ള ടെക്സ്റ്റ് വിദ്യയാണ് സാങ്കേതികമായ ബുദ്ധി ഉപയോഗിച്ചു് ലിപി വായിക്കുന്ന ശബ്ദത്തില് മാറ്റം വരുത്തുന്ന സാങ്കേതികവിദ്യ. ആദ്യകാല മുതല് ഇന്നത്തെ ഡ്രാഗണുകള്ക്കിടയില് മനുഷ്യര്ക്ക് തിരിച്ചറിയാന് കഴിയുന്ന നെറ്റ്വര്ക്കുകള്. ടെടിഎസ്, സാങ്കേതികവിദ്യയുമായി ഇടപെടുന്ന രീതികള് മാറ്റുന്നു, കമ്പ്യൂട്ടര് ഉപയോഗപ്പെടുത്തുന്നു, വിവരങ്ങള് ലഭ്യമാക്കുന്നു.
വാചകത്തിനുള്ള കീ കണ്സെപ്ഷനുകള്
ആധുനിക ഭാഷാസഹായത്തിന്റെ നിർമാണ കൂമ്പാരങ്ങൾ മനസ്സിലാക്കുക
ടിവികൾ നിലനിർത്തുന്നത്
TTS ടെക്സ്റ്റില് നിന്നും വായനയിലേയ്ക്കു് നില്ക്കുന്നു — കംപ്യൂട്ടര് ശബ്ദങ്ങള് ഉപയോഗിച്ചു് ലിപി പരിഭാഷപ്പെടുത്തുന്ന പദാവലിയെ ശബ്ദസഞ്ചയമാക്കി മാറ്റുന്ന സാങ്കേതികം.
നെതർലൻഡ്സ്
ആധുനിക ടിടിഎസ്, ടെക്സ്റ്റുകൾ വിശകലനം ചെയ്യാൻ ഗഹനമായ നെറ്റ്വർക്കിങ് നെറ്റ്വർക്കിങ് ഉപയോഗിക്കുന്നു.
സംസാരത്തിന്റെ ചരിത്രം
1960-ല് നിന്നും നിയന്ത്രിതമായ ഭരണസംവിധാനങ്ങള് 1990-ല് ഇന്നുള്ള ന്യൂസിലിക് മോഡല്സുകള് വരെ......അറുപതു ദശാബ്ദങ്ങളായി ടിടിഎസ് സൃഷ്ട്ടിച്ചത് എങ്ങനെ?
ആധുനിക കഥാപാത്രങ്ങൾ
കൊക്കോറോ, ബാര്ക്ക്, കോസിവോയിസ് 2 മുതലുള്ള മോഡലുകള്, മാനവ തലച്ചോറിന്റെ ഗുണമേന്മ നേടാനായി മാറ്റക്കാര്, ഡിഫറസ്, വ്യത്യസനം തുടങ്ങിയവ ഉപയോഗിക്കാറുണ്ട്.
സാധാരണ പ്രയോഗങ്ങള്Name
ടിടിഎസ് പവര് സ്ക്രീന് റീഡര്, ജിപിഎസ് നാവിഗേഷന്, വിര്ച്ച്വല് സഹായികള്, ഓഡിയോ പുസ്തകങ്ങള്, കണക്ഷന് സര്ഫോള്സ്, ഇ-പൈന്സ് പ്ലാറ്റ്ഫോമുകള്, ഉള്ളടക്കങ്ങള് എന്നിവയും.
ഓപ്പണ് സോഴ്സ് vs വ്യൂവര്
ഓപ്പണ്-സോഴ്സ് മോഡല് (MIT, അച്ചന് 2. 0) സ്വതന്ത്രവും സ്വയമേകുന്ന TTS നല്കുന്നു, എന്നാല് വാണിജ്യ സേവനങ്ങള് AP SLAS- ഉം പിന്തുണയും നല്കുന്നു.
TTS മോഡലുകൾ TTS.ai - ൽ ലഭ്യമാണ്
വേഗവും ഭാരം കുറഞ്ഞ സ്റ്റുഡിയോയിലെ ശബ്ദങ്ങള്
Kokoro
Free
Lightweight 82M parameter model delivering studio-quality speech with blazing-fast inference.
ഏറ്റവും നല്ല സ്കോര്: State- state- വര്ക്ക് - ചെറിയ മോഡല് - എത്ര ദൂരം നോര്മന് ടിടിഎസ് വന്നു എന്നു് കാണിയ്ക്കുന്നു
ശ്രമിക്കൂ Kokoro
Bark
Standard
Transformer-based text-to-audio model that generates realistic speech, music, and sound effects.
ഏറ്റവും നല്ല സ്കോര്: സംസാരത്തിനു് അനുസൃതമായ ഓഡിയോ പരമ്പര പ്രദര്ശിപ്പിക്കുന്നു
ശ്രമിക്കൂ Bark
CosyVoice 2
Standard
Alibaba's scalable streaming TTS with human-parity naturalness and near-zero latency.
ഏറ്റവും നല്ല സ്കോര്: TTS- വര്ദ്ധനനം, മനുഷ്യവര്ഗ്ഗീയ ഗുണവും പൂജ്യവും ഉള്ള സ്ട്രീമിങ്
ശ്രമിക്കൂ CosyVoice 2
Chatterbox
Premium
State-of-the-art zero-shot voice cloning with emotion control from Resemble AI.
ഏറ്റവും നല്ല സ്കോര്: സീറോ- ഹോട്ട് ശബ്ദം ക്ളൈന്സ് ശബ്ദത്തിന്റെ അതിര്ത്തി കാണിയ്ക്കുന്നു
ശ്രമിക്കൂ Chatterbox
Tortoise TTS
Premium
Multi-voice text-to-speech focused on quality with autoregressive architecture.
ഏറ്റവും നല്ല സ്കോര്: യാന്ത്രികമായി പ്രവര്ത്തന സംവിധാനങ്ങള് ഏറ്റവും കൂടിയ ഓഡിയോ ഗുണത്തിനു് മുന്ഗണന നല്കുന്നു
ശ്രമിക്കൂ Tortoise TTSനെതർലൻഡ്സ്
ആധുനിക ഭാഷാപാത്രമായ സിനാറ്റിസ് പൈലറ്റ് നാലു പടികളിൽ
അടിസ്ഥാനപരമായി മനസ്സിലാക്കുക
ടിടിഎസ് ലിപി വായിക്കുന്ന ശബ്ദമാക്കി മാറ്റുന്നു.
വ്യത്യസ്ത മാതൃകകൾ അനുകരിക്കുക
ഓരോ ടിടിഎസ് മോഡലും വ്യത്യസ്ത രൂപകൽപ്പനയ്ക്ക് (മദ്യം, ഡിഫൊണൈൻ, വ്യത്യ സ്തത ശക്തികൾ, ഗുണമേന്മ, സവിശേഷതകൾ എന്നിവയ്ക്ക്) ഉപയോഗിക്കുന്നു.
സ്വയം ശ്രമിക്കുക
ടിടിഎസ് (TTS) ഉപയോ ഗി ക്കാ നുള്ള ഏറ്റവും നല്ല മാർഗം അത് ഉപയോ ഗി ക്കുക എന്നതാണ്.
പ്രോജക്ടുകൾക്കായി വിനിയോഗിക്കുക
നിങ്ങൾക്ക് ഇഷ്ടമുള്ള ഒരു മോഡൽ കണ്ടെത്തുമ്പോൾ, നിങ്ങളുടെ അപേക്ഷകളും വസ്തുവകകളും സൃഷ്ടികളും ഉൾക്കൊള്ളാൻ നമ്മുടെ API ടിടിഎസ് ഉപയോഗിക്കുക.
സംസാരത്തിന്റെ ഒരു ഹ്രസ്വ ചരിത്രം
മെഷീനിങ്ങ് മെഷീനുകളില് നിന്നും നെറ്റ്വര്ക്കിലേക്ക്
പ്രാരംഭ ദിവസങ്ങള് (1950- 1980)
ആദ്യത്തെ കമ്പ്യൂട്ടറിലെ സംസാരം 1961 ല്, IBM-ല്
അപരിചിതമായ സിസ്റ്റം: വോട്രക്സ് (1970), DEC വിലാസം (1984), സ്റ്റീഫന് ഹോക്കിങ് ഉപയോഗിക്കുന്ന ആപ്പിൾ
കോമറേഡിയന് സിന്തറിസ് (1990- 2000s) Name
Concative TTS ഒരു യഥാര്ത്ഥ മനുഷ്യന്റെ ശബ്ദം ആയിരക്കണക്കിന് ഫോണ്മെമി കൂട്ടങ്ങളെപ്പറ്റി രേഖപ്പെടുത്തുന്നു, എന്നിട്ട് ശരിയായ ഭാഗം കൂട്ടി ചേര്ക്കുന്നു. ഇത് കൂടുതല് പ്രകൃതിയിലെ ശബ്ദങ്ങള് ഉല്പാദിപ്പിക്കുന്നു, പക്ഷേ വലിയ ഡാറ്റാബേസ് ആവശ്യമുണ്ട് (ഓരോ ശബ്ദത്തിന്റെ 10-20 മണിക്കൂര്). ഗുണമേന് കൂടുതല് നിലവാരം റെക്കോര്ഡിങ്ങുകള്ക്കിടയില് മിതമായി ചേരുന്നു.
ഉപയോഗിക്കുന്നത്: Attta Mann Sers, നാന് വോള്സര്, ആദ്യകാല ഗൂഗിള് TTS.
സ്ഥിതിവിവരക്കണക്കുകള്
അപരിഷ്കൃതമായ റെക്കോര്ഡുകള് പ്ളഗ്ഗ് ചെയ്യുന്നതിനു പകരം, പരാമര്ശക മോഡല്സ് (എച്ച്എംഎംഎസ്), പിന്നെ ആഴമുള്ള നെറ്റ്വര്ക്ക് നെറ്റ്വര്ക്കുകള്, ശബ്ദപ്രശ്നങ്ങള് (പൊതു, സമയം, സ്പഷ്ടമായ വര്ദ്ധനങ്ങള്). ഇത് അപരിമിത പദസഞ്ചയങ്ങള്ക്കും എളുപ്പമുള്ള സൃഷ്ടികള്ക്കും അനുവദിച്ചു. പക്ഷേ, വോക്കോര്ഡിംഗങ്ങള് പലപ്പോഴും ഒരു ഡീഫോര്ഡ് ചെയ്തിരുന്നു.
കീ മോഡല്: HTS, മെര്ലിന്, ആദ്യകാല DN- അടിസ്ഥാന സംവിധാനങ്ങള്.
നെറല് ടിടിഎസ് (2016-ഇല്)
ഈ കാലയളവിൽ ടെലിഫോണുകൾ ചിത്രീകരിക്കാൻ പഠിച്ചത് റ്റാകോർട്ടറോൺ (ഗോഗിൽ, 2017) ആയിരുന്നു.
കീപരീക്ഷണങ്ങൾ: പേന, ടാക്കോൺ, ശീതഭാഷാഭാഷ, വി.ടി., ബാർക്, കോക്കോറോ.
ആധുനിക നെറ്റ്വർക്കിങ്
പ്രകൃതിയിലെ ശബ്ദങ്ങള്ക്ക് പിന്നിലെ കെട്ടിടം.
പദാവലി വിശകലനം & സാംക്രമീകരണം
റോ പദാവലി വൃത്തിയാക്കി സാധാരണയാക്കുന്നു: അക്കങ്ങള് വാക്കുകളായി മാറുന്നു (\) Name
എക്കാസിക് മോഡല് (പൊട്ടിക്ട്രോഗ്രാം വരെയുള്ള വാക്യാംശങ്ങള്) Name
ആക്സിക്യൂട്ടിക് മോഡൽ (ചിലപ്പോഴും ഒരു രൂപമാറ്റമോ ഓട്ടോഗ്രാഫ് നെറ്റ്വർക്കിങ് നെറ്റ്വർക്കിങ് സൈറ്റ്) ടെലിഫോം എടുക്കുകയും മെൽഗ്രോഗ്രാഗ്രാഗ്രാഫിക്ക് ഒരു ദൃശ്യ പ്രതിബിംബം പ്രവചിക്കുകയും ചെയ്യുന്നു.
വോക്ക്കോഡര് (ഓഡിയോയില് നിന്നും ഓഡിയോയിലേക്കു് പ്രഭാവം നടത്തുക)
ദ്രാവകം മെല്സ്ട്രാഗ്രോഗ്രോയെ യഥാര്ത്ഥ ഓഡിയോ അനിമേഷന് ആയി മാറ്റുന്നു. ആദ്യകാല ജൈവ-ജിന് - ലൈം പോലെയുള്ള ഡ്രോക്കോക്കര്സ് നിര്മ്മിച്ചു. ആധുനിക ന്യൂട്രോള്സ് വോക്കോക്കര് (ഹൈഫി-ഗാന്, ബിഗ്ഗാന്, വോക്കോസ്) ഹൈപ്പര് ഫീല്ഡ്-എച്ച്എച്ച്എച്ച്എച്ച്എച്ച്എ അല്ലെങ്കില് വോക്ക്ഓഡിയോ വര്ദ്ധനങ്ങള് ഉണ്ടാക്കുന്നു.
അവസാനത്തില് നിന്നും അവസാനിക്കുന്ന മോഡലുകള്
VITS, കോക്കോറോ, ബാര്ക്ക് തുടങ്ങിയ ഏറ്റവും പുതിയ മോഡലുകള് ഈ രണ്ട് സ്റ്റേജിലെ പ്ലാറ്റില് നിന്നും ഓഡിയോ വരെ നേരിട്ട് ഒരു നൂല് നെറ്റ്വര്ക്കില് കൂടുതല് പ്രകൃതിപ്രശ്നങ്ങള് ഉണ്ടാക്കുന്നു. ചില മോഡല്മാര്ക്ക് (ബാര്ക്ക് പോലെ) ശബ്ദങ്ങളില്ലാത്ത ശബ്ദങ്ങള്, ചിരി, സംസാരത്തിനൊപ്പം സംഗീതം പോലും ഉണ്ടാക്കാന് കഴിയും.
ടിടിഎസ്
ടിടിഎസ് ടെക്നോളജിയുടെ നാലു തലമുറകൾ താരതമ്യം ചെയ്യുന്ന വിധം
| അടുത്തു് | നീക്കം ചെയ്യുക | പ്രകൃതിദത്തം | വ്യക്തത | വേഗത | ഡേറ്റാ ആവശ്യമുണ്ട് |
|---|---|---|---|---|---|
| ആകൃതിയിലുള്ള സിന്ത്യാസിസ് നിയമ- അടിസ്ഥാനപരമായ ആവൃത്തിയുടെ മാതൃക |
1960s-1990s | ഒന്നുമില്ല | |||
| ഉപയോഗിക്കുവാന് പറ്റുന്ന വിരൂപമായ ഓഡിയോ ഭാഗങ്ങള് |
1990s-2010s | 10-20+ മണിക്കൂര് | |||
| പാരാ സമവാക്യം (എച്ച്എംഎം/ ഡിഎന്) സ്ഥിതിവിവരക്കണക്ക് മോഡ്യൂളുകള് |
2000s-2016 | 1-5 മണിക്കൂര് | |||
| Natura അവസാനത്തില് നിന്നും അവസാനിക്കുന്നു ആഴമായ പഠനം (VITS, കോക്കോറോ, ബാർക്ക്) |
2016-ഹാജര് | മണിക്കൂറുകള് |
ടിടിഎസ് (TTS) സാധാരണ ഉപയോഗങ്ങൾ
ഇന്നത്തെ സംസാര വാചകം ഉപയോഗിക്കുന്നിടം
സാമീപ്യത
എന്നാൽ ഈ പ്രശ്നത്തിന് ഒരു പരിഹാരം കണ്ടെത്താൻ കഴിയും.
ഉള്ളടക്കങ്ങള്
യൂഡോപ്പുകാർ, പോട്ടർമാർ, സോഷ്യൽ മാധ്യമങ്ങൾ രൂപകൽപ്പന ചെയ്തവർ, ശബ്ദസംസ്കാരങ്ങൾക്കായി ടിഎ - കൾ ഉപയോഗിക്കുന്നു.
വിര്ച്ച്വല് സഹായികള്
സിറി, അലക്സ, ഗൂഗിൾ സഹായി, കസ്റ്റമേഴ്സ് ചാറ്റ്ബോറ്റ് എന്നിവയെല്ലാം സാധാരണക്കാരോടു പ്രതികരിക്കാൻ ടിടിഎസ് ഉപയോഗിക്കുന്നു.
പലപ്പോഴും ചോദിക്കപ്പെടുന്ന ചോദ്യങ്ങൾ
സംസാര സാങ്കേതികവിദ്യയെക്കുറിച്ചുള്ള സാധാരണ ചോദ്യങ്ങള്
നിങ്ങളുടെ പ്രതികരണം പ്രശ്നങ്ങൾ പരിഹരിക്കാൻ നമ്മെ സഹായിക്കുന്നു.
ആധുനിക അനുഭവങ്ങൾ
20+ സംസ്ഥാനം - ഐ- ബാര്- ആല് മോഡലുകള് സ്വതന്ത്രമായി ശ്രവിക്കുക. സംസാരത്തിന് എത്ര ദൂരം വന്നിട്ടുണ്ട് എന്ന് നോക്കുക.