உரையிலிருந்து பேசு (TTS) என்பது என்ன?

உரையிலிருந்து பேச்சுக்கு என்பது எழுதப்பட்ட உரையை செயற்கை நுண்ணறிவை பயன்படுத்தி பேசப்பட்ட ஒலியாக மாற்றும் தொழில்நுட்பம். ஆரம்ப ரோபோடிக் சிந்தேஸர் முதல் மனிதர்களிடமிருந்து வேறுபடாத ஒலிகளை வெளியிடும் இன்றைய நரம்பு வலைப்பின்னல் வரை, TTS நாம் தொழில்நுட்பத்துடன் எப்படி தொடர்பு கொள்கிறோம், உள்ளடக்கத்தை உட்கொள்கிறோம், தகவல்களை எளிதாகக் கிடைக்கச் செய்கிறது என்பதை மாற்றியமைத்துள்ளது.

தொழில்நுட்பம் வரலாறு எப்படி இது வேலை செய்கிறது நரம்பு வலைப்பின்னல்கள் Evolution ஐத் திற

உரையிலிருந்து பேசுName

நவீன பேச்சுச் சேர்க்கையின் கட்டமைப்புக்களை புரிந்துகொள்வது

TTS என்ன குறிக்கிறது

TTS என்பது Text-to-Speech (உரை-மொழிபெயர்ப்பு) என்பதாகும் - இது எழுதப்பட்ட உரைகளை கணினி-உருவாக்கப்பட்ட குரல்களைக் கொண்டு பேசப்பட்ட ஒலியாக மாற்றும் தொழில்நுட்பம்.

நியூரல் TTS எப்படி வேலை செய்கிறது

நவீன TTS உரைகளை ஆய்வு செய்வதற்காக ஆழமான நரம்பியல் வலைப்பின்னலைப் பயன்படுத்துகிறது, பேச்சு மாதிரிகளை முன்கூட்டியே கூறுகிறது, மற்றும் குறிப்பிடத்தக்க மனித ஒலிகளை உருவாக்கும் ஒலி அலைகளை உருவாக்குகிறது.

பேச்சுச் சேர்க்கையின் வரலாறு

1960களின் விதி-அடிப்படையிலான அமைப்புகளிலிருந்து 1990களின் இணைப்புச் சேர்க்கை வரையான இன்றைய நரம்பு மாதிரிகள் - TTS ஆறு ஆண்டுகளில் எப்படி வளர்ந்தது.

நவீன AI மாதிரிகள்

Kokoro, Bark, மற்றும் CosyVoice2போன்ற இன்றைய மாதிரிகள் மாற்றிகளை, பரவலை, மற்றும் மாறுபட்ட கற்பனையை மனித நிலை பேச்சு தரத்தை அடைய பயன்படுத்துகின்றன.

பொதுவான பயன்பாடுகள்

TTS திரை வாசிப்பாளர்கள், GPS நகர்வு, மெய்நிகர் உதவியாளர்கள், ஒலி புத்தகங்கள், வாடிக்கையாளர் சேவை ரோபோக்கள், இ-பயிற்சி தளங்கள் மற்றும் உள்ளடக்க உருவாக்கத்தை இயக்குகிறது.

திறந்த மூலம் vs வணிக

திறந்த மூல மாதிரிகள் (MIT, Apache 2.0) இலவசமாக, தனியாக ஹோஸ்டிங் செய்யக்கூடிய TTS ஐ வழங்குகின்றன, ஆனால் வணிக சேவைகள் SLA மற்றும் ஆதரவுடன் நிர்வகிக்கப்பட்ட API களை வழங்குகின்றன.

TTS மாதிரிகள் TTS.ai இல் கிடைக்கும்

வேகமான மற்றும் இலகுவான ஸ்டுடியோ- தர நரம்பு குரல்களிலிருந்து

KokoroKokoro

Free

Lightweight 82M parameter model delivering studio-quality speech with blazing-fast inference.

Fast 5/5

சிறந்த: சிறிய மாதிரி — நரம்பு TTS எவ்வளவு தூரம் வந்துள்ளது என்பதைக் காட்டுகிறது

முயற்சி Kokoro

BarkBark

Standard

Transformer-based text-to-audio model that generates realistic speech, music, and sound effects.

Slow 4/5

சிறந்த: உரையாடலைத் தாண்டி ஒலி உருவாக்கத்தைக் காட்டும் மாற்றி-அடிப்படையிலான மாதிரி

முயற்சி Bark

CosyVoice 2CosyVoice 2

Standard

Alibaba's scalable streaming TTS with human-parity naturalness and near-zero latency.

Medium 5/5 குரல் படிமம்Name

சிறந்த: மனித-சமமான தரத்துடன் மற்றும் சுழல்-வெடிப்பு போலிப்புடன் TTS யை ஒலிக்கச் செய்க

முயற்சி CosyVoice 2

ChatterboxChatterbox

Premium

State-of-the-art zero-shot voice cloning with emotion control from Resemble AI.

Medium 5/5 குரல் படிமம்Name

சிறந்த: குரல் சேர்க்கையின் எல்லையைக் காட்டும் சுழல்-தொடு குரல் படிமம்

முயற்சி Chatterbox

Tortoise TTSTortoise TTS

Premium

Multi-voice text-to-speech focused on quality with autoregressive architecture.

Slow 5/5 குரல் படிமம்Name

சிறந்த: அதிகபட்ச ஒலி தரத்திற்கு முன்னுரிமை அளிக்கும் தானியங்கி மறுசீரமைப்பு கட்டமைப்பு

முயற்சி Tortoise TTS

நியூரல் TTS எப்படி வேலை செய்கிறதுName

நான்கு படிகளில் நவீன பேச்சு சேர்க்கை குழாய்Name

1

அடிப்படைகளை புரிந்துகொள்

TTS எழுதப்பட்ட உரைகளை பேசப்பட்ட ஒலியாக மாற்றுகிறது. நவீன அமைப்புகள் நுண்ணறிவு வலைப்பின்னல்களை மனித பேச்சு பதிவுகளின் ஆயிரக்கணக்கான மணிநேரங்களில் பயிற்சி பெற்றவையாக பயன்படுத்துகின்றன.

2

வேறுபட்ட மாதிரிகளை ஆராயவும்

ஒவ்வொரு TTS மாதிரியும் வேகம், தரம் மற்றும் அம்சங்களில் தனித்துவமான பலத்துடன் வேறுபட்ட கட்டமைப்பை (மாற்றி, பரவுதல், மாறுபாடு) பயன்படுத்துகிறது.

3

உங்களை நீங்களே முயற்சிக்கவும்

TTS யை புரிந்து கொள்ள சிறந்த வழி அதைப் பயன்படுத்துவதாகும். மேலே உள்ள எங்கள் இலவச மாதிரிகளை முயற்சிக்கவும் - எந்த உரைகளையும் ஒட்டுங்கள் மற்றும் அதை சில நொடிகளில் பேசுவதைக் கேட்கலாம்.

4

உங்கள் திட்டத்தில் ஒருங்கிணை

நீங்கள் விரும்பும் மாதிரியைக் கண்டறிந்தவுடன், உங்கள் பயன்பாடுகள், பொருட்கள் அல்லது உள்ளடக்க உருவாக்க பணிப் பாய்ச்சலில் TTS ஐ ஒருங்கிணைக்க எங்கள் API ஐப் பயன்படுத்தவும்.

உரையிலிருந்து பேச்சுக்குName

மெக்கானிகல்பேசும்மிஷின்களிலிருந்து நரம்பு மண்டல இணைப்புகளுக்கு

ஆரம்ப நாட்கள் (1950-1980)

முதல் கணினி உருவாக்கிய உரையாடல் 1961ல் IBM

குறிப்பிடத்தக்க அமைப்புகள்: வொட்ராக்ஸ் (1970கள்), DECtalk (1984, ஸ்டீபன் ஹாக்கிங் பயன்படுத்தினார்), ஆப்பிள்

இணைப்புச் சேர்க்கை (1990- 2000)

இணைப்பு TTS ஒரு உண்மையான மனித குரலை பதிவு செய்கிறது, ஆயிரக்கணக்கான ஒலிகளின் கூட்டுகளை பேசுகிறது, பின்னர் இயக்க நேரத்தில் சரியான பகுதிகளை ஒன்றாக இணைக்கிறது. இது இயற்கையான குரலை உருவாக்குகிறது, ஆனால் பெரிய தரவுத்தளங்கள் தேவைப்படுகிறது (ஒவ்வொரு குரலுக்கும் பெரும்பாலும் 10- 20 மணிநேர பதிவு). தரம் பகுதிகளுக்கு இடையேயான மென்மையான இணைப்புகளை கண்டுபிடிப்பதில் அதிகமாக சார்ந்தது.

பயன்படுத்தப்பட்டது: AT&T இயற்கை ஒலிகள், Nuance Vocalizer, ஆரம்ப Google Translate TTS.

புள்ளிவிவரம்/அளவுகள் (2000-2010)

பதிவுகளை இணைப்பதற்கு பதிலாக, அளவுரு மாதிரிகள் பேசுவதற்கு புள்ளிவிவரக் குறிப்புகளை கற்றுக்கொண்டன. மறைந்த மார்கோவ் மாதிரிகள் (HMMs) மற்றும் பின்னர் ஆழமான நரம்பு வலைப்பின்னல்கள் பேசுவதற்கு அளவுருக்களை உருவாக்கின (பிட்ச், கால அளவு, நிறமாலை அம்சங்கள்) அவை ஒரு வொக்கோடரைக் கொண்டு செலுத்தப்பட்டன. இது வரம்பு இல்லாத சொற்களஞ்சியத்தை அனுமதித்தது மற்றும் எளிதான குரல் உருவாக்கம், ஆனால் வொக்கோடரின் படி பெரும்பாலும் ஒரு \ t

முக்கிய மாதிரிகள்: HTS, Merlin, முந்தைய DNN-ஆதார அமைப்புகள்.

நியூரல் TTS (2016-இன்று)

நவீன காலம் வேவ்நெட் (டிப்மைன்ட், 2016) மூலம் தொடங்கியது, இது ஆழமான நரம்பு வலைப்பின்னல்களை பயன்படுத்தி ஒலி மாதிரியை உருவாக்கியது. இதைத் தொடர்ந்து டக்கோட்ரான் (குறுக்கு, 2017) உரை நேரடியாக ஸ்பெக்ட்ரோகிராம்களுக்கு வரையறுக்க கற்றது. இன்று

முக்கியமான முன்னேற்றங்கள்: வேவ்நெட், டாகோட்ரான், ஃபாஸ்ட் ஸ்பீச், விட்ஸ், பார்க், கோகோரோ.

நவீன நரம்பு TTS எப்படி வேலை செய்கிறது

இயற்கையான ஒலியுடன் கூடிய AI குரல்களுக்கு பின்னால் உள்ள கட்டமைப்பு

உரை ஆய்வு & இயல்பான

உரை சுத்தப்படுத்தப்பட்டு இயல்பானதாக மாற்றப்படுகிறது: எண்கள் வார்த்தைகளாக மாறும் (\

ஒலி மாதிரி (உரையிலிருந்து விளைவு வரைபடம்) Name

ஒலி மாதிரி (அதாவது ஒரு மாற்றி அல்லது தன்னியக்கமாக திரும்பும் வலைப்பின்னல்) ஒலியெழுத்து வரிசை மற்றும் ஒரு mel spectrogram - ஒலி எப்படி ஒரு பார்வை பிரதிநிதித்துவம் - முன்கூட்டியே கூறுகிறது

வொகோடெர் (ஒலிக்கு ஸ்பெக்ட்ரோகிராம்) Name

இந்த வொக்கோடர் mel spektrogram ஐ உண்மையான ஒலி அலைகள் ஆக மாற்றுகிறது. கிரிப்ஃபின்- லிம் போன்ற ஆரம்ப வொக்கோடர்கள் ரோபோடிக் ஆர்டிஃபேக்ட்களை உருவாக்குகின்றன. நவீன நரம்பு வொக்கோடர்கள் (ஹைஃபி- GAN, பிக்VGAN, வொகோஸ்) உயர்- நம்பகத்தன்மை 24kHz அல்லது 44. 1kHz ஒலியை உருவாக்குகின்றன, இது இயற்கையான பேச்சின் சிறிய விவரங்களைக் கைப்பற்றுகிறது, மூச்சு ஒலிகள் மற்றும் நுண்ணிய உதடுகளின் நகர்வுகள் உள்ளிட்டவை.

முடிவிலிருந்து முடிவிற்கு மாதிரிகள்

VITS, Kokoro, மற்றும் Bark போன்ற புதுமையான மாதிரிகள் இரண்டு நிலைகளை முழுமையாக தவிர்க்கின்றன. அவை ஒரே நரம்பியல் வலைப்பின்னலில் உரையிலிருந்து ஒலிக்கு நேரடியாகச் செல்கின்றன, குறைந்த ஆர்டிஃபேக்ட்களுடன் அதிக இயற்கையான முடிவுகளை உற்பத்தி செய்கின்றன. சில மாதிரிகள் (Bark போன்றவை) பேசாத ஒலிகளையும், சிரிப்பையும், இசையையும் பேசுவதுடன் உற்பத்தி செய்யலாம்.

TTS அணுகுமுறைகள் ஒப்பிடப்பட்டன

TTS தொழில்நுட்பத்தின் நான்கு தலைமுறைகள் எப்படி ஒப்பிடுகின்றன

அணுகுமுறை காலம் இயற்கை தளர்வு வேகம் தேவையான தகவல்
ஃபோர்மன்ட் சேர்க்கை
விதி-அடிப்படையிலான அதிர்வெண் மாதிரியமைப்பு
1960s-1990s எதுவுமில்லை
இணைப்பு
ஒலி பகுதிகளை இணை
1990s-2010s 10- 20+ மணிநேரம்
அளவுரு (HMM/DNN)
புள்ளிவிவர உரையாடல் மாதிரிகள்
2000s-2016 1-5மணிநேரம்
நுண்கல இறுதி-இறுதி
ஆழமான கற்றல் (VITS, Kokoro, Bark) Name
2016-தற்போதைய நிமிடங்களை மணிகளாக மாற்று

TTS இன் பொதுவான பயன்பாடுகள்

உரையிலிருந்து பேசுவதற்கு இன்று பயன்படுத்தப்படும் இடம்

அணுகக்கூடிய

திரை வாசிப்பவர்கள், உதவியாளர் கருவிகள், பார்வை குறைபாடு அல்லது படிக்கும் திறன் குறைபாடு உள்ள மக்களுக்கு உதவும் கருவிகள் டிஜிட்டல் உள்ளடக்கத்தை அனைவருக்கும் அணுகக்கூடியதாக மாற்ற TTS ஐ நம்புகின்றன.

உள்ளடக்க உருவாக்கம்

யூடியூபர்கள், போட்காஸ்டர்கள், மற்றும் சமூக ஊடக உருவாக்குநர்கள் TTS ஐ குரல், கதை, மற்றும் அளவில் தானாகவே உள்ளடக்க உற்பத்திக்குப் பயன்படுத்துகின்றனர்.

மெய்நிகர் உதவியாளர்கள்Name

Siri, Alexa, Google Assistant, மற்றும் வாடிக்கையாளர் சேவை உரையாடல் ரோபோக்கள் அனைத்தும் TTS ஐப் பயன்படுத்துகின்றன, பயனர்களுக்கு இயற்கையாகவே பதில்களைச் சொல்லுகின்றன.

அடிக்கடி கேட்கப்படும் கேள்விகள்

உரையிலிருந்து பேச்சுக்கான தொழில்நுட்பம் பற்றிய பொதுவான கேள்விகள்

TTS என்பது உரை- இருந்து- பேச்சு என பொருள்படும். இது எழுதப்பட்ட உரைகளை செயற்கையான அல்லது AI- உருவாக்கப்பட்ட குரல்களை பயன்படுத்தி கேட்கக்கூடிய பேசப்பட்ட சொற்களாக மாற்றும் தொழில்நுட்பத்தை குறிக்கும். இந்த சொல் தொழில்நுட்ப இலக்கியங்களில் "பேச்சுச் சேர்க்கை" என்ற பொருளில் பயன்படுத்தப்படுகிறது.

நவீன TTS அமைப்புகள் மூன்று நிலைகளில் செயல்படுகின்றன: உரை ஆய்வு (பார்சிங், இயல்பான, ஒலி மாற்றம்), குரல் எதிர்பார்ப்பு (அசைவு, பீட், அழுத்தம், மற்றும் இடைவெளிகளை தீர்மானிப்பது), மற்றும் ஒலி சேர்க்கை (உண்மையான ஒலி அலைகளை உருவாக்குவது). நரம்பு மாதிரிகள் பயிற்சி தரவுகளிலிருந்து மூன்று நிலைகளையும் கற்றுக் கொள்கின்றன.

இணைப்பு TTS முன்னரே பதிவு செய்யப்பட்ட பேச்சு துண்டுகளை ஒன்றாக இணைக்கிறது, இது மாற்றங்களில் சிக்கலாக ஒலிக்கலாம். நியூரல் TTS ஆழமான கற்றல் மூலம் முற்றிலும் பேசுவதை உருவாக்குகிறது, மேலும் சுத்தமான, இயற்கையான ஒலியை உருவாக்குகிறது, மேலும் சிறந்த குரல் மற்றும் உணர்வுகளுடன்.

SSML (Speech Synthesis Markup Language) என்பது XML அடிப்படையிலான குறியிடு மொழியாகும், இது TTS அமைப்புகள் உரை எப்படி உச்சரிக்கிறது என்பதை கட்டுப்படுத்தும். நீங்கள் தற்காலிக நிறுத்தம், உச்சரிப்பு, உச்சரிப்பு, பீட் மாற்றங்கள் மற்றும் உரை உள்ளீட்டின் SSML குறிகளை பயன்படுத்தி உச்சரிப்பு வீதத்தை குறிப்பிடலாம்.

TTS அணுகலுக்கு (கண் பார்வை குறைபாடுள்ள பயனர்களுக்கான திரை வாசிப்பாளர்கள்), மெய்நிகர் உதவியாளர்கள் (Siri, Alexa, Google Assistant), ஒலிப்புத்தக உற்பத்தி, e-learning, GPS பெயர்ச்சி, வாடிக்கையாளர் சேவை IVR அமைப்புகள், உள்ளடக்க உருவாக்கம் மற்றும் மொழி கற்பித்தல் பயன்பாடுகள் ஆகியவற்றிற்குப் பயன்படுத்தப்படுகிறது.

TTS 1960 களில் ரோபோடிக் விதி-அடிப்படையிலான அமைப்புகளிலிருந்து, 1990 களில் இணைப்புச் சேர்க்கை, 2000 களில் புள்ளிவிவர அளவுகோல் சேர்க்கை, 2016 இல் வேவ்நெட் உடன் நுரையீரல் TTS, மனித-மட்ட தரத்தை அடையும் இன்றைய மாற்றி மற்றும் பரவுதல் மாதிரிகள் வரை வளர்ந்தது.

இயற்கையான ஒலி TTS சரியான குரல் (அசைவு, அழுத்தம், உச்சரிப்பு), சரியான வேகம், ஒலிகளுக்கு இடையேயான மென்மையான மாற்றங்கள், மற்றும் நிலையான குரல் அடையாளம் தேவை. நரம்பு மாதிரிகள் இயற்கை மனித பேச்சு பதிவுகளின் பெரிய தரவுத்தளங்களிலிருந்து இந்த மாதிரிகளை கற்றுக் கொள்கிறது.

Chatterbox மற்றும் CosyVoice2போன்ற குரல் ஒத்திசைவு மாதிரிகள் குறிப்பிட்ட குரலை 5-30 வினாடிகளிலேயே ஒத்திசைக்க முடியும். ஒத்திசைக்கப்பட்ட குரல் ஒலி, உச்சரிப்பு, மற்றும் பேசும் பாணி ஆகியவற்றை பதிவு செய்கிறது, மற்றவர்களின் குரல்களை ஒத்திசைக்க நடைமுறை மற்றும் சட்ட ரீதியான விஷயங்கள் பொருந்தும்.

நவீன TTS மாதிரிகள் 30+ மொழிகளுக்கு ஆதரவு அளிக்கின்றன. சில மாதிரிகள் குறிப்பிட்ட மொழிகளில் சிறப்பு வாய்ந்தவை மற்றவை பல மொழிகள். ஆங்கிலத்தில் அதிக அளவு மாதிரிகள் மற்றும் குரல்கள் உள்ளன, ஆனால் சீனம், ஜப்பானியம், கொரியன், ஸ்பானிஷ் மற்றும் ஐரோப்பிய மொழிகள் நன்றாக ஆதரவு அளிக்கின்றன.

TTS என்பது AI குரல் உருவாக்கத்தின் ஒரு துணைக்கூட்டம். TTS குறிப்பாக உரை உள்ளீட்டை பேச்சு வெளியீட்டாக மாற்றுகிறது. AI குரல் உருவாக்கம் என்பது ஒரு விரிவான சொல், இது குரல் ஒப்புமை, குரல் மாற்றம், பேச்சு- க்கு- பேச்சு, மற்றும் ஒலி விளைவு உருவாக்கம் ஆகியவற்றையும் உள்ளடக்கியது.

இது உங்கள் தேவைகளை பொறுத்து இருக்கும். கோகோரோ பொதுவான பயன்பாட்டிற்கு வேகம் மற்றும் தரத்தின் சிறந்த சமநிலையை வழங்குகிறது. குரல் ஒத்தமைப்பில் சாட்டர்பாக்ஸ் முன்னிலை வகிக்கிறது. உணர்ச்சிபூர்வமான வெளிப்பாட்டில் ஆர்பியஸ் சிறந்து விளங்குகிறது. StyleTTS2 மிகவும் இயற்கையான ஒற்றை- ஒலிப்பதிவை உருவாக்குகிறது. அனைத்து பயன்பாட்டு நிலைகளுக்கும் ஒரே "சிறந்த" மாதிரி இல்லை.

ஆம். TTS.ai ல் உள்ள அனைத்து மாதிரிகளும் திறந்த மூலமாகும் மற்றும் தனியாக நிறுவப்படலாம். CPU-only மாதிரிகள், Piper போன்றவை எந்த கணினியிலும் இயங்குகின்றன. Kokoro மற்றும் Bark போன்ற GPU மாதிரிகளுக்கு 2-8GB VRAM உடன் NVIDIA GPU தேவைப்படுகிறது. எங்கள் தளமும் நிறுவப்பட்ட அணுகலை வழங்குகிறது, எனவே நீங்கள் கட்டமைப்பை நிர்வகிக்க வேண்டியதில்லை.
5.0/5 (1)

நாம் என்ன மேம்படுத்த முடியும்? உங்கள் கருத்துகள் பிரச்சினைகளை சரிசெய்ய உதவுகிறது.

நவீன TTS அனுபவத்தை அனுபவிக்கவும்

20+ state-of-the-art AI குரல் மாதிரிகளை இலவசமாக முயற்சிக்கவும். உரை உரையாடல் எவ்வளவு தூரம் வந்துள்ளது என்பதைப் பாருங்கள்.