කතා කිරීමට පෙළ (TTS) යනු කුමක්ද?
කෘතිම බුද්ධිය භාවිතා කරමින් කතා කරන ශබ්ද බවට ලිඛිත පෙළ පරිවර්තනය කරන තාක්ෂණය කෘතිම බුද්ධිය සඳහා පෙළ වේ. මෑත රොබෝ සංස්ලේෂක සිට මිනිසුන්ගෙන් වෙන් කළ නොහැකි ශබ්ද අද ස්නායු ජාල, TTS අප තාක්ෂණය සමඟ අන්තර්ක්රියා කරන ආකාරය පරිවර්තනය කර ඇත, අන්තර්ගතය පරිභෝජනය, සහ තොරතුරු ප්රවේශ විය හැකි කර ඇත.
කථාවට පෙළ ප්රධාන සංකල්ප
නූතන කථා සංස්ලේෂණය ගොඩනැගිලි බ්ලොක් අවබෝධ
TTS සඳහා කුමක්ද
TTS (Text-to-Speech) යනු පරිගණක හඬ භාවිතයෙන් ලිඛිත පෙළ කටහඬ බවට පරිවර්තනය කරන තාක්ෂණයයි.
ස්නායු TTS වැඩ කරන්නේ කෙසේද
නූතන TTS පණිවිඩ විශ්ලේෂණය, කථන රටා අනාවැකි පල කිරීම සහ ශ්රව්ය තරංග ආකාර ජනනය කිරීම සඳහා ගැඹුරු ස්නායු ජාල භාවිතා කරයි.
කථා සංස්ලේෂණය ඉතිහාසය
1960 දශකයේ සිට 1990 දශකයේ දක්වා වූ කාලය තුළදී ස්නායු ආකෘතිවල සංකීර්ණත්වය හා සංකීර්ණතාවය වර්ධනය විය.
නවීන AI ආකෘති
2000 දී, ෆෝක්ස්, ෆෝක්ස් 2, ෆෝක්ස් 3, ෆෝක්ස් 4, ෆෝක්ස් 5, ෆෝක්ස් 6, ෆෝක්ස් 7, ෆෝක්ස් 8 යනාදී වශයෙන් නව වර්ග දෙකක් හඳුන්වා දෙන ලදී.
පොදු යෙදුම්
TTS බලය තිර කියවන්නන්, GPS නාවික, අතථ්ය සහායක, ශ්රව්ය පොත්, පාරිභෝගික සේවා රොබෝ, ඉ-ඉගෙනුම් වේදිකා, සහ අන්තර්ගතය නිර්මාණය.
විවෘත මූලාශ්රය vs වාණිජ
විවෘත මූලාශ්ර ආකෘති (MIT, Apache 2.0) නිදහස්, ස්වයංක්රීයව සත්කාරක TTS සපයන අතර වාණිජ සේවා SLAs සහ සහාය සහිතව කළමනාකරණය කරන ලද APIs සපයයි.
TTS.ai මත ලබා ගත හැකි TTS ආකෘති
වේගවත් හා සැහැල්ලු සිට ස්ටූඩියෝ-ගුණාත්මක ස්නායු හඬ
Kokoro
Free
Lightweight 82M parameter model delivering studio-quality speech with blazing-fast inference.
සඳහා හොඳම: රාජ්ය-of-the-art කුඩා ආකෘතිය - කොපමණ දුරට ස්නායු TTS පැමිණ ඇති බව පෙන්වයි
උත්සහ කරන්න Kokoro
Bark
Standard
Transformer-based text-to-audio model that generates realistic speech, music, and sound effects.
සඳහා හොඳම: ට්රාන්ස්ෆෝමර් මත පදනම් වූ ආකෘතිය කථාව ඉක්මවා ශ්රව්ය ජනනය පෙන්නුම්
උත්සහ කරන්න Bark
CosyVoice 2
Standard
Alibaba's scalable streaming TTS with human-parity naturalness and near-zero latency.
සඳහා හොඳම: මානව-පාරිශුද්ධ ගුණාත්මක හා ශුන්ය-ෂොට් ක්ලෝන සමග TTS ප්රවාහනය
උත්සහ කරන්න CosyVoice 2
Chatterbox
Premium
State-of-the-art zero-shot voice cloning with emotion control from Resemble AI.
සඳහා හොඳම: ශුන්ය-ෂොට් හඬ ක්ලෝන හඬ සංස්ලේෂණය දේශසීමාව පෙන්වන
උත්සහ කරන්න Chatterbox
Tortoise TTS
Premium
Multi-voice text-to-speech focused on quality with autoregressive architecture.
සඳහා හොඳම: උපරිම ශ්රව්ය ගුණාත්මකභාවය ප්රමුඛතාවය දෙන ස්වයංක්රීය ආපසු හැරවීමේ ගෘහ නිර්මාණ ශිල්පය
උත්සහ කරන්න Tortoise TTSස්නායු TTS වැඩ කරන්නේ කෙසේද
පියවර හතරක් තුළ නවීන කථා සංස්ලේෂණය නල මාර්ගය
මූලික කරුණු තේරුම් ගන්න
TTS කථා ශ්රව්ය බවට ලිඛිත පෙළ පරිවර්තනය. නවීන පද්ධති මානව කථා පටිගත පැය දහස් ගණනක් පුහුණු ස්නායු ජාල භාවිතා.
විවිධ ආකෘති ගවේෂණය කරන්න
සෑම TTS ආකෘතියක්ම වෙනස් ගෘහ නිර්මාණ ශිල්පයක් (ට්රාන්ස්ෆෝමරය, විසිරීම, විචලනය) භාවිතා කරන අතර එය වේගය, ගුණාත්මකභාවය සහ විශේෂාංගවල සුවිශේෂී ශක්තියකින් යුක්ත වේ.
ඔබම උත්සාහ කරන්න
TTS තේරුම් ගැනීමට හොඳම ක්රමය එය භාවිතා කිරීමයි. ඉහත අපගේ නොමිලේ ආකෘති උත්සාහ - ඕනෑම පෙළ ඇලවීම හා තත්පර කතා එය ඇසීමට.
ඔබේ ව්යාපෘති වලට ඒකාබද්ධ කරන්න
ඔබ කැමති ආකෘතිය සොයා ගැනීමෙන් පසු, ඔබේ අයදුම්පත් TTS ඒකාබද්ධ කිරීමට අපගේ API භාවිතා, නිෂ්පාදන, හෝ අන්තර්ගත නිර්මාණය වැඩ ප්රවාහය.
කථාව පෙළ කෙටි ඉතිහාසය
යාන්ත්රික කතා යන්ත්ර සිට ස්නායු ජාල
මුල් කාලය (1950s-1980s)
පළමු පරිගණක-උත්පාදනය කතා 1961 දක්වා දිව යයි, IBM විට
සැලකිය යුතු පද්ධති: Votrax (1970), DECtalk (1984, ස්ටීවන් හෝකින්ග් විසින් භාවිතා), ඇපල්
සන්නිවේදන සංස්ලේෂණය (1990s-2000s)
Concatenative TTS දහස් ගණනක් ෆෝනම සංයෝජන කතා සැබෑ මිනිස් හඬ වාර්තා, පසුව ධාවනය කාලයේදී එකට හරි කොටස් stitches. මෙම වඩා ස්වභාවික හඬ කථාව නිෂ්පාදනය නමුත් දැවැන්ත දත්ත සමුදා අවශ්ය (සමහර විට 10-20 හඬකට පටිගත පැය). ගුණාත්මක අංශ අතර සුමට සම්බන්ධ සොයා මත බරපතල ලෙස රඳා.
භාවිතය: AT&T ස්වභාවික හඬ, Nuance Vocalizer, මුල් Google පරිවර්තනය TTS.
සංඛ් යාලේඛන / පරාමිතික (2000s-2010s)
සැඟවුණු මාකෝව් ආකෘති (HMMs) සහ පසුව ගැඹුරු ස්නායු ජාල vocoder හරහා පෝෂණය කරන ලද බව කතා පරාමිතීන් (පිච්, කාලය, වර්ණාවලි ලක්ෂණ) ජනනය. මෙම සීමා රහිත වචන සංඛ්යාව සහ පහසු හඬ නිර්මාණය ඉඩ, නමුත් vocoder පියවර බොහෝ විට \ නිෂ්පාදනය
ප්රධාන ආකෘති: HTS, Merlin, මුල් DNN පදනම් පද්ධති.
ස්නායු TTS (2016-දැන්)
නූතන යුගය WaveNet (DeepMind, 2016) සමඟ ආරම්භ වූ අතර එය ගැඹුරු ස්නායු ජාල භාවිතා කරමින් සාම්පල මගින් ශ් රව්ය සාම්පලයක් ජනනය කළේය. මෙය Tacotron (ගූගල්, 2017) විසින් අනුගමනය කරන ලදී. වර්ණාවලි සටහන් වෙත කෙලින්ම පෙළ සිතියම් කිරීමට ඉගෙන ගත්. අද
ප්රධාන සොයාගැනීම්: WaveNet, Tacotron, FastSpeech, VITS, Bark, Kokoro.
නවීන ස්නායු TTS වැඩ කරන්නේ කෙසේද
ස්වභාවික හඬ AI හඬ පසුපස ගෘහ නිර්මාණ ශිල්පය
පෙළ විශ්ලේෂණය සහ සාමාන්යකරණයName
අමු පෙළ පිරිසිදු හා සාමාන්ය: අංක වචන බවට පත් (\
ශබ්ද ආකෘතිය (Spectrogram කිරීමට පෙළ)
ශබ්ද ආකෘතිය (බොහෝ විට පරිවර්තකයක් හෝ autoregressive ජාලයක්) ශබ්ද අනුපිළිවෙල ගනී හා MEL spectrogram අනාවැකි පල කරයි - ශ්රව්ය ආකාරය දෘශ්ය නියෝජනය
කේතකරණ ක්රමලේඛය (ශ්රව්යයට වර්ණාවලි සටහන) Name
නූතන ස්නායු vocoders (HiFi-GAN, BigVGAN, Vocos) ස්වභාවික කථාව දඩ විස්තර අල්ලා ගන්නා ඉහළ-විශ්වාසවන්තත්වය 24kHz හෝ 44.1kHz ශ්රව්ය ජනනය, හුස්ම ශබ්ද සහ මෘදු තොල් චලන ඇතුළු.
අවසානයේ සිට අවසානය දක්වා ආකෘති
VITS වැනි නවතම ආකෘති, Kokoro, හා බාර්ක් සම්පූර්ණයෙන්ම අදියර දෙකක් පයිප්ප මඟ හැර. ඔවුන් තනි ස්නායු ජාලයක් තුළ ශ්රව්ය පෙළ සිට සෘජුවම යනවා, වඩා ස්වාභාවික ප්රතිඵල අඩු කලා කෘති නිෂ්පාදනය. සමහර ආකෘති (බාර්ක් වැනි) පවා කතා නොවන ශබ්ද ජනනය කළ හැකිය, සිනහව, හා සංගීතය කතා සමග.
TTS ප්රවේශ සසඳන
TTS තාක්ෂණයේ පරම්පරා හතර සසඳන ආකාරය
| ආකෘතිය | කාලය | ස්වභාවික බව | නම්යශීලීත්වය | වේගය | දත්ත අවශ්යයි |
|---|---|---|---|---|---|
| ෆෝර්මන්ට් සංස්ලේෂණය නීති-පාදක සංඛ්යාත ආකෘති |
1960s-1990s | කිසිවක් නැත | |||
| සංයුක්ත ඇලවූ ශ්රව්ය කොටස් |
1990s-2010s | පැය 10-20+ | |||
| පරාමිතික (HMM/DNN) සංඛ්යා ලේඛන කතා ආකෘති |
2000s-2016 | පැය 1-5 | |||
| ස්නායු අග-අග ගැඹුරු ඉගෙනීම (VITS, Kokoro, බර්ක්) |
2016-දැනට | මිනිත්තු සිට පැය |
TTS පොදු අයදුම්පත්
අද භාවිතා වන කටහඬට පෙළ
පිවිසුම් හැකියාව
තිරය කියවන්නන්, සහාය උපකරණ, දෘෂ්ටි ආබාධ සහිත පුද්ගලයන් සඳහා උපකරණ හෝ කියවීමේ අපහසුතා ඇති පුද්ගලයන් සඳහා උපකරණ සියල්ලටම ඩිජිටල් අන්තර්ගතය ප්රවේශ විය හැකි ලෙස TTS මත රඳා පවතී.
අන්තර්ගත නිර්මාණය
YouTubers, podcasters, සහ සමාජ මාධ්ය නිර්මාණකරුවන් ටීටීඑස් භාවිතා කරන්නේ වොයිස් ඔවර්, කථා කිරීම, සහ ස්වයංක්රීය අන්තර්ගත නිෂ්පාදනය සඳහාය.
අතත්ය සහායකName
Siri, Alexa, Google Assistant, සහ පාරිභෝගික සේවා චැට්බෝට් සියල්ලම පරිශීලකයන්ට ස්වභාවිකව පිළිතුරු කීමට TTS භාවිතා කරයි.
නිතර අසන ප්රශ්න
කටහඬට පෙළ තාක්ෂණය ගැන පොදු ප්රශ්න
අපි වැඩි දියුණු කළ හැකි දේ? ඔබේ ප්රතිචාරය අපට ගැටළු විසඳීමට උපකාරී වේ.
අත්දැකීම් නවීන TTS ඔබම
උත්සාහ කරන්න 20+ නොමිලේ රාජ්ය-of-the-art AI හඬ ආකෘති. කතා කිරීමට පෙළ කොපමණ දුරට පැමිණ ඇත බලන්න.