කතා කිරීමට පෙළ (TTS) යනු කුමක්ද?

කෘතිම බුද්ධිය භාවිතා කරමින් කතා කරන ශබ්ද බවට ලිඛිත පෙළ පරිවර්තනය කරන තාක්ෂණය කෘතිම බුද්ධිය සඳහා පෙළ වේ. මෑත රොබෝ සංස්ලේෂක සිට මිනිසුන්ගෙන් වෙන් කළ නොහැකි ශබ්ද අද ස්නායු ජාල, TTS අප තාක්ෂණය සමඟ අන්තර්ක්රියා කරන ආකාරය පරිවර්තනය කර ඇත, අන්තර්ගතය පරිභෝජනය, සහ තොරතුරු ප්රවේශ විය හැකි කර ඇත.

තාක්ෂණය ඉතිහාසය එය වැඩ කරන්නේ කෙසේද ස්නායු ජාල ඉවෝලුෂන්

කථාවට පෙළ ප්රධාන සංකල්ප

නූතන කථා සංස්ලේෂණය ගොඩනැගිලි බ්ලොක් අවබෝධ

TTS සඳහා කුමක්ද

TTS (Text-to-Speech) යනු පරිගණක හඬ භාවිතයෙන් ලිඛිත පෙළ කටහඬ බවට පරිවර්තනය කරන තාක්ෂණයයි.

ස්නායු TTS වැඩ කරන්නේ කෙසේද

නූතන TTS පණිවිඩ විශ්ලේෂණය, කථන රටා අනාවැකි පල කිරීම සහ ශ්‍රව්‍ය තරංග ආකාර ජනනය කිරීම සඳහා ගැඹුරු ස්නායු ජාල භාවිතා කරයි.

කථා සංස්ලේෂණය ඉතිහාසය

1960 දශකයේ සිට 1990 දශකයේ දක්වා වූ කාලය තුළදී ස්නායු ආකෘතිවල සංකීර්ණත්වය හා සංකීර්ණතාවය වර්ධනය විය.

නවීන AI ආකෘති

2000 දී, ෆෝක්ස්, ෆෝක්ස් 2, ෆෝක්ස් 3, ෆෝක්ස් 4, ෆෝක්ස් 5, ෆෝක්ස් 6, ෆෝක්ස් 7, ෆෝක්ස් 8 යනාදී වශයෙන් නව වර්ග දෙකක් හඳුන්වා දෙන ලදී.

පොදු යෙදුම්

TTS බලය තිර කියවන්නන්, GPS නාවික, අතථ්‍ය සහායක, ශ්‍රව්‍ය පොත්, පාරිභෝගික සේවා රොබෝ, ඉ-ඉගෙනුම් වේදිකා, සහ අන්තර්ගතය නිර්මාණය.

විවෘත මූලාශ්රය vs වාණිජ

විවෘත මූලාශ්‍ර ආකෘති (MIT, Apache 2.0) නිදහස්, ස්වයංක්‍රීයව සත්කාරක TTS සපයන අතර වාණිජ සේවා SLAs සහ සහාය සහිතව කළමනාකරණය කරන ලද APIs සපයයි.

TTS.ai මත ලබා ගත හැකි TTS ආකෘති

වේගවත් හා සැහැල්ලු සිට ස්ටූඩියෝ-ගුණාත්මක ස්නායු හඬ

KokoroKokoro

Free

Lightweight 82M parameter model delivering studio-quality speech with blazing-fast inference.

Fast 5/5

සඳහා හොඳම: රාජ්ය-of-the-art කුඩා ආකෘතිය - කොපමණ දුරට ස්නායු TTS පැමිණ ඇති බව පෙන්වයි

උත්සහ කරන්න Kokoro

BarkBark

Standard

Transformer-based text-to-audio model that generates realistic speech, music, and sound effects.

Slow 4/5

සඳහා හොඳම: ට්‍රාන්ස්ෆෝමර් මත පදනම් වූ ආකෘතිය කථාව ඉක්මවා ශ්රව්ය ජනනය පෙන්නුම්

උත්සහ කරන්න Bark

CosyVoice 2CosyVoice 2

Standard

Alibaba's scalable streaming TTS with human-parity naturalness and near-zero latency.

Medium 5/5 හඬ ක්ලෝන කිරීම

සඳහා හොඳම: මානව-පාරිශුද්ධ ගුණාත්මක හා ශුන්‍ය-ෂොට් ක්ලෝන සමග TTS ප්රවාහනය

උත්සහ කරන්න CosyVoice 2

ChatterboxChatterbox

Premium

State-of-the-art zero-shot voice cloning with emotion control from Resemble AI.

Medium 5/5 හඬ ක්ලෝන කිරීම

සඳහා හොඳම: ශුන්‍ය-ෂොට් හඬ ක්ලෝන හඬ සංස්ලේෂණය දේශසීමාව පෙන්වන

උත්සහ කරන්න Chatterbox

Tortoise TTSTortoise TTS

Premium

Multi-voice text-to-speech focused on quality with autoregressive architecture.

Slow 5/5 හඬ ක්ලෝන කිරීම

සඳහා හොඳම: උපරිම ශ්‍රව්‍ය ගුණාත්මකභාවය ප්රමුඛතාවය දෙන ස්වයංක්රීය ආපසු හැරවීමේ ගෘහ නිර්මාණ ශිල්පය

උත්සහ කරන්න Tortoise TTS

ස්නායු TTS වැඩ කරන්නේ කෙසේද

පියවර හතරක් තුළ නවීන කථා සංස්ලේෂණය නල මාර්ගය

1

මූලික කරුණු තේරුම් ගන්න

TTS කථා ශ්රව්ය බවට ලිඛිත පෙළ පරිවර්තනය. නවීන පද්ධති මානව කථා පටිගත පැය දහස් ගණනක් පුහුණු ස්නායු ජාල භාවිතා.

2

විවිධ ආකෘති ගවේෂණය කරන්න

සෑම TTS ආකෘතියක්ම වෙනස් ගෘහ නිර්මාණ ශිල්පයක් (ට්‍රාන්ස්ෆෝමරය, විසිරීම, විචලනය) භාවිතා කරන අතර එය වේගය, ගුණාත්මකභාවය සහ විශේෂාංගවල සුවිශේෂී ශක්තියකින් යුක්ත වේ.

3

ඔබම උත්සාහ කරන්න

TTS තේරුම් ගැනීමට හොඳම ක්‍රමය එය භාවිතා කිරීමයි. ඉහත අපගේ නොමිලේ ආකෘති උත්සාහ - ඕනෑම පෙළ ඇලවීම හා තත්පර කතා එය ඇසීමට.

4

ඔබේ ව්යාපෘති වලට ඒකාබද්ධ කරන්න

ඔබ කැමති ආකෘතිය සොයා ගැනීමෙන් පසු, ඔබේ අයදුම්පත් TTS ඒකාබද්ධ කිරීමට අපගේ API භාවිතා, නිෂ්පාදන, හෝ අන්තර්ගත නිර්මාණය වැඩ ප්රවාහය.

කථාව පෙළ කෙටි ඉතිහාසය

යාන්ත්‍රික කතා යන්ත්ර සිට ස්නායු ජාල

මුල් කාලය (1950s-1980s)

පළමු පරිගණක-උත්පාදනය කතා 1961 දක්වා දිව යයි, IBM විට

සැලකිය යුතු පද්ධති: Votrax (1970), DECtalk (1984, ස්ටීවන් හෝකින්ග් විසින් භාවිතා), ඇපල්

සන්නිවේදන සංස්ලේෂණය (1990s-2000s)

Concatenative TTS දහස් ගණනක් ෆෝනම සංයෝජන කතා සැබෑ මිනිස් හඬ වාර්තා, පසුව ධාවනය කාලයේදී එකට හරි කොටස් stitches. මෙම වඩා ස්වභාවික හඬ කථාව නිෂ්පාදනය නමුත් දැවැන්ත දත්ත සමුදා අවශ්ය (සමහර විට 10-20 හඬකට පටිගත පැය). ගුණාත්මක අංශ අතර සුමට සම්බන්ධ සොයා මත බරපතල ලෙස රඳා.

භාවිතය: AT&T ස්වභාවික හඬ, Nuance Vocalizer, මුල් Google පරිවර්තනය TTS.

සංඛ් යාලේඛන / පරාමිතික (2000s-2010s)

සැඟවුණු මාකෝව් ආකෘති (HMMs) සහ පසුව ගැඹුරු ස්නායු ජාල vocoder හරහා පෝෂණය කරන ලද බව කතා පරාමිතීන් (පිච්, කාලය, වර්ණාවලි ලක්ෂණ) ජනනය. මෙම සීමා රහිත වචන සංඛ්යාව සහ පහසු හඬ නිර්මාණය ඉඩ, නමුත් vocoder පියවර බොහෝ විට \ නිෂ්පාදනය

ප්රධාන ආකෘති: HTS, Merlin, මුල් DNN පදනම් පද්ධති.

ස්නායු TTS (2016-දැන්)

නූතන යුගය WaveNet (DeepMind, 2016) සමඟ ආරම්භ වූ අතර එය ගැඹුරු ස්නායු ජාල භාවිතා කරමින් සාම්පල මගින් ශ් රව්ය සාම්පලයක් ජනනය කළේය. මෙය Tacotron (ගූගල්, 2017) විසින් අනුගමනය කරන ලදී. වර්ණාවලි සටහන් වෙත කෙලින්ම පෙළ සිතියම් කිරීමට ඉගෙන ගත්. අද

ප්රධාන සොයාගැනීම්: WaveNet, Tacotron, FastSpeech, VITS, Bark, Kokoro.

නවීන ස්නායු TTS වැඩ කරන්නේ කෙසේද

ස්වභාවික හඬ AI හඬ පසුපස ගෘහ නිර්මාණ ශිල්පය

පෙළ විශ්ලේෂණය සහ සාමාන්‍යකරණයName

අමු පෙළ පිරිසිදු හා සාමාන්ය: අංක වචන බවට පත් (\

ශබ්ද ආකෘතිය (Spectrogram කිරීමට පෙළ)

ශබ්ද ආකෘතිය (බොහෝ විට පරිවර්තකයක් හෝ autoregressive ජාලයක්) ශබ්ද අනුපිළිවෙල ගනී හා MEL spectrogram අනාවැකි පල කරයි - ශ්රව්ය ආකාරය දෘශ්ය නියෝජනය

කේතකරණ ක්‍රමලේඛය (ශ්‍රව්‍යයට වර්ණාවලි සටහන) Name

නූතන ස්නායු vocoders (HiFi-GAN, BigVGAN, Vocos) ස්වභාවික කථාව දඩ විස්තර අල්ලා ගන්නා ඉහළ-විශ්වාසවන්තත්වය 24kHz හෝ 44.1kHz ශ්රව්ය ජනනය, හුස්ම ශබ්ද සහ මෘදු තොල් චලන ඇතුළු.

අවසානයේ සිට අවසානය දක්වා ආකෘති

VITS වැනි නවතම ආකෘති, Kokoro, හා බාර්ක් සම්පූර්ණයෙන්ම අදියර දෙකක් පයිප්ප මඟ හැර. ඔවුන් තනි ස්නායු ජාලයක් තුළ ශ්රව්ය පෙළ සිට සෘජුවම යනවා, වඩා ස්වාභාවික ප්රතිඵල අඩු කලා කෘති නිෂ්පාදනය. සමහර ආකෘති (බාර්ක් වැනි) පවා කතා නොවන ශබ්ද ජනනය කළ හැකිය, සිනහව, හා සංගීතය කතා සමග.

TTS ප්රවේශ සසඳන

TTS තාක්ෂණයේ පරම්පරා හතර සසඳන ආකාරය

ආකෘතිය කාලය ස්වභාවික බව නම්යශීලීත්වය වේගය දත්ත අවශ්යයි
ෆෝර්මන්ට් සංස්ලේෂණය
නීති-පාදක සංඛ්යාත ආකෘති
1960s-1990s කිසිවක් නැත
සංයුක්ත
ඇලවූ ශ්‍රව්‍ය කොටස්
1990s-2010s පැය 10-20+
පරාමිතික (HMM/DNN)
සංඛ්යා ලේඛන කතා ආකෘති
2000s-2016 පැය 1-5
ස්නායු අග-අග
ගැඹුරු ඉගෙනීම (VITS, Kokoro, බර්ක්)
2016-දැනට මිනිත්තු සිට පැය

TTS පොදු අයදුම්පත්

අද භාවිතා වන කටහඬට පෙළ

පිවිසුම් හැකියාව

තිරය කියවන්නන්, සහාය උපකරණ, දෘෂ්ටි ආබාධ සහිත පුද්ගලයන් සඳහා උපකරණ හෝ කියවීමේ අපහසුතා ඇති පුද්ගලයන් සඳහා උපකරණ සියල්ලටම ඩිජිටල් අන්තර්ගතය ප්‍රවේශ විය හැකි ලෙස TTS මත රඳා පවතී.

අන්තර්ගත නිර්මාණය

YouTubers, podcasters, සහ සමාජ මාධ්‍ය නිර්මාණකරුවන් ටීටීඑස් භාවිතා කරන්නේ වොයිස් ඔවර්, කථා කිරීම, සහ ස්වයංක්‍රීය අන්තර්ගත නිෂ්පාදනය සඳහාය.

අතත්‍ය සහායකName

Siri, Alexa, Google Assistant, සහ පාරිභෝගික සේවා චැට්බෝට් සියල්ලම පරිශීලකයන්ට ස්වභාවිකව පිළිතුරු කීමට TTS භාවිතා කරයි.

නිතර අසන ප්රශ්න

කටහඬට පෙළ තාක්ෂණය ගැන පොදු ප්රශ්න

TTS පෙළ-කතා සඳහා පෙනී සිටී. එය සංස්ලේෂණය හෝ AI-උත්පාදනය හඬ භාවිතා කරමින් ශ්රව්ය කථා වචන බවට ලිඛිත පෙළ පරිවර්තනය කරන තාක්ෂණය අදහස් කරයි. මෙම පදය තාක්ෂණික සාහිත්යයේ "කතා සංස්ලේෂණය" සමග අන්තර්ගතය භාවිතා වේ.

නූතන TTS පද්ධති අදියර තුනකින් වැඩ: පෙළ විශ්ලේෂණය (විශ්ලේෂණය, සාමාන්යකරණය, ශබ්ද පරිවර්තනය), prosody අනාවැකි (රිද්මය තීරණය, පන්දු, ආතතිය, හා විරාම), හා ශ්රව්ය සංස්ලේෂණය (සත්‍ය ශබ්ද තරංග ආකෘතිය ජනනය).

ස්නායු TTS ගැඹුරු ඉගෙනීම භාවිතා කරමින් මූලික සිට කථාව ජනනය, සුමට නිෂ්පාදනය, වඩා හොඳ prosody හා හැඟීම් සමග වඩා ස්වභාවික ශබ්ද ශ්රව්ය.

SSML (කථා සංස්ලේෂණය මාකප් භාෂාව) TTS පද්ධති පෙළ උච්චාරණය කරන ආකාරය පාලනය කිරීමට ඉඩ දෙන XML මත පදනම් වූ මාකප් භාෂාවකි. ඔබ ඔබේ පෙළ ආදාන තුළ SSML ටැග් භාවිතා කරමින් විරාම, අවධාරණය, උච්චාරණය, පිම්ම වෙනස්කම්, සහ කතා අනුපාතය සඳහන් කළ හැකිය.

TTS භාවිත වන්නේ ප්‍රවේශනීයතාවය (දෘෂ්ටි ආබාධිත පරිශීලකයන් සඳහා තිර කියවන්නන්), අතථ්‍ය සහායකයින් (සිරී, ඇලෙක්සා, ගූගල් සහායක), ශ්‍රව්‍ය පොත් නිෂ්පාදනය, ඊ-ඉගෙනීම, GPS නාවික, පාරිභෝගික සේවා IVR පද්ධති, අන්තර්ගත නිර්මාණය සහ භාෂා ඉගෙනීමේ යෙදුම් සඳහාය.

1960 දශකයේ දී රොබෝ තාක්ෂණය පදනම් කරගත් පද්ධති වලින් 1990 දශකයේ දී සංකලන සංස්ලේෂණයට, 2000 දශකයේ දී සංඛ්‍යාන පරාමිතික සංස්ලේෂණයට, 2016 දී WaveNet සමඟ ස්නායු TTS වෙත, අද වන විට මිනිස් මට්ටමේ ගුණාත්මකභාවය ලබා ගන්නා පරිවර්තක සහ විසිරීමේ ආකෘති දක්වා TTS පරිණාමය වී ඇත.

ස්වභාවික ශබ්ද TTS නිවැරදි prosody අවශ්ය (රිද්මය, ආතතිය, intonation), සුදුසු pacing, phonemes අතර සුමට පරිවර්තන, සහ අනුකූල හඬ අනන්‍යතාව. ස්නායු ආකෘති ස්වභාවික මානව කථාව පටිගත විශාල දත්ත සමුදායන් සිට මෙම රටා ඉගෙන.

Chatterbox හා CosyVoice2වැනි හඬ ක්ලෝනකරණ ආකෘති මගින් 5-30 තත්පර වැනි සුළු සංඛ්‍යාවකින් නිශ්චිත හඬක් ප්‍රතිනිර්මාණය කළ හැකිය. ක්ලෝන කරන ලද හඬ කටහඬ, උච්චාරණය සහ කතා කිරීමේ ශෛලිය අල්ලා ගන්නා නමුත් සදාචාරාත්මක සහ නීතිමය හේතු නිසා අන් අයගේ හඬ ක්ලෝන කිරීමට අදාළ වේ.

නූතන TTS ආකෘති සමූහයක් 30+ භාෂා සහාය. සමහර ආකෘති අනෙක් අය බහුභාෂා වන අතර, විශේෂිත භාෂා විශේෂඥ. ඉංග්රීසි වඩාත් ලබා ගත හැකි ආකෘති හා හඬ ඇත, නමුත් චීන, ජපන්, කොරියානු, ස්පාඤ්ඤ, හා යුරෝපීය භාෂා හොඳින් සහාය.

TTS AI හඬ ජනනය උපකට්ටුවක් වේ. TTS විශේෂයෙන් කථාව ප්රතිදානය පෙළ ආදාන පරිවර්තනය කරයි. AI හඬ ජනනය ද හඬ ක්ලෝන, හඬ පරිවර්තනය, කථාව-කථාව, හා ශබ්ද බලපෑමක් ජනනය ඇතුළත් පුළුල් කාලීන වේ.

එය ඔබගේ අවශ්යතා මත රඳා පවතී. Kokoro සාමාන්ය භාවිතය සඳහා වේගය හා ගුණාත්මක හොඳම සමතුලිතතාවයක් ලබා දෙයි. Chatterbox හඬ ක්ලෝන නායකත්වය. Orpheus මානසික ප්රකාශනය විශිෂ්ට. StyleTTS2සමහර ස්වාභාවික තනි කථානායක කථාව නිපදවයි. සියලු භාවිතය සඳහා තනි "හොඳම" ආකෘතිය නැත.

ඔව්. TTS.ai හි සියලුම ආකෘති විවෘත මූලාශ් රය වන අතර ස්වයං-සත්කාරක විය හැකිය. Piper වැනි CPU-only ආකෘති ඕනෑම පරිගණකයක් මත ධාවනය කළ හැකිය. Kokoro සහ Bark වැනි GPU ආකෘති සඳහා 2-8GB VRAM සහිත NVIDIA GPU අවශ් ය වේ. ඔබ යටිතල පහසුකම් කළමනාකරණය කිරීමට අවශ් ය නොවන නිසා අපගේ වේදිකාව සත්කාරක ප්රවේශය ද සපයයි.
5.0/5 (1)

අපි වැඩි දියුණු කළ හැකි දේ? ඔබේ ප්රතිචාරය අපට ගැටළු විසඳීමට උපකාරී වේ.

අත්දැකීම් නවීන TTS ඔබම

උත්සාහ කරන්න 20+ නොමිලේ රාජ්ය-of-the-art AI හඬ ආකෘති. කතා කිරීමට පෙළ කොපමණ දුරට පැමිණ ඇත බලන්න.