តើអត្ថបទទៅជាការនិយាយ (TTS) គឺជាអ្វី?
អត្ថបទទៅជាការនិយាយគឺជាបច្ចេកវិទ្យាដែលបម្លែងអត្ថបទដែលបានសរសេរទៅជាអូឌីយ៉ូដែលបាននិយាយដោយប្រើប្រាជ្ញាសិប្បនិម្មិត ។ ចាប់ពីពេលដំបូងនៃការបង្កើតសំឡេងដោយប្រើមនុស្សយន្តទៅបណ្ដាញសរសៃប្រសាទសព្វថ្ងៃដែលមានសំឡេងមិនអាចបែងចែកពីមនុស្សបានទេ TTS បានផ្លាស់ប្ដូររបៀបដែលយើងមានការទាក់ទងជាមួយនឹងបច្ចេកវិទ្យា ប្រើប្រាស់មាតិកា និងធ្វើឲ្យព័ត៌មានអាចចូលដំណើរការបាន ។
គំនិតសំខាន់ក្នុងអត្ថបទទៅការនិយាយ
យល់អំពីប្លុកសាងសង់នៃការសំយោគការនិយាយទំនើប
អ្វីដែល TTS សំដៅលើ
TTS សំដៅលើអត្ថបទទៅជាការនិយាយ - បច្ចេកវិទ្យាដែលបម្លែងអត្ថបទសរសេរទៅជាអូឌីយ៉ូនិយាយដោយប្រើសំឡេងដែលបង្កើតដោយកុំព្យូទ័រ & # 160; ។
របៀប Neural TTS ធ្វើការ
TTS ទំនើបប្រើបណ្ដាញសរសៃប្រសាទជ្រៅដើម្បីវិភាគអត្ថបទ ធ្វើការព្យាករណ៍លំនាំនិយាយ និងបង្កើតរលកអូឌីយ៉ូដែលមានសំឡេងមនុស្សគួរឲ្យកត់សម្គាល់ & # 160; ។
ប្រវត្តិនៃការសំយោគការនិយាយ
ពី 1960s ប្រព័ន្ធដែលមានមូលដ្ឋានលើច្បាប់ទៅ 1990s សមាសធាតុដែលមានមូលដ្ឋានលើការចងក្រងទៅម៉ូដែលសរសៃប្រសាទសព្វថ្ងៃ - របៀបដែល TTS បានវិវឌ្ឍជាងប្រាំមួយទសវត្សរ៍។
ម៉ូដែល AI ទំនើប
ម៉ូដែលបច្ចុប្បន្នដូចជា Kokoro Bark និង CosyVoice2ប្រើឧបករណ៍បម្លែង ការចម្រុះ និងការសន្និដ្ឋានខុសៗគ្នាដើម្បីសម្រេចបានគុណភាពនិយាយកម្រិតមនុស្ស & # 160; ។
កម្មវិធីទូទៅ
TTS ផ្តល់ថាមពលដល់អ្នកអានអេក្រង់ ការរុករក GPS អ្នកជំនួយការនិម្មិត សៀវភៅអូឌីយ៉ូ សេវាកម្មអតិថិជន bots វេទិកាសិក្សាតាមអ៊ីនធឺណិត និងការបង្កើតមាតិកា។
ប្រភពបើកចំហ vs ពាណិជ្ជកម្ម
ម៉ូដែលប្រភពបើកចំហ (MIT, Apache 2.0) ផ្តល់ជូនដោយឥតគិតថ្លៃ, TTS ដែលអាចគ្រប់គ្រងបានដោយខ្លួនឯងខណៈពេលដែលសេវាកម្មពាណិជ្ជកម្មផ្តល់ជូនការគ្រប់គ្រង API ជាមួយ SLAs និងគាំទ្រ។
ម៉ូដែល TTS ដែលអាចរកបាននៅលើ TTS.ai
ពីលឿន និងស្រាលទៅសំឡេងសរសៃប្រសាទគុណភាពស្ទូឌីយោ
Kokoro
Free
Lightweight 82M parameter model delivering studio-quality speech with blazing-fast inference.
ល្អបំផុតសម្រាប់ & # 160; ៖ ម៉ូដែលតូចរបស់រដ្ឋនៃសិល្បៈ - បង្ហាញពីរបៀបដែលឆ្ងាយ TTS សរសៃប្រសាទបានមក
ព្យាយាម Kokoro
Bark
Standard
Transformer-based text-to-audio model that generates realistic speech, music, and sound effects.
ល្អបំផុតសម្រាប់ & # 160; ៖ ម៉ូដែលដែលមានមូលដ្ឋានលើប្ដូរបង្ហាញការបង្កើតអូឌីយ៉ូលើសពីការនិយាយ
ព្យាយាម Bark
CosyVoice 2
Standard
Alibaba's scalable streaming TTS with human-parity naturalness and near-zero latency.
ល្អបំផុតសម្រាប់ & # 160; ៖ ស្ទ្រីម TTS ជាមួយគុណភាពមនុស្សស្មើគ្នា និងក្លូនសូន្យ
ព្យាយាម CosyVoice 2
Chatterbox
Premium
State-of-the-art zero-shot voice cloning with emotion control from Resemble AI.
ល្អបំផុតសម្រាប់ & # 160; ៖ ការក្លូនសំឡេង Zero-shot បង្ហាញព្រំដែននៃការសំយោគសំឡេង
ព្យាយាម Chatterbox
Tortoise TTS
Premium
Multi-voice text-to-speech focused on quality with autoregressive architecture.
ល្អបំផុតសម្រាប់ & # 160; ៖ ស្ថាបត្យកម្មថយក្រោយដោយស្វ័យប្រវត្តិដែលផ្តល់អាទិភាពដល់គុណភាពអូឌីយ៉ូអតិបរមា
ព្យាយាម Tortoise TTSរបៀប Neural TTS ធ្វើការ
បំពង់សំយោគការនិយាយទំនើបក្នុងជំហានបួន
យល់ពីមូលដ្ឋាន
TTS បម្លែងអត្ថបទដែលបានសរសេរទៅជាអូឌីយ៉ូដែលបាននិយាយ & # 160; ។ ប្រព័ន្ធទំនើបប្រើបណ្ដាញសរសៃប្រសាទដែលបានហ្វឹកហាត់លើការថតសំឡេងមនុស្សរាប់ពាន់ម៉ោង & # 160; ។
រកមើលម៉ូដែលផ្សេងគ្នា
ម៉ូដែល TTS នីមួយៗប្រើស្ថាបត្យកម្មផ្សេងគ្នា (ផ្លាស់ប្តូរ, ការរីករាលដាល, variational) ជាមួយនឹងកម្លាំងតែមួយគត់នៅក្នុងល្បឿន, គុណភាព, និងលក្ខណៈពិសេស.
សាកល្បងដោយខ្លួនឯង
វិធីល្អបំផុតដើម្បីយល់ TTS គឺដើម្បីប្រើវា. ព្យាយាមម៉ូដែលឥតគិតថ្លៃរបស់យើងខាងលើ - បិទភ្ជាប់អត្ថបទណាមួយនិងឮវានិយាយក្នុងមួយវិនាទី.
បញ្ចូលទៅក្នុងគម្រោងរបស់អ្នក
នៅពេលដែលអ្នករកឃើញម៉ូដែលដែលអ្នកចូលចិត្តប្រើ API របស់យើងដើម្បីបញ្ចូល TTS ចូលក្នុងកម្មវិធីរបស់អ្នកផលិតផលឬលំហូរការងារបង្កើតមាតិកា។
ប្រវត្តិខ្លីនៃអត្ថបទទៅជាការនិយាយ
ពីម៉ាស៊ីននិយាយមេកានិចទៅបណ្ដាញសរសៃប្រសាទ
ថ្ងៃដំបូង (1950s-1980s)
ការនិយាយដំបូងដែលបង្កើតដោយកុំព្យូទ័រកាលបរិច្ឆេទត្រឡប់ទៅ 1961, នៅពេលដែល IBM
ប្រព័ន្ធគួរឲ្យកត់សម្គាល់ & # 160; ៖ Votrax (ឆ្នាំ ១៩៧០), DECtalk (ឆ្នាំ ១៩៨៤ ប្រើដោយ Stephen Hawking), Apple
ការសំយោគដែលបានភ្ជាប់គ្នា (ឆ្នាំ ១៩៩០- ២០១០)
TTS រួមបញ្ចូលគ្នាថតសំឡេងមនុស្សពិតប្រាកដនិយាយរាប់ពាន់នៃការផ្សំសំឡេងបន្ទាប់មកដេរផ្នែកត្រឹមត្រូវនៅពេលរត់ & # 160; ។ នេះបានផលិតការនិយាយដែលមានសំឡេងធម្មជាតិច្រើនជាងនេះ ប៉ុន្តែទាមទារមូលដ្ឋានទិន្នន័យធំ (ជាញឹកញាប់ 10- 20 ម៉ោងនៃការថតក្នុងមួយសំឡេង) & # 160; ។ គុណភាពពឹងផ្អែកខ្លាំងលើការរកឃើញការរួមបញ្ចូលគ្នារលូនរវាងផ្នែក & # 160; ។
ប្រើដោយ: AT&T សំឡេងធម្មជាតិ, Nuance Vocalizer, Google បកប្រែ TTS ដើម.
ស្ថិតិ/ប៉ារ៉ាម៉ែត្រ (ឆ្នាំ 2000-2010)
ជំនួសឲ្យការថតដេរ ម៉ូដែលប៉ារ៉ាម៉ែត្របានរៀនការបង្ហាញស្ថិតិនៃការនិយាយ & # 160; ។ ម៉ូដែល Markov ដែលលាក់ (HMMs) និងបណ្ដាញសរសៃប្រសាទជ្រៅក្រោយមកបានបង្កើតប៉ារ៉ាម៉ែត្រការនិយាយ (កម្រិតសំឡេង រយៈពេល លក្ខណៈពិសេសវិសាលគម) ដែលបានផ្គត់ផ្គង់តាមរយៈកម្មវិធីបង្កើតសំឡេង & # 160; ។ នេះអនុញ្ញាតឲ្យមានវចនានុក្រមគ្មានដែនកំណត់ និងការបង្កើតសំឡេងដែលងាយស្រួល ប៉ុន្តែជំហានកម្មវិធីបង្កើតសំឡេងជាញឹកញាប់បានផលិតជា \\
ម៉ូដែលសំខាន់: HTS, Merlin, ប្រព័ន្ធដែលមានមូលដ្ឋានលើ DNN ដំបូង។
Neural TTS (ឆ្នាំ 2016-បច្ចុប្បន្ន)
សម័យទំនើបបានចាប់ផ្តើមជាមួយ WaveNet (DeepMind, 2016) ដែលបង្កើតឧទាហរណ៍អូឌីយ៉ូដោយឧទាហរណ៍ដោយប្រើបណ្តាញសរសៃប្រសាទជ្រៅ។ នេះត្រូវបានតាមដានដោយ Tacotron (Google, 2017) ដែលរៀនពីផែនទីអត្ថបទដោយផ្ទាល់ទៅ spectrograms ។ ថ្ងៃនេះ
ដំណោះស្រាយសំខាន់ៗ: WaveNet, Tacotron, FastSpeech, VITS, Bark, Kokoro ។
របៀបដែល Neural TTS សម័យទំនើបធ្វើការ
សង់គ្រឹះនៅពីក្រោយសំឡេង AI បែបធម្មជាតិ
ការវិភាគ និងធ្វើឲ្យធម្មតាអត្ថបទ
អត្ថបទដើមត្រូវបានសម្អាត និងធ្វើឲ្យធម្មតា & # 160; ៖ លេខក្លាយជាពាក្យ (\
ម៉ូដែលសំឡេង (អត្ថបទទៅជាវិសាលគម) Name
ម៉ូដែលសំឡេង (ជាញឹកញាប់ជាឧបករណ៍បម្លែង ឬបណ្ដាញ autoregressive) យកលំដាប់សំឡេង និងព្យាករណ៍មេល spectrogram - ការតំណាងមើលឃើញនៃរបៀបដែលអូឌីយ៉ូ
កម្មវិធីអ៊ិនកូដសំឡេង (វិសាលគមទៅអូឌីយ៉ូ)
កម្មវិធី vocoder បម្លែង mel spectrogram ទៅជាទម្រង់រលកអូឌីយ៉ូពិតប្រាកដ & # 160; ។ កម្មវិធី vocoder ដើមដូចជា Griffin- Lim បានផលិតវត្ថុធ្វើដោយមនុស្សយន្ត & # 160; ។ កម្មវិធី vocoder សរសៃប្រសាទសម័យថ្មី (HiFi- GAN BigVGAN Vocos) បង្កើតអូឌីយ៉ូ 24kHz ឬ 44. 1kHz គុណភាពខ្ពស់ដែលចាប់យកសេចក្ដីលម្អិតល្អនៃការនិយាយធម្មជាតិ រួមទាំងសំឡេងដកដង្ហើម និងចលនាបបូរមាត់តូចតាច & # 160; ។
ម៉ូដែលពីចុងទៅចុង
ម៉ូដែលថ្មីបំផុតដូចជា VITS, Kokoro និង Bark រំលងបំពង់ពីរដំណាក់កាលទាំងស្រុង & # 160; ។ ពួកគេទៅដោយផ្ទាល់ពីអត្ថបទទៅអូឌីយ៉ូក្នុងបណ្ដាញសរសៃប្រសាទតែមួយ ផលិតលទ្ធផលធម្មជាតិច្រើនជាមួយនឹងវត្ថុសិល្បៈតិចជាង & # 160; ។ ម៉ូដែលខ្លះ (ដូចជា Bark) អាចបង្កើតសំឡេងមិននិយាយ ភាពសប្បាយរីករាយ និងតន្ត្រីនៅក្បែរការនិយាយ & # 160; ។
ការប្រៀបធៀបវិធីសាស្ត្រ TTS
របៀបប្រៀបធៀបបច្ចេកវិទ្យា TTS ជំនាន់ទីបួន
| វិធីសាស្ត្រ | សម័យ | ភាពធម្មជាតិ | ភាពយឺតយ៉ាវ | ល្បឿន | ត្រូវការទិន្នន័យ |
|---|---|---|---|---|---|
| ការសំយោគ Formant ការធ្វើម៉ូដែលប្រេកង់ដែលមានមូលដ្ឋានលើច្បាប់ |
1960s-1990s | គ្មាន | |||
| បន្សំគ្នា ចម្រៀកអូឌីយ៉ូដែលបានចង |
1990s-2010s | 10-20 ម៉ោង | |||
| ប៉ារ៉ាម៉ែត្រ (HMM/DNN) ម៉ូដែលនិយាយស្ថិតិ |
2000s-2016 | 1-5 ម៉ោង | |||
| Neural ចុងទៅចុង ការរៀនជ្រៅ (VITS, Kokoro, Bark) |
2016-បច្ចុប្បន្ន | នាទីទៅម៉ោង |
កម្មវិធីទូទៅរបស់ TTS
កន្លែងដែលអត្ថបទទៅជាការនិយាយត្រូវបានប្រើនៅថ្ងៃនេះ
មធ្យោបាយងាយស្រួល
កម្មវិធីអានអេក្រង់ ឧបករណ៍ជំនួយ និងឧបករណ៍សម្រាប់មនុស្សដែលមានការខ្សោយភ្នែក ឬការអានខ្សោយពឹងផ្អែកលើ TTS ដើម្បីធ្វើឲ្យមាតិកាឌីជីថលអាចចូលដំណើរការបានសម្រាប់គ្រប់គ្នា ។
ការបង្កើតមាតិកា
YouTubers, podcasters និងអ្នកបង្កើតប្រព័ន្ធផ្សព្វផ្សាយសង្គមប្រើ TTS សម្រាប់ voiceovers, ការនិយាយនិងផលិតមាតិកាស្វ័យប្រវត្តិនៅកម្រិត។
អ្នកជំនួយការនិម្មិត
Siri, Alexa, ជំនួយការ Google, និងសេវាកម្មអតិថិជន chatbots ទាំងអស់ប្រើ TTS ដើម្បីនិយាយឆ្លើយតបដោយធម្មជាតិទៅអ្នកប្រើ.
សំណួរដែលសួរញឹកញាប់
សំណួរទូទៅអំពីអត្ថបទទៅបច្ចេកវិទ្យានិយាយ
តើយើងអាចធ្វើអ្វីបានប្រសើរឡើង & # 160;? មតិយោបល់របស់អ្នកជួយយើងជួសជុលបញ្ហា & # 160; ។
បទពិសោធន៍ TTS ទំនើបដោយខ្លួនឯង
សាកល្បង 20+ ម៉ូដែលសំឡេង AI state-of-the-art ដោយឥតគិតថ្លៃ។ មើលថាតើអត្ថបទទៅជាសំឡេងបានមកដល់កម្រិតណា។