តើអត្ថបទទៅជាការនិយាយ (TTS) គឺជាអ្វី?

អត្ថបទទៅជាការនិយាយគឺជាបច្ចេកវិទ្យាដែលបម្លែងអត្ថបទដែលបានសរសេរទៅជាអូឌីយ៉ូដែលបាននិយាយដោយប្រើប្រាជ្ញាសិប្បនិម្មិត ។ ចាប់ពីពេលដំបូងនៃការបង្កើតសំឡេងដោយប្រើមនុស្សយន្តទៅបណ្ដាញសរសៃប្រសាទសព្វថ្ងៃដែលមានសំឡេងមិនអាចបែងចែកពីមនុស្សបានទេ TTS បានផ្លាស់ប្ដូររបៀបដែលយើងមានការទាក់ទងជាមួយនឹងបច្ចេកវិទ្យា ប្រើប្រាស់មាតិកា និងធ្វើឲ្យព័ត៌មានអាចចូលដំណើរការបាន ។

បច្ចេកវិទ្យា ប្រវត្តិ របៀបដែលវាធ្វើការ បណ្ដាញសរសៃប្រសាទ ការកំណត់រចនាសម្ព័ន្ធ Evolution

ចាប់ផ្តើមដោយឥតគិតថ្លៃ មើលតម្លៃ

គំនិតសំខាន់ក្នុងអត្ថបទទៅការនិយាយ

យល់អំពីប្លុកសាងសង់នៃការសំយោគការនិយាយទំនើប

អ្វីដែល TTS សំដៅលើ

TTS សំដៅលើអត្ថបទទៅជាការនិយាយ - បច្ចេកវិទ្យាដែលបម្លែងអត្ថបទសរសេរទៅជាអូឌីយ៉ូនិយាយដោយប្រើសំឡេងដែលបង្កើតដោយកុំព្យូទ័រ ។

របៀប Neural TTS ធ្វើការ

TTS ទំនើបប្រើបណ្ដាញសរសៃប្រសាទជ្រៅដើម្បីវិភាគអត្ថបទ ធ្វើការព្យាករណ៍លំនាំនិយាយ និងបង្កើតរលកអូឌីយ៉ូដែលមានសំឡេងមនុស្សគួរឲ្យកត់សម្គាល់ ។

ប្រវត្តិនៃការសំយោគការនិយាយ

ពី 1960s ប្រព័ន្ធដែលមានមូលដ្ឋានលើច្បាប់ទៅ 1990s សមាសធាតុដែលមានមូលដ្ឋានលើការចងក្រងទៅម៉ូដែលសរសៃប្រសាទសព្វថ្ងៃ - របៀបដែល TTS បានវិវឌ្ឍជាងប្រាំមួយទសវត្សរ៍។

ម៉ូដែល AI ទំនើប

ម៉ូដែលបច្ចុប្បន្នដូចជា Kokoro Bark និង CosyVoice2ប្រើឧបករណ៍បម្លែង ការចម្រុះ និងការសន្និដ្ឋានខុសៗគ្នាដើម្បីសម្រេចបានគុណភាពនិយាយកម្រិតមនុស្ស ។

កម្មវិធីទូទៅ

TTS ផ្តល់ថាមពលដល់អ្នកអានអេក្រង់ ការរុករក GPS អ្នកជំនួយការនិម្មិត សៀវភៅអូឌីយ៉ូ សេវាកម្មអតិថិជន bots វេទិកាសិក្សាតាមអ៊ីនធឺណិត និងការបង្កើតមាតិកា។

ប្រភពបើកចំហ vs ពាណិជ្ជកម្ម

ម៉ូដែលប្រភពបើកចំហ (MIT, Apache 2.0) ផ្តល់ជូនដោយឥតគិតថ្លៃ, TTS ដែលអាចគ្រប់គ្រងបានដោយខ្លួនឯងខណៈពេលដែលសេវាកម្មពាណិជ្ជកម្មផ្តល់ជូនការគ្រប់គ្រង API ជាមួយ SLAs និងគាំទ្រ។

ម៉ូដែល TTS ដែលអាចរកបាននៅលើ TTS.ai

ពីលឿន និងស្រាលទៅសំឡេងសរសៃប្រសាទគុណភាពស្ទូឌីយោ

Kokoro

Free

Lightweight 82M parameter model delivering studio-quality speech with blazing-fast inference.

ថេរ 5/5

ល្អបំផុតសម្រាប់ ៖ ម៉ូដែលតូចរបស់រដ្ឋនៃសិល្បៈ - បង្ហាញពីរបៀបដែលឆ្ងាយ TTS សរសៃប្រសាទបានមក

ព្យាយាម Kokoro

Bark

Standard

Transformer-based text-to-audio model that generates realistic speech, music, and sound effects.

យឺត 4/5

ល្អបំផុតសម្រាប់ ៖ ម៉ូដែលដែលមានមូលដ្ឋានលើប្ដូរបង្ហាញការបង្កើតអូឌីយ៉ូលើសពីការនិយាយ

ព្យាយាម Bark

CosyVoice 2

Standard

Alibaba's scalable streaming TTS with human-parity naturalness and near-zero latency.

មធ្យម 5/5 ការក្លូនសំឡេង

ល្អបំផុតសម្រាប់ ៖ ស្ទ្រីម TTS ជាមួយគុណភាពមនុស្សស្មើគ្នា និងក្លូនសូន្យ

ព្យាយាម CosyVoice 2

Chatterbox

Premium

State-of-the-art zero-shot voice cloning with emotion control from Resemble AI.

មធ្យម 5/5 ការក្លូនសំឡេង

ល្អបំផុតសម្រាប់ ៖ ការក្លូនសំឡេង Zero-shot បង្ហាញព្រំដែននៃការសំយោគសំឡេង

ព្យាយាម Chatterbox

Tortoise TTS

Premium

Multi-voice text-to-speech focused on quality with autoregressive architecture.

យឺត 5/5 ការក្លូនសំឡេង

ល្អបំផុតសម្រាប់ ៖ ស្ថាបត្យកម្មថយក្រោយដោយស្វ័យប្រវត្តិដែលផ្តល់អាទិភាពដល់គុណភាពអូឌីយ៉ូអតិបរមា

ព្យាយាម Tortoise TTS

របៀប Neural TTS ធ្វើការ

បំពង់សំយោគការនិយាយទំនើបក្នុងជំហានបួន

យល់ពីមូលដ្ឋាន

TTS បម្លែងអត្ថបទដែលបានសរសេរទៅជាអូឌីយ៉ូដែលបាននិយាយ ។ ប្រព័ន្ធទំនើបប្រើបណ្ដាញសរសៃប្រសាទដែលបានហ្វឹកហាត់លើការថតសំឡេងមនុស្សរាប់ពាន់ម៉ោង ។

រកមើលម៉ូដែលផ្សេងគ្នា

ម៉ូដែល TTS នីមួយៗប្រើស្ថាបត្យកម្មផ្សេងគ្នា (ផ្លាស់ប្តូរ, ការរីករាលដាល, variational) ជាមួយនឹងកម្លាំងតែមួយគត់នៅក្នុងល្បឿន, គុណភាព, និងលក្ខណៈពិសេស.

សាកល្បងដោយខ្លួនឯង

វិធីល្អបំផុតដើម្បីយល់ TTS គឺដើម្បីប្រើវា. ព្យាយាមម៉ូដែលឥតគិតថ្លៃរបស់យើងខាងលើ - បិទភ្ជាប់អត្ថបទណាមួយនិងឮវានិយាយក្នុងមួយវិនាទី.

បញ្ចូលទៅក្នុងគម្រោងរបស់អ្នក

នៅពេលដែលអ្នករកឃើញម៉ូដែលដែលអ្នកចូលចិត្តប្រើ API របស់យើងដើម្បីបញ្ចូល TTS ចូលក្នុងកម្មវិធីរបស់អ្នកផលិតផលឬលំហូរការងារបង្កើតមាតិកា។

ប្រវត្តិខ្លីនៃអត្ថបទទៅជាការនិយាយ

ពីម៉ាស៊ីននិយាយមេកានិចទៅបណ្ដាញសរសៃប្រសាទ

ថ្ងៃដំបូង (1950s-1980s)

ការនិយាយដំបូងដែលបង្កើតដោយកុំព្យូទ័រកាលបរិច្ឆេទត្រឡប់ទៅ 1961, នៅពេលដែល IBM

ប្រព័ន្ធគួរឲ្យកត់សម្គាល់ ៖ Votrax (ឆ្នាំ ១៩៧០), DECtalk (ឆ្នាំ ១៩៨៤ ប្រើដោយ Stephen Hawking), Apple

ការសំយោគដែលបានភ្ជាប់គ្នា (ឆ្នាំ ១៩៩០- ២០១០)

TTS រួមបញ្ចូលគ្នាថតសំឡេងមនុស្សពិតប្រាកដនិយាយរាប់ពាន់នៃការផ្សំសំឡេងបន្ទាប់មកដេរផ្នែកត្រឹមត្រូវនៅពេលរត់ ។ នេះបានផលិតការនិយាយដែលមានសំឡេងធម្មជាតិច្រើនជាងនេះ ប៉ុន្តែទាមទារមូលដ្ឋានទិន្នន័យធំ (ជាញឹកញាប់ 10- 20 ម៉ោងនៃការថតក្នុងមួយសំឡេង) ។ គុណភាពពឹងផ្អែកខ្លាំងលើការរកឃើញការរួមបញ្ចូលគ្នារលូនរវាងផ្នែក ។

ប្រើដោយ: AT&T សំឡេងធម្មជាតិ, Nuance Vocalizer, Google បកប្រែ TTS ដើម.

ស្ថិតិ/ប៉ារ៉ាម៉ែត្រ (ឆ្នាំ 2000-2010)

ជំនួសឲ្យការថតដេរ ម៉ូដែលប៉ារ៉ាម៉ែត្របានរៀនការបង្ហាញស្ថិតិនៃការនិយាយ ។ ម៉ូដែល Markov ដែលលាក់ (HMMs) និងបណ្ដាញសរសៃប្រសាទជ្រៅក្រោយមកបានបង្កើតប៉ារ៉ាម៉ែត្រការនិយាយ (កម្រិតសំឡេង រយៈពេល លក្ខណៈពិសេសវិសាលគម) ដែលបានផ្គត់ផ្គង់តាមរយៈកម្មវិធីបង្កើតសំឡេង ។ នេះអនុញ្ញាតឲ្យមានវចនានុក្រមគ្មានដែនកំណត់ និងការបង្កើតសំឡេងដែលងាយស្រួល ប៉ុន្តែជំហានកម្មវិធីបង្កើតសំឡេងជាញឹកញាប់បានផលិតជា \\

ម៉ូដែលសំខាន់: HTS, Merlin, ប្រព័ន្ធដែលមានមូលដ្ឋានលើ DNN ដំបូង។

Neural TTS (ឆ្នាំ 2016-បច្ចុប្បន្ន)

សម័យទំនើបបានចាប់ផ្តើមជាមួយ WaveNet (DeepMind, 2016) ដែលបង្កើតឧទាហរណ៍អូឌីយ៉ូដោយឧទាហរណ៍ដោយប្រើបណ្តាញសរសៃប្រសាទជ្រៅ។ នេះត្រូវបានតាមដានដោយ Tacotron (Google, 2017) ដែលរៀនពីផែនទីអត្ថបទដោយផ្ទាល់ទៅ spectrograms ។ ថ្ងៃនេះ

ដំណោះស្រាយសំខាន់ៗ: WaveNet, Tacotron, FastSpeech, VITS, Bark, Kokoro ។

សាកល្បង Neural TTS ទំនើប

របៀបដែល Neural TTS សម័យទំនើបធ្វើការ

សង់គ្រឹះនៅពីក្រោយសំឡេង AI បែបធម្មជាតិ

ការវិភាគ និងធ្វើឲ្យធម្មតាអត្ថបទ

អត្ថបទដើមត្រូវបានសម្អាត និងធ្វើឲ្យធម្មតា ៖ លេខក្លាយជាពាក្យ (\

ម៉ូដែលសំឡេង (អត្ថបទទៅជាវិសាលគម) Name

ម៉ូដែលសំឡេង (ជាញឹកញាប់ជាឧបករណ៍បម្លែង ឬបណ្ដាញ autoregressive) យកលំដាប់សំឡេង និងព្យាករណ៍មេល spectrogram - ការតំណាងមើលឃើញនៃរបៀបដែលអូឌីយ៉ូ

កម្មវិធីអ៊ិនកូដសំឡេង (វិសាលគមទៅអូឌីយ៉ូ)

កម្មវិធី vocoder បម្លែង mel spectrogram ទៅជាទម្រង់រលកអូឌីយ៉ូពិតប្រាកដ ។ កម្មវិធី vocoder ដើមដូចជា Griffin- Lim បានផលិតវត្ថុធ្វើដោយមនុស្សយន្ត ។ កម្មវិធី vocoder សរសៃប្រសាទសម័យថ្មី (HiFi- GAN BigVGAN Vocos) បង្កើតអូឌីយ៉ូ 24kHz ឬ 44. 1kHz គុណភាពខ្ពស់ដែលចាប់យកសេចក្ដីលម្អិតល្អនៃការនិយាយធម្មជាតិ រួមទាំងសំឡេងដកដង្ហើម និងចលនាបបូរមាត់តូចតាច ។

ម៉ូដែលពីចុងទៅចុង

ម៉ូដែលថ្មីបំផុតដូចជា VITS, Kokoro និង Bark រំលងបំពង់ពីរដំណាក់កាលទាំងស្រុង ។ ពួកគេទៅដោយផ្ទាល់ពីអត្ថបទទៅអូឌីយ៉ូក្នុងបណ្ដាញសរសៃប្រសាទតែមួយ ផលិតលទ្ធផលធម្មជាតិច្រើនជាមួយនឹងវត្ថុសិល្បៈតិចជាង ។ ម៉ូដែលខ្លះ (ដូចជា Bark) អាចបង្កើតសំឡេងមិននិយាយ ភាពសប្បាយរីករាយ និងតន្ត្រីនៅក្បែរការនិយាយ ។

សាកល្បងវាដោយខ្លួនឯង

ការប្រៀបធៀបវិធីសាស្ត្រ TTS

របៀបប្រៀបធៀបបច្ចេកវិទ្យា TTS ជំនាន់ទីបួន

វិធីសាស្ត្រ	សម័យ	ត្រូវការទិន្នន័យ
ការសំយោគ Formant ការធ្វើម៉ូដែលប្រេកង់ដែលមានមូលដ្ឋានលើច្បាប់	1960s-1990s	គ្មាន
បន្សំគ្នា ចម្រៀកអូឌីយ៉ូដែលបានចង	1990s-2010s	10-20 ម៉ោង
ប៉ារ៉ាម៉ែត្រ (HMM/DNN) ម៉ូដែលនិយាយស្ថិតិ	2000s-2016	1-5 ម៉ោង
Neural ចុងទៅចុង ការរៀនជ្រៅ (VITS, Kokoro, Bark)	2016-បច្ចុប្បន្ន	នាទីទៅម៉ោង

សាកល្បង Neural TTS ឥតគិតថ្លៃ

កម្មវិធីទូទៅរបស់ TTS

កន្លែងដែលអត្ថបទទៅជាការនិយាយត្រូវបានប្រើនៅថ្ងៃនេះ

មធ្យោបាយងាយស្រួល

កម្មវិធីអានអេក្រង់ ឧបករណ៍ជំនួយ និងឧបករណ៍សម្រាប់មនុស្សដែលមានការខ្សោយភ្នែក ឬការអានខ្សោយពឹងផ្អែកលើ TTS ដើម្បីធ្វើឲ្យមាតិកាឌីជីថលអាចចូលដំណើរការបានសម្រាប់គ្រប់គ្នា ។

ការបង្កើតមាតិកា

YouTubers, podcasters និងអ្នកបង្កើតប្រព័ន្ធផ្សព្វផ្សាយសង្គមប្រើ TTS សម្រាប់ voiceovers, ការនិយាយនិងផលិតមាតិកាស្វ័យប្រវត្តិនៅកម្រិត។

អ្នកជំនួយការនិម្មិត

Siri, Alexa, ជំនួយការ Google, និងសេវាកម្មអតិថិជន chatbots ទាំងអស់ប្រើ TTS ដើម្បីនិយាយឆ្លើយតបដោយធម្មជាតិទៅអ្នកប្រើ.

ព្យាយាមអត្ថបទទៅជាការនិយាយឥឡូវនេះ

សំណួរដែលសួរញឹកញាប់

សំណួរទូទៅអំពីអត្ថបទទៅបច្ចេកវិទ្យានិយាយ

TTS សំដៅលើ អត្ថបទទៅជាការនិយាយ ។ វាសំដៅទៅលើបច្ចេកវិទ្យាដែលបម្លែងអត្ថបទដែលបានសរសេរទៅជាពាក្យដែលអាចស្តាប់បានដោយប្រើសំឡេងដែលបានបង្កើតឡើងដោយ AI ឬសំឡេងដែលបានបង្កើតឡើង ។ ពាក្យនេះត្រូវបានប្រើជាមួយនឹង "ការសំយោគការនិយាយ" ក្នុងសិល្បៈបច្ចេកទេស ។

ប្រព័ន្ធ TTS សម័យទំនើបធ្វើការក្នុងដំណាក់កាលបី ៖ ការវិភាគអត្ថបទ (ការញែក ការធ្វើឲ្យធម្មតា ការបម្លែងសំឡេង) ការព្យាករណ៍ prosody (ការកំណត់ចង្វាក់ កម្រិតសំឡេង ភាពតានតឹង និងការផ្អាក) និងការសំយោគអូឌីយ៉ូ (ការបង្កើតទម្រង់រលកសំឡេងពិត) ។ ម៉ូដែលសរសៃប្រសាទរៀនដំណាក់កាលទាំងបីទាំងអស់ពីទិន្នន័យហ្វឹកហាត់ ។

Concatenative TTS splices together pre- recorded speech fragments, which can sound choppy at transitions. Neural TTS generates speech from scratch using deep learning, producing smoother, more natural- sounding audio with better prosody and emotion.

SSML (ភាសាសម្គាល់ការសំយោគការនិយាយ) គឺជាភាសាសម្គាល់ដែលមានមូលដ្ឋានលើ XML ដែលអនុញ្ញាតឲ្យអ្នកត្រួតពិនិត្យរបៀបដែលប្រព័ន្ធ TTS និយាយអត្ថបទ ។ អ្នកអាចបញ្ជាក់ការផ្អាក ការសង្កត់ ការនិយាយ ការផ្លាស់ប្ដូរកម្រិត និងអត្រានិយាយដោយប្រើស្លាក SSML នៅក្នុងការបញ្ចូលអត្ថបទរបស់អ្នក ។

TTS ត្រូវបានប្រើសម្រាប់ការចូលដំណើរការ (កម្មវិធីអានអេក្រង់សម្រាប់អ្នកប្រើពិការភ្នែក), អ្នកជំនួយការនិម្មិត (Siri, Alexa, Google Assistant), ការផលិតសៀវភៅអូឌីយ៉ូ, ការរៀនតាមអ៊ីនធឺណិត, ការរុករក GPS, សេវាអតិថិជនប្រព័ន្ធ IVR, ការបង្កើតមាតិកានិងកម្មវិធីរៀនភាសា។

TTS បានវិវឌ្ឍន៍ពីប្រព័ន្ធដែលមានមូលដ្ឋានលើច្បាប់របស់មនុស្សយន្តក្នុងទសវត្សរ៍ឆ្នាំ 1960 ដល់ការសំយោគ concatenative ក្នុងទសវត្សរ៍ឆ្នាំ 1990 ដល់ការសំយោគប៉ារ៉ាម៉ែត្រស្ថិតិក្នុងទសវត្សរ៍ឆ្នាំ 2000 ដល់ TTS សរសៃប្រសាទជាមួយ WaveNet ក្នុងឆ្នាំ 2016 ដល់ម៉ូដែលផ្លាស់ប្តូរនិងពង្រីកបច្ចុប្បន្នដែលសម្រេចបាននូវគុណភាពកម្រិតមនុស្ស។

TTS សំឡេងធម្មជាតិទាមទារឲ្យមានការបកប្រែត្រឹមត្រូវ (រង្វង់ចង្វាក់ សម្ពាធ សម្លេង) ការផ្លាស់ប្ដូរសមរម្យរវាងសំឡេង និងអត្តសញ្ញាណសំឡេងដែលមានភាពជាប់គ្នា ។ ម៉ូដែលសរសៃប្រសាទរៀនលំនាំទាំងនេះពីសំណុំទិន្នន័យធំនៃការថតសំឡេងមនុស្សធម្មជាតិ ។

ម៉ូដែលក្លូនសំឡេងដូចជា Chatterbox និង CosyVoice2អាចចម្លងសំឡេងជាក់លាក់ពីតិចជាង 5- 30 វិនាទីនៃអូឌីយ៉ូយោង ។ សំឡេងដែលបានក្លូនចាប់យក timbre, accent, និងរចនាប័ទ្មនិយាយ បើទោះបីជាការពិចារណាវិជ្ជាជីវៈ និងច្បាប់អនុវត្តចំពោះការក្លូនសំឡេងរបស់អ្នកដទៃ ។

ម៉ូដែល TTS ទំនើបគាំទ្រភាសាច្រើនជាង 30+ ។ ម៉ូដែលខ្លះមានជំនាញក្នុងភាសាជាក់លាក់ខណៈពេលដែលអ្នកផ្សេងទៀតជាភាសាច្រើន ។ ភាសាអង់គ្លេសមានម៉ូដែលនិងសំឡេងដែលមានច្រើនបំផុត ប៉ុន្តែភាសាចិន ភាសាជប៉ុន ភាសាកូរ៉េ ភាសាអេស្ប៉ាញ និងភាសាអឺរ៉ុបត្រូវបានគាំទ្រយ៉ាងល្អ ។

TTS គឺជាសំណុំរងនៃការបង្កើតសំឡេង AI ។ TTS ពិសេសបម្លែងការបញ្ចូលអត្ថបទទៅជាលទ្ធផលនិយាយ ។ ការបង្កើតសំឡេង AI គឺជាលក្ខខណ្ឌទូលំទូលាយដែលរួមបញ្ចូលការក្លូនសំឡេង ការបម្លែងសំឡេង ការនិយាយទៅការនិយាយ និងការបង្កើតបែបផែនសំឡេង ។

វាអាស្រ័យលើតម្រូវការរបស់អ្នក ។ Kokoro ផ្ដល់នូវតុល្យភាពល្អបំផុតនៃល្បឿន និងគុណភាពសម្រាប់ការប្រើជាទូទៅ ។ Chatterbox នាំមុខក្នុងការក្លូនសំឡេង ។ Orpheus ល្អបំផុតនៅក្នុងការបង្ហាញអារម្មណ៍ ។ StyleTTS2ផលិតការនិយាយរបស់អ្នកនិយាយតែម្នាក់ឯងដែលមានលក្ខណៈធម្មជាតិបំផុត ។ គ្មានម៉ូដែល "ល្អបំផុត" មួយសម្រាប់ករណីប្រើទាំងអស់ទេ ។

បាទ។ ម៉ូដែលទាំងអស់នៅលើ TTS.ai គឺជាប្រភពបើកចំហហើយអាចត្រូវបានរៀបចំដោយខ្លួនឯង។ ម៉ូដែល CPU ដូចជា Piper ដំណើរការនៅលើកុំព្យូទ័រណាមួយ។ ម៉ូដែល GPU ដូចជា Kokoro និង Bark ត្រូវការ NVIDIA GPU ជាមួយ 2-8GB VRAM ។ វេទិការបស់យើងក៏ផ្តល់នូវការចូលដំណើរការដែលបានរៀបចំផងដែរដូច្នេះអ្នកមិនចាំបាច់គ្រប់គ្រងហេដ្ឋារចនាសម្ព័ន្ធទេ។

5.0/5 (1)

បទពិសោធន៍ TTS ទំនើបដោយខ្លួនឯង

សាកល្បង 20+ ម៉ូដែលសំឡេង AI state-of-the-art ដោយឥតគិតថ្លៃ។ មើលថាតើអត្ថបទទៅជាសំឡេងបានមកដល់កម្រិតណា។

ចុះឈ្មោះដោយឥតគិតថ្លៃ មើលតម្លៃ

តើ​អត្ថបទ​ទៅ​ជា​ការ​និយាយ (TTS) គឺជា​អ្វី?

គំនិត​សំខាន់​ក្នុង​អត្ថបទ​ទៅ​ការ​និយាយ

អ្វី​ដែល TTS សំដៅ​លើ

របៀប Neural TTS ធ្វើការ

ប្រវត្តិ​នៃ​ការ​សំយោគ​ការ​និយាយ

ម៉ូដែល AI ទំនើប

កម្មវិធី​ទូទៅ

ប្រភព​បើកចំហ vs ពាណិជ្ជកម្ម

ម៉ូដែល TTS ដែលអាចរកបាននៅលើ TTS.ai

Kokoro

Bark

CosyVoice 2

Chatterbox

Tortoise TTS

របៀប Neural TTS ធ្វើការ

យល់​ពី​មូលដ្ឋាន

រកមើល​ម៉ូដែល​ផ្សេងគ្នា

សាកល្បង​ដោយ​ខ្លួន​ឯង

បញ្ចូល​ទៅ​ក្នុង​គម្រោង​របស់​អ្នក

ប្រវត្តិ​ខ្លី​នៃ​អត្ថបទ​ទៅ​ជា​ការ​និយាយ

ថ្ងៃដំបូង (1950s-1980s)

ការ​សំយោគ​ដែល​បាន​ភ្ជាប់​គ្នា (ឆ្នាំ ១៩៩០- ២០១០)

ស្ថិតិ/ប៉ារ៉ាម៉ែត្រ (ឆ្នាំ 2000-2010)

Neural TTS (ឆ្នាំ 2016-បច្ចុប្បន្ន)

របៀប​ដែល Neural TTS សម័យ​ទំនើប​ធ្វើការ

ការ​វិភាគ និង​ធ្វើ​ឲ្យ​ធម្មតា​អត្ថបទ

ម៉ូដែល​សំឡេង (អត្ថបទ​ទៅ​ជា​វិសាលគម) Name

កម្មវិធី​អ៊ិនកូដ​សំឡេង (វិសាលគម​ទៅ​អូឌីយ៉ូ)

ម៉ូដែល​ពី​ចុង​ទៅ​ចុង

ការ​ប្រៀបធៀប​វិធីសាស្ត្រ TTS

កម្មវិធី​ទូទៅ​របស់ TTS

មធ្យោបាយ​ងាយស្រួល

ការ​បង្កើត​មាតិកា

អ្នក​ជំនួយការ​និម្មិត

សំណួរ​ដែល​សួរ​ញឹកញាប់

តើ TTS មាន​ន័យ​ថា​អ្វី ?

តើ​អត្ថបទ​ទៅ​ជា​ការ​និយាយ​ធ្វើការ​យ៉ាង​ដូចម្តេច ?

តើ​អ្វី​ជា​ភាព​ខុសគ្នា​រវាង TTS សរសៃប្រសាទ និង TTS concatenative?

តើ​អ្វី​ជា SSML និង​របៀប​ដែល​វា​ត្រូវ​បាន​ប្រើ​ជាមួយ TTS?

តើ​អ្វី​ជា​កម្មវិធី​សំខាន់​នៃ​បច្ចេកវិទ្យា TTS?

តើ​បច្ចេកវិទ្យា TTS បាន​វិវឌ្ឍន៍​តាម​ពេល​វេលា​យ៉ាង​ដូចម្តេច?

តើ​អ្វី​ដែល​ធ្វើ​ឲ្យ​សំឡេង TTS មាន​សំឡេង​ធម្មជាតិ ?

តើ TTS អាច​ចម្លង​សំឡេង​មនុស្ស​បាន​ទេ ?

តើ​ភាសា​អ្វី​ដែល TTS គាំទ្រ ?

តើ TTS ដូចគ្នា​នឹង​ការ​បង្កើត​សំឡេង AI ដែរឬទេ ?

តើ​អ្វី​ជា​គំរូ TTS ល្អបំផុត​ដែល​មាន​នៅ​ថ្ងៃ​នេះ?

តើ​ខ្ញុំ​អាច​រត់​គំរូ TTS នៅ​លើ​កុំព្យូទ័រ​របស់​ខ្ញុំ​ផ្ទាល់​បាន​ទេ ?

បទពិសោធន៍ TTS ទំនើប​ដោយ​ខ្លួន​ឯង

តើអត្ថបទទៅជាការនិយាយ (TTS) គឺជាអ្វី?

គំនិតសំខាន់ក្នុងអត្ថបទទៅការនិយាយ

អ្វីដែល TTS សំដៅលើ

ប្រវត្តិនៃការសំយោគការនិយាយ

កម្មវិធីទូទៅ

ប្រភពបើកចំហ vs ពាណិជ្ជកម្ម

យល់ពីមូលដ្ឋាន

រកមើលម៉ូដែលផ្សេងគ្នា

សាកល្បងដោយខ្លួនឯង

បញ្ចូលទៅក្នុងគម្រោងរបស់អ្នក

ប្រវត្តិខ្លីនៃអត្ថបទទៅជាការនិយាយ

ការសំយោគដែលបានភ្ជាប់គ្នា (ឆ្នាំ ១៩៩០- ២០១០)

របៀបដែល Neural TTS សម័យទំនើបធ្វើការ

ការវិភាគ និងធ្វើឲ្យធម្មតាអត្ថបទ

ម៉ូដែលសំឡេង (អត្ថបទទៅជាវិសាលគម) Name

កម្មវិធីអ៊ិនកូដសំឡេង (វិសាលគមទៅអូឌីយ៉ូ)

ម៉ូដែលពីចុងទៅចុង

ការប្រៀបធៀបវិធីសាស្ត្រ TTS

កម្មវិធីទូទៅរបស់ TTS

មធ្យោបាយងាយស្រួល

ការបង្កើតមាតិកា

អ្នកជំនួយការនិម្មិត

សំណួរដែលសួរញឹកញាប់

បទពិសោធន៍ TTS ទំនើបដោយខ្លួនឯង