តើ​អត្ថបទ​ទៅ​ជា​ការ​និយាយ (TTS) គឺជា​អ្វី?

អត្ថបទ​ទៅ​ជា​ការ​និយាយ​គឺ​ជា​បច្ចេកវិទ្យា​ដែល​បម្លែង​អត្ថបទ​ដែល​បាន​សរសេរ​ទៅ​ជា​អូឌីយ៉ូ​ដែល​បាន​និយាយ​ដោយ​ប្រើ​ប្រាជ្ញា​សិប្បនិម្មិត ។ ចាប់​ពី​ពេល​ដំបូង​នៃ​ការ​បង្កើត​សំឡេង​ដោយ​ប្រើ​មនុស្សយន្ត​ទៅ​បណ្ដាញ​សរសៃ​ប្រសាទ​សព្វ​ថ្ងៃ​ដែល​មាន​សំឡេង​មិន​អាច​បែង​ចែក​ពី​មនុស្ស​បាន​ទេ TTS បាន​ផ្លាស់ប្ដូរ​របៀប​ដែល​យើង​មាន​ការ​ទាក់ទង​ជាមួយ​នឹង​បច្ចេកវិទ្យា ប្រើប្រាស់​មាតិកា និង​ធ្វើ​ឲ្យ​ព័ត៌មាន​អាច​ចូល​ដំណើរការ​បាន ។

បច្ចេកវិទ្យា ប្រវត្តិ របៀប​ដែល​វា​ធ្វើការ បណ្ដាញ​សរសៃប្រសាទ ការ​កំណត់​រចនាសម្ព័ន្ធ Evolution

គំនិត​សំខាន់​ក្នុង​អត្ថបទ​ទៅ​ការ​និយាយ

យល់​អំពី​ប្លុក​សាងសង់​នៃ​ការ​សំយោគ​ការ​និយាយ​ទំនើប

អ្វី​ដែល TTS សំដៅ​លើ

TTS សំដៅ​លើ​អត្ថបទ​ទៅ​ជា​ការ​និយាយ - បច្ចេកវិទ្យា​ដែល​បម្លែង​អត្ថបទ​សរសេរ​ទៅ​ជា​អូឌីយ៉ូ​និយាយ​ដោយ​ប្រើ​សំឡេង​ដែល​បង្កើត​ដោយ​កុំព្យូទ័រ & # 160; ។

របៀប Neural TTS ធ្វើការ

TTS ទំនើប​ប្រើ​បណ្ដាញ​សរសៃ​ប្រសាទ​ជ្រៅ​ដើម្បី​វិភាគ​អត្ថបទ ធ្វើ​ការ​ព្យាករណ៍​លំនាំ​និយាយ និង​បង្កើត​រលក​អូឌីយ៉ូ​ដែល​មាន​សំឡេង​មនុស្ស​គួរ​ឲ្យ​កត់សម្គាល់ & # 160; ។

ប្រវត្តិ​នៃ​ការ​សំយោគ​ការ​និយាយ

ពី 1960s ប្រព័ន្ធ​ដែល​មាន​មូលដ្ឋាន​លើ​ច្បាប់​ទៅ 1990s សមាសធាតុ​ដែល​មាន​មូលដ្ឋាន​លើ​ការ​ចង​ក្រង​ទៅ​ម៉ូដែល​សរសៃប្រសាទ​សព្វថ្ងៃ - របៀប​ដែល TTS បាន​វិវឌ្ឍ​ជាង​ប្រាំមួយ​ទសវត្សរ៍។

ម៉ូដែល AI ទំនើប

ម៉ូដែល​បច្ចុប្បន្ន​ដូចជា Kokoro Bark និង CosyVoice2ប្រើ​ឧបករណ៍​បម្លែង ការ​ចម្រុះ និង​ការ​សន្និដ្ឋាន​ខុសៗគ្នា​ដើម្បី​សម្រេច​បាន​គុណភាព​និយាយ​កម្រិត​មនុស្ស & # 160; ។

កម្មវិធី​ទូទៅ

TTS ផ្តល់ថាមពលដល់អ្នកអានអេក្រង់ ការរុករក GPS អ្នកជំនួយការនិម្មិត សៀវភៅអូឌីយ៉ូ សេវាកម្មអតិថិជន bots វេទិកាសិក្សាតាមអ៊ីនធឺណិត និងការបង្កើតមាតិកា។

ប្រភព​បើកចំហ vs ពាណិជ្ជកម្ម

ម៉ូដែលប្រភពបើកចំហ (MIT, Apache 2.0) ផ្តល់ជូនដោយឥតគិតថ្លៃ, TTS ដែលអាចគ្រប់គ្រងបានដោយខ្លួនឯងខណៈពេលដែលសេវាកម្មពាណិជ្ជកម្មផ្តល់ជូនការគ្រប់គ្រង API ជាមួយ SLAs និងគាំទ្រ។

ម៉ូដែល TTS ដែលអាចរកបាននៅលើ TTS.ai

ពី​លឿន និង​ស្រាល​ទៅ​សំឡេង​សរសៃ​ប្រសាទ​គុណភាព​ស្ទូឌីយោ

KokoroKokoro

Free

Lightweight 82M parameter model delivering studio-quality speech with blazing-fast inference.

Fast 5/5

ល្អបំផុត​សម្រាប់ & # 160; ៖ ម៉ូដែល​តូច​របស់​រដ្ឋ​នៃ​សិល្បៈ - បង្ហាញ​ពី​របៀប​ដែល​ឆ្ងាយ TTS សរសៃប្រសាទ​បាន​មក

ព្យាយាម Kokoro

BarkBark

Standard

Transformer-based text-to-audio model that generates realistic speech, music, and sound effects.

Slow 4/5

ល្អបំផុត​សម្រាប់ & # 160; ៖ ម៉ូដែល​ដែល​មាន​មូលដ្ឋាន​លើ​ប្ដូរ​បង្ហាញ​ការ​បង្កើត​អូឌីយ៉ូ​លើស​ពី​ការ​និយាយ

ព្យាយាម Bark

CosyVoice 2CosyVoice 2

Standard

Alibaba's scalable streaming TTS with human-parity naturalness and near-zero latency.

Medium 5/5 ការ​ក្លូន​សំឡេង

ល្អបំផុត​សម្រាប់ & # 160; ៖ ស្ទ្រីម TTS ជាមួយ​គុណភាព​មនុស្ស​ស្មើគ្នា និង​ក្លូន​សូន្យ

ព្យាយាម CosyVoice 2

ChatterboxChatterbox

Premium

State-of-the-art zero-shot voice cloning with emotion control from Resemble AI.

Medium 5/5 ការ​ក្លូន​សំឡេង

ល្អបំផុត​សម្រាប់ & # 160; ៖ ការ​ក្លូន​សំឡេង Zero-shot បង្ហាញ​ព្រំដែន​នៃ​ការ​សំយោគ​សំឡេង

ព្យាយាម Chatterbox

Tortoise TTSTortoise TTS

Premium

Multi-voice text-to-speech focused on quality with autoregressive architecture.

Slow 5/5 ការ​ក្លូន​សំឡេង

ល្អបំផុត​សម្រាប់ & # 160; ៖ ស្ថាបត្យកម្ម​ថយក្រោយ​ដោយ​ស្វ័យប្រវត្តិ​ដែល​ផ្តល់​អាទិភាព​ដល់​គុណភាព​អូឌីយ៉ូ​អតិបរមា

ព្យាយាម Tortoise TTS

របៀប Neural TTS ធ្វើការ

បំពង់​សំយោគ​ការ​និយាយ​ទំនើប​ក្នុង​ជំហាន​បួន

1

យល់​ពី​មូលដ្ឋាន

TTS បម្លែង​អត្ថបទ​ដែល​បាន​សរសេរ​ទៅ​ជា​អូឌីយ៉ូ​ដែល​បាន​និយាយ & # 160; ។ ប្រព័ន្ធ​ទំនើប​ប្រើ​បណ្ដាញ​សរសៃ​ប្រសាទ​ដែល​បាន​ហ្វឹកហាត់​លើ​ការ​ថត​សំឡេង​មនុស្ស​រាប់​ពាន់​ម៉ោង & # 160; ។

2

រកមើល​ម៉ូដែល​ផ្សេងគ្នា

ម៉ូដែល TTS នីមួយៗប្រើស្ថាបត្យកម្មផ្សេងគ្នា (ផ្លាស់ប្តូរ, ការរីករាលដាល, variational) ជាមួយនឹងកម្លាំងតែមួយគត់នៅក្នុងល្បឿន, គុណភាព, និងលក្ខណៈពិសេស.

3

សាកល្បង​ដោយ​ខ្លួន​ឯង

វិធីល្អបំផុតដើម្បីយល់ TTS គឺដើម្បីប្រើវា. ព្យាយាមម៉ូដែលឥតគិតថ្លៃរបស់យើងខាងលើ - បិទភ្ជាប់អត្ថបទណាមួយនិងឮវានិយាយក្នុងមួយវិនាទី.

4

បញ្ចូល​ទៅ​ក្នុង​គម្រោង​របស់​អ្នក

នៅពេលដែលអ្នករកឃើញម៉ូដែលដែលអ្នកចូលចិត្តប្រើ API របស់យើងដើម្បីបញ្ចូល TTS ចូលក្នុងកម្មវិធីរបស់អ្នកផលិតផលឬលំហូរការងារបង្កើតមាតិកា។

ប្រវត្តិ​ខ្លី​នៃ​អត្ថបទ​ទៅ​ជា​ការ​និយាយ

ពី​ម៉ាស៊ីន​និយាយ​មេកានិច​ទៅ​បណ្ដាញ​សរសៃប្រសាទ

ថ្ងៃដំបូង (1950s-1980s)

ការ​និយាយ​ដំបូង​ដែល​បង្កើត​ដោយ​កុំព្យូទ័រ​កាលបរិច្ឆេទ​ត្រឡប់​ទៅ 1961, នៅពេលដែល IBM

ប្រព័ន្ធ​គួរ​ឲ្យ​កត់​សម្គាល់ & # 160; ៖ Votrax (ឆ្នាំ ១៩៧០), DECtalk (ឆ្នាំ ១៩៨៤ ប្រើ​ដោយ Stephen Hawking), Apple

ការ​សំយោគ​ដែល​បាន​ភ្ជាប់​គ្នា (ឆ្នាំ ១៩៩០- ២០១០)

TTS រួមបញ្ចូលគ្នា​ថត​សំឡេង​មនុស្ស​ពិត​ប្រាកដ​និយាយ​រាប់​ពាន់​នៃ​ការ​ផ្សំ​សំឡេង​បន្ទាប់​មក​ដេរ​ផ្នែក​ត្រឹមត្រូវ​នៅ​ពេល​រត់ & # 160; ។ នេះ​បាន​ផលិត​ការ​និយាយ​ដែល​មាន​សំឡេង​ធម្មជាតិ​ច្រើន​ជាង​នេះ ប៉ុន្តែ​ទាមទារ​មូលដ្ឋាន​ទិន្នន័យ​ធំ (ជា​ញឹកញាប់ 10- 20 ម៉ោង​នៃ​ការ​ថត​ក្នុង​មួយ​សំឡេង) & # 160; ។ គុណភាព​ពឹងផ្អែក​ខ្លាំង​លើ​ការ​រក​ឃើញ​ការ​រួម​បញ្ចូល​គ្នា​រលូន​រវាង​ផ្នែក & # 160; ។

ប្រើដោយ: AT&T សំឡេងធម្មជាតិ, Nuance Vocalizer, Google បកប្រែ TTS ដើម.

ស្ថិតិ/ប៉ារ៉ាម៉ែត្រ (ឆ្នាំ 2000-2010)

ជំនួស​ឲ្យ​ការ​ថត​ដេរ ម៉ូដែល​ប៉ារ៉ាម៉ែត្រ​បាន​រៀន​ការ​បង្ហាញ​ស្ថិតិ​នៃ​ការ​និយាយ & # 160; ។ ម៉ូដែល​ Markov ដែល​លាក់ (HMMs) និង​បណ្ដាញ​សរសៃ​ប្រសាទ​ជ្រៅ​ក្រោយ​មក​បាន​បង្កើត​ប៉ារ៉ាម៉ែត្រ​ការ​និយាយ (កម្រិត​សំឡេង រយៈពេល លក្ខណៈ​ពិសេស​វិសាលគម) ដែល​បាន​ផ្គត់ផ្គង់​តាមរយៈ​កម្មវិធី​បង្កើត​សំឡេង & # 160; ។ នេះ​អនុញ្ញាត​ឲ្យ​មាន​វចនានុក្រម​គ្មាន​ដែន​កំណត់ និង​ការ​បង្កើត​សំឡេង​ដែល​ងាយស្រួល ប៉ុន្តែ​ជំហាន​កម្មវិធី​បង្កើត​សំឡេង​ជា​ញឹកញាប់​បាន​ផលិត​ជា​ \\

ម៉ូដែលសំខាន់: HTS, Merlin, ប្រព័ន្ធដែលមានមូលដ្ឋានលើ DNN ដំបូង។

Neural TTS (ឆ្នាំ 2016-បច្ចុប្បន្ន)

សម័យទំនើបបានចាប់ផ្តើមជាមួយ WaveNet (DeepMind, 2016) ដែលបង្កើតឧទាហរណ៍អូឌីយ៉ូដោយឧទាហរណ៍ដោយប្រើបណ្តាញសរសៃប្រសាទជ្រៅ។ នេះត្រូវបានតាមដានដោយ Tacotron (Google, 2017) ដែលរៀនពីផែនទីអត្ថបទដោយផ្ទាល់ទៅ spectrograms ។ ថ្ងៃនេះ

ដំណោះស្រាយសំខាន់ៗ: WaveNet, Tacotron, FastSpeech, VITS, Bark, Kokoro ។

របៀប​ដែល Neural TTS សម័យ​ទំនើប​ធ្វើការ

សង់​គ្រឹះ​នៅ​ពីក្រោយ​សំឡេង AI បែប​ធម្មជាតិ

ការ​វិភាគ និង​ធ្វើ​ឲ្យ​ធម្មតា​អត្ថបទ

អត្ថបទ​ដើម​ត្រូវ​បាន​សម្អាត និង​ធ្វើ​ឲ្យ​ធម្មតា & # 160; ៖ លេខ​ក្លាយ​ជា​ពាក្យ (\

ម៉ូដែល​សំឡេង (អត្ថបទ​ទៅ​ជា​វិសាលគម) Name

ម៉ូដែល​សំឡេង (ជា​ញឹកញាប់​ជា​ឧបករណ៍​បម្លែង ឬ​បណ្ដាញ autoregressive) យក​លំដាប់​សំឡេង និង​ព្យាករណ៍​មេល spectrogram - ការ​តំណាង​មើល​ឃើញ​នៃ​របៀប​ដែល​អូឌីយ៉ូ

កម្មវិធី​អ៊ិនកូដ​សំឡេង (វិសាលគម​ទៅ​អូឌីយ៉ូ)

កម្មវិធី vocoder បម្លែង mel spectrogram ទៅ​ជា​ទម្រង់​រលក​អូឌីយ៉ូ​ពិត​ប្រាកដ & # 160; ។ កម្មវិធី vocoder ដើម​ដូចជា Griffin- Lim បាន​ផលិត​វត្ថុ​ធ្វើ​ដោយ​មនុស្ស​យន្ត & # 160; ។ កម្មវិធី vocoder សរសៃប្រសាទ​សម័យ​ថ្មី (HiFi- GAN BigVGAN Vocos) បង្កើត​អូឌីយ៉ូ 24kHz ឬ 44. 1kHz គុណភាព​ខ្ពស់​ដែល​ចាប់​យក​សេចក្ដី​លម្អិត​ល្អ​នៃ​ការ​និយាយ​ធម្មជាតិ រួម​ទាំង​សំឡេង​ដកដង្ហើម និង​ចលនា​បបូរមាត់​តូចតាច & # 160; ។

ម៉ូដែល​ពី​ចុង​ទៅ​ចុង

ម៉ូដែល​ថ្មី​បំផុត​ដូចជា VITS, Kokoro និង Bark រំលង​បំពង់​ពីរ​ដំណាក់កាល​ទាំងស្រុង & # 160; ។ ពួក​គេ​ទៅ​ដោយ​ផ្ទាល់​ពី​អត្ថបទ​ទៅ​អូឌីយ៉ូ​ក្នុង​បណ្ដាញ​សរសៃ​ប្រសាទ​តែ​មួយ ផលិត​លទ្ធផល​ធម្មជាតិ​ច្រើន​ជាមួយ​នឹង​វត្ថុ​សិល្បៈ​តិច​ជាង & # 160; ។ ម៉ូដែល​ខ្លះ (ដូចជា Bark) អាច​បង្កើត​សំឡេង​មិន​និយាយ ភាព​សប្បាយ​រីករាយ និង​តន្ត្រី​នៅ​ក្បែរ​ការ​និយាយ & # 160; ។

ការ​ប្រៀបធៀប​វិធីសាស្ត្រ TTS

របៀប​ប្រៀបធៀប​បច្ចេកវិទ្យា TTS ជំនាន់​ទីបួន

វិធីសាស្ត្រ សម័យ ភាព​ធម្មជាតិ ភាព​យឺតយ៉ាវ ល្បឿន ត្រូវ​ការ​ទិន្នន័យ
ការ​សំយោគ Formant
ការ​ធ្វើ​ម៉ូដែល​ប្រេកង់​ដែល​មាន​មូលដ្ឋាន​លើ​ច្បាប់
1960s-1990s គ្មាន
បន្សំ​គ្នា
ចម្រៀក​អូឌីយ៉ូ​ដែល​បាន​ចង
1990s-2010s 10-20 ម៉ោង
ប៉ារ៉ាម៉ែត្រ (HMM/DNN)
ម៉ូដែល​និយាយ​ស្ថិតិ
2000s-2016 1-5 ម៉ោង
Neural ចុង​ទៅ​ចុង
ការ​រៀន​ជ្រៅ (VITS, Kokoro, Bark)
2016-បច្ចុប្បន្ន នាទី​ទៅ​ម៉ោង

កម្មវិធី​ទូទៅ​របស់ TTS

កន្លែង​ដែល​អត្ថបទ​ទៅ​ជា​ការ​និយាយ​ត្រូវ​បាន​ប្រើ​នៅ​ថ្ងៃ​នេះ

មធ្យោបាយ​ងាយស្រួល

កម្មវិធី​អាន​អេក្រង់ ឧបករណ៍​ជំនួយ និង​ឧបករណ៍​សម្រាប់​មនុស្ស​ដែល​មាន​ការ​ខ្សោយ​ភ្នែក ឬ​ការ​អាន​ខ្សោយ​ពឹង​ផ្អែក​លើ TTS ដើម្បី​ធ្វើ​ឲ្យ​មាតិកា​ឌីជីថល​អាច​ចូល​ដំណើរការ​បាន​សម្រាប់​គ្រប់​គ្នា ។

ការ​បង្កើត​មាតិកា

YouTubers, podcasters និងអ្នកបង្កើតប្រព័ន្ធផ្សព្វផ្សាយសង្គមប្រើ TTS សម្រាប់ voiceovers, ការនិយាយនិងផលិតមាតិកាស្វ័យប្រវត្តិនៅកម្រិត។

អ្នក​ជំនួយការ​និម្មិត

Siri, Alexa, ជំនួយការ Google, និងសេវាកម្មអតិថិជន chatbots ទាំងអស់ប្រើ TTS ដើម្បីនិយាយឆ្លើយតបដោយធម្មជាតិទៅអ្នកប្រើ.

សំណួរ​ដែល​សួរ​ញឹកញាប់

សំណួរ​ទូទៅ​អំពី​អត្ថបទ​ទៅ​បច្ចេកវិទ្យា​និយាយ

TTS សំដៅ​លើ អត្ថបទ​ទៅ​ជា​ការ​និយាយ & # 160; ។ វា​សំដៅ​ទៅ​លើ​បច្ចេកវិទ្យា​ដែល​បម្លែង​អត្ថបទ​ដែល​បាន​សរសេរ​ទៅ​ជា​ពាក្យ​ដែល​អាច​ស្តាប់​បាន​ដោយ​ប្រើ​សំឡេង​ដែល​បាន​បង្កើត​ឡើង​ដោយ AI ឬ​សំឡេង​ដែល​បាន​បង្កើត​ឡើង & # 160; ។ ពាក្យ​នេះ​ត្រូវ​បាន​ប្រើ​ជា​មួយ​នឹង "ការ​សំយោគ​ការ​និយាយ" ក្នុង​សិល្បៈ​បច្ចេកទេស & # 160; ។

ប្រព័ន្ធ TTS សម័យ​ទំនើប​ធ្វើការ​ក្នុង​ដំណាក់កាល​បី & # 160; ៖ ការ​វិភាគ​អត្ថបទ (ការ​ញែក ការ​ធ្វើ​ឲ្យ​ធម្មតា ការ​បម្លែង​សំឡេង) ការ​ព្យាករណ៍ prosody (ការ​កំណត់​ចង្វាក់ កម្រិត​សំឡេង ភាព​តានតឹង និង​ការ​ផ្អាក) និង​ការ​សំយោគ​អូឌីយ៉ូ (ការ​បង្កើត​ទម្រង់​រលក​សំឡេង​ពិត) & # 160; ។ ម៉ូដែល​សរសៃ​ប្រសាទ​រៀន​ដំណាក់កាល​ទាំង​បី​ទាំងអស់​ពី​ទិន្នន័យ​ហ្វឹកហាត់ & # 160; ។

Concatenative TTS splices together pre- recorded speech fragments, which can sound choppy at transitions. Neural TTS generates speech from scratch using deep learning, producing smoother, more natural- sounding audio with better prosody and emotion.

SSML (ភាសា​សម្គាល់​ការ​សំយោគ​ការ​និយាយ) គឺ​ជា​ភាសា​សម្គាល់​ដែល​មាន​មូលដ្ឋាន​លើ XML ដែល​អនុញ្ញាត​ឲ្យ​អ្នក​ត្រួតពិនិត្យ​របៀប​ដែល​ប្រព័ន្ធ TTS និយាយ​អត្ថបទ & # 160; ។ អ្នក​អាច​បញ្ជាក់​ការ​ផ្អាក ការ​សង្កត់ ការ​និយាយ ការ​ផ្លាស់ប្ដូរ​កម្រិត និង​អត្រា​និយាយ​ដោយ​ប្រើ​ស្លាក SSML នៅ​ក្នុង​ការ​បញ្ចូល​អត្ថបទ​របស់​អ្នក & # 160; ។

TTS ត្រូវបានប្រើសម្រាប់ការចូលដំណើរការ (កម្មវិធីអានអេក្រង់សម្រាប់អ្នកប្រើពិការភ្នែក), អ្នកជំនួយការនិម្មិត (Siri, Alexa, Google Assistant), ការផលិតសៀវភៅអូឌីយ៉ូ, ការរៀនតាមអ៊ីនធឺណិត, ការរុករក GPS, សេវាអតិថិជនប្រព័ន្ធ IVR, ការបង្កើតមាតិកានិងកម្មវិធីរៀនភាសា។

TTS បានវិវឌ្ឍន៍ពីប្រព័ន្ធដែលមានមូលដ្ឋានលើច្បាប់របស់មនុស្សយន្តក្នុងទសវត្សរ៍ឆ្នាំ 1960 ដល់ការសំយោគ concatenative ក្នុងទសវត្សរ៍ឆ្នាំ 1990 ដល់ការសំយោគប៉ារ៉ាម៉ែត្រស្ថិតិក្នុងទសវត្សរ៍ឆ្នាំ 2000 ដល់ TTS សរសៃប្រសាទជាមួយ WaveNet ក្នុងឆ្នាំ 2016 ដល់ម៉ូដែលផ្លាស់ប្តូរនិងពង្រីកបច្ចុប្បន្នដែលសម្រេចបាននូវគុណភាពកម្រិតមនុស្ស។

TTS សំឡេង​ធម្មជាតិ​ទាមទារ​ឲ្យ​មាន​ការ​បកប្រែ​ត្រឹមត្រូវ (រង្វង់​ចង្វាក់​ សម្ពាធ សម្លេង​) ការ​ផ្លាស់ប្ដូរ​សមរម្យ​រវាង​សំឡេង​ និង​អត្តសញ្ញាណ​សំឡេង​ដែល​មាន​ភាព​ជាប់​គ្នា & # 160; ។ ម៉ូដែល​សរសៃប្រសាទ​រៀន​លំនាំ​ទាំងនេះ​ពី​សំណុំ​ទិន្នន័យ​ធំ​នៃ​ការ​ថត​សំឡេង​មនុស្ស​ធម្មជាតិ & # 160; ។

ម៉ូដែល​ក្លូន​សំឡេង​ដូច​ជា Chatterbox និង CosyVoice2អាច​ចម្លង​សំឡេង​ជាក់លាក់​ពី​តិច​ជាង 5- 30 វិនាទី​នៃ​អូឌីយ៉ូ​យោង & # 160; ។ សំឡេង​ដែល​បាន​ក្លូន​ចាប់​យក timbre, accent, និង​រចនាប័ទ្ម​និយាយ បើ​ទោះ​បី​ជា​ការ​ពិចារណា​វិជ្ជាជីវៈ និង​ច្បាប់​អនុវត្ត​ចំពោះ​ការ​ក្លូន​សំឡេង​របស់​អ្នក​ដទៃ & # 160; ។

ម៉ូដែល TTS ទំនើប​គាំទ្រ​ភាសា​ច្រើន​ជាង 30+ ។ ម៉ូដែល​ខ្លះ​មាន​ជំនាញ​ក្នុង​ភាសា​ជាក់លាក់​ខណៈ​ពេល​ដែល​អ្នក​ផ្សេង​ទៀត​ជា​ភាសា​ច្រើន ។ ភាសា​អង់គ្លេស​មាន​ម៉ូដែល​និង​សំឡេង​ដែល​មាន​ច្រើន​បំផុត ប៉ុន្តែ​ភាសា​ចិន ភាសា​ជប៉ុន ភាសា​កូរ៉េ ភាសា​អេស្ប៉ាញ និង​ភាសា​អឺរ៉ុប​ត្រូវ​បាន​គាំទ្រ​យ៉ាង​ល្អ ។

TTS គឺ​ជា​សំណុំ​រង​នៃ​ការ​បង្កើត​សំឡេង AI & # 160; ។ TTS ពិសេស​បម្លែង​ការ​បញ្ចូល​អត្ថបទ​ទៅ​ជា​លទ្ធផល​និយាយ & # 160; ។ ការ​បង្កើត​សំឡេង AI គឺ​ជា​លក្ខខណ្ឌ​ទូលំទូលាយ​ដែល​រួម​បញ្ចូល​ការ​ក្លូន​សំឡេង ការ​បម្លែង​សំឡេង ការ​និយាយ​ទៅ​ការ​និយាយ និង​ការ​បង្កើត​បែបផែន​សំឡេង & # 160; ។

វា​អាស្រ័យ​លើ​តម្រូវការ​របស់​អ្នក & # 160; ។ Kokoro ផ្ដល់​នូវ​តុល្យភាព​ល្អ​បំផុត​នៃ​ល្បឿន និង​គុណភាព​សម្រាប់​ការ​ប្រើ​ជា​ទូទៅ & # 160; ។ Chatterbox នាំ​មុខ​ក្នុង​ការ​ក្លូន​សំឡេង & # 160; ។ Orpheus ល្អ​បំផុត​នៅ​ក្នុង​ការ​បង្ហាញ​អារម្មណ៍ & # 160; ។ StyleTTS2ផលិត​ការ​និយាយ​របស់​អ្នក​និយាយ​តែ​ម្នាក់​ឯង​ដែល​មាន​លក្ខណៈ​ធម្មជាតិ​បំផុត & # 160; ។ គ្មាន​ម៉ូដែល "ល្អ​បំផុត" មួយ​សម្រាប់​ករណី​ប្រើ​ទាំងអស់​ទេ & # 160; ។

បាទ។ ម៉ូដែលទាំងអស់នៅលើ TTS.ai គឺជាប្រភពបើកចំហហើយអាចត្រូវបានរៀបចំដោយខ្លួនឯង។ ម៉ូដែល CPU ដូចជា Piper ដំណើរការនៅលើកុំព្យូទ័រណាមួយ។ ម៉ូដែល GPU ដូចជា Kokoro និង Bark ត្រូវការ NVIDIA GPU ជាមួយ 2-8GB VRAM ។ វេទិការបស់យើងក៏ផ្តល់នូវការចូលដំណើរការដែលបានរៀបចំផងដែរដូច្នេះអ្នកមិនចាំបាច់គ្រប់គ្រងហេដ្ឋារចនាសម្ព័ន្ធទេ។
5.0/5 (1)

តើ​យើង​អាច​ធ្វើ​អ្វី​បាន​ប្រសើរ​ឡើង & # 160;? មតិ​យោបល់​របស់​អ្នក​ជួយ​យើង​ជួសជុល​បញ្ហា & # 160; ។

បទពិសោធន៍ TTS ទំនើប​ដោយ​ខ្លួន​ឯង

សាកល្បង 20+ ម៉ូដែលសំឡេង AI state-of-the-art ដោយឥតគិតថ្លៃ។ មើលថាតើអត្ថបទទៅជាសំឡេងបានមកដល់កម្រិតណា។