TTS ពេលវេលា​ពិត

អត្ថបទ​ទៅ​ការ​និយាយ​ស្ទ្រីម​ជាមួយ​ការ​ពន្យារ​អូឌីយ៉ូ​ដំបូង​រង​វិនាទី ។ ស្ថាបនា​សម្រាប់​ភ្នាក់ងារ​សំឡេង និង​កម្មវិធី​បន្ត​ផ្ទាល់ ។

យើង​មិន​មាន​សំឡេង TTS ក្នុង​ភាសា​របស់​អ្នក​នៅ​ឡើយ​ទេ ។ ជួយ​យើង​បន្ថែម​របស់​អ្នក ! លក់​សំឡេង​របស់​អ្នក

អត្ថបទ​

ស្ទ្រីម
0/5,000 តួអក្សរ ~0.3s អូឌីយ៉ូ​ដំបូង

ការ​កំណត់​សំឡេង

ម៉ូដែល​ដែល​អាច​ស្ទ្រីម​បាន​តែ​ប៉ុណ្ណោះ ។

កម្រិត​ពន្យារ​ពេល

ចុច ស្ទ្រីម ដើម្បី​វាស់​អត្រា​អសកម្ម​អូឌីយ៉ូ​ដំបូង

លទ្ធផល

អូឌីយ៉ូ​នឹង​ចាក់​នៅ​ទីនេះ​នៅពេល​ដែល​ពួកវា​ចូល​ស្ទ្រីម ។

0:00
ចម្រៀក​ដំបូង:
ចំនួន​សរុប​នៃ​ចាន: 0
ពេលវេលា​សរុប:

របៀប​ដែល​ការ​ស្ទ្រីម TTS ធ្វើការ

១. ផ្ញើ​អត្ថបទ

អត្ថបទ POST ទៅ / v1 / tts / stream / ជាសំណើព្រឹត្តិការណ៍ដែលបានផ្ញើដោយម៉ាស៊ីនបម្រើ។

2. ម៉ូដែលបង្កើត

Kokoro បំបែក​អត្ថបទ និង​បង្កើត​ឧទាហរណ៍​អូឌីយ៉ូ​តាម​ឧទាហរណ៍​នៅ​លើ GPU ។

3. ស្ទ្រីម​ចង្កឹះ

ផ្នែក​ដែល​បាន​អ៊ិនកូដ​ជា Base64 WAV ចូល​មក​លើ SSE ហើយ​ចាប់ផ្ដើម​ចាក់​ភ្លាមៗ ។

4. ស្តាប់​ផ្ទាល់

អ្នក​ប្រើ​ឮ​ការ​ចាប់ផ្ដើម​របស់​ឃ្លា​ក្នុង​រយៈពេល​តិច​ជាង​មួយ​វិនាទី ទោះ​បី​ជា​លើ​ការ​បញ្ចូល​វែង​ក៏​ដោយ ។

ករណី​ប្រើ

កន្លែង​ដែល​ការ​ពន្យារ​ពេល​រង​វិនាទី​បើក​បទពិសោធន៍​ថ្មី ។

ភ្នាក់ងារ​សំឡេង

មនុស្ស​យន្ត​និយាយ​ដែល​ឆ្លើយតប​យ៉ាង​លឿន​ដូច​មនុស្ស​នឹង​ធ្វើ​ដែរ ។

ការ​បកប្រែ​ផ្ទាល់

បកប្រែ និង​ច្រៀង​ស្ទ្រីម​ក្នុង​ពេល​ពិត​ដោយ​គ្មាន​ការ​ផ្អាក​សតិ​បណ្ដោះអាសន្ន ។

ល្បែងName

ប្រអប់ NPC ដែល​មាន​ប្រតិកម្ម​ទៅ​នឹង​ជម្រើស​របស់​អ្នក​លេង​ភ្លាមៗ គ្មាន VO ដែល​បាន​បង្ហាញ​ជាមុន​ទេ ។

មធ្យោបាយ​ងាយស្រួល

កម្មវិធី​អាន​អេក្រង់ និង​ឧបករណ៍​ជំនួយ​ដែល​ចាប់ផ្ដើម​និយាយ​ពេល​អ្នក​ប្រើ​ចុច ។

ផែនការ TTS ពេលវេលា​ពិត

ចាប់ផ្តើម​ដោយ​ឥតគិតថ្លៃ ធ្វើ​ឲ្យ​ប្រសើរ​ឡើង​នៅពេល​អ្នក​ត្រូវការ​បន្ថែម

ឥត​គិត​ថ្លៃ
  • Kokoro ស្ទ្រីម (ម៉ូដែល​ឥតគិតថ្លៃ)
  • ៥០០ តួអក្សរ​ក្នុង​មួយ​ជំនាន់
  • 10 ស្ទ្រីមឥតគិតថ្លៃ / ថ្ងៃក្នុងមួយអ្នកប្រើអនាមិក
  • ភាព​យឺត​អូឌីយ៉ូ​ដំបូង​រង​វិនាទី
  • ស្ទ្រីម SSE លើ HTTPS
ពេញនិយម​បំផុត
គណនី​ឥតគិតថ្លៃ
  • 15,000 តួអក្សរនៅពេលចុះឈ្មោះ
  • ៥, ០០០ តួអក្សរ​ក្នុង​មួយ​ស្ទ្រីម
  • កូនសោ API សម្រាប់​ចូលដំណើរការ​កម្មវិធី
  • ប្រវត្តិ​បង្កើត
  • គ្មាន​ដែន​កំណត់​ស្ទ្រីម​ប្រចាំថ្ងៃ
ចុះឈ្មោះដោយឥតគិតថ្លៃ
ជំនាញ
  • MOSS- TTS- Realtime (ពេល​នៅ​រស់)
  • ១០០, ០០០ តួអក្សរ​ក្នុង​មួយ​ស្ទ្រីម
  • ជួរ GPU ដែលមាន​អាទិភាព
  • ភ្នាក់ងារ​សំឡេង + ការ​រួមបញ្ចូល Twilio
  • ដែន​កំណត់​អត្រា​ខ្ពស់
ធ្វើ​ឲ្យ​ប្រសើរ

សំណួរ​ដែល​សួរ​ញឹកញាប់

អត្ថបទ​ទៅ​ការ​និយាយ​ពេល​ពិត​ស្ទ្រីម​អូឌីយ៉ូ​ដែល​ពួក​គេ​ត្រូវ​បាន​បង្កើត​ជំនួស​ឲ្យ​ការ​រង់ចាំ​សម្រាប់​ឃ្លា​ទាំងមូល​ដើម្បី​បញ្ចប់ ។ គំរូ​អូឌីយ៉ូ​ដំបូង​មក​ដល់​ក្នុង​មួយ​វិនាទី​ក្រោម​មួយ ធ្វើ​ឲ្យ​វា​សមរម្យ​សម្រាប់​ភ្នាក់ងារ​សំឡេង​ផ្ទាល់ ការ​ច្រៀង​ឡើងវិញ និង​កម្មវិធី​អន្តរកម្ម​ដែល​ការ​ពន្យារ​ពេល​សំខាន់ ។

TTS ធម្មតា​បង្កើត​ឯកសារ​អូឌីយ៉ូ​ពេញលេញ​មុន​ពេល​ត្រឡប់​អ្វី​ទាំងអស់ - អ្នក​រង់ចាំ បន្ទាប់​មក​ឮ​ឃ្លា​ទាំងមូល​ក្នុង​ពេល​តែ​មួយ ។ TTS ពេល​ពិត​ប្រើ​ព្រឹត្តិការណ៍​ដែល​ផ្ញើ​ដោយ​ម៉ាស៊ីន​បម្រើ (SSE) ដើម្បី​ស្ទ្រីម​ចន្លោះ​អូឌីយ៉ូ​ខ្លី​ដូច​ដែល​ម៉ូដែល​ផលិត​ពួក​វា ។ អ្នក​ប្រើ​ឮ​ការ​ចាប់ផ្ដើម​នៃ​ឃ្លា​ស្ទើរ​តែ​ភ្លាមៗ ទោះ​បី​ជា​លើ​ការ​បញ្ចូល​វែង​ក៏​ដោយ ។

Kokoro គឺជា backend លំនាំដើម - វាបង្កើតអូឌីយ៉ូប្រហែល 100x រហ័សជាងពេលវេលាពិតប្រាកដនៅលើ GPU សម័យទំនើប។ យើងកំពុងរួមបញ្ចូល MOSS-TTS-Realtime ជាជម្រើសដែលមានគុណភាពខ្ពស់ជាងនេះអ្នកប្រើនឹងអាចជ្រើសតាមសំណើម្តងដែលវាដឹកជញ្ជូន។

ភាព​យឺត​ពេល​អូឌីយ៉ូ​ដំបូង​ធម្មតា​នៅ​លើ Kokoro គឺ 300- 800ms លើ​ការ​តភ្ជាប់​សាធារណៈ ។ បណ្ដាញ​ដំណើរ​កម្សាន្ត​ជុំ​វិញ​គ្រប់គ្រង​ក្រោយ​ពី​នោះ ។ ទំព័រ​បង្ហាញ​ផ្ទៃ​នៃ​ពេលវេលា​ដែល​បាន​វាស់​បន្ត​ផ្ទាល់​ទៅ​អូឌីយ៉ូ​ដំបូង​ក្នុង​ចំណុច​ប្រទាក់​អ្នក​ប្រើ ដូច្នេះ​អ្នក​អាច​មើល​ឃើញ​ថា​តើ​សំណើ​នីមួយៗ​បាន​ចំណាយ​ពេល​ប៉ុន្មាន​។

ភ្នាក់ងារ​សំឡេង​ដែល​ឆ្លើយតប​តាម​ការ​សន្ទនា ការ​បកប្រែ​ផ្ទាល់​សម្រាប់​ប្រព័ន្ធ​ផ្សព្វផ្សាយ​ស្ទ្រីម ហ្គេម​អន្តរកម្ម NPCs អ្នក​អាន​មធ្យោបាយ​ងាយស្រួល​ដែល​ចាប់ផ្ដើម​និយាយ​ពេល​អ្នក​ប្រើ​ចុច និង​កម្មវិធី​ណា​មួយ​ដែល​រង់ចាំ​ពីរ ឬ​បី​វិនាទី​សម្រាប់​អូឌីយ៉ូ​នឹង​មាន​អារម្មណ៍​យឺត ។

បាទ. POST ទៅ https://api.tts.ai/v1/tts/stream/ ជាមួយរាងកាយដូចគ្នាដូចជាចំណុចបញ្ចប់ / v1/tts / ធម្មតា. ការឆ្លើយតបគឺស្ទ្រីម SSE នៃ base64-encoded WAV chunks. កម្រិតឥតគិតថ្លៃគាំទ្រ 10 ជំនាន់ក្នុងមួយថ្ងៃក្នុងមួយអ្នកប្រើអនាមិក; អ្នកប្រើដែលបានផ្ទៀងផ្ទាត់ទទួលបានការអនុញ្ញាតតួអក្សរពេញលេញក្នុងមួយគណនី.

Kokoro ប្រើ​សំឡេង​ដែល​បាន​ហ្វឹកហាត់​ជាមុន ហើយ​មិន​ក្លូន​ទេ ។ MOSS- TTS- Realtime (ពេល​បាន​បញ្ចូល​គ្នា) គាំទ្រ​ការ​ក្លូន​សំឡេង​សូន្យ​គ្រាប់​ពី​ការ​យោង​ ៣ វិនាទី ។ សម្រាប់​ការ​ក្លូន​សំឡេង​ពេញលេញ​សព្វថ្ងៃ ប្រើ​ទំព័រ​ធម្មតា / text- to- speech / ជាមួយ Chatterbox ឬ GPT- SoVITS — ពួក​វា​មិន​អាច​ស្ទ្រីម​បាន​ទេ ប៉ុន្តែ​ផលិត​សំឡេង​ផ្ទាល់ខ្លួន ។

តម្លៃ​តួអក្សរ​ដូចគ្នា​នឹង​ចំណុច​បញ្ចប់ TTS ធម្មតា ។ Kokoro គឺ​ជា​កម្រិត​ឥត​គិត​ថ្លៃ (តម្លៃ 1x) ។ MOSS- TTS- Realtime នឹង​រត់​នៅ​កម្រិត​ស្តង់ដារ (តម្លៃ 2x) ពេល​បើក ។ ពិធីការ​ស្ទ្រីម​មិន​បន្ថែម​ថ្លៃ​បន្ថែម​តម្លៃ​ណាមួយ​ទេ ។

បាទ - ចំណុចបញ្ចប់នៃការស្ទ្រីមជាមួយ webhook សំឡេង Twilio ដើម្បីផ្គត់ផ្គង់សំឡេងផ្ទាល់ទៅក្នុងការហៅទូរស័ព្ទ។ វេទិកាភ្នាក់ងារសំឡេងរបស់យើងបានធ្វើរួចហើយសម្រាប់ IVR និងការហៅចេញ។ ភាពយឺតយ៉ាវពីចុងទៅចុងនៅលើការហៅទូរស័ព្ទជាធម្មតាគឺ 1-2 វិនាទីរួមទាំងការឆ្លើយតប STT និង LLM ។

បើ​បណ្ដាញ​របស់​អ្នក​ធ្លាក់​ចុះ​មួយ​ផ្នែក​ក្នុង​ការ​ដឹកជញ្ជូន កម្មវិធី​ចាក់​ស្ទ្រីម​នឹង​រំលង​ទៅ​មុខ​ជំនួស​ឲ្យ​ការ​ផ្អាក ។ សម្រាប់​កម្មវិធី​ដែល​មិន​អាច​អត់​ទ្រាំ​ចន្លោះ​បាន​ធ្លាក់​ត្រឡប់​ទៅ​ចំណុច​បញ្ចប់​មិន​ស្ទ្រីម​ធម្មតា ឬ​សតិ​បណ្ដោះ​អាសន្ន ៥០០ ម. ស៊ី. អូ មុន​ពេល​ចាប់ផ្ដើម​ចាក់ ។
5.0/5 (1)

តើ​យើង​អាច​ធ្វើ​អ្វី​បាន​ប្រសើរ​ឡើង ? មតិ​យោបល់​របស់​អ្នក​ជួយ​យើង​ជួសជុល​បញ្ហា ។

ស្ទ្រីម​ការ​និយាយ​ក្នុង​ពេល​ពិតName

ឥតគិតថ្លៃសម្រាប់ 10 ជំនាន់ដំបូងមួយថ្ងៃ. ចុះឈ្មោះដើម្បីបើកការអនុញ្ញាតតួអក្សរពេញលេញនិងចូលដំណើរការ API.