TTS ពេលវេលាពិត

អត្ថបទទៅការនិយាយស្ទ្រីមជាមួយការពន្យារអូឌីយ៉ូដំបូងរងវិនាទី ។ ស្ថាបនាសម្រាប់ភ្នាក់ងារសំឡេង និងកម្មវិធីបន្តផ្ទាល់ ។

ចុះឈ្មោះដោយឥតគិតថ្លៃ

យើងមិនមានសំឡេង TTS ក្នុងភាសារបស់អ្នកនៅឡើយទេ ។ ជួយយើងបន្ថែមរបស់អ្នក ! លក់សំឡេងរបស់អ្នក

អត្ថបទ

ស្ទ្រីម

0/5,000 តួអក្សរ ~0.3s អូឌីយ៉ូដំបូង

ការកំណត់សំឡេង

ម៉ូដែល ម៉ូដែលដែលអាចស្ទ្រីមបានតែប៉ុណ្ណោះ ។

សំឡេង

ល្បឿន 1.0x

កម្រិតពន្យារពេល

—

ចុច ស្ទ្រីម ដើម្បីវាស់អត្រាអសកម្មអូឌីយ៉ូដំបូង

លទ្ធផល

អូឌីយ៉ូនឹងចាក់នៅទីនេះនៅពេលដែលពួកវាចូលស្ទ្រីម ។

របៀបដែលការស្ទ្រីម TTS ធ្វើការ

១. ផ្ញើអត្ថបទ

អត្ថបទ POST ទៅ / v1 / tts / stream / ជាសំណើព្រឹត្តិការណ៍ដែលបានផ្ញើដោយម៉ាស៊ីនបម្រើ។

2. ម៉ូដែលបង្កើត

Kokoro បំបែកអត្ថបទ និងបង្កើតឧទាហរណ៍អូឌីយ៉ូតាមឧទាហរណ៍នៅលើ GPU ។

3. ស្ទ្រីមចង្កឹះ

ផ្នែកដែលបានអ៊ិនកូដជា Base64 WAV ចូលមកលើ SSE ហើយចាប់ផ្ដើមចាក់ភ្លាមៗ ។

4. ស្តាប់ផ្ទាល់

អ្នកប្រើឮការចាប់ផ្ដើមរបស់ឃ្លាក្នុងរយៈពេលតិចជាងមួយវិនាទី ទោះបីជាលើការបញ្ចូលវែងក៏ដោយ ។

ករណីប្រើ

កន្លែងដែលការពន្យារពេលរងវិនាទីបើកបទពិសោធន៍ថ្មី ។

ភ្នាក់ងារសំឡេង

មនុស្សយន្តនិយាយដែលឆ្លើយតបយ៉ាងលឿនដូចមនុស្សនឹងធ្វើដែរ ។

ការបកប្រែផ្ទាល់

បកប្រែ និងច្រៀងស្ទ្រីមក្នុងពេលពិតដោយគ្មានការផ្អាកសតិបណ្ដោះអាសន្ន ។

ល្បែងName

ប្រអប់ NPC ដែលមានប្រតិកម្មទៅនឹងជម្រើសរបស់អ្នកលេងភ្លាមៗ គ្មាន VO ដែលបានបង្ហាញជាមុនទេ ។

មធ្យោបាយងាយស្រួល

កម្មវិធីអានអេក្រង់ និងឧបករណ៍ជំនួយដែលចាប់ផ្ដើមនិយាយពេលអ្នកប្រើចុច ។

ផែនការ TTS ពេលវេលាពិត

ចាប់ផ្តើមដោយឥតគិតថ្លៃ ធ្វើឲ្យប្រសើរឡើងនៅពេលអ្នកត្រូវការបន្ថែម

ឥតគិតថ្លៃ

Kokoro ស្ទ្រីម (ម៉ូដែលឥតគិតថ្លៃ)
៥០០ តួអក្សរក្នុងមួយជំនាន់
10 ស្ទ្រីមឥតគិតថ្លៃ / ថ្ងៃក្នុងមួយអ្នកប្រើអនាមិក
ភាពយឺតអូឌីយ៉ូដំបូងរងវិនាទី
ស្ទ្រីម SSE លើ HTTPS

ពេញនិយមបំផុត

គណនីឥតគិតថ្លៃ

15,000 តួអក្សរនៅពេលចុះឈ្មោះ
៥, ០០០ តួអក្សរក្នុងមួយស្ទ្រីម
កូនសោ API សម្រាប់ចូលដំណើរការកម្មវិធី
ប្រវត្តិបង្កើត
គ្មានដែនកំណត់ស្ទ្រីមប្រចាំថ្ងៃ

ចុះឈ្មោះដោយឥតគិតថ្លៃ

ជំនាញ

MOSS- TTS- Realtime (ពេលនៅរស់)
១០០, ០០០ តួអក្សរក្នុងមួយស្ទ្រីម
ជួរ GPU ដែលមានអាទិភាព
ភ្នាក់ងារសំឡេង + ការរួមបញ្ចូល Twilio
ដែនកំណត់អត្រាខ្ពស់

ធ្វើឲ្យប្រសើរ

សំណួរដែលសួរញឹកញាប់

អត្ថបទទៅការនិយាយពេលពិតស្ទ្រីមអូឌីយ៉ូដែលពួកគេត្រូវបានបង្កើតជំនួសឲ្យការរង់ចាំសម្រាប់ឃ្លាទាំងមូលដើម្បីបញ្ចប់ ។ គំរូអូឌីយ៉ូដំបូងមកដល់ក្នុងមួយវិនាទីក្រោមមួយ ធ្វើឲ្យវាសមរម្យសម្រាប់ភ្នាក់ងារសំឡេងផ្ទាល់ ការច្រៀងឡើងវិញ និងកម្មវិធីអន្តរកម្មដែលការពន្យារពេលសំខាន់ ។

TTS ធម្មតាបង្កើតឯកសារអូឌីយ៉ូពេញលេញមុនពេលត្រឡប់អ្វីទាំងអស់ - អ្នករង់ចាំ បន្ទាប់មកឮឃ្លាទាំងមូលក្នុងពេលតែមួយ ។ TTS ពេលពិតប្រើព្រឹត្តិការណ៍ដែលផ្ញើដោយម៉ាស៊ីនបម្រើ (SSE) ដើម្បីស្ទ្រីមចន្លោះអូឌីយ៉ូខ្លីដូចដែលម៉ូដែលផលិតពួកវា ។ អ្នកប្រើឮការចាប់ផ្ដើមនៃឃ្លាស្ទើរតែភ្លាមៗ ទោះបីជាលើការបញ្ចូលវែងក៏ដោយ ។

Kokoro គឺជា backend លំនាំដើម - វាបង្កើតអូឌីយ៉ូប្រហែល 100x រហ័សជាងពេលវេលាពិតប្រាកដនៅលើ GPU សម័យទំនើប។ យើងកំពុងរួមបញ្ចូល MOSS-TTS-Realtime ជាជម្រើសដែលមានគុណភាពខ្ពស់ជាងនេះអ្នកប្រើនឹងអាចជ្រើសតាមសំណើម្តងដែលវាដឹកជញ្ជូន។

ភាពយឺតពេលអូឌីយ៉ូដំបូងធម្មតានៅលើ Kokoro គឺ 300- 800ms លើការតភ្ជាប់សាធារណៈ ។ បណ្ដាញដំណើរកម្សាន្តជុំវិញគ្រប់គ្រងក្រោយពីនោះ ។ ទំព័របង្ហាញផ្ទៃនៃពេលវេលាដែលបានវាស់បន្តផ្ទាល់ទៅអូឌីយ៉ូដំបូងក្នុងចំណុចប្រទាក់អ្នកប្រើ ដូច្នេះអ្នកអាចមើលឃើញថាតើសំណើនីមួយៗបានចំណាយពេលប៉ុន្មាន។

ភ្នាក់ងារសំឡេងដែលឆ្លើយតបតាមការសន្ទនា ការបកប្រែផ្ទាល់សម្រាប់ប្រព័ន្ធផ្សព្វផ្សាយស្ទ្រីម ហ្គេមអន្តរកម្ម NPCs អ្នកអានមធ្យោបាយងាយស្រួលដែលចាប់ផ្ដើមនិយាយពេលអ្នកប្រើចុច និងកម្មវិធីណាមួយដែលរង់ចាំពីរ ឬបីវិនាទីសម្រាប់អូឌីយ៉ូនឹងមានអារម្មណ៍យឺត ។

បាទ. POST ទៅ https://api.tts.ai/v1/tts/stream/ ជាមួយរាងកាយដូចគ្នាដូចជាចំណុចបញ្ចប់ / v1/tts / ធម្មតា. ការឆ្លើយតបគឺស្ទ្រីម SSE នៃ base64-encoded WAV chunks. កម្រិតឥតគិតថ្លៃគាំទ្រ 10 ជំនាន់ក្នុងមួយថ្ងៃក្នុងមួយអ្នកប្រើអនាមិក; អ្នកប្រើដែលបានផ្ទៀងផ្ទាត់ទទួលបានការអនុញ្ញាតតួអក្សរពេញលេញក្នុងមួយគណនី.

Kokoro ប្រើសំឡេងដែលបានហ្វឹកហាត់ជាមុន ហើយមិនក្លូនទេ ។ MOSS- TTS- Realtime (ពេលបានបញ្ចូលគ្នា) គាំទ្រការក្លូនសំឡេងសូន្យគ្រាប់ពីការយោង ៣ វិនាទី ។ សម្រាប់ការក្លូនសំឡេងពេញលេញសព្វថ្ងៃ ប្រើទំព័រធម្មតា / text- to- speech / ជាមួយ Chatterbox ឬ GPT- SoVITS — ពួកវាមិនអាចស្ទ្រីមបានទេ ប៉ុន្តែផលិតសំឡេងផ្ទាល់ខ្លួន ។

តម្លៃតួអក្សរដូចគ្នានឹងចំណុចបញ្ចប់ TTS ធម្មតា ។ Kokoro គឺជាកម្រិតឥតគិតថ្លៃ (តម្លៃ 1x) ។ MOSS- TTS- Realtime នឹងរត់នៅកម្រិតស្តង់ដារ (តម្លៃ 2x) ពេលបើក ។ ពិធីការស្ទ្រីមមិនបន្ថែមថ្លៃបន្ថែមតម្លៃណាមួយទេ ។

បាទ - ចំណុចបញ្ចប់នៃការស្ទ្រីមជាមួយ webhook សំឡេង Twilio ដើម្បីផ្គត់ផ្គង់សំឡេងផ្ទាល់ទៅក្នុងការហៅទូរស័ព្ទ។ វេទិកាភ្នាក់ងារសំឡេងរបស់យើងបានធ្វើរួចហើយសម្រាប់ IVR និងការហៅចេញ។ ភាពយឺតយ៉ាវពីចុងទៅចុងនៅលើការហៅទូរស័ព្ទជាធម្មតាគឺ 1-2 វិនាទីរួមទាំងការឆ្លើយតប STT និង LLM ។

បើបណ្ដាញរបស់អ្នកធ្លាក់ចុះមួយផ្នែកក្នុងការដឹកជញ្ជូន កម្មវិធីចាក់ស្ទ្រីមនឹងរំលងទៅមុខជំនួសឲ្យការផ្អាក ។ សម្រាប់កម្មវិធីដែលមិនអាចអត់ទ្រាំចន្លោះបានធ្លាក់ត្រឡប់ទៅចំណុចបញ្ចប់មិនស្ទ្រីមធម្មតា ឬសតិបណ្ដោះអាសន្ន ៥០០ ម. ស៊ី. អូ មុនពេលចាប់ផ្ដើមចាក់ ។

5.0/5 (1)

ស្ទ្រីមការនិយាយក្នុងពេលពិតName

ឥតគិតថ្លៃសម្រាប់ 10 ជំនាន់ដំបូងមួយថ្ងៃ. ចុះឈ្មោះដើម្បីបើកការអនុញ្ញាតតួអក្សរពេញលេញនិងចូលដំណើរការ API.

ចុះឈ្មោះដោយឥតគិតថ្លៃ មើលតម្លៃ

TTS ពេលវេលា​ពិត

អត្ថបទ​

ការ​កំណត់​សំឡេង

កម្រិត​ពន្យារ​ពេល

លទ្ធផល

របៀប​ដែល​ការ​ស្ទ្រីម TTS ធ្វើការ

១. ផ្ញើ​អត្ថបទ

2. ម៉ូដែលបង្កើត

3. ស្ទ្រីម​ចង្កឹះ

4. ស្តាប់​ផ្ទាល់

ករណី​ប្រើ

ភ្នាក់ងារ​សំឡេង

ការ​បកប្រែ​ផ្ទាល់

ល្បែងName

មធ្យោបាយ​ងាយស្រួល

ផែនការ TTS ពេលវេលា​ពិត

សំណួរ​ដែល​សួរ​ញឹកញាប់

តើ​អ្វី​ជា​ពេលវេលា​ពិត​ប្រាកដ TTS?

តើ​ពេល​ពិត​ប្រាកដ TTS ខុស​ពី TTS ធម្មតា​យ៉ាង​ណា ?

ម៉ូដែល​ណា​ដែល​ផ្គត់ផ្គង់​ថាមពល​ទំព័រ​ពេលវេលា​ពិត?

តើ​ការ​ពន្យារ​អូឌីយ៉ូ​ដំបូង​មាន​ល្បឿន​លឿន​ប៉ុណ្ណា ?

តើ​ខ្ញុំ​អាច​សាងសង់​អ្វី​ជាមួយ TTS ពេល​ពិត​ប្រាកដ?

តើ​មាន​ API សម្រាប់ TTS ពេល​ពិត​ឬ ?

តើ​វា​គាំទ្រ​ការ​ក្លូន​សំឡេង​ឬ ?

តើ​តម្លៃ​របស់​ TTS ពេល​ពិត​ប្រាកដ​មាន​ប៉ុន្មាន​?

តើ​ខ្ញុំ​អាច​ប្រើ​វា​លើ​ការ​ហៅ​ទូរស័ព្ទ​បាន​ទេ ?

ហេតុ​អ្វី​បាន​ជា​អូឌីយ៉ូ​ត្រូវ​បាន​កាត់​ចេញ​នៅ​ពាក់​កណ្ដាល​ពាក្យ​ខ្លះ ?

ស្ទ្រីម​ការ​និយាយ​ក្នុង​ពេល​ពិតName