AI ឥត​គិត​ថ្លៃ អត្ថបទ​ទៅ​ការ​និយាយ

ប៉ារ៉ាម៉ែត្រ 82M រហ័សបំផុត សំឡេងបង្ហាញ ភាសាច្រើន ការគាំទ្រស្ទ្រីម

ម៉ូដែលប៉ារ៉ាម៉ែត្រស្រាល 82M ផ្គត់ផ្គង់ការនិយាយដែលមានគុណភាពស្ទូឌីយោជាមួយនឹងការសន្និដ្ឋានលឿនលឿន។

ថេរ · 1.5GB VRAM សាកល្បង

Piper

ស៊ីភីយូដែលមានសុវត្ថិភាព ក្រៅបណ្ដាញអាចធ្វើបាន សំឡេង ១០០+ 35+ ភាសា ការគាំទ្រ SSML

ប្រព័ន្ធអត្ថបទទៅការនិយាយដែលបានធ្វើឲ្យប្រសើរសម្រាប់ Raspberry Pi និងឧបករណ៍ដែលបានបង្កប់ដោយប្រព័ន្ធសរសៃប្រសាទមូលដ្ឋានដែលលឿន ។

ថេរ · 0 (CPU only) VRAM សាកល្បង

VITS

ការសំយោគពីចុងទៅចុង ព្យាង្គធម្មជាតិ ការសន្និដ្ឋានរហ័ស ធុងបាសច្រើន

កម្មវិធីអ៊ិនកូដស្វ័យប្រវត្តិដែលមានលក្ខខណ្ឌដែលមានការរៀនដែលមានការប្រកួតប្រជែងសម្រាប់អត្ថបទទៅការនិយាយពីចុងទៅចុង ។

ថេរ · 1GB VRAM សាកល្បង

MeloTTS

បានធ្វើឲ្យស៊ីភីយូប្រសើរ ភាសាច្រើន វណ្ណយុត្តច្រើន រួចរាល់សម្រាប់ផលិតកម្ម ការពន្យារទាប

អត្ថបទទៅការនិយាយជាច្រើនភាសាគុណភាពខ្ពស់ដែលរត់លើស៊ីភីយូជាមួយនឹងការពន្យារអប្បបរមា ។

ថេរ · 0.5GB (GPU optional) VRAM សាកល្បង

Bark

បែបផែនសំឡេង ញញឹម / យំ ការបង្កើតតន្ត្រី ឧបករណ៍និយាយ 100+ ភាសាច្រើន

ម៉ូដែលអត្ថបទទៅអូឌីយ៉ូដែលមានមូលដ្ឋានលើបម្លែង ដែលបង្កើតការនិយាយពិត តន្ត្រី និងបែបផែនសំឡេង ។

យឺត · 5GB VRAM សាកល្បង

Bark Small

ទម្ងន់ស្រាល រហ័សជាងស្រទាប់ពេញ ការនិយាយដែលមានអារម្មណ៍ ភាសាច្រើន

កំណែស្រាលជាងរបស់ Bark ដែលមានការសន្និដ្ឋានលឿនជាង និងការប្រើសតិទាបជាង ។

មធ្យម · 2GB VRAM សាកល្បង

CosyVoice 2

ស្ទ្រីម ការក្លូន Zero- Shot ភាសាចម្រុះ ការត្រួតពិនិត្យអារម្មណ៍ ភាពស្មើគ្នារបស់មនុស្ស

Alibaba's scalable streaming TTS with human-parity naturalness and near-zero latency.

Dia TTS

ធុងបាសច្រើន ការបង្កើតប្រអប់ បង្វិលដោយធម្មជាតិ កន្សោមអារម្មណ៍ ប៉ារ៉ាម៉ែត្រ 1. 6B

ម៉ូដែលបង្កើតប្រអប់អ្នកនិយាយច្រើនដែលបង្កើតការសន្ទនាធម្មជាតិរវាងអ្នកនិយាយ ។

Parler TTS

ការពិពណ៌នាសំឡេង វត្ថុបញ្ជាភាសាធម្មជាតិ ការបង្កើតសំឡេងដែលអាចបត់បែនបាន គ្មានសំឡេងដែលបានកំណត់ជាមុនដែលត្រូវការទេ

ពិពណ៌នាសំឡេងដែលអ្នកចង់បានជាភាសាធម្មជាតិ ហើយ Parler បង្កើតការនិយាយដែលផ្គូផ្គង ។

Indic Parler TTS

ភាសាឥណ្ឌា ការពិពណ៌នាសំឡេង វត្ថុបញ្ជាភាសាធម្មជាតិ ការបញ្ចេញសំឡេងឥណ្ឌាពិតប្រាកដ

និយាយគុណភាពខ្ពស់សម្រាប់ 8+ ភាសាឥណ្ឌាជាមួយនឹងការបញ្ជាសំឡេងភាសាធម្មជាតិ ។

យឺត · 8GB VRAM សាកល្បង

KhanomTan TTS

ថៃ TTS ធុងបាសច្រើន សង់សៀគ្វី YourTTS អាជ្ញាបណ្ណសុវត្ថិភាពពាណិជ្ជកម្ម

អត្ថបទទៅការនិយាយជាភាសាថៃដំបូងគេជាមួយជម្រើសសំឡេងអ្នកនិយាយ ។

ថេរ · 2GB VRAM សាកល្បង

IndexTTS-2

ត្រួតពិនិត្យអារម្មណ៍ គ្រាប់សូន្យ វ៉ិចទ័រអារម្មណ៍ ការនិយាយដែលបង្ហាញ វត្ថុបញ្ជាមានគ្រាប់ល្អិត

Zero-shot TTS ជាមួយការត្រួតពិនិត្យអារម្មណ៍ល្អិតល្អន់ និងការបង្ហាញខ្ពស់ ។

Spark TTS

ការក្លូនសំឡេង ការត្រួតពិនិត្យអារម្មណ៍ វត្ថុបញ្ជារចនាប័ទ្ម ផ្អែកលើការសួរ ក្លូន៥វិនាទី

ក្លូនសំឡេង TTS ជាមួយអារម្មណ៍ដែលអាចត្រួតពិនិត្យបាន និងរចនាប័ទ្មនិយាយតាមរយៈការជូនដំណឹង ។

GPT-SoVITS

ក្លូន ៥ វិនាទី សំឡេងច្រៀង ការរៀនតិចតួច ភាពត្រឹមត្រូវខ្ពស់ ភាសាចម្រុះ

សំឡេងខ្លីដែលបានចម្លង TTS ដែលចម្លងសំឡេងណាមួយពីតែ៥ វិនាទីនៃអូឌីយ៉ូ ។

យឺត · 6GB VRAM សាកល្បង

Orpheus

អារម្មណ៍កម្រិតមនុស្ស 100K ម៉ោងនៃការបណ្តុះបណ្តាល ការបន្លិចធម្មជាតិ ការនិយាយដែលបង្ហាញ

ម៉ូដែល TTS កម្រិតមនុស្សដែលមានអារម្មណ៍ត្រូវបានបណ្តុះបណ្តាលលើ 100K ម៉ោងនៃទិន្នន័យនិយាយ។

Chatterbox

ក្លូន Zero- shot ត្រួតពិនិត្យអារម្មណ៍ ភាពត្រឹមត្រូវខ្ពស់ ផ្ទេររចនាប័ទ្ម ក្លូនគំរូតែមួយ

state-of-the-art សំឡេងក្លែងក្លាយដោយគ្មានការបាញ់ដោយមានការត្រួតពិនិត្យអារម្មណ៍ពី Resemble AI ។

Tortoise TTS

គុណភាពខ្ពស់បំផុត សំឡេងច្រើន ស្ថាបត្យកម្ម DALL- E ការក្លូនសំឡេង ថយក្រោយដោយស្វ័យប្រវត្តិ

អត្ថបទទៅការនិយាយសំឡេងច្រើនផ្តោតលើគុណភាពជាមួយស្ថាបត្យកម្មត្រឡប់ទៅវិញដោយស្វ័យប្រវត្តិ ។

យឺត · 8GB VRAM សាកល្បង

StyleTTS 2

កម្រិតមនុស្ស ការបែងចែករចនាប័ទ្ម ការហ្វឹកហាត់ប្រកួតប្រជែង ភាពខុសគ្នាធម្មជាតិ ភាពត្រឹមត្រូវខ្ពស់

អត្ថបទទៅជាការនិយាយកម្រិតមនុស្សតាមរយៈការពង្រីករចនាប័ទ្ម និងការបណ្តុះបណ្តាលដែលមានការប្រកួតប្រជែង ។

OpenVoice

ក្លូនភ្លាមៗ ការបម្លែងសំឡេង ត្រួតពិនិត្យអារម្មណ៍ វត្ថុបញ្ជាវណ្ណយុត្ត ភាសាច្រើន

ការក្លូនសំឡេងភ្លាមៗជាមួយការត្រួតពិនិត្យក្រឡាលើរចនាប័ទ្ម អារម្មណ៍ និងសំឡេងរំខាន ។

Qwen3 TTS

កំណត់ជាមុនសំឡេង ៩ ការរចនាសំឡេងពីអត្ថបទ ត្រួតពិនិត្យអារម្មណ៍ ភាសា

Alibaba's multilingual TTS with preset voices and voice design from text.

មធ្យម · 7GB VRAM សាកល្បង

VieNeu-TTS-v2

៧ សំឡេងកំណត់ជាមុន (វណ្ណយុត្តខាងជើង + ខាងត្បូង) ការប្ដូរកូដ En-Vi ការក្លូនសំឡេង (យោង 3- 5s) គាំទ្រផតខាស់ / ឧបករណ៍និយាយច្រើន ស៊ីភីយូតែប៉ុណ្ណោះ — មិនត្រូវការ GPU ទេ

វៀតណាម + អង់គ្លេស កូដ-ប្តូរ TTS ជាមួយ7សំឡេងដែលបានកំណត់ជាមុននិងសូន្យ-គ្រាប់កាំភ្លើងក្លូនសំឡេង. CPU-តែប៉ុណ្ណោះ, មិន GPU ដែលត្រូវការ.

ថេរ · CPU VRAM សាកល្បង

Sesame CSM

ការនិយាយ កាលបរិច្ឆេទធម្មជាតិ បង្វិល ឆានែលខាងក្រោយ ប៉ារ៉ាម៉ែត្រ 1B

ម៉ូដែលការនិយាយការសន្ទនាបង្កើតប្រអប់ធម្មតាជាមួយពេលវេលាសមរម្យ និងអារម្មណ៍ ។

យឺត · 8GB VRAM សាកល្បង

Chatterbox Turbo

ភាពយឺតក្រោម- ២០០ ម. វិ. ស្លាកភាសាប៉ារ៉ា ពេលវេលាពិត ៦x ការក្លូនសំឡេង សម្គាល់ទឹក

Chatterbox រហ័សជាងមុនជាមួយនឹងការរង់ចាំក្រោម 200ms និងស្លាក paralinguistic សម្រាប់ការញញឹម ហៀរក និងច្រើនទៀត ។

ថេរ · 2GB VRAM សាកល្បង

VoxCPM

អូឌីយ៉ូ 44. 1kHz គ្មានកម្មវិធីបង្កើតនិមិត្តសញ្ញា ការក្លូនភាសាចម្រុះ បរិបទដែលមានចំណាប់អារម្មណ៍ ការលៃតម្រូវលម្អិត LoRA

Tokenizer- ឥតគិតថ្លៃ TTS ផលិត 44. 1kHz អូឌីយ៉ូ ជាមួយ បរិបទ- ដឹង មាត្រា ភាព ឆបគ្នា.

ថេរ · 4GB VRAM សាកល្បង

Kani TTS 2

៣ ជីកាបៃ VRAM រហ័សបំផុត ស្រាល កូដិកណាណូ ឥតគិតថ្លៃ

ម៉ូដែល TTS អង់គ្លេស 400M ធ្ងន់ធ្ងរដែលរត់ក្នុង VRAM 3GB ប៉ុណ្ណោះ។

ថេរ · 3GB VRAM សាកល្បង

OuteTTS

ការសន្និដ្ឋានរបស់ស៊ីភីយូ ការសន្និដ្ឋានកម្មវិធីរុករក កម្មវិធីខាងក្រោយច្រើន ទម្រង់អ្នកនិយាយ

LLM-based TTS ដែលរត់នៅលើ CPU, GPU, ឬកម្មវិធីរុករកតាមរយៈ llama.cpp និង Transformers.js ។

យឺត · 2GB VRAM សាកល្បង

VibeVoice

ធុងបាសច្រើន រហូតដល់ ៩០ នាទី ការបង្កើតផតខាស់ ភាពឆបគ្នារបស់អ្នកនិយាយ ស្ទ្រីម ២០០ ម. អេ.

ម៉ូដែល Microsoft សម្រាប់មាតិកាអ្នកនិយាយច្រើនបែបបទវែងដូចជាផតខាស់ និងសៀវភៅអូឌីយ៉ូ ។

ថេរ · 4GB VRAM សាកល្បង

Pocket TTS

ប៉ារ៉ាម៉ែត្រ 100M ការសន្និដ្ឋានរបស់ស៊ីភីយូ ការក្លូនសំឡេង ក្លូនគំរូតែមួយ ត្រៀមជាស្រេចសម្រាប់គែម

ម៉ូដែលប៉ារ៉ាម៉ែត្រ 100M ស្រាលដោយ Kyutai ជាមួយការចម្លងសំឡេងពីគំរូតែមួយ។

ថេរ · 1GB VRAM សាកល្បង

Kitten TTS

ការសន្និដ្ឋានតែស៊ីភីយូប៉ុណ្ណោះ ទំហំម៉ូដែលក្រោម 80MB សំឡេងខាងក្នុង ៨ ត្រួតពិនិត្យល្បឿន ផ្អែកលើ ONNX លទ្ធផល ២៤ គីឡូហឺត

TTS ធន់ខ្លាំងក្រោម 80MB ។ រត់លើស៊ីភីយូដោយគ្មាន GPU ។

ថេរ · 0GB VRAM សាកល្បង

CosyVoice3

ស្ទ្រីមទ្វេ ត្រួតពិនិត្យអារម្មណ៍ ការក្លូនសំឡេង ល្បឿន/ កម្រិតសំឡេងត្រួតពិនិត្យ ពាក្យបញ្ជាបន្ទាប់

TTS ជំនាន់ក្រោយជាច្រើនភាសាជាមួយការស្ទ្រីមពីរដង ការត្រួតពិនិត្យអារម្មណ៍ និងការក្លូនសំឡេងសូន្យគ្រាប់។

ថេរ · 4GB VRAM សាកល្បង

NAMAA Saudi TTS

ភាសាអារ៉ាប់សាអូឌីតName អារ៉ាប់ស្តង់ដារសម័យថ្មី ការក្លូនសំឡេង Zero-shot ត្រួតពិនិត្យអារម្មណ៍ ការបញ្ចេញសំឡេងដើម

បើក TTS ភាសាអារ៉ាប់សាអូឌីតដំបូងគេ ។ ភាសាសាអូឌីតដើមជាមួយការក្លូនសំឡេងគុណភាព Chatterbox ។

មធ្យម · 6GB VRAM សាកល្បង

Darwin TTS

ការក្លូនសំឡេង ភាសាចម្រុះ លាយដោយ FFN ភាសាសំខាន់ ៤ ផ្នែកខាងក្រោយ Qwen3

ប្រភេទឆ្លងរបៀប Qwen3- TTS ជាមួយទម្ងន់ FFN លាយពីម៉ូដែលភាសា Qwen3- 1. 7B សម្រាប់ការក្លូនភាសាច្រើនច្បាស់ជាងមុន ។

មធ្យម · 7GB VRAM សាកល្បង

MOSS-TTSD

ប្រអប់អ្នកនិយាយច្រើន ដល់ទៅ៥ធុងបាស អូឌីយ៉ូដែលមានភាពឆបគ្នា 60min ការក្លូនសំឡេង ការធ្វើឲ្យផតខាស់ប្រសើរ

ម៉ូដែលបន្តការសន្ទនាជាមួយអ្នកនិយាយច្រើន - បង្កើតការសន្ទនាបែបផែន podcast ជាមួយអ្នកនិយាយរហូតដល់ទៅ5នាក់និង 60 នាទីនៃអូឌីយ៉ូដែលទាក់ទងគ្នា។

មធ្យម · 12GB VRAM សាកល្បង

Ming-Omni TTS

លទ្ធផល 44. 1kHz ការក្លូនសំឡេង ត្រួតពិនិត្យអារម្មណ៍ វត្ថុបញ្ជាអក្ខរាវិរុទ្ធ ការបង្កើត BGM បង្ហាប់ ០. ៥B

ម៉ូដែលសម្លេង omni-modal 0.5B ដ៏តូចមួយពី inclusionAI ជាមួយនឹងលទ្ធផល 44.1kHz ខ្ពស់និងការចម្លងសំឡេងសូន្យ។

មធ្យម · 3GB VRAM សាកល្បង

MOSS-TTS Nano