អត្ថបទទៅការនិយាយ AIName

បម្លែងអត្ថបទទៅជាការនិយាយដែលមានសំឡេងធម្មជាតិជាមួយម៉ូដែល AI ប្រភពបើកចំហ ។ ប្រើដោយឥតគិតថ្លៃ គ្មានគណនីដែលត្រូវការ ។

ចុះឈ្មោះដោយឥតគិតថ្លៃ

យើងមិនមានសំឡេង TTS ក្នុងភាសារបស់អ្នកនៅឡើយទេ & # 160; ។ ជួយយើងបន្ថែមរបស់អ្នក & # 160;! លក់សំឡេងរបស់អ្នក

0/500 តួអក្សរ · ចុះឈ្មោះសម្រាប់ 5,000 ក្នុងមួយជំនាន់ →

ចុះឈ្មោះ កំណត់សម្រាប់តួអក្សរ ៥, ០០០

របៀប SSML (ភាសាសម្គាល់ការសំយោគការនិយាយសម្រាប់ការត្រួតពិនិត្យល្អិត)

រុំអត្ថបទរបស់អ្នកក្នុងស្លាក SSML សម្រាប់ការត្រួតពិនិត្យជាក់លាក់ & # 160; ៖

<speak><prosody rate="slow">Slow speech</prosody></speak>

សញ្ញាអារម្មណ៍/ រចនាប័ទ្ម

បន្ថែមសញ្ញាសម្គាល់អារម្មណ៍ដើម្បីជះឥទ្ធិពលដល់ការផ្ដល់ (ការគាំទ្រម៉ូដែលខុសៗគ្នា) & # 160; ៖

វចនានុក្រមការបញ្ចេញសំឡេង

កំណត់ការបញ្ចេញសំឡេងផ្ទាល់ខ្លួន (ពាក្យ = ការបញ្ចេញសំឡេង) & # 160; ៖

កម្រិតសំឡេង 0

-12 +12

ម៉ូដែល AI

សំឡេង

ភាសា

ទ្រង់ទ្រាយលទ្ធផល

ល្បឿន 1.0x

0.5x 2.0x

ឥតគិតថ្លៃជាមួយ Piper, VITS, MeloTTS

អូឌីយ៉ូដែលបានបង្កើតរបស់អ្នកនឹងលេចឡើងនៅទីនេះ & # 160; ។ ជ្រើសម៉ូដែល បញ្ចូលអត្ថបទ ហើយចុច បង្កើត & # 160; ។

សេចក្ដីលម្អិតម៉ូដែល

Kitten TTS

Free

Kitten TTS by KittenML is an ultra-lightweight text-to-speech model built on ONNX. With variants from 15M to 80M parameters (25-80 MB on disk), it delivers high-quality voice synthesis on CPU without requiring a GPU. Features 8 built-in voices, adjustable speech speed, and built-in text preprocessing for numbers, currencies, and units. Ideal for edge deployment and low-latency applications.

អ្នកអភិវឌ្ឍន៍ & # 160; ៖	KittenML
អាជ្ញាបណ្ណ & # 160; ៖	Apache 2.0
ល្បឿន	Fast
គុណភាព & # 160; ៖
ភាសា	1 ភាសា
VRAM	0GB
ការក្លូនសំឡេង	មិនគាំទ្រ

លក្ខណៈពិសេស:

CPU-only inference Under 80MB model size 8 built-in voices Speed control ONNX-based 24kHz output

ល្អបំផុតសម្រាប់ & # 160; ៖: Fast lightweight TTS, edge deployment, low-latency applications

ព័ត៌មានជំនួយសម្រាប់លទ្ធផលល្អប្រសើរ

ប្រើវណ្ណយុត្តត្រឹមត្រូវសម្រាប់ការផ្អាកធម្មជាតិ និងការបញ្ចេញសំឡេង
អក្ខរាវិរុទ្ធលេខ និងអក្សរកាត់សម្រាប់ការបញ្ចេញសំឡេងច្បាស់ជាង
បន្ថែមសញ្ញាក្បៀសដើម្បីបង្កើតការសម្រាកខ្លីរវាងឃ្លា
ប្រើសញ្ញា (...) សម្រាប់ការផ្អាកដ៏វែងឆ្ងាយ
ព្យាយាម Kokoro ឬ CosyVoice2សម្រាប់លទ្ធផលធម្មជាតិបំផុត
ប្រើ Dia សម្រាប់ប្រអប់អ្នកនិយាយច្រើន និងមាតិកាផតខាស់

ការប្រើតួអក្សរ

ផ្កាយ	តម្លៃក្នុងមួយតួអក្សរ 1K
ទំនេរ	១: ១ (ឥតគិតថ្លៃ)
លំនាំដើម	2 ពិន្ទុ / 1K តួអក្សរ
តម្លៃខ្ពស់	4 ពិន្ទុ / 1K តួអក្សរ

យកតួអក្សរបន្ថែម

របៀបដែល AI អត្ថបទទៅការនិយាយធ្វើការ

បង្កើតសំឡេងគុណភាពវិជ្ជាជីវៈក្នុងជំហានសាមញ្ញបី ។ គ្មានចំណេះដឹងបច្ចេកទេសដែលត្រូវការ ។

ជំហានទី ១

បញ្ចូលអត្ថបទរបស់អ្នក

វាយ បិទភ្ជាប់ ឬ ផ្ទុកឡើង អត្ថបទដែលអ្នកចង់បម្លែងទៅជាការនិយាយ & # 160; ។ គាំទ្ររហូតដល់ ៥, ០០០ តួអក្សរក្នុងមួយជំនាន់ សម្រាប់អ្នកប្រើដែលបានចូល & # 160; ។ ប្រើអត្ថបទធម្មតា ឬ បន្ថែមស្លាក SSML សម្រាប់ការត្រួតពិនិត្យកម្រិតខ្ពស់លើការបញ្ចេញសំឡេង ការផ្អាក និងការសង្កត់ធ្ងន់ & # 160; ។

ជំហានទី ២

ជ្រើសម៉ូដែល និងសំឡេង

ជ្រើសពី 20+ ម៉ូដែល AI លើបីកម្រិត។ ជ្រើសសំឡេងដែលសមនឹងមាតិការបស់អ្នកជ្រើសរើសភាសាគោលដៅរបស់អ្នកលៃតម្រូវល្បឿនចាក់ពី 0.5x ទៅ 2.0x និងជ្រើសទ្រង់ទ្រាយលទ្ធផលដែលអ្នកចូលចិត្ត (MP3, WAV, OGG, ឬ FLAC) ។

ជំហាន ៣

បង្កើត និងទាញយក

ចុច បង្កើត ហើយអូឌីយ៉ូរបស់អ្នកគឺរួចរាល់ក្នុងរយៈពេលពីរវិនាទី & # 160; ។ មើលជាមុនជាមួយកម្មវិធីចាក់ខាងក្នុង ទាញយកក្នុងទ្រង់ទ្រាយដែលបានជ្រើសរបស់អ្នក ឬចម្លងតំណដែលអាចចែករំលែកបាន & # 160; ។ ប្រើ API សម្រាប់ដំណើរការបាច់ និងការបញ្ចូលទៅក្នុងលំហូរការងាររបស់អ្នក & # 160; ។

អត្ថបទទៅប្រើករណីនិយាយ

AI-powered text-to-speech កំពុងផ្លាស់ប្តូររបៀបដែលមនុស្សបង្កើត បរិភោគ និងទំនាក់ទំនងជាមួយមាតិកាអូឌីយ៉ូនៅទូទាំងឧស្សាហកម្មជាច្រើន។

សៀវភៅអូឌីយ៉ូ

បម្លែងសៀវភៅទាំងមូលទៅជាសៀវភៅអូឌីយ៉ូដែលមានសំឡេងធម្មជាតិជាមួយការនិយាយគុណភាពស្ទូឌីយោ ។ គាំទ្រអ្នកនិយាយច្រើនជាមួយ Dia សម្រាប់ប្រអប់តួអក្សរ ។

វីដេអូនិយាយជាមួយគ្នា

បង្កើត voiceovers វិជ្ជាជីវៈសម្រាប់ YouTube, TikTok, Instagram Reels, និង Shorts. 100+ សំឡេងឬក្លូនផ្ទាល់ខ្លួនរបស់អ្នក.

ផតខាស់

បង្កើតប៉ុស្តិ៍ផតខាស់ពីស្គ្រីបដែលមានសំឡេង AI ច្រើន ។ ប្រើ Dia សម្រាប់ការសន្ទនាអ្នកនិយាយពីរធម្មជាតិ ។

ល្បែងName

សំឡេង AI សម្តែងសម្រាប់ហ្គេម indie, រឿងនិទានមើលឃើញនិងរឿងនិទានអន្តរកម្ម។ ប្រអប់ NPC, សំឡេង cutscene, 30+ ភាសា។

ការរៀនតាមអ៊ីនធឺណិត

បម្លែងសម្ភារៈវគ្គ វគ្គបង្រៀន និងមាតិកាការបណ្តុះបណ្តាលទៅជាអូឌីយ៉ូ ។ ការគាំទ្រភាសាច្រើនសម្រាប់វេទិកាសកល ។

ការចូលដំណើរការ

បង្កើតតំបន់បណ្ដាញ ឯកសារ និងកម្មវិធីដែលអាចចូលដំណើរការបាន ។ ការបញ្ចូលកម្មវិធីអានអេក្រង់ API និងការបម្លែងអត្ថបទទៅជាអូឌីយ៉ូ ។

ប្រព័ន្ធទូរស័ព្ទ & IVR

ប្រព័ន្ធ IVR ថាមពល, ម៉ឺនុយទូរស័ព្ទ, និងសេវាអតិថិជនជាមួយនឹងសំឡេងធម្មជាតិ AI. ទាប latency ស្ទ្រីមសម្រាប់មជ្ឈមណ្ឌលហៅ.

បណ្ដាញសង្គម

TikTok narrations, Instagram Reels, Twitter / X commentary, YouTube Shorts ។ ការបង្កើតរហ័សជាមួយម៉ូដែលឥតគិតថ្លៃ។

ស្ទ្រីម

ការជូនដំណឹង Twitch TTS, ការជជែកកំសាន្តទៅជាសំឡេង, AI សហម្ចាស់និង Discord bots ។ ភាពយឺតយ៉ាវទាប, 100+ សំឡេង, ឆបគ្នាជាមួយ StreamElements ។

ទីផ្សារ

ផ្សាយពាណិជ្ជកម្ម voiceovers, វីដេអូពន្យល់, ការបង្ហាញផលិតផលនិងការបង្ហាញការលក់។ មាត្រដ្ឋានផលិតកម្មមាតិកាអូឌីយ៉ូនៅលើយុទ្ធនាការ។

ការបកប្រែជាសំឡេង និងការកំណត់ទីតាំង

បកប្រែនិង dub វីដេអូទៅជា 30 + ភាសាជាមួយ AI សំឡេងដែលសមស្រប។ ការបកប្រែដោយស្វ័យប្រវត្តិនិងការរកឃើញអ្នកនិយាយ។

វិញ្ញាណ & សុខភាព

មេរៀន ចិត្ត វិនិច្ឆ័យ រឿង ដេក សម្រាក កាយ វិការ និង ការ បញ្ជាក់ ជាមួយ ស្ងប់ស្ងាត់, សម្លេង AI រំជួលចិត្ត.

មើលករណីប្រើ និងឧបករណ៍ទាំងអស់

ម៉ូដែលអត្ថបទទៅជាការនិយាយទាំងអស់

ការបញ្ជាក់លម្អិតសម្រាប់ម៉ូដែល AI ទាំងអស់ដែលអាចរកបាននៅលើ TTS.ai ។ ប្រៀបធៀបគុណភាពល្បឿនការគាំទ្រភាសានិងលក្ខណៈពិសេសដើម្បីរកម៉ូដែលល្អឥតខ្ចោះសម្រាប់គម្រោងរបស់អ្នក។

Kokoro

Free

Kokoro គឺជាម៉ូដែលអត្ថបទទៅជាសំឡេងប៉ារ៉ាម៉ែត្រ 82 លាននាក់ដែលវាយល្អប្រសើរជាងថ្នាក់ទម្ងន់របស់ខ្លួន។ ទោះបីជាទំហំតូចក៏ដោយវាផលិតការនិយាយដែលគួរឱ្យកត់សម្គាល់និងមានលក្ខណៈធម្មជាតិ។ Kokoro គាំទ្រភាសាច្រើនរួមទាំងភាសាអង់គ្លេសជប៉ុនចិននិងកូរ៉េជាមួយនឹងសំឡេងបង្ហាញផ្សេងៗ។ វារត់យ៉ាងលឿនខ្លាំងណាស់ - បង្កើតអូឌីយ៉ូជិត 100x រហ័សជាងពេលពិតនៅលើ GPU ។

អ្នកអភិវឌ្ឍន៍ & # 160; ៖:
Hexgrad

អាជ្ញាបណ្ណ & # 160; ៖:
Apache 2.0

ល្បឿន:
Fast

គុណភាព & # 160; ៖:

ភាសា:
en, ja, zh, fr, it, pt, es, hi

VRAM:
1.5GB

ការក្លូនសំឡេង:
គ្មាន

តម្លៃក្នុងមួយតួអក្សរ 1K:
ទំនេរ

ប៉ារ៉ាម៉ែត្រ 82M រហ័សបំផុត សំឡេងបង្ហាញ ភាសាច្រើន ការគាំទ្រស្ទ្រីម

ល្អបំផុតសម្រាប់ & # 160; ៖: TTS គុណភាពខ្ពស់ជាមួយការពន្យារអប្បបរមា កម្មវិធីស្ទ្រីម

ព្យាយាម Kokoro

Piper

Free

Piper គឺជាម៉ាស៊ីនអត្ថបទទៅជាសំឡេងស្រាលដែលត្រូវបានអភិវឌ្ឍន៍ដោយ Rhasspy ដែលប្រើស្ថាបត្យកម្ម VITS និង larynx ។ វារត់ទាំងស្រុងនៅលើស៊ីភីយូធ្វើឱ្យវាសមស្របសម្រាប់ឧបករណ៍កំរិតស្វ័យប្រវត្តិកម្មផ្ទះនិងកម្មវិធីដែលត្រូវការ TTS ក្រៅបណ្តាញ។ ជាមួយនឹងសំឡេងជាង 100 លើភាសា 30 + Piper ផ្ដល់នូវការនិយាយដែលមានសំឡេងធម្មជាតិនៅល្បឿនពេលវេលាពិតប្រាកដសូម្បីតែនៅលើ Raspberry Pi 4។

អ្នកអភិវឌ្ឍន៍ & # 160; ៖:
Rhasspy

អាជ្ញាបណ្ណ & # 160; ៖:
MIT

ល្បឿន:
Fast

គុណភាព & # 160; ៖:

ភាសា:
en, de, fr, es, it, pt, nl, pl, ru, zh, ar, cs, da, fi, el, hu, is, ka, kk, ne, no, ro, sk, sr, sv, sw, tr, uk, vi

VRAM:
0 (CPU only)

ការក្លូនសំឡេង:
គ្មាន

តម្លៃក្នុងមួយតួអក្សរ 1K:
ទំនេរ

ស៊ីភីយូដែលមានសុវត្ថិភាព ក្រៅបណ្ដាញអាចធ្វើបាន សំឡេង ១០០+ 30+ ភាសា ការគាំទ្រ SSML

ល្អបំផុតសម្រាប់ & # 160; ៖: ការមើលជាមុនរហ័ស មធ្យោបាយងាយស្រួល និងកម្មវិធីដែលបានបង្កប់

ព្យាយាម Piper

VITS

Free

VITS (ការសន្និដ្ឋានខុសគ្នាជាមួយការរៀនដែលមានការប្រឈមមុខសម្រាប់ការរៀនពីចុងទៅចុងអត្ថបទទៅជាការនិយាយ) គឺជាវិធីសាស្ត្រ TTS មួយដែលបង្កើតសំឡេងធម្មជាតិជាងម៉ូដែលដំណាក់កាលពីរបច្ចុប្បន្ន។ វាប្រើការសន្និដ្ឋានខុសគ្នាដែលបានបង្កើនដោយការធ្វើឲ្យលំហូរធម្មតា និងដំណើរការហ្វឹកហាត់ដែលមានការប្រឈមមុខគ្នាដើម្បីសម្រេចបានការកែលម្អគួរឲ្យកត់សម្គាល់ក្នុងភាពធម្មជាតិ ។

អ្នកអភិវឌ្ឍន៍ & # 160; ៖:
Jaehyeon Kim et al.

អាជ្ញាបណ្ណ & # 160; ៖:
MIT

ល្បឿន:
Fast

គុណភាព & # 160; ៖:

ភាសា:
en, de, es, fr, pt, nl, fi, hu, bg, uk, pl

VRAM:
1GB

ការក្លូនសំឡេង:
គ្មាន

តម្លៃក្នុងមួយតួអក្សរ 1K:
ទំនេរ

ការសំយោគពីចុងទៅចុង ព្យាង្គធម្មជាតិ ការសន្និដ្ឋានរហ័ស ធុងបាសច្រើន

ល្អបំផុតសម្រាប់ & # 160; ៖: អត្ថបទទៅការនិយាយគោលបំណងទូទៅជាមួយនឹងការនិយាយធម្មតា

ព្យាយាម VITS

MeloTTS

Free

MeloTTS ដោយ MyShell.ai គឺជាបណ្ណាល័យ TTS ច្រើនភាសាដែលគាំទ្រភាសាអង់គ្លេស (អាមេរិក, អង់គ្លេស, ឥណ្ឌា, អូស្ត្រាលី), អេស្ប៉ាញ, បារាំង, ចិន, ជប៉ុននិងកូរ៉េ។ វាគឺលឿនខ្លាំងណាស់, ដំណើរការអត្ថបទនៅល្បឿនពេលពិតប្រាកដនៅជិត CPU ម្នាក់ឯង។ MeloTTS ត្រូវបានរចនាឡើងសម្រាប់ការប្រើប្រាស់ផលិតកម្មនិងគាំទ្រទាំង CPU និង GPU និន្នាការ។

អ្នកអភិវឌ្ឍន៍ & # 160; ៖:
MyShell.ai

អាជ្ញាបណ្ណ & # 160; ៖:
MIT

ល្បឿន:
Fast

គុណភាព & # 160; ៖:

ភាសា:
en, es, fr, zh, ja, ko

VRAM:
0.5GB (GPU optional)

ការក្លូនសំឡេង:
គ្មាន

តម្លៃក្នុងមួយតួអក្សរ 1K:
ទំនេរ

បានធ្វើឲ្យស៊ីភីយូប្រសើរ ភាសាច្រើន វណ្ណយុត្តច្រើន រួចរាល់សម្រាប់ផលិតកម្ម ការពន្យារទាប

ល្អបំផុតសម្រាប់ & # 160; ៖: កម្មវិធីផលិតកម្មដែលត្រូវការ TTS រហ័ស និងច្រើនភាសា

ព្យាយាម MeloTTS

Bark

Standard

Bark ដោយ Suno គឺជាម៉ូដែលអត្ថបទទៅជាអូឌីយ៉ូដែលមានមូលដ្ឋានលើការផ្លាស់ប្តូរដែលអាចបង្កើតការនិយាយជាភាសាច្រើនដែលពិតជាមានពិតប្រាកដនិងអូឌីយ៉ូផ្សេងទៀតដូចជាតន្ត្រីសំឡេងរំខានផ្ទៃខាងក្រោយនិងបែបផែនសំឡេង។ វាអាចផលិតការទំនាក់ទំនងមិននិយាយដូចជាការញញឹម យំ និងយំ។ Bark គាំទ្រជាង 100 ភាសានិង 13+ ភាសា។

អ្នកអភិវឌ្ឍន៍ & # 160; ៖:
Suno

អាជ្ញាបណ្ណ & # 160; ៖:
MIT

ល្បឿន:
Slow

គុណភាព & # 160; ៖:

ភាសា:
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr

VRAM:
5GB

ការក្លូនសំឡេង:
គ្មាន

តម្លៃក្នុងមួយតួអក្សរ 1K:
2x

បែបផែនសំឡេង ញញឹម / យំ ការបង្កើតតន្ត្រី ឧបករណ៍និយាយ 100+ ភាសាច្រើន

ល្អបំផុតសម្រាប់ & # 160; ៖: មាតិកាអូឌីយ៉ូច្នៃប្រឌិត សៀវភៅអូឌីយ៉ូជាមួយអារម្មណ៍ បែបផែនសំឡេង

ព្យាយាម Bark

Bark Small

Standard

Bark Small គឺជាកំណែដែលបានដកស្រង់ពីម៉ូដែល Bark ដែលផ្លាស់ប្ដូរគុណភាពអូឌីយ៉ូមួយចំនួនសម្រាប់ល្បឿនការសន្និដ្ឋានដែលលឿនជាងមុន និងតម្រូវការសតិទាបជាងមុន & # 160; ។ វារក្សាទុកសមត្ថភាពរបស់ Bark ដើម្បីបង្កើតការនិយាយជាមួយនឹងអារម្មណ៍ ភាពសប្បាយរីករាយ និងភាសាច្រើន & # 160; ។

អ្នកអភិវឌ្ឍន៍ & # 160; ៖:
Suno

អាជ្ញាបណ្ណ & # 160; ៖:
MIT

ល្បឿន:
Medium

គុណភាព & # 160; ៖:

ភាសា:
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr

VRAM:
2GB

ការក្លូនសំឡេង:
គ្មាន

តម្លៃក្នុងមួយតួអក្សរ 1K:
2x

ទម្ងន់ស្រាល រហ័សជាងស្រទាប់ពេញ ការនិយាយដែលមានអារម្មណ៍ ភាសាច្រើន

ល្អបំផុតសម្រាប់ & # 160; ៖: អូឌីយ៉ូច្នៃប្រឌិតរហ័សនៅពេលដែលការបាក់ពេញលេញយឺតពេក

ព្យាយាម Bark Small

CosyVoice 2

Standard

CosyVoice2ដោយ Alibaba's Tongyi Lab សម្រេចបាននូវគុណភាពនៃការនិយាយដែលប្រៀបធៀបមនុស្សជាមួយនឹងការពន្យារពេលទាបបំផុតធ្វើឱ្យវាសមស្របសម្រាប់កម្មវិធីពេលវេលាពិតប្រាកដ។ វាប្រើវិធីសាស្រ្ត quantumization scalar ដែលបានកំណត់សម្រាប់ការសំយោគស្ទ្រីមនិងគាំទ្រការចម្លងសំឡេងសូន្យការសំយោគភាសាឆ្លងកាត់និងការត្រួតពិនិត្យអារម្មណ៍ល្អ។ វាធ្វើបានល្អជាងប្រព័ន្ធ TTS ពាណិជ្ជកម្មជាច្រើននៅក្នុងការវាយតម្លៃ subjective ។

អ្នកអភិវឌ្ឍន៍ & # 160; ៖:
Alibaba (Tongyi Lab)

អាជ្ញាបណ្ណ & # 160; ៖:
Apache 2.0

ល្បឿន:
Medium

គុណភាព & # 160; ៖:

ភាសា:
en, zh, ja, ko, fr, de, it, es

VRAM:
4GB

ការក្លូនសំឡេង:
បាទ/ ចាស

តម្លៃក្នុងមួយតួអក្សរ 1K:
2x

ស្ទ្រីម ការក្លូន Zero- Shot ភាសាចម្រុះ ការត្រួតពិនិត្យអារម្មណ៍ ភាពស្មើគ្នារបស់មនុស្ស

ល្អបំផុតសម្រាប់ & # 160; ៖: កម្មវិធីពេលវេលាពិត ស្ទ្រីម TTS អ្នកជំនួយការសំឡេង

ព្យាយាម CosyVoice 2

Dia TTS

Standard

Dia ដោយ Nari Labs គឺជាម៉ូដែលអត្ថបទ-ទៅ-ការនិយាយប៉ារ៉ាម៉ែត្រ 1.6B ដែលរចនាឡើងជាពិសេសសម្រាប់បង្កើតប្រអប់សំឡេងច្រើន។ វាអាចផលិតការសន្ទនាដែលមានសំឡេងធម្មជាតិរវាងអ្នកនិយាយពីរនាក់ជាមួយនឹងការផ្លាស់ប្តូរសមរម្យ prosody និងការបង្ហាញអារម្មណ៍។ Dia គឺល្អឥតខ្ចោះសម្រាប់បង្កើតមាតិកាបែបផែន Podcast ប្រអប់សំឡេងសៀវភៅអូឌីយ៉ូនិង AI និយាយអន្តរកម្ម។

អ្នកអភិវឌ្ឍន៍ & # 160; ៖:
Nari Labs

អាជ្ញាបណ្ណ & # 160; ៖:
Apache 2.0

ល្បឿន:
Medium

គុណភាព & # 160; ៖:

ភាសា:
en

VRAM:
4GB

ការក្លូនសំឡេង:
គ្មាន

តម្លៃក្នុងមួយតួអក្សរ 1K:
2x

ធុងបាសច្រើន ការបង្កើតប្រអប់ បង្វិលដោយធម្មជាតិ កន្សោមអារម្មណ៍ ប៉ារ៉ាម៉ែត្រ 1. 6B

ល្អបំផុតសម្រាប់ & # 160; ៖: ផតខាស់ ប្រអប់សៀវភៅអូឌីយ៉ូ មាតិកាការសន្ទនា

ព្យាយាម Dia TTS

Parler TTS

Standard

Parler TTS គឺជាម៉ូដែលអត្ថបទទៅជាការនិយាយដែលប្រើសេចក្ដីពិពណ៌នាសំឡេងភាសាធម្មជាតិដើម្បីបញ្ជាការនិយាយដែលបានបង្កើត & # 160; ។ ជំនួសឲ្យការជ្រើសពីសំឡេងដែលបានកំណត់ជាមុន អ្នកពិពណ៌នាសំឡេងដែលអ្នកចង់បាន (ឧទាហរណ៍ "សំឡេងស្ត្រីដែលមានសំឡេងអង់គ្លេសបន្តិចបន្តួច និយាយយឺតៗ និងច្បាស់) ហើយ Parler បង្កើតការនិយាយដែលផ្គូផ្គងនឹងសេចក្ដីពិពណ៌នានោះ & # 160; ។ នេះធ្វើឲ្យវាមានភាពទន់ភ្លន់សម្រាប់កម្មវិធីច្នៃប្រឌិត & # 160; ។

អ្នកអភិវឌ្ឍន៍ & # 160; ៖:
Hugging Face

អាជ្ញាបណ្ណ & # 160; ៖:
Apache 2.0

ល្បឿន:
Medium

គុណភាព & # 160; ៖:

ភាសា:
en

VRAM:
4GB

ការក្លូនសំឡេង:
គ្មាន

តម្លៃក្នុងមួយតួអក្សរ 1K:
2x

ការពិពណ៌នាសំឡេង វត្ថុបញ្ជាភាសាធម្មជាតិ ការបង្កើតសំឡេងដែលអាចបត់បែនបាន គ្មានសំឡេងដែលបានកំណត់ជាមុនដែលត្រូវការទេ

ល្អបំផុតសម្រាប់ & # 160; ៖: កម្មវិធីច្នៃប្រឌិតដែលអ្នកត្រូវការលក្ខណៈពិសេសសំឡេងផ្ទាល់ខ្លួន

ព្យាយាម Parler TTS

GLM-TTS

Standard

GLM-TTS by Zhipu AI isatext-to-speech system built on the Llama architecture with flow matching. It achieves the lowest character error rate among open-source TTS models, meaning it produces the most accurate pronunciation. GLM-TTS supports English and Chinese with voice cloning from 3-10 second audio samples.

អ្នកអភិវឌ្ឍន៍ & # 160; ៖:
Zhipu AI

អាជ្ញាបណ្ណ & # 160; ៖:
GLM-4 License

ល្បឿន:
Medium

គុណភាព & # 160; ៖:

ភាសា:
en, zh

VRAM:
4GB

ការក្លូនសំឡេង:
បាទ/ ចាស

តម្លៃក្នុងមួយតួអក្សរ 1K:
2x

អត្រាកំហុសទាបបំផុត ការក្លូនសំឡេង ការផ្គូផ្គងលំហូរ ព្យាង្គធម្មជាតិ

ល្អបំផុតសម្រាប់ & # 160; ៖: កម្មវិធីដែលត្រូវការភាពត្រឹមត្រូវនៃការបញ្ចេញសំឡេងអតិបរមាName

ព្យាយាម GLM-TTS

IndexTTS-2

Standard

IndexTTS-2 គឺជាប្រព័ន្ធអត្ថបទទៅជាការនិយាយកម្រិតខ្ពស់ដែលល្អឥតខ្ចោះនៅក្នុងការសំយោគសំឡេងសូន្យគ្រាប់ជាមួយនឹងការត្រួតពិនិត្យអារម្មណ៍ល្អិតល្អន់ & # 160; ។ វាអាចបង្កើតការនិយាយជាមួយនឹងសំឡេងអារម្មណ៍ជាក់លាក់ដូចជាសប្បាយរីករាយ សោកសៅ ខឹង ឬភ័យខ្លាច ដោយមិនចាំបាច់ទិន្នន័យហ្វឹកហាត់អារម្មណ៍ជាក់លាក់ & # 160; ។ ម៉ូដែលប្រើវ៉ិចទ័រអារម្មណ៍ដើម្បីត្រួតពិនិត្យយ៉ាងត្រឹមត្រូវនូវការបង្ហាញអារម្មណ៍នៃការនិយាយដែលបានបង្កើត & # 160; ។

អ្នកអភិវឌ្ឍន៍ & # 160; ៖:
Index Team

អាជ្ញាបណ្ណ & # 160; ៖:
Bilibili Model License

ល្បឿន:
Medium

គុណភាព & # 160; ៖:

ភាសា:
en, zh

VRAM:
4GB

ការក្លូនសំឡេង:
បាទ/ ចាស

តម្លៃក្នុងមួយតួអក្សរ 1K:
2x

ត្រួតពិនិត្យអារម្មណ៍ គ្រាប់សូន្យ វ៉ិចទ័រអារម្មណ៍ ការនិយាយដែលបង្ហាញ វត្ថុបញ្ជាមានគ្រាប់ល្អិត

ល្អបំផុតសម្រាប់ & # 160; ៖: មាតិកាដែលបង្ហាញអារម្មណ៍ សៀវភៅអូឌីយ៉ូ អ្នកជំនួយការនិម្មិត

ព្យាយាម IndexTTS-2

Spark TTS

Standard

Spark TTS ដោយ SparkAudio គឺជាគំរូអត្ថបទទៅជាការនិយាយដែលរួមបញ្ចូលការចម្លងសំឡេងជាមួយនឹងអារម្មណ៍ដែលអាចគ្រប់គ្រងបាន និងរចនាប័ទ្មនិយាយ ។ ដោយប្រើតែ5វិនាទីនៃអូឌីយ៉ូយោង វាអាចចម្លងសំឡេង ហើយបង្កើតការនិយាយជាមួយនឹងអារម្មណ៍ ល្បឿន និងរចនាប័ទ្មផ្សេងគ្នា ខណៈពេលដែលរក្សាអត្តសញ្ញាណសំឡេងដែលបានចម្លង ។ Spark TTS ប្រើប្រព័ន្ធត្រួតពិនិត្យដែលមានមូលដ្ឋានលើការជូនដំណឹង ។

អ្នកអភិវឌ្ឍន៍ & # 160; ៖:
SparkAudio

អាជ្ញាបណ្ណ & # 160; ៖:
CC BY-NC-SA 4.0

ល្បឿន:
Medium

គុណភាព & # 160; ៖:

ភាសា:
en, zh

VRAM:
4GB

ការក្លូនសំឡេង:
បាទ/ ចាស

តម្លៃក្នុងមួយតួអក្សរ 1K:
2x

ការក្លូនសំឡេង ការត្រួតពិនិត្យអារម្មណ៍ វត្ថុបញ្ជារចនាប័ទ្ម ផ្អែកលើការសួរ ក្លូន៥វិនាទី

ល្អបំផុតសម្រាប់ & # 160; ៖: ការបង្កើតមាតិកាដោយប្រើសំឡេងក្លូន និងការត្រួតពិនិត្យអារម្មណ៍

ព្យាយាម Spark TTS

GPT-SoVITS

Standard

GPT- SoVITS រួមបញ្ចូលការរចនាម៉ូដភាសារចនាប័ទ្ម GPT ជាមួយ SoVITS (ការច្រៀងសំឡេងតាមរយៈការបកប្រែ និងការសំយោគ) សម្រាប់ការក្លូនសំឡេងខ្លីមានឥទ្ធិពល ។ ជាមួយនឹងតិចជាង5វិនាទីនៃអូឌីយ៉ូយោង វាអាចក្លូនសំឡេងយ៉ាងត្រឹមត្រូវ និងបង្កើតការនិយាយថ្មីខណៈពេលរក្សាលក្ខណៈពិសេសតែមួយគត់របស់អ្នកនិយាយ ។ វាល្អបំផុតទាំងការនិយាយ និងការច្រៀងសំឡេង ។

អ្នកអភិវឌ្ឍន៍ & # 160; ៖:
RVC-Boss

អាជ្ញាបណ្ណ & # 160; ៖:
MIT

ល្បឿន:
Slow

គុណភាព & # 160; ៖:

ភាសា:
en, zh, ja, ko

VRAM:
6GB

ការក្លូនសំឡេង:
បាទ/ ចាស

តម្លៃក្នុងមួយតួអក្សរ 1K:
2x

ក្លូន ៥ វិនាទី សំឡេងច្រៀង ការរៀនតិចតួច ភាពត្រឹមត្រូវខ្ពស់ ភាសាចម្រុះ

ល្អបំផុតសម្រាប់ & # 160; ៖: ការក្លូនសំឡេង ការសំយោគការច្រៀង ការចម្លងសំឡេងអ្នកបង្កើតមាតិកា

ព្យាយាម GPT-SoVITS

Orpheus

Standard

Orpheus គឺជាគំរូអត្ថបទទៅជាការនិយាយដែលមានទំហំធំដែលសម្រេចបាននូវការបង្ហាញអារម្មណ៍កម្រិតមនុស្ស & # 160; ។ បានហ្វឹកហាត់លើទិន្នន័យការនិយាយច្រើនជាង 100, 000 ម៉ោង វាល្អឥតខ្ចោះក្នុងការបង្កើតការនិយាយជាមួយនឹងអារម្មណ៍ធម្មជាតិ ការសង្កត់ធ្ងន់ និងរចនាប័ទ្មការនិយាយ & # 160; ។ Orpheus អាចផលិតការនិយាយដែលស្ទើរតែមិនអាចបំបែកបានពីការថតរបស់មនុស្ស & # 160; ។

អ្នកអភិវឌ្ឍន៍ & # 160; ៖:
Canopy Labs

អាជ្ញាបណ្ណ & # 160; ៖:
Llama 3.2 Community

ល្បឿន:
Medium

គុណភាព & # 160; ៖:

ភាសា:
en

VRAM:
4GB

ការក្លូនសំឡេង:
គ្មាន

តម្លៃក្នុងមួយតួអក្សរ 1K:
2x

អារម្មណ៍កម្រិតមនុស្ស 100K ម៉ោងនៃការបណ្តុះបណ្តាល ការបន្លិចធម្មជាតិ ការនិយាយដែលបង្ហាញ

ល្អបំផុតសម្រាប់ & # 160; ៖: ការនិយាយដែលមានគុណភាពខ្ពស់ សៀវភៅអូឌីយ៉ូ ការសម្ដែងសំឡេង

ព្យាយាម Orpheus

Chatterbox

Premium

Chatterbox ដោយ Resemble AI គឺជាម៉ូដែលចម្លងសំឡេងសូន្យដែលឈានមុខគេ។ វាអាចចម្លងសំឡេងណាមួយពីគំរូអូឌីយ៉ូតែមួយដែលមានភាពត្រឹមត្រូវគួរឱ្យកត់សម្គាល់មិនត្រឹមតែចាប់យកសំឡេងប៉ុណ្ណោះទេប៉ុន្តែថែមទាំងរចនាប័ទ្មនៃការនិយាយនិងភាពខុសគ្នានៃអារម្មណ៍។ Chatterbox ក៏មានលក្ខណៈពិសេសនៃការត្រួតពិនិត្យអារម្មណ៍ដែលល្អឥតខ្ចោះផងដែរដែលអនុញ្ញាតឱ្យអ្នកលៃតម្រូវសំឡេងអារម្មណ៍នៃសម្ដីដែលបង្កើតដោយឯករាជ្យពីអត្តសញ្ញាណសំឡេង។

អ្នកអភិវឌ្ឍន៍ & # 160; ៖:
Resemble AI

អាជ្ញាបណ្ណ & # 160; ៖:
MIT

ល្បឿន:
Medium

គុណភាព & # 160; ៖:

ភាសា:
en

VRAM:
4GB

ការក្លូនសំឡេង:
បាទ/ ចាស

តម្លៃក្នុងមួយតួអក្សរ 1K:
4x

ក្លូន Zero- shot ត្រួតពិនិត្យអារម្មណ៍ ភាពត្រឹមត្រូវខ្ពស់ ផ្ទេររចនាប័ទ្ម ក្លូនគំរូតែមួយ

ល្អបំផុតសម្រាប់ & # 160; ៖: ការក្លូនសំឡេងជំនាញជាមួយការត្រួតពិនិត្យអារម្មណ៍ ការបង្កើតមាតិកា

ព្យាយាម Chatterbox

Tortoise TTS

Premium

Tortoise TTS គឺជាប្រព័ន្ធអត្ថបទទៅជាការនិយាយដែលមានសំឡេងច្រើនដែលមានការត្រឡប់ទៅវិញដោយស្វ័យប្រវត្តិ ដែលផ្តល់អាទិភាពដល់គុណភាពអូឌីយ៉ូលើល្បឿន & # 160; ។ វាប្រើស្ថាបត្យកម្មដែលមានការចាប់អារម្មណ៍ពី DALL- E ដើម្បីបង្កើតការនិយាយដែលមានលក្ខណៈធម្មជាតិខ្ពស់ជាមួយនឹងការនិយាយដ៏ល្អ និងភាពស្រដៀងគ្នារបស់អ្នកនិយាយ & # 160; ។ ខណៈពេលដែលយឺតជាងជម្រើសជាច្រើន Tortoise ផលិតការនិយាយដែលមានលក្ខណៈពិតបំផុតដែលអាចរកបានក្នុងប្រព័ន្ធបរិស្ថានប្រភពបើកចំហ & # 160; ។

អ្នកអភិវឌ្ឍន៍ & # 160; ៖:
James Betker

អាជ្ញាបណ្ណ & # 160; ៖:
Apache 2.0

ល្បឿន:
Slow

គុណភាព & # 160; ៖:

ភាសា:
en

VRAM:
8GB

ការក្លូនសំឡេង:
បាទ/ ចាស

តម្លៃក្នុងមួយតួអក្សរ 1K:
4x

គុណភាពខ្ពស់បំផុត សំឡេងច្រើន ស្ថាបត្យកម្ម DALL- E ការក្លូនសំឡេង ថយក្រោយដោយស្វ័យប្រវត្តិ

ល្អបំផុតសម្រាប់ & # 160; ៖: សៀវភៅអូឌីយ៉ូ មាតិកាខ្ពស់ កម្មវិធីគុណភាពដំបូង

ព្យាយាម Tortoise TTS

StyleTTS 2

Premium

StyleTTS2សម្រេចបានការសំយោគ TTS កម្រិតមនុស្សដោយបន្សំរចនាប័ទ្មចម្រុះជាមួយនឹងការហ្វឹកហាត់ប្រឆាំងគ្នាដោយប្រើម៉ូដែលភាសានិយាយធំ ។ វាបង្កើតការនិយាយដែលមានសំឡេងធម្មជាតិបំផុតក្នុងចំណោមម៉ូដែលអ្នកនិយាយតែម្នាក់ឯង ដែលប្រកួតប្រជែងនឹងការថតមនុស្ស ។ StyleTTS2ប្រើម៉ូដែលរចនាប័ទ្មដែលមានមូលដ្ឋានលើការចម្រុះដើម្បីចាប់យកជួរពេញលេញនៃភាពខុសគ្នានៃការនិយាយរបស់មនុស្ស ។

អ្នកអភិវឌ្ឍន៍ & # 160; ៖:
Columbia University

អាជ្ញាបណ្ណ & # 160; ៖:
MIT

ល្បឿន:
Medium

គុណភាព & # 160; ៖:

ភាសា:
en

VRAM:
4GB

ការក្លូនសំឡេង:
គ្មាន

តម្លៃក្នុងមួយតួអក្សរ 1K:
4x

កម្រិតមនុស្ស ការបែងចែករចនាប័ទ្ម ការហ្វឹកហាត់ប្រកួតប្រជែង ភាពខុសគ្នាធម្មជាតិ ភាពត្រឹមត្រូវខ្ពស់

ល្អបំផុតសម្រាប់ & # 160; ៖: ការសំយោគអាប់ភ្លេតតែមួយគុណភាពស្ទូឌីយោ ការនិយាយជំនាញ

ព្យាយាម StyleTTS 2

OpenVoice

Premium

OpenVoice ដោយ MyShell.ai អនុញ្ញាតឱ្យមានសំឡេងភ្លាមៗជាមួយការត្រួតពិនិត្យ granular លើរចនាប័ទ្មសំឡេងអារម្មណ៍, សំឡេង, វោហាសាស្ត្រ, វោហាសាស្ត្រ, ផ្អាក, និង intonation ។ វាអាចក្លូនសំឡេងពីវីដេអូអូឌីយ៉ូខ្លីនិងបង្កើតការនិយាយនៅក្នុងភាសាជាច្រើនខណៈពេលដែលរក្សាអត្តសញ្ញាណអ្នកនិយាយ។ OpenVoice ក៏មានមុខងារជាកម្មវិធីបម្លែងសំឡេងផងដែរដែលអនុញ្ញាតឱ្យមានការបម្លែងសំឡេងពេលវេលាពិត។

អ្នកអភិវឌ្ឍន៍ & # 160; ៖:
MyShell.ai / MIT

អាជ្ញាបណ្ណ & # 160; ៖:
MIT

ល្បឿន:
Medium

គុណភាព & # 160; ៖:

ភាសា:
en, zh, ja, ko, fr, es

VRAM:
4GB

ការក្លូនសំឡេង:
បាទ/ ចាស

តម្លៃក្នុងមួយតួអក្សរ 1K:
4x

ក្លូនភ្លាមៗ ការបម្លែងសំឡេង ត្រួតពិនិត្យអារម្មណ៍ វត្ថុបញ្ជាវណ្ណយុត្ត ភាសាច្រើន

ល្អបំផុតសម្រាប់ & # 160; ៖: ការក្លូនសំឡេងដោយប្រើការត្រួតពិនិត្យរចនាប័ទ្មដែលមានគ្រាប់ល្អ ការបម្លែងសំឡេង

ព្យាយាម OpenVoice

Qwen3 TTS

Standard

Qwen3-TTS គឺជាម៉ូដែលអត្ថបទ-ទៅ-ការនិយាយដែលមានប៉ារ៉ាម៉ែត្រ 1.7 ពាន់លានដុល្លារពីក្រុម Qwen របស់ Alibaba ។ វាគាំទ្ររបៀបបីគឺ៖ កំណត់សំឡេងជាមុនជាមួយការគ្រប់គ្រងអារម្មណ៍ (9 ធុងបាស) ការចម្លងសំឡេងពី3វិនាទីនៃអូឌីយ៉ូនិងរបៀបរចនាសំឡេងតែមួយគត់ដែលអ្នកអាចពិពណ៌នាសំឡេងដែលអ្នកចង់បានក្នុងភាសាធម្មជាតិ។ វាគ្របដណ្តប់លើភាសា 10 ជាមួយនឹងការបង្ហាញខ្ពស់និង prosody ធម្មជាតិ។

អ្នកអភិវឌ្ឍន៍ & # 160; ៖:
Alibaba (Qwen)

អាជ្ញាបណ្ណ & # 160; ៖:
Apache 2.0

ល្បឿន:
Medium

គុណភាព & # 160; ៖:

ភាសា:
en, zh, ja, ko, de, fr, ru, pt, es, it

VRAM:
7GB

ការក្លូនសំឡេង:
បាទ/ ចាស

តម្លៃក្នុងមួយតួអក្សរ 1K:
2x

ការក្លូនសំឡេង ៩ សំឡេងកំណត់ជាមុន ការរចនាសំឡេងពីអត្ថបទ ត្រួតពិនិត្យអារម្មណ៍ ភាសា

ល្អបំផុតសម្រាប់ & # 160; ៖: មាតិកាច្រើនភាសាជាមួយការក្លូនសំឡេង ឬការរចនាសំឡេងផ្ទាល់ខ្លួន

ព្យាយាម Qwen3 TTS

Sesame CSM

Premium

Sesame CSM (Conversational Speech Model) គឺជាម៉ូដែលប៉ារ៉ាម៉ែត្រមួយពាន់លានដែលបានរចនាឡើងជាពិសេសសម្រាប់បង្កើតការនិយាយការសន្ទនា & # 160; ។ វាធ្វើម៉ូដែលលំនាំធម្មជាតិនៃការសន្ទនារបស់មនុស្សរួមទាំងការកំណត់ពេលវេលាការឆ្លើយតប backchannel ការឆ្លើយតបផ្លូវអារម្មណ៍ និងលំហូរការសន្ទនា & # 160; ។ CSM បង្កើតអូឌីយ៉ូដែលមានសំឡេងដូចជាការសន្ទនាមនុស្សធម្មតាជំនួសឲ្យការនិយាយសរីរាង្គ & # 160; ។

អ្នកអភិវឌ្ឍន៍ & # 160; ៖:
Sesame

អាជ្ញាបណ្ណ & # 160; ៖:
Apache 2.0

ល្បឿន:
Slow

គុណភាព & # 160; ៖:

ភាសា:
en

VRAM:
8GB

ការក្លូនសំឡេង:
គ្មាន

តម្លៃក្នុងមួយតួអក្សរ 1K:
4x

ការនិយាយ កាលបរិច្ឆេទធម្មជាតិ បង្វិល ឆានែលខាងក្រោយ ប៉ារ៉ាម៉ែត្រ 1B

ល្អបំផុតសម្រាប់ & # 160; ៖: អ្នកជំនួយការ AI, chatbots, កម្មវិធី AI និយាយ

ព្យាយាម Sesame CSM

Chatterbox Turbo

Standard

Chatterbox Turbo ដោយ Resemble AI គឺជាការធ្វើឱ្យប្រសើរប៉ារ៉ាម៉ែត្រ 350M ទៅ Chatterbox, ផ្គត់ផ្គង់រហូតដល់ទៅ 6x ល្បឿនពេលវេលាពិតប្រាកដជាមួយនឹងការពន្យារពេលក្រោម 200ms. វាគាំទ្រស្លាក paralinguistic ដូចជា [លាន់មាត់], [ហៀរសំបោរ], និង [ញញឹម] ដោយផ្ទាល់នៅក្នុងអត្ថបទ. រួមបញ្ចូលទាំងការដាក់ស្លាកទឹក Perth លើអូឌីយ៉ូដែលបានបង្កើតទាំងអស់សម្រាប់តាមដានប្រភព.

អ្នកអភិវឌ្ឍន៍ & # 160; ៖:
Resemble AI

អាជ្ញាបណ្ណ & # 160; ៖:
MIT

ល្បឿន:
Fast

គុណភាព & # 160; ៖:

ភាសា:
en

VRAM:
2GB

ការក្លូនសំឡេង:
បាទ/ ចាស

តម្លៃក្នុងមួយតួអក្សរ 1K:
2x

ភាពយឺតក្រោម- ២០០ ម. វិ. ស្លាកភាសាប៉ារ៉ា ពេលវេលាពិត ៦x ការក្លូនសំឡេង សម្គាល់ទឹក

ល្អបំផុតសម្រាប់ & # 160; ៖: ភ្នាក់ងារសំឡេងពេលវេលាពិត ការនិយាយដែលបង្ហាញដោយមានសំឡេងធម្មជាតិ

ព្យាយាម Chatterbox Turbo

VoxCPM

Standard

VoxCPM 1.5 ដោយ OpenBMB គឺជាម៉ូដែល TTS ថ្មីដែលគ្មាន tokenizer ដែលដំណើរការនៅក្នុងចន្លោះបន្តបន្ទាប់ជំនួសឱ្យតួអក្សរឯកជន។ វាផលិតអូឌីយ៉ូ 44.1kHz គុណភាពខ្ពស់គាំទ្រការចម្លងសំឡេងសូន្យពី 3-10 វិនាទីនិងរក្សាភាពឆបគ្នាតាមខ. ការចម្លងភាសាឆ្លងអនុញ្ញាតឱ្យអ្នកអនុវត្តសំឡេងអង់គ្លេសទៅជាសម្ដីចិននិង vice versa ។

អ្នកអភិវឌ្ឍន៍ & # 160; ៖:
OpenBMB

អាជ្ញាបណ្ណ & # 160; ៖:
Apache 2.0

ល្បឿន:
Fast

គុណភាព & # 160; ៖:

ភាសា:
en, zh

VRAM:
4GB

ការក្លូនសំឡេង:
បាទ/ ចាស

តម្លៃក្នុងមួយតួអក្សរ 1K:
2x

អូឌីយ៉ូ 44. 1kHz គ្មានកម្មវិធីបង្កើតនិមិត្តសញ្ញា ការក្លូនភាសាចម្រុះ បរិបទដែលមានចំណាប់អារម្មណ៍ ការលៃតម្រូវលម្អិត LoRA

ល្អបំផុតសម្រាប់ & # 160; ៖: អូឌីយ៉ូគុណភាពខ្ពស់ សៀវភៅអូឌីយ៉ូ មាតិកាទម្រង់វែងជាមួយភាពជាប់គ្នានៃសំឡេង

ព្យាយាម VoxCPM

Kani TTS 2

Free

Kani-TTS-2 ដោយ NineNineSix គឺជាម៉ូដែលប៉ារ៉ាម៉ែត្រ 400M ធ្ងន់ធ្ងរដែលសាងសង់ឡើងលើគ្រឹះ AI LFM2 ជាមួយ NVIDIA NanoCodec ។ វារត់ក្នុង VRAM 3GB ប៉ុណ្ណោះហើយផលិត ~ 10 វិនាទីនៃការនិយាយក្នុង ~2វិនាទីនៅលើ A100 (RTF 0.2) ។ កំណែសាធារណៈបច្ចុប្បន្នដឹកជញ្ជូនតែចំណុចត្រួតពិនិត្យ `kani-tts-2-en` ភាសាអង់គ្លេសប៉ុណ្ណោះហើយមិនបង្ហាញពី hook បញ្ចូលអ្នកនិយាយដែលត្រូវការសម្រាប់ក្លូនសំឡេងទេ - ប្រើ Chatterbox / IndexTTS2 / F5-TTS សម្រាប់ក្លូនឬ Kokoro / MeloTTS សម្រាប់ភាសាមិនអង់គ្លេស។

អ្នកអភិវឌ្ឍន៍ & # 160; ៖:
NineNineSix

អាជ្ញាបណ្ណ & # 160; ៖:
Apache 2.0

ល្បឿន:
Fast

គុណភាព & # 160; ៖:

ភាសា:
en

VRAM:
3GB

ការក្លូនសំឡេង:
គ្មាន

តម្លៃក្នុងមួយតួអក្សរ 1K:
ទំនេរ

៣ ជីកាបៃ VRAM រហ័សបំផុត ស្រាល កូដិកណាណូ ឥតគិតថ្លៃ

ល្អបំផុតសម្រាប់ & # 160; ៖: ការបង្កើតភាសាអង់គ្លេសរហ័សលើផ្នែករឹង VRAM ទាប ការមើលជាមុនរហ័ស

ព្យាយាម Kani TTS 2

OuteTTS

Free

OuteTTS ពង្រីកម៉ូដែលភាសាធំ ៗ ជាមួយសមត្ថភាពអត្ថបទទៅជាសំឡេង ខណៈពេលដែលរក្សាទុកស្ថាបត្យកម្មដើម។ វាគាំទ្រ backends ច្រើនរួមទាំង llama.cpp (CPU / GPU), Hugging Face Transformers, ExLlamaV2, VLLM និងសូម្បីតែការសន្និដ្ឋានកម្មវិធីរុករកតាមរយៈ Transformers.js ។ លក្ខណៈពិសេសការចម្លងសំឡេងដោយគ្មានការថតតាមរយៈទម្រង់អ្នកនិយាយដែលបានរក្សាទុកជា JSON ។

អ្នកអភិវឌ្ឍន៍ & # 160; ៖:
OuteAI

អាជ្ញាបណ្ណ & # 160; ៖:
Apache 2.0

ល្បឿន:
Fast

គុណភាព & # 160; ៖:

ភាសា:
en

VRAM:
2GB

ការក្លូនសំឡេង:
បាទ/ ចាស

តម្លៃក្នុងមួយតួអក្សរ 1K:
ទំនេរ

ការសន្និដ្ឋានរបស់ស៊ីភីយូ ការសន្និដ្ឋានកម្មវិធីរុករក ការក្លូនសំឡេង កម្មវិធីខាងក្រោយច្រើន ទម្រង់អ្នកនិយាយ

ល្អបំផុតសម្រាប់ & # 160; ៖: ការបែងចែកចំណុចប្រទាក់ TTS ផ្អែកលើកម្មវិធីរុករក បរិស្ថានធនធានទាប

ព្យាយាម OuteTTS

VibeVoice

Standard

VibeVoice របស់ Microsoft មានពីរប្រភេទ: ម៉ូដែល 1.5B សម្រាប់មាតិកាដែលមានទម្រង់វែង (រហូតដល់ទៅ 90 នាទី,4អ្នកនិយាយ) និង ម៉ូដែល Realtime 0.5B សម្រាប់ស្ទ្រីមជាមួយ ~ 200ms ភាពយឺតយ៉ាវអូឌីយ៉ូដំបូង។ ប្រភេទ 1.5B ល្អប្រសើរនៅ ផតខាស់ និង សៀវភៅអូឌីយ៉ូជាមួយនឹងភាពឆបគ្នានៃអ្នកនិយាយលើការឆ្លងកាត់វែង។ ចំណាំ: ក្រុមហ៊ុន Microsoft បានយកកូដ TTS ពីឃ្លាំង និង បង្កើត អូឌីយ៉ូ រួមមាន ការ ដក ចេញ AI ដែល ឮ ។

អ្នកអភិវឌ្ឍន៍ & # 160; ៖:
Microsoft

អាជ្ញាបណ្ណ & # 160; ៖:
MIT

ល្បឿន:
Fast

គុណភាព & # 160; ៖:

ភាសា:
en, zh

VRAM:
4GB

ការក្លូនសំឡេង:
គ្មាន

តម្លៃក្នុងមួយតួអក្សរ 1K:
2x

ធុងបាសច្រើន រហូតដល់ ៩០ នាទី ការបង្កើតផតខាស់ ភាពឆបគ្នារបស់អ្នកនិយាយ ស្ទ្រីម ២០០ ម. អេ.

ល្អបំផុតសម្រាប់ & # 160; ៖: ផតខាស់ សៀវភៅអូឌីយ៉ូ មាតិកាអ្នកនិយាយច្រើនបែបបទវែង

ព្យាយាម VibeVoice

Pocket TTS

Free

Pocket TTS ដោយ Kyutai (អ្នកបង្កើត Moshi) គឺជាម៉ូដែលអត្ថបទ-ទៅ-ការនិយាយប៉ារ៉ាម៉ែត្រ 100M ដ៏តូចមួយដែលវាយលុកល្អប្រសើរជាងទំងន់របស់វា។ វារត់យ៉ាងមានប្រសិទ្ធភាពនៅលើស៊ីភីយូគាំទ្រការចម្លងសំឡេងសូន្យពីគំរូអូឌីយ៉ូតែមួយនិងផលិតការនិយាយដែលមានសំឡេងធម្មជាតិ។ ទំហំម៉ូដែលតូចធ្វើឱ្យវាសមស្របសម្រាប់បញ្ជូនច្រកនិងបរិស្ថានដែលមានធនធានទាប។

អ្នកអភិវឌ្ឍន៍ & # 160; ៖:
Kyutai

អាជ្ញាបណ្ណ & # 160; ៖:
MIT

ល្បឿន:
Fast

គុណភាព & # 160; ៖:

ភាសា:
en, fr

VRAM:
1GB

ការក្លូនសំឡេង:
បាទ/ ចាស

តម្លៃក្នុងមួយតួអក្សរ 1K:
ទំនេរ

ប៉ារ៉ាម៉ែត្រ 100M ការសន្និដ្ឋានរបស់ស៊ីភីយូ ការក្លូនសំឡេង ក្លូនគំរូតែមួយ ត្រៀមជាស្រេចសម្រាប់គែម

ល្អបំផុតសម្រាប់ & # 160; ៖: ការបែងចែកស្រាល បរិស្ថានតែស៊ីភីយូ ក្លូនសំឡេងរហ័ស

ព្យាយាម Pocket TTS

Kitten TTS

Free

Kitten TTS ដោយ KittenML គឺជាម៉ូដែលអត្ថបទទៅជាសំឡេងដែលមានទំងន់ស្រាលបំផុតដែលបង្កើតឡើងនៅលើ ONNX ។ ជាមួយនឹងប៉ារ៉ាម៉ែត្រពី 15M ទៅ 80M (25-80 MB នៅលើថាស) វាផ្ដល់នូវការសំយោគសំឡេងដែលមានគុណភាពខ្ពស់នៅលើស៊ីភីយូដោយមិនចាំបាច់ត្រូវការ GPU ។ លក្ខណៈពិសេស 8 សំឡេងខាងក្នុងល្បឿននៃការនិយាយដែលអាចលៃតម្រូវបាននិងអត្ថបទដែលបានតំឡើងជាមុនសម្រាប់លេខរូបិយប័ណ្ណនិងឯកតា។ ល្អឥតខ្ចោះសម្រាប់កម្មវិធីបញ្ជូននិងកម្មវិធីអត្រាអត្រាទាប។

អ្នកអភិវឌ្ឍន៍ & # 160; ៖:
KittenML

អាជ្ញាបណ្ណ & # 160; ៖:
Apache 2.0

ល្បឿន:
Fast

គុណភាព & # 160; ៖:

ភាសា:
en

VRAM:
0GB

ការក្លូនសំឡេង:
គ្មាន

តម្លៃក្នុងមួយតួអក្សរ 1K:
ទំនេរ

ការសន្និដ្ឋានតែស៊ីភីយូប៉ុណ្ណោះ ទំហំម៉ូដែលក្រោម 80MB សំឡេងខាងក្នុង ៨ ត្រួតពិនិត្យល្បឿន ផ្អែកលើ ONNX លទ្ធផល ២៤ គីឡូហឺត

ល្អបំផុតសម្រាប់ & # 160; ៖: TTS ស្រាលលឿន ការបែងចែកចំណុចប្រទាក់ កម្មវិធីអត្រាពន្យារទាប

ព្យាយាម Kitten TTS

CosyVoice3

Standard

CosyVoice3 គឺជាការវិវឌ្ឍន៍ចុងក្រោយបំផុតពីក្រុម FunAudioLLM របស់ Alibaba ។ វាមានលក្ខណៈពិសេសនៃការសន្និដ្ឋាន bi-streaming ជាមួយនឹងការរង់ចាំ ~ 150ms ការគ្រប់គ្រងផ្អែកលើការណែនាំសម្រាប់អារម្មណ៍ / ល្បឿន / កម្រិតសំឡេងនិងភាពស្រដៀងគ្នានៃអ្នកនិយាយដែលបានកែលម្អសម្រាប់ការចម្លងសូន្យ។ គាំទ្រភាសា9បន្ថែមពីលើ 18 ភាសាចិន។ RL-tuned variant delivers state-of-the-art prosody ។

អ្នកអភិវឌ្ឍន៍ & # 160; ៖:
Alibaba (FunAudioLLM)

អាជ្ញាបណ្ណ & # 160; ៖:
Apache 2.0

ល្បឿន:
Fast

គុណភាព & # 160; ៖:

ភាសា:
en, zh, ja, ko, de, es, fr, it, ru

VRAM:
4GB

ការក្លូនសំឡេង:
បាទ/ ចាស

តម្លៃក្នុងមួយតួអក្សរ 1K:
2x

ស្ទ្រីមទ្វេ ត្រួតពិនិត្យអារម្មណ៍ ការក្លូនសំឡេង ល្បឿន/ កម្រិតសំឡេងត្រួតពិនិត្យ ពាក្យបញ្ជាបន្ទាប់

ល្អបំផុតសម្រាប់ & # 160; ៖: ផលិតកម្មភាសាច្រើន TTS កម្មវិធីពេលវេលាពិត ការក្លូនសំឡេង

ព្យាយាម CosyVoice3

NAMAA Saudi TTS

Standard

NAMAA Saudi TTS គឺជាការកែសម្រួលភាសាអារ៉ាប់សាអូឌីតនៃ ChatterboxMultilingual របស់ Resemble AI ។ ហ្វឹកហាត់ដោយ NAMAA Space លើការនិយាយភាសាអារ៉ាប់សាអូឌីតពិតប្រាកដវាផលិតការបញ្ចេញសំឡេងអារ៉ាប់ស្តង់ដារសម័យទំនើបនិងភាសាអារ៉ាប់សាអូឌីតដែលម៉ូដែលភាសាច្រើនទូទៅមិនអាចផ្គូផ្គងបាន។ ទទួលយកការចម្លងសំឡេងសូន្យនិងត្រួតពិនិត្យអារម្មណ៍តាមរយៈការជូនដំណឹងអូឌីយ៉ូយោងរបស់ Chatterbox ។ TTS អារ៉ាប់ដំបូងដែលបើកចំហត្រូវបានបញ្ជូនទៅ TTS.ai ។

អ្នកអភិវឌ្ឍន៍ & # 160; ៖:
NAMAA Space

អាជ្ញាបណ្ណ & # 160; ៖:
MIT

ល្បឿន:
Medium

គុណភាព & # 160; ៖:

ភាសា:
ar

VRAM:
6GB

ការក្លូនសំឡេង:
បាទ/ ចាស

តម្លៃក្នុងមួយតួអក្សរ 1K:
2x

ភាសាអារ៉ាប់សាអូឌីតName អារ៉ាប់ស្តង់ដារសម័យថ្មី ការក្លូនសំឡេង Zero-shot ត្រួតពិនិត្យអារម្មណ៍ ការបញ្ចេញសំឡេងដើម

ល្អបំផុតសម្រាប់ & # 160; ៖: មាតិកាអារ៉ាប់សម្រាប់ទស្សនិកជនសួដ, ការនិយាយ MSA, ភ្នាក់ងារសំឡេង Khaleeji-dialect, សៀវភៅអូឌីយ៉ូអារ៉ាប់

ព្យាយាម NAMAA Saudi TTS

Darwin TTS

Standard

Darwin-TTS-1.7B-Cross ដោយ FINAL-Bench គឺជា កំណែ ស្រាវជ្រាវ របស់ Qwen3-TTS-1.7B ដែល 84 talker-FFN tensors (8.6%) ត្រូវបាន លាយ នៅ α =3% ជាមួយ tensors សមរម្យ ពី Qwen3-1.7B-Base ។ លាយ ត្រូវបាន បង្កើត ដោយ គ្មាន ការ បណ្តុះបណ្តាល ឡើងវិញ និង ផលិត សំឡេង ចម្លង ភាសា ចម្លង ភាសា ចម្លង ភាសា ចម្លង ភាសា ចម្លង ភាសា ចម្លង ភាសា ចម្លង ភាសា ចម្លង ភាសា ចម្លង ភាសា ចម្លង ភាសា ចម្លង ភាសា ចម្លង ភាសា ចម្លង ភាសា ចម្លង ភាសា ចម្លង ភាសា ចម្លង ភាសា ចម្លង ភាសា ចម្លង ភាសា ចម្លង ភាសា ចម្លង ភាសា ចម្លង ភាសា ចម្លង ភាសា ចម្លង ភាសា ចម្លង ភាសា ចម្លង ភាសា ចម្លង ភាសា ចម្លង ភាសា ចម្លង ភាសា ចម្លង ភាសា ចម្លង ភាសា ចម្លង ភាសា ចម្លង ភាសា ចម្លង ភាសា ចម្លង ភាសា ចម្លង ភាសា ចម្លង ភាសា ចម្លង ភាសា ចម្លង ភាសា ចម្លង ភាសា ចម្លង ភាសា ចម្លង ភាសា ចម្លង ភាសា ចម្លង ភាសា ចម្លង ភាសា ចម្លង ភាសា ចម្លង ភាសា ចម្លង ភាសា ចម្លង ភាសា ចម្លង ភាសា ចម្លង ភាសា ចម្លង ភាសា ចម្លង ភាសា ចម្លង ភាសា ចម្លង ភាសា ចម្លង ភាសា ចម្លង ភាសា ចម្លង ភាសា ចម្លង ភាសា ចម្លង ភាសា ចម្លង ភាសា ចម្លង ភាសា ចម្លង ភាសា ចម្លង ភាសា ចម្លង ភាសា ចម្លង ភាសា ចម្លង ភាសា ចម្លង ភាសា ចម្ល

អ្នកអភិវឌ្ឍន៍ & # 160; ៖:
FINAL-Bench

អាជ្ញាបណ្ណ & # 160; ៖:
Apache 2.0

ល្បឿន:
Medium

គុណភាព & # 160; ៖:

ភាសា:
en, ko, ja, zh

VRAM:
7GB

ការក្លូនសំឡេង:
បាទ/ ចាស

តម្លៃក្នុងមួយតួអក្សរ 1K:
2x

ការក្លូនសំឡេង ភាសាចម្រុះ លាយដោយ FFN ភាសាសំខាន់ ៤ ផ្នែកខាងក្រោយ Qwen3

ល្អបំផុតសម្រាប់ & # 160; ៖: ក្លូនសំឡេងភាសាចម្រុះរវាងភាសាអង់គ្លេស / កូរ៉េ / ជប៉ុន / ចិនជាមួយនឹងសំឡេងយោងតែមួយ

ព្យាយាម Darwin TTS

MOSS-TTSD

Standard

MOSS-TTSD v1.0 ពី OpenMOSS គឺជា 7B គំរូ អត្ថបទ ទៅ និយាយ ប្រអប់ ដែល បន្ត ការ និយាយ ពី សំឡេង ខ្លី មួយ ព្រមាន. គាំទ្រ ដល់5អ្នក និយាយ រួម គ្នា តាមរយៈ [S1] / [S2] ស្លាក, គ្មាន គ្រាប់ បែក ក្លូន សំឡេង ពី 3-10s យោង សំឡេង, និង រហូតដល់ 60 នាទី នៃ ភាព ឆបគ្នា ច្រើន ជុំ ប្រអប់ លើ 20 ភាសា. ខុស គ្នា ពី MOSS-TTS - TTSD គឺ ពិសេស សម្រាប់ ផតខាស់ / សំឡេង សៀវភៅ / ច្រៀង លំហូ ការងារ.

អ្នកអភិវឌ្ឍន៍ & # 160; ៖:
OpenMOSS

អាជ្ញាបណ្ណ & # 160; ៖:
Apache 2.0

ល្បឿន:
Medium

គុណភាព & # 160; ៖:

ភាសា:
en, zh

VRAM:
12GB

ការក្លូនសំឡេង:
បាទ/ ចាស

តម្លៃក្នុងមួយតួអក្សរ 1K:
2x

ប្រអប់អ្នកនិយាយច្រើន ដល់ទៅ៥ធុងបាស អូឌីយ៉ូដែលមានភាពឆបគ្នា 60min ការក្លូនសំឡេង ការធ្វើឲ្យផតខាស់ប្រសើរ

ល្អបំផុតសម្រាប់ & # 160; ៖: ផតខាស់ សៀវភៅអូឌីយ៉ូ ប្រអប់ដែលបានបកប្រែ មាតិកាការសន្ទនាជាមួយនឹងសំឡេងច្រើន

ព្យាយាម MOSS-TTSD

Ming-Omni TTS

Free

Ming-omni-tts-0.5B ដោយ inclusionAI គឺជាម៉ូដែលនិយាយ omni-modal ដ៏តូចមួយដែលត្រូវបានសាងសង់ឡើងនៅលើឆ្អឹងខ្នង BailingMM ដែលមានភាពជិតស្និទ្ធជាមួយកម្មវិធីឌិកូដអូឌីយ៉ូដែលសមស្របនឹង Patch-by-Patch ។ ផ្តល់នូវលទ្ធផល 44.1kHz (ជិតគុណភាពស៊ីឌី) គាំទ្រការចម្លងសំឡេងសូន្យពីឯកសារយោង 3+ វិនាទីនិងរួមបញ្ចូលការត្រួតពិនិត្យអារម្មណ៍ / ភាសា / BGM តាមរយៈការណែនាំ JSON ។ ស្ថេរភាពល្អ - 0.83% WER លើចំណុចប្រទាក់ចិន។

អ្នកអភិវឌ្ឍន៍ & # 160; ៖:
inclusionAI

អាជ្ញាបណ្ណ & # 160; ៖:
Apache 2.0

ល្បឿន:
Medium

គុណភាព & # 160; ៖:

ភាសា:
en, zh

VRAM:
3GB

ការក្លូនសំឡេង:
បាទ/ ចាស

តម្លៃក្នុងមួយតួអក្សរ 1K:
ទំនេរ

លទ្ធផល 44. 1kHz ការក្លូនសំឡេង ត្រួតពិនិត្យអារម្មណ៍ វត្ថុបញ្ជាអក្ខរាវិរុទ្ធ ការបង្កើត BGM បង្ហាប់ ០. ៥B

ល្អបំផុតសម្រាប់ & # 160; ៖: ភាពស្មោះត្រង់ខ្ពស់ការនិយាយពីរភាសាការសម្ដែងសំឡេងដែលបានត្រួតពិនិត្យដោយអារម្មណ៍មាតិកាសៀវភៅអូឌីយ៉ូចិន

ព្យាយាម Ming-Omni TTS

Kokoro

ទំនេរ

Kokoro is an 82 million parameter text-to-speech model that punches well above its weight class. Despite its tiny size, it produces remarkably natural and expressive speech. Kokoro supports multiple languages including English, Japanese, Chinese, and Korean with a variety of expressive voices. It runs incredibly fast — generating audio nearly 100x faster than real-time on a GPU.

អ្នកអភិវឌ្ឍន៍ & # 160; ៖:
Hexgrad

អាជ្ញាបណ្ណ & # 160; ៖:
Apache 2.0

ល្បឿន:
Fast

គុណភាព & # 160; ៖:

ភាសា: en, ja, zh, fr, it, pt, es, hi

ល្អបំផុតសម្រាប់ & # 160; ៖: High-quality TTS with minimal latency, streaming applications

សាកល្បងដោយឥតគិតថ្លៃ

Piper

ទំនេរ

Piper is a lightweight text-to-speech engine developed by Rhasspy that uses VITS and larynx architectures. It runs entirely on CPU, making it ideal for edge devices, home automation, and applications requiring offline TTS. With over 100 voices across 30+ languages, Piper delivers natural-sounding speech at real-time speeds even on a Raspberry Pi 4.

អ្នកអភិវឌ្ឍន៍ & # 160; ៖:
Rhasspy

អាជ្ញាបណ្ណ & # 160; ៖:
MIT

ល្បឿន:
Fast

គុណភាព & # 160; ៖:

ភាសា: en, de, fr, es, it, pt, nl, pl, ru, zh, ar, cs, da, fi, el, hu, is, ka, kk, ne, no, ro, sk, sr, sv, sw, tr, uk, vi

ល្អបំផុតសម្រាប់ & # 160; ៖: Quick previews, accessibility, and embedded applications

សាកល្បងដោយឥតគិតថ្លៃ

VITS

ទំនេរ

VITS (Variational Inference with adversarial learning for end-to-end Text-to-Speech) is a parallel end-to-end TTS method that generates more natural sounding audio than current two-stage models. It adopts variational inference augmented with normalizing flows and an adversarial training process, achieving a significant improvement in naturalness.

អ្នកអភិវឌ្ឍន៍ & # 160; ៖:
Jaehyeon Kim et al.

អាជ្ញាបណ្ណ & # 160; ៖:
MIT

ល្បឿន:
Fast

គុណភាព & # 160; ៖:

ភាសា: en, de, es, fr, pt, nl, fi, hu, bg, uk, pl

ល្អបំផុតសម្រាប់ & # 160; ៖: General-purpose text-to-speech with natural prosody

សាកល្បងដោយឥតគិតថ្លៃ

MeloTTS

ទំនេរ

MeloTTS by MyShell.ai is a multilingual TTS library supporting English (American, British, Indian, Australian), Spanish, French, Chinese, Japanese, and Korean. It is extremely fast, processing text at near real-time speed on CPU alone. MeloTTS is designed for production use and supports both CPU and GPU inference.

អ្នកអភិវឌ្ឍន៍ & # 160; ៖:
MyShell.ai

អាជ្ញាបណ្ណ & # 160; ៖:
MIT

ល្បឿន:
Fast

គុណភាព & # 160; ៖:

ភាសា: en, es, fr, zh, ja, ko

ល្អបំផុតសម្រាប់ & # 160; ៖: Production applications needing fast, multilingual TTS

សាកល្បងដោយឥតគិតថ្លៃ

Kani TTS 2

ទំនេរ

Kani-TTS-2 by NineNineSix is an ultra-lightweight 400M parameter model built on a Liquid AI LFM2 backbone with NVIDIA NanoCodec. It runs in just 3GB VRAM and produces ~10 seconds of speech in ~2 seconds on an A100 (RTF 0.2). The current public release ships an English-only `kani-tts-2-en` checkpoint and does not expose the speaker-embedding hook needed for voice cloning — use Chatterbox / IndexTTS2 / F5-TTS for cloning, or Kokoro / MeloTTS for non-English.

អ្នកអភិវឌ្ឍន៍ & # 160; ៖:
NineNineSix

អាជ្ញាបណ្ណ & # 160; ៖:
Apache 2.0

ល្បឿន:
Fast

គុណភាព & # 160; ៖:

ភាសា: en

ល្អបំផុតសម្រាប់ & # 160; ៖: Fast English generation on low-VRAM hardware, quick previews

សាកល្បងដោយឥតគិតថ្លៃ

OuteTTS

ទំនេរ

OuteTTS extends large language models with text-to-speech capabilities while preserving the original architecture. It supports multiple backends including llama.cpp (CPU/GPU), Hugging Face Transformers, ExLlamaV2, VLLM, and even browser inference via Transformers.js. Features zero-shot voice cloning through speaker profiles saved as JSON.

អ្នកអភិវឌ្ឍន៍ & # 160; ៖:
OuteAI

អាជ្ញាបណ្ណ & # 160; ៖:
Apache 2.0

ល្បឿន:
Fast

គុណភាព & # 160; ៖:

ភាសា: en

ល្អបំផុតសម្រាប់ & # 160; ៖: Edge deployment, browser-based TTS, low-resource environments

សាកល្បងដោយឥតគិតថ្លៃ

Pocket TTS

ទំនេរ

Pocket TTS by Kyutai (creators of Moshi) is a compact 100M parameter text-to-speech model that punches well above its weight. It runs efficiently on CPU, supports zero-shot voice cloning from a single audio sample, and produces natural-sounding speech. The small model size makes it ideal for edge deployment and low-resource environments.

អ្នកអភិវឌ្ឍន៍ & # 160; ៖:
Kyutai

អាជ្ញាបណ្ណ & # 160; ៖:
MIT

ល្បឿន:
Fast

គុណភាព & # 160; ៖:

ភាសា: en, fr

ល្អបំផុតសម្រាប់ & # 160; ៖: Lightweight deployment, CPU-only environments, quick voice cloning

សាកល្បងដោយឥតគិតថ្លៃ

Kitten TTS

ទំនេរ

អ្នកអភិវឌ្ឍន៍ & # 160; ៖:
KittenML

អាជ្ញាបណ្ណ & # 160; ៖:
Apache 2.0

ល្បឿន:
Fast

គុណភាព & # 160; ៖:

ភាសា: en

ល្អបំផុតសម្រាប់ & # 160; ៖: Fast lightweight TTS, edge deployment, low-latency applications

ម៉ូដែល	អ្នកអភិវឌ្ឍន៍ & # 160; ៖	ផ្កាយ	ល្បឿន	ភាសា	VRAM	អាជ្ញាបណ្ណ & # 160; ៖	ក្រេឌីត
Kokoro	Hexgrad	Free	Fast	8	1.5GB	Apache 2.0	ទំនេរ	ប្រើ
Piper	Rhasspy	Free	Fast	29	0 (CPU only)	MIT	ទំនេរ	ប្រើ
VITS	Jaehyeon Kim et al.	Free	Fast	11	1GB	MIT	ទំនេរ	ប្រើ
MeloTTS	MyShell.ai	Free	Fast	6	0.5GB (GPU optional)	MIT	ទំនេរ	ប្រើ
Bark	Suno	Standard	Slow	13	5GB	MIT	2	ប្រើ
Bark Small	Suno	Standard	Medium	13	2GB	MIT	2	ប្រើ
CosyVoice 2	Alibaba (Tongyi Lab)	Standard	Medium	8	4GB	Apache 2.0	2	ប្រើ
Dia TTS	Nari Labs	Standard	Medium	1	4GB	Apache 2.0	2	ប្រើ
Parler TTS	Hugging Face	Standard	Medium	1	4GB	Apache 2.0	2	ប្រើ
GLM-TTS	Zhipu AI	Standard	Medium	2	4GB	GLM-4 License	2	ប្រើ
IndexTTS-2	Index Team	Standard	Medium	2	4GB	Bilibili Model License	2	ប្រើ
Spark TTS	SparkAudio	Standard	Medium	2	4GB	CC BY-NC-SA 4.0	2	ប្រើ
GPT-SoVITS	RVC-Boss	Standard	Slow	4	6GB	MIT	2	ប្រើ
Orpheus	Canopy Labs	Standard	Medium	1	4GB	Llama 3.2 Community	2	ប្រើ
Chatterbox	Resemble AI	Premium	Medium	1	4GB	MIT	4	ប្រើ
Tortoise TTS	James Betker	Premium	Slow	1	8GB	Apache 2.0	4	ប្រើ
StyleTTS 2	Columbia University	Premium	Medium	1	4GB	MIT	4	ប្រើ
OpenVoice	MyShell.ai / MIT	Premium	Medium	6	4GB	MIT	4	ប្រើ
Qwen3 TTS	Alibaba (Qwen)	Standard	Medium	10	7GB	Apache 2.0	2	ប្រើ
Sesame CSM	Sesame	Premium	Slow	1	8GB	Apache 2.0	4	ប្រើ
Chatterbox Turbo	Resemble AI	Standard	Fast	1	2GB	MIT	2	ប្រើ
VoxCPM	OpenBMB	Standard	Fast	2	4GB	Apache 2.0	2	ប្រើ
Kani TTS 2	NineNineSix	Free	Fast	1	3GB	Apache 2.0	ទំនេរ	ប្រើ
OuteTTS	OuteAI	Free	Fast	1	2GB	Apache 2.0	ទំនេរ	ប្រើ
VibeVoice	Microsoft	Standard	Fast	2	4GB	MIT	2	ប្រើ
Pocket TTS	Kyutai	Free	Fast	2	1GB	MIT	ទំនេរ	ប្រើ
Kitten TTS	KittenML	Free	Fast	1	0GB	Apache 2.0	ទំនេរ	ប្រើ
CosyVoice3	Alibaba (FunAudioLLM)	Standard	Fast	9	4GB	Apache 2.0	2	ប្រើ
NAMAA Saudi TTS	NAMAA Space	Standard	Medium	1	6GB	MIT	2	ប្រើ
Darwin TTS	FINAL-Bench	Standard	Medium	4	7GB	Apache 2.0	2	ប្រើ
MOSS-TTSD	OpenMOSS	Standard	Medium	2	12GB	Apache 2.0	2	ប្រើ
Ming-Omni TTS	inclusionAI	Free	Medium	2	3GB	Apache 2.0	ទំនេរ	ប្រើ

វេទិកាអត្ថបទទៅជាការនិយាយរបស់ AI ដែលមានលក្ខណៈទូលំទូលាយបំផុត

ហេតុអ្វីបានជាជ្រើសរើស TTS.ai សម្រាប់អត្ថបទទៅជាសម្ដី?

TTS.ai នាំមកនូវម៉ូដែលអត្ថបទ-ទៅ-ការនិយាយដែលមានប្រភពបើកចំហល្អបំផុតនៅលើពិភពលោកនៅក្នុងវេទិកាតែមួយងាយស្រួលប្រើ។ មិនដូចសេវាកម្មដែលមានកម្មសិទ្ធិដែលចាក់សោអ្នកនៅក្នុងម៉ាស៊ីនសំឡេងតែមួយទេ TTS.ai ផ្តល់ឱ្យអ្នកនូវការចូលដំណើរការទៅម៉ូដែល 20+ ពីមន្ទីរពិសោធន៍ស្រាវជ្រាវឈានមុខគេរួមមាន Coqui, MyShell, Amphion, NVIDIA, Suno, HuggingFace, សាកលវិទ្យាល័យ Tsinghua និងច្រើនទៀត។

ម៉ូដែលនីមួយៗគឺជាប្រភពបើកចំហក្រោម MIT, Apache 2.0 ឬអាជ្ញាប័ណ្ណអនុញ្ញាតស្រដៀងគ្នាដែលធានាថាអ្នកមានសិទ្ធិពាណិជ្ជកម្មពេញលេញដើម្បីប្រើអូឌីយ៉ូដែលបានបង្កើតក្នុងគម្រោងរបស់អ្នក ។ ថាតើអ្នកត្រូវការការបញ្ចូលគ្នាលឿន និងស្រាលសម្រាប់កម្មវិធីពេលវេលាពិត ឬលទ្ធផលគុណភាពស្ទូឌីយោខ្ពស់សម្រាប់សៀវភៅអូឌីយ៉ូ និងផតខាស់ TTS.ai មានម៉ូដែលត្រឹមត្រូវសម្រាប់ករណីប្រើនីមួយៗ ។

ម៉ូដែលឥតគិតថ្លៃ, គ្មានគណនីដែលត្រូវការ

ចាប់ផ្ដើមភ្លាមៗជាមួយម៉ូដែល TTS ឥតគិតថ្លៃបី: Piper (លឿនខ្លាំង, ទម្ងន់ស្រាល), VITS (ការសំយោគសរសៃប្រសាទដែលមានគុណភាពខ្ពស់) និង MeloTTS (ការគាំទ្រភាសាច្រើន) ។ គ្មានការចុះឈ្មោះ, គ្មានកាតឥណទាន, គ្មានដែនកំណត់លើជំនាន់។ ម៉ូដែលឥតគិតថ្លៃគាំទ្រភាសាអង់គ្លេសនិងភាសាផ្សេងទៀតជាច្រើនជាមួយលទ្ធផលសំឡេងធម្មជាតិសមរម្យសម្រាប់កម្មវិធីភាគច្រើន។

ការដំណើរការដែលបានបង្កើនល្បឿនដោយ GPU

ម៉ូដែល TTS ទាំងអស់រត់នៅលើ GPU NVIDIA ដែលបានដាក់បញ្ចូលសម្រាប់ពេលវេលាបង្កើតដែលឆាប់រហ័សនិងមានស្ថេរភាព។ ម៉ូដែលឥតគិតថ្លៃជាធម្មតាបង្កើតអូឌីយ៉ូក្នុងរយៈពេលក្រោម2វិនាទី។ ម៉ូដែលស្តង់ដារដូចជា Kokoro, CosyVoice2និង Bark មធ្យម 3-5 វិនាទី។ ម៉ូដែល Premium ដែលមានគុណភាពខ្ពស់បំផុតដូចជា Tortoise និង Chatterbox ដំណើរការក្នុងរយៈពេល 5-15 វិនាទីអាស្រ័យលើប្រវែងអត្ថបទ។

30+ ភាសាដែលគាំទ្រ

បង្កើតការនិយាយក្នុងភាសាជាង 30 រួមមាន ភាសាអង់គ្លេស អេស្ប៉ាញ បារាំង អាល្លឺម៉ង់ អ៊ីតាលី ព័រទុយហ្គាល់ ចិន ជប៉ុន កូរ៉េ អារ៉ាប់ ឥណ្ឌា រុស្ស៊ី និងច្រើនទៀត ។ ម៉ូដែលជាច្រើនគាំទ្រការបង្កើតភាសាឆ្លងគ្នា មានន័យថា អ្នកអាចបង្កើតការនិយាយក្នុងភាសាដែលសំឡេងដើមមិនធ្លាប់បានហ្វឹកហាត់លើ ។ CosyVoice2និង GPT-SoVITS ល្អបំផុតនៅការចម្លងសំឡេងភាសាឆ្លង ។

API រួចរាល់សម្រាប់អ្នកអភិវឌ្ឍន៍

រួមបញ្ចូល TTS.ai ទៅក្នុងកម្មវិធីរបស់អ្នកជាមួយ OpenAI-សមរម្យ REST API របស់យើង។ ចំណុចបញ្ចប់មួយសម្រាប់ម៉ូដែលទាំងអស់ 20 + ។ Python, JavaScript, cURL និង Go SDKs ។ ការគាំទ្រស្ទ្រីមសម្រាប់កម្មវិធីពេលវេលាពិតប្រាកដ។ ការដំណើរការបាច់សម្រាប់បង្កើតមាតិកាធំ ៗ ។ Webhooks សម្រាប់ការជូនដំណឹង async ។ ការចូលដំណើរការ API រួមបញ្ចូលលើផែនការទាំងអស់រួមទាំងឥតគិតថ្លៃ។

សំណួរដែលសួរញឹកញាប់

អត្ថបទទៅជាសំឡេង (TTS) គឺជាបច្ចេកវិទ្យា AI ដែលបម្លែងអត្ថបទដែលបានសរសេរទៅជាអូឌីយ៉ូនិយាយដែលមានសំឡេងធម្មជាតិ។ ម៉ូដែល TTS សរសៃប្រសាទសម័យទំនើបដូចជា Kokoro, Chatterbox និង CosyVoice2ប្រើការរៀនជ្រៅដើម្បីផលិតការនិយាយដែលមានសំឡេងមនុស្សគួរឱ្យកត់សម្គាល់ជាមួយ prosody ធម្មជាតិអារម្មណ៍និងចង្វាក់។

វាអាស្រ័យលើតម្រូវការរបស់អ្នក & # 160; ។ សម្រាប់ការមើលជាមុនរហ័ស ប្រើ Piper ឬ MeloTTS (ឥតគិតថ្លៃ រហ័ស) & # 160; ។ សម្រាប់គុណភាពខ្ពស់ ព្យាយាម Kokoro ឬ CosyVoice2(កម្រិតស្តង់ដារ) & # 160; ។ សម្រាប់ការក្លូនសំឡេង ប្រើ Chatterbox ឬ GPT- SoVITS (ថ្លៃ) & # 160; ។ សម្រាប់មាតិកាប្រអប់/ ផតខាស់ ព្យាយាម Dia TTS & # 160; ។ ម៉ូដែលនីមួយៗមានកម្លាំងខុសៗគ្នា - ធ្វើការសាកល្បងដើម្បីរកការសមល្អ & # 160; ។

បាទ! TTS.ai ផ្តល់ជូនដោយឥតគិតថ្លៃអត្ថបទ-ទៅ-ការនិយាយជាមួយ Kokoro, Piper, VITS, និងម៉ូដែល MeloTTS. គ្មានគណនីចាំបាច់សម្រាប់រហូតដល់ទៅ 500 តួអក្សរនិង3ជំនាន់ក្នុងមួយម៉ោង. ចុះឈ្មោះសម្រាប់គណនីឥតគិតថ្លៃដើម្បីទទួលបាន 50 ពិន្ទុនិងចូលដំណើរការម៉ូដែលទាំងអស់.

ម៉ូដែល TTS របស់យើងគាំទ្ររួមគ្នា 30+ ភាសារួមទាំងភាសាអង់គ្លេស, អេស្ប៉ាញ, បារាំង, អាល្លឺម៉ង់, អ៊ីតាលី, ព័រទុយហ្គាល់, ចិន, ជប៉ុន, កូរ៉េ, អារ៉ាប់, រុស្ស៊ី, ឥណ្ឌា, និងច្រើនទៀត.

បាទ/ ចាស អូឌីយ៉ូដែលបានបង្កើតតាមរយៈ TTS.ai អាចត្រូវបានប្រើជាពាណិជ្ជកម្ម & # 160; ។ ម៉ូដែលទាំងអស់របស់យើងប្រើអាជ្ញាបណ្ណប្រភពបើកចំហ (MIT, Apache 2. 0) & # 160; ។ ពិនិត្យមើលអាជ្ញាបណ្ណម៉ូដែលនីមួយៗសម្រាប់លក្ខខណ្ឌជាក់លាក់ & # 160; ។ យើងផ្ដល់អនុសាសន៍ឲ្យពិនិត្យមើលអាជ្ញាបណ្ណរបស់ម៉ូដែលជាក់លាក់ដែលអ្នកប្រើសម្រាប់គម្រោងរបស់អ្នក & # 160; ។

TTS.ai គាំទ្រ MP3, WAV, OGG និង FLAC ទ្រង់ទ្រាយលទ្ធផល. MP3 គឺជាលំនាំដើមសម្រាប់ចាក់ផ្សាយបណ្ដាញ. WAV ត្រូវបានផ្ដល់អនុសាសន៍សម្រាប់ដំណើរការអូឌីយ៉ូបន្ថែមទៀត. អ្នកអាចបម្លែងរវាងទ្រង់ទ្រាយដោយប្រើឧបករណ៍បម្លែងអូឌីយ៉ូរបស់យើង.

ការក្លូនសំឡេងប្រើ AI ដើម្បីចម្លងសំឡេងជាក់លាក់ពីឧទាហរណ៍អូឌីយ៉ូខ្លី (ជាទូទៅ 5- 30 វិនាទី) ។ ផ្ទុកការថតច្បាស់នៃសំឡេងគោលដៅ និងម៉ូដែលដូចជា Chatterbox GPT- SoVITS ឬ OpenVoice នឹងបង្កើតការនិយាយថ្មីក្នុងសំឡេងនោះ ។ គុណភាពប្រសើរឡើងជាមួយនឹងសំឡេងយោងដែលស្អាតជាងមុន ។

អ្នកប្រើឥតគិតថ្លៃអាចបង្កើតបានរហូតដល់ទៅ 500 តួអក្សរក្នុងមួយសំណើ។ អ្នកប្រើដែលបានចុះឈ្មោះទទួលបានរហូតដល់ទៅ 5,000 តួអក្សរក្នុងមួយសំណើ។ សម្រាប់អត្ថបទវែងជាងនេះ អូឌីយ៉ូត្រូវបានបង្កើតឡើងក្នុងចាននិងដេរជាមួយគ្នាដោយស្វ័យប្រវត្តិ។ អ្នកប្រើ API អាចដំណើរការរហូតដល់ទៅ 10,000 តួអក្សរក្នុងមួយសំណើ។

ការគាំទ្រ SSML (ភាសាសម្គាល់ការសំយោគការនិយាយ) ប្រែប្រួលតាមម៉ូដែល & # 160; ។ Piper និងម៉ូដែលមួយចំនួនទៀតគាំទ្រស្លាក SSML មូលដ្ឋានសម្រាប់ការផ្អាក ការសង្កត់ធ្ងន់ និងការត្រួតពិនិត្យការនិយាយ & # 160; ។ សម្រាប់ម៉ូដែលដែលគ្មានការគាំទ្រ SSML ដើម អ្នកអាចប្រើវណ្ណយុត្តធម្មជាតិ និងការឈប់បន្ទាត់ដើម្បីជះឥទ្ធិពលលើការនិយាយ & # 160; ។

បាទ, ម៉ូដែលភាគច្រើនគាំទ្រការលៃតម្រូវល្បឿនពី 0.5x ទៅ 2.0x. ម៉ូដែលមួយចំនួនដូចជា Bark និង Parler ក៏អនុញ្ញាតឱ្យការត្រួតពិនិត្យ pitch និងរចនាប័ទ្ម. អ្នកអាចកំណត់ប៉ារ៉ាម៉ែត្រល្បឿននៅក្នុងបន្ទះការកំណត់កម្រិតខ្ពស់ឬតាមរយៈប៉ារ៉ាម៉ែត្រល្បឿន API.

បាទ/ ចាស ការដំណើរការបាច់គឺអាចប្រើបានតាមរយៈ API របស់យើង & # 160; ។ អ្នកអាចដាក់ស្នើផ្នែកអត្ថបទច្រើនក្នុងការហៅ API ឬស្គ្រីបតែមួយ ហើយនីមួយៗនឹងត្រូវបានដំណើរការ និងត្រឡប់ជាឯកសារអូឌីយ៉ូដាច់ដោយឡែក & # 160; ។ នេះគឺល្អបំផុតសម្រាប់ជំពូកសៀវភៅអូឌីយ៉ូ ម៉ូឌុលរៀនតាមអ៊ីនធឺណិត ឬស្គ្រីបប្រអប់ល្បែង & # 160; ។

បង្កើតកូនសោ API ពី dashboard គណនីរបស់អ្នក, បន្ទាប់មកផ្ញើសំណើ POST ទៅចំណុចបញ្ចប់ REST API របស់យើងជាមួយអត្ថបទរបស់អ្នក, ម៉ូដែលនិងប៉ារ៉ាម៉ែត្រសំឡេង. យើងផ្តល់ជូននូវឧទាហរណ៍កូដនៅក្នុង Python, JavaScript និង cURL. API គឺ OpenAI ឆបគ្នា, ដូច្នេះការរួមបញ្ចូលគ្នាដែលមានស្រាប់ធ្វើការជាមួយការផ្លាស់ប្តូរអប្បបរមា.

5.0/5 (4)

ចាប់ផ្ដើមបម្លែងអត្ថបទទៅជាការនិយាយឥឡូវ

ចូលរួមជាមួយអ្នកបង្កើតរាប់ពាន់នាក់ដោយប្រើ TTS.ai. ទទួលបាន 15,000 តួអក្សរដោយឥតគិតថ្លៃជាមួយគណនីថ្មីមួយ. ម៉ូដែលឥតគិតថ្លៃដែលអាចប្រើបានដោយគ្មានការចុះឈ្មោះ.

ចុះឈ្មោះដោយឥតគិតថ្លៃ មើលតម្លៃ

អត្ថបទ​ទៅ​ការ​និយាយ AIName

ស្រឡាញ់ TTS.ai? ប្រាប់មិត្តភក្តិរបស់អ្នក!

សេចក្ដី​លម្អិត​ម៉ូដែល

Kitten TTS

ព័ត៌មាន​ជំនួយ​សម្រាប់​លទ្ធផល​ល្អ​ប្រសើរ

ការ​ប្រើ​តួអក្សរ

របៀប​ដែល AI អត្ថបទ​ទៅ​ការ​និយាយ​ធ្វើការ

បញ្ចូល​អត្ថបទ​របស់​អ្នក

ជ្រើស​ម៉ូដែល និង​សំឡេង

បង្កើត និង​ទាញយក

អត្ថបទ​ទៅ​ប្រើ​ករណី​និយាយ

សៀវភៅ​អូឌីយ៉ូ

វីដេអូ​និយាយ​ជា​មួយ​គ្នា

ផតខាស់

ល្បែងName

ការ​រៀន​តាម​អ៊ីនធឺណិត

ការ​ចូល​ដំណើរការ

ប្រព័ន្ធ​ទូរស័ព្ទ & IVR

បណ្ដាញ​សង្គម

ស្ទ្រីម

ទីផ្សារ

ការ​បកប្រែ​ជា​សំឡេង និង​ការ​កំណត់​ទីតាំង

វិញ្ញាណ & សុខភាព

ម៉ូដែល​អត្ថបទ​ទៅ​ជា​ការ​និយាយ​ទាំងអស់

Kokoro

Piper

VITS

MeloTTS

Bark

Bark Small

CosyVoice 2

Dia TTS

Parler TTS

GLM-TTS

IndexTTS-2

Spark TTS

GPT-SoVITS

Orpheus

Chatterbox

Tortoise TTS

StyleTTS 2

OpenVoice

Qwen3 TTS

Sesame CSM

Chatterbox Turbo

VoxCPM

Kani TTS 2

OuteTTS

VibeVoice

Pocket TTS

Kitten TTS

CosyVoice3

NAMAA Saudi TTS

Darwin TTS

MOSS-TTSD

Ming-Omni TTS

Kokoro

Piper

VITS

MeloTTS

Kani TTS 2

OuteTTS

Pocket TTS

Kitten TTS

Ming-Omni TTS

Bark

Bark Small

CosyVoice 2

Dia TTS

Parler TTS

GLM-TTS

IndexTTS-2

Spark TTS

GPT-SoVITS

Orpheus

Qwen3 TTS

Chatterbox Turbo

VoxCPM

VibeVoice

CosyVoice3

អត្ថបទទៅការនិយាយ AIName

សេចក្ដីលម្អិតម៉ូដែល

ព័ត៌មានជំនួយសម្រាប់លទ្ធផលល្អប្រសើរ

ការប្រើតួអក្សរ

របៀបដែល AI អត្ថបទទៅការនិយាយធ្វើការ

បញ្ចូលអត្ថបទរបស់អ្នក

ជ្រើសម៉ូដែល និងសំឡេង

បង្កើត និងទាញយក

អត្ថបទទៅប្រើករណីនិយាយ

សៀវភៅអូឌីយ៉ូ

វីដេអូនិយាយជាមួយគ្នា

ការរៀនតាមអ៊ីនធឺណិត

ការចូលដំណើរការ

ប្រព័ន្ធទូរស័ព្ទ & IVR

បណ្ដាញសង្គម

ការបកប្រែជាសំឡេង និងការកំណត់ទីតាំង

ម៉ូដែលអត្ថបទទៅជាការនិយាយទាំងអស់

តារាងប្រៀបធៀបម៉ូដែល

វេទិកាអត្ថបទទៅជាការនិយាយរបស់ AI ដែលមានលក្ខណៈទូលំទូលាយបំផុត

ការដំណើរការដែលបានបង្កើនល្បឿនដោយ GPU

API រួចរាល់សម្រាប់អ្នកអភិវឌ្ឍន៍

សំណួរដែលសួរញឹកញាប់

ចាប់ផ្ដើមបម្លែងអត្ថបទទៅជាការនិយាយឥឡូវ