អត្ថបទទៅការនិយាយ AIName

បម្លែងអត្ថបទទៅជាការនិយាយដែលមានសំឡេងធម្មជាតិជាមួយម៉ូដែល AI ប្រភពបើកចំហ ។ ប្រើដោយឥតគិតថ្លៃ គ្មានគណនីដែលត្រូវការ ។

ចុះឈ្មោះដោយឥតគិតថ្លៃ

យើងមិនមានសំឡេង TTS ក្នុងភាសារបស់អ្នកនៅឡើយទេ & # 160; ។ ជួយយើងបន្ថែមរបស់អ្នក & # 160;! លក់សំឡេងរបស់អ្នក

0/500 តួអក្សរ

ចុះឈ្មោះ កំណត់សម្រាប់តួអក្សរ ៥, ០០០

របៀប SSML (ភាសាសម្គាល់ការសំយោគការនិយាយសម្រាប់ការត្រួតពិនិត្យល្អិត)

រុំអត្ថបទរបស់អ្នកក្នុងស្លាក SSML សម្រាប់ការត្រួតពិនិត្យជាក់លាក់ & # 160; ៖

<speak><prosody rate="slow">Slow speech</prosody></speak>

សញ្ញាអារម្មណ៍/ រចនាប័ទ្ម

បន្ថែមសញ្ញាសម្គាល់អារម្មណ៍ដើម្បីជះឥទ្ធិពលដល់ការផ្ដល់ (ការគាំទ្រម៉ូដែលខុសៗគ្នា) & # 160; ៖

វចនានុក្រមការបញ្ចេញសំឡេង

កំណត់ការបញ្ចេញសំឡេងផ្ទាល់ខ្លួន (ពាក្យ = ការបញ្ចេញសំឡេង) & # 160; ៖

កម្រិតសំឡេង 0

-12 +12

ម៉ូដែល AI

សំឡេង

ភាសា

ទ្រង់ទ្រាយលទ្ធផល

ល្បឿន 1.0x

0.5x 2.0x

ឥតគិតថ្លៃជាមួយ Piper, VITS, MeloTTS

អូឌីយ៉ូដែលបានបង្កើតរបស់អ្នកនឹងលេចឡើងនៅទីនេះ & # 160; ។ ជ្រើសម៉ូដែល បញ្ចូលអត្ថបទ ហើយចុច បង្កើត & # 160; ។

សេចក្ដីលម្អិតម៉ូដែល

OpenVoice

Premium

OpenVoice by MyShell.ai enables instant voice cloning with granular control over voice style, emotion, accent, rhythm, pauses, and intonation. It can clone a voice from a short audio clip and generate speech in multiple languages while maintaining the speaker identity. OpenVoice also functions as a voice converter, allowing real-time voice transformation.

អ្នកអភិវឌ្ឍន៍ & # 160; ៖	MyShell.ai / MIT
អាជ្ញាបណ្ណ & # 160; ៖	MIT
ល្បឿន	Medium
គុណភាព & # 160; ៖
ភាសា	8 ភាសា
VRAM	4GB
ការក្លូនសំឡេង	បានគាំទ្រ

លក្ខណៈពិសេស:

Instant cloning Voice conversion Emotion control Accent control Multilingual

ល្អបំផុតសម្រាប់ & # 160; ៖: Voice cloning with fine-grained style control, voice conversion

ព័ត៌មានជំនួយសម្រាប់លទ្ធផលល្អប្រសើរ

ប្រើវណ្ណយុត្តត្រឹមត្រូវសម្រាប់ការផ្អាកធម្មជាតិ និងការបញ្ចេញសំឡេង
អក្ខរាវិរុទ្ធលេខ និងអក្សរកាត់សម្រាប់ការបញ្ចេញសំឡេងច្បាស់ជាង
បន្ថែមសញ្ញាក្បៀសដើម្បីបង្កើតការសម្រាកខ្លីរវាងឃ្លា
ប្រើសញ្ញា (...) សម្រាប់ការផ្អាកដ៏វែងឆ្ងាយ
ព្យាយាម Kokoro ឬ CosyVoice2សម្រាប់លទ្ធផលធម្មជាតិបំផុត
ប្រើ Dia សម្រាប់ប្រអប់អ្នកនិយាយច្រើន និងមាតិកាផតខាស់

ការប្រើតួអក្សរ

ផ្កាយ	តម្លៃក្នុងមួយតួអក្សរ 1K
ទំនេរ	១: ១ (ឥតគិតថ្លៃ)
លំនាំដើម	2 ពិន្ទុ / 1K តួអក្សរ
តម្លៃខ្ពស់	4 ពិន្ទុ / 1K តួអក្សរ

យកតួអក្សរបន្ថែម

របៀបដែល AI អត្ថបទទៅការនិយាយធ្វើការ

បង្កើតសំឡេងគុណភាពវិជ្ជាជីវៈក្នុងជំហានសាមញ្ញបី ។ គ្មានចំណេះដឹងបច្ចេកទេសដែលត្រូវការ ។

ជំហានទី ១

បញ្ចូលអត្ថបទរបស់អ្នក

វាយ បិទភ្ជាប់ ឬ ផ្ទុកឡើង អត្ថបទដែលអ្នកចង់បម្លែងទៅជាការនិយាយ & # 160; ។ គាំទ្ររហូតដល់ ៥, ០០០ តួអក្សរក្នុងមួយជំនាន់ សម្រាប់អ្នកប្រើដែលបានចូល & # 160; ។ ប្រើអត្ថបទធម្មតា ឬ បន្ថែមស្លាក SSML សម្រាប់ការត្រួតពិនិត្យកម្រិតខ្ពស់លើការបញ្ចេញសំឡេង ការផ្អាក និងការសង្កត់ធ្ងន់ & # 160; ។

ជំហានទី ២

ជ្រើសម៉ូដែល និងសំឡេង

ជ្រើសពី 20+ ម៉ូដែល AI លើបីកម្រិត។ ជ្រើសសំឡេងដែលសមនឹងមាតិការបស់អ្នកជ្រើសរើសភាសាគោលដៅរបស់អ្នកលៃតម្រូវល្បឿនចាក់ពី 0.5x ទៅ 2.0x និងជ្រើសទ្រង់ទ្រាយលទ្ធផលដែលអ្នកចូលចិត្ត (MP3, WAV, OGG, ឬ FLAC) ។

ជំហាន ៣

បង្កើត និងទាញយក

ចុច បង្កើត ហើយអូឌីយ៉ូរបស់អ្នកគឺរួចរាល់ក្នុងរយៈពេលពីរវិនាទី & # 160; ។ មើលជាមុនជាមួយកម្មវិធីចាក់ខាងក្នុង ទាញយកក្នុងទ្រង់ទ្រាយដែលបានជ្រើសរបស់អ្នក ឬចម្លងតំណដែលអាចចែករំលែកបាន & # 160; ។ ប្រើ API សម្រាប់ដំណើរការបាច់ និងការបញ្ចូលទៅក្នុងលំហូរការងាររបស់អ្នក & # 160; ។

អត្ថបទទៅប្រើករណីនិយាយ

AI-powered text-to-speech កំពុងផ្លាស់ប្តូររបៀបដែលមនុស្សបង្កើត បរិភោគ និងទំនាក់ទំនងជាមួយមាតិកាអូឌីយ៉ូនៅទូទាំងឧស្សាហកម្មជាច្រើន។

សៀវភៅអូឌីយ៉ូ

បម្លែងសៀវភៅទាំងមូលទៅជាសៀវភៅអូឌីយ៉ូដែលមានសំឡេងធម្មជាតិជាមួយការនិយាយគុណភាពស្ទូឌីយោ ។ គាំទ្រអ្នកនិយាយច្រើនជាមួយ Dia សម្រាប់ប្រអប់តួអក្សរ ។

វីដេអូនិយាយជាមួយគ្នា

បង្កើត voiceovers វិជ្ជាជីវៈសម្រាប់ YouTube, TikTok, Instagram Reels, និង Shorts. 100+ សំឡេងឬក្លូនផ្ទាល់ខ្លួនរបស់អ្នក.

ផតខាស់

បង្កើតប៉ុស្តិ៍ផតខាស់ពីស្គ្រីបដែលមានសំឡេង AI ច្រើន ។ ប្រើ Dia សម្រាប់ការសន្ទនាអ្នកនិយាយពីរធម្មជាតិ ។

ល្បែងName

សំឡេង AI សម្តែងសម្រាប់ហ្គេម indie, រឿងនិទានមើលឃើញនិងរឿងនិទានអន្តរកម្ម។ ប្រអប់ NPC, សំឡេង cutscene, 30+ ភាសា។

ការរៀនតាមអ៊ីនធឺណិត

បម្លែងសម្ភារៈវគ្គ វគ្គបង្រៀន និងមាតិកាការបណ្តុះបណ្តាលទៅជាអូឌីយ៉ូ ។ ការគាំទ្រភាសាច្រើនសម្រាប់វេទិកាសកល ។

ការចូលដំណើរការ

បង្កើតតំបន់បណ្ដាញ ឯកសារ និងកម្មវិធីដែលអាចចូលដំណើរការបាន ។ ការបញ្ចូលកម្មវិធីអានអេក្រង់ API និងការបម្លែងអត្ថបទទៅជាអូឌីយ៉ូ ។

ប្រព័ន្ធទូរស័ព្ទ & IVR

ប្រព័ន្ធ IVR ថាមពល, ម៉ឺនុយទូរស័ព្ទ, និងសេវាអតិថិជនជាមួយនឹងសំឡេងធម្មជាតិ AI. ទាប latency ស្ទ្រីមសម្រាប់មជ្ឈមណ្ឌលហៅ.

បណ្ដាញសង្គម

TikTok narrations, Instagram Reels, Twitter / X commentary, YouTube Shorts ។ ការបង្កើតរហ័សជាមួយម៉ូដែលឥតគិតថ្លៃ។

ស្ទ្រីម

ការជូនដំណឹង Twitch TTS, ការជជែកកំសាន្តទៅជាសំឡេង, AI សហម្ចាស់និង Discord bots ។ ភាពយឺតយ៉ាវទាប, 100+ សំឡេង, ឆបគ្នាជាមួយ StreamElements ។

ទីផ្សារ

ផ្សាយពាណិជ្ជកម្ម voiceovers, វីដេអូពន្យល់, ការបង្ហាញផលិតផលនិងការបង្ហាញការលក់។ មាត្រដ្ឋានផលិតកម្មមាតិកាអូឌីយ៉ូនៅលើយុទ្ធនាការ។

ការបកប្រែជាសំឡេង និងការកំណត់ទីតាំង

បកប្រែនិង dub វីដេអូទៅជា 30 + ភាសាជាមួយ AI សំឡេងដែលសមស្រប។ ការបកប្រែដោយស្វ័យប្រវត្តិនិងការរកឃើញអ្នកនិយាយ។

វិញ្ញាណ & សុខភាព

មេរៀន ចិត្ត វិនិច្ឆ័យ រឿង ដេក សម្រាក កាយ វិការ និង ការ បញ្ជាក់ ជាមួយ ស្ងប់ស្ងាត់, សម្លេង AI រំជួលចិត្ត.

មើលករណីប្រើ និងឧបករណ៍ទាំងអស់

ម៉ូដែលអត្ថបទទៅជាការនិយាយទាំងអស់

ការបញ្ជាក់លម្អិតសម្រាប់ម៉ូដែល AI ទាំងអស់ដែលអាចរកបាននៅលើ TTS.ai ។ ប្រៀបធៀបគុណភាពល្បឿនការគាំទ្រភាសានិងលក្ខណៈពិសេសដើម្បីរកម៉ូដែលល្អឥតខ្ចោះសម្រាប់គម្រោងរបស់អ្នក។

Kokoro

Free

Kokoro គឺជាម៉ូដែលអត្ថបទទៅជាសំឡេងប៉ារ៉ាម៉ែត្រ 82 លាននាក់ដែលវាយល្អប្រសើរជាងថ្នាក់ទម្ងន់របស់ខ្លួន។ ទោះបីជាទំហំតូចក៏ដោយវាផលិតការនិយាយដែលគួរឱ្យកត់សម្គាល់និងមានលក្ខណៈធម្មជាតិ។ Kokoro គាំទ្រភាសាច្រើនរួមទាំងភាសាអង់គ្លេសជប៉ុនចិននិងកូរ៉េជាមួយនឹងសំឡេងបង្ហាញផ្សេងៗ។ វារត់យ៉ាងលឿនខ្លាំងណាស់ - បង្កើតអូឌីយ៉ូជិត 100x រហ័សជាងពេលពិតនៅលើ GPU ។

អ្នកអភិវឌ្ឍន៍ & # 160; ៖:
Hexgrad

អាជ្ញាបណ្ណ & # 160; ៖:
Apache 2.0

ល្បឿន:
Fast

គុណភាព & # 160; ៖:

ភាសា:
en, ja, zh, ko, fr, de, it, pt, es, hi, ru

VRAM:
1.5GB

ការក្លូនសំឡេង:
គ្មាន

តម្លៃក្នុងមួយតួអក្សរ 1K:
ទំនេរ

ប៉ារ៉ាម៉ែត្រ 82M រហ័សបំផុត សំឡេងបង្ហាញ ភាសាច្រើន ការគាំទ្រស្ទ្រីម

ល្អបំផុតសម្រាប់ & # 160; ៖: TTS គុណភាពខ្ពស់ជាមួយការពន្យារអប្បបរមា កម្មវិធីស្ទ្រីម

ព្យាយាម Kokoro

Piper

Free

Piper គឺជាម៉ាស៊ីនអត្ថបទទៅជាសំឡេងស្រាលដែលត្រូវបានអភិវឌ្ឍន៍ដោយ Rhasspy ដែលប្រើស្ថាបត្យកម្ម VITS និង larynx ។ វារត់ទាំងស្រុងនៅលើស៊ីភីយូធ្វើឱ្យវាសមស្របសម្រាប់ឧបករណ៍កំរិតស្វ័យប្រវត្តិកម្មផ្ទះនិងកម្មវិធីដែលត្រូវការ TTS ក្រៅបណ្តាញ។ ជាមួយនឹងសំឡេងជាង 100 លើភាសា 30 + Piper ផ្ដល់នូវការនិយាយដែលមានសំឡេងធម្មជាតិនៅល្បឿនពេលវេលាពិតប្រាកដសូម្បីតែនៅលើ Raspberry Pi 4។

អ្នកអភិវឌ្ឍន៍ & # 160; ៖:
Rhasspy

អាជ្ញាបណ្ណ & # 160; ៖:
MIT

ល្បឿន:
Fast

គុណភាព & # 160; ៖:

ភាសា:
en, de, fr, es, it, pt, nl, pl, ru, zh, ja, ko, ar, cs, da, fi, el, hu, is, ka, kk, ne, no, ro, sk, sr, sv, sw, tr, uk, vi

VRAM:
0 (CPU only)

ការក្លូនសំឡេង:
គ្មាន

តម្លៃក្នុងមួយតួអក្សរ 1K:
ទំនេរ

ស៊ីភីយូដែលមានសុវត្ថិភាព ក្រៅបណ្ដាញអាចធ្វើបាន សំឡេង ១០០+ 30+ ភាសា ការគាំទ្រ SSML

ល្អបំផុតសម្រាប់ & # 160; ៖: ការមើលជាមុនរហ័ស មធ្យោបាយងាយស្រួល និងកម្មវិធីដែលបានបង្កប់

ព្យាយាម Piper

VITS

Free

VITS (ការសន្និដ្ឋានខុសគ្នាជាមួយការរៀនដែលមានការប្រឈមមុខសម្រាប់ការរៀនពីចុងទៅចុងអត្ថបទទៅជាការនិយាយ) គឺជាវិធីសាស្ត្រ TTS មួយដែលបង្កើតសំឡេងធម្មជាតិជាងម៉ូដែលដំណាក់កាលពីរបច្ចុប្បន្ន។ វាប្រើការសន្និដ្ឋានខុសគ្នាដែលបានបង្កើនដោយការធ្វើឲ្យលំហូរធម្មតា និងដំណើរការហ្វឹកហាត់ដែលមានការប្រឈមមុខគ្នាដើម្បីសម្រេចបានការកែលម្អគួរឲ្យកត់សម្គាល់ក្នុងភាពធម្មជាតិ ។

អ្នកអភិវឌ្ឍន៍ & # 160; ៖:
Jaehyeon Kim et al.

អាជ្ញាបណ្ណ & # 160; ៖:
MIT

ល្បឿន:
Fast

គុណភាព & # 160; ៖:

ភាសា:
en, zh, ja, ko

VRAM:
1GB

ការក្លូនសំឡេង:
គ្មាន

តម្លៃក្នុងមួយតួអក្សរ 1K:
ទំនេរ

ការសំយោគពីចុងទៅចុង ព្យាង្គធម្មជាតិ ការសន្និដ្ឋានរហ័ស ធុងបាសច្រើន

ល្អបំផុតសម្រាប់ & # 160; ៖: អត្ថបទទៅការនិយាយគោលបំណងទូទៅជាមួយនឹងការនិយាយធម្មតា

ព្យាយាម VITS

MeloTTS

Free

MeloTTS ដោយ MyShell.ai គឺជាបណ្ណាល័យ TTS ច្រើនភាសាដែលគាំទ្រភាសាអង់គ្លេស (អាមេរិក, អង់គ្លេស, ឥណ្ឌា, អូស្ត្រាលី), អេស្ប៉ាញ, បារាំង, ចិន, ជប៉ុននិងកូរ៉េ។ វាគឺលឿនខ្លាំងណាស់, ដំណើរការអត្ថបទនៅល្បឿនពេលពិតប្រាកដនៅជិត CPU ម្នាក់ឯង។ MeloTTS ត្រូវបានរចនាឡើងសម្រាប់ការប្រើប្រាស់ផលិតកម្មនិងគាំទ្រទាំង CPU និង GPU និន្នាការ។

អ្នកអភិវឌ្ឍន៍ & # 160; ៖:
MyShell.ai

អាជ្ញាបណ្ណ & # 160; ៖:
MIT

ល្បឿន:
Fast

គុណភាព & # 160; ៖:

ភាសា:
en, es, fr, zh, ja, ko

VRAM:
0.5GB (GPU optional)

ការក្លូនសំឡេង:
គ្មាន

តម្លៃក្នុងមួយតួអក្សរ 1K:
ទំនេរ

បានធ្វើឲ្យស៊ីភីយូប្រសើរ ភាសាច្រើន វណ្ណយុត្តច្រើន រួចរាល់សម្រាប់ផលិតកម្ម ការពន្យារទាប

ល្អបំផុតសម្រាប់ & # 160; ៖: កម្មវិធីផលិតកម្មដែលត្រូវការ TTS រហ័ស និងច្រើនភាសា

ព្យាយាម MeloTTS

Bark

Standard

Bark ដោយ Suno គឺជាម៉ូដែលអត្ថបទទៅជាអូឌីយ៉ូដែលមានមូលដ្ឋានលើការផ្លាស់ប្តូរដែលអាចបង្កើតការនិយាយជាភាសាច្រើនដែលពិតជាមានពិតប្រាកដនិងអូឌីយ៉ូផ្សេងទៀតដូចជាតន្ត្រីសំឡេងរំខានផ្ទៃខាងក្រោយនិងបែបផែនសំឡេង។ វាអាចផលិតការទំនាក់ទំនងមិននិយាយដូចជាការញញឹម យំ និងយំ។ Bark គាំទ្រជាង 100 ភាសានិង 13+ ភាសា។

អ្នកអភិវឌ្ឍន៍ & # 160; ៖:
Suno

អាជ្ញាបណ្ណ & # 160; ៖:
MIT

ល្បឿន:
Slow

គុណភាព & # 160; ៖:

ភាសា:
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr

VRAM:
5GB

ការក្លូនសំឡេង:
គ្មាន

តម្លៃក្នុងមួយតួអក្សរ 1K:
2x

បែបផែនសំឡេង ញញឹម / យំ ការបង្កើតតន្ត្រី ឧបករណ៍និយាយ 100+ ភាសាច្រើន

ល្អបំផុតសម្រាប់ & # 160; ៖: មាតិកាអូឌីយ៉ូច្នៃប្រឌិត សៀវភៅអូឌីយ៉ូជាមួយអារម្មណ៍ បែបផែនសំឡេង

ព្យាយាម Bark

Bark Small

Standard

Bark Small គឺជាកំណែដែលបានដកស្រង់ពីម៉ូដែល Bark ដែលផ្លាស់ប្ដូរគុណភាពអូឌីយ៉ូមួយចំនួនសម្រាប់ល្បឿនការសន្និដ្ឋានដែលលឿនជាងមុន និងតម្រូវការសតិទាបជាងមុន & # 160; ។ វារក្សាទុកសមត្ថភាពរបស់ Bark ដើម្បីបង្កើតការនិយាយជាមួយនឹងអារម្មណ៍ ភាពសប្បាយរីករាយ និងភាសាច្រើន & # 160; ។

អ្នកអភិវឌ្ឍន៍ & # 160; ៖:
Suno

អាជ្ញាបណ្ណ & # 160; ៖:
MIT

ល្បឿន:
Medium

គុណភាព & # 160; ៖:

ភាសា:
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr

VRAM:
2GB

ការក្លូនសំឡេង:
គ្មាន

តម្លៃក្នុងមួយតួអក្សរ 1K:
2x

ទម្ងន់ស្រាល រហ័សជាងស្រទាប់ពេញ ការនិយាយដែលមានអារម្មណ៍ ភាសាច្រើន

ល្អបំផុតសម្រាប់ & # 160; ៖: អូឌីយ៉ូច្នៃប្រឌិតរហ័សនៅពេលដែលការបាក់ពេញលេញយឺតពេក

ព្យាយាម Bark Small

CosyVoice 2

Standard

CosyVoice2ដោយ Alibaba's Tongyi Lab សម្រេចបាននូវគុណភាពនៃការនិយាយដែលប្រៀបធៀបមនុស្សជាមួយនឹងការពន្យារពេលទាបបំផុតធ្វើឱ្យវាសមស្របសម្រាប់កម្មវិធីពេលវេលាពិតប្រាកដ។ វាប្រើវិធីសាស្រ្ត quantumization scalar ដែលបានកំណត់សម្រាប់ការសំយោគស្ទ្រីមនិងគាំទ្រការចម្លងសំឡេងសូន្យការសំយោគភាសាឆ្លងកាត់និងការត្រួតពិនិត្យអារម្មណ៍ល្អ។ វាធ្វើបានល្អជាងប្រព័ន្ធ TTS ពាណិជ្ជកម្មជាច្រើននៅក្នុងការវាយតម្លៃ subjective ។

អ្នកអភិវឌ្ឍន៍ & # 160; ៖:
Alibaba (Tongyi Lab)

អាជ្ញាបណ្ណ & # 160; ៖:
Apache 2.0

ល្បឿន:
Medium

គុណភាព & # 160; ៖:

ភាសា:
en, zh, ja, ko, fr, de, it, es

VRAM:
4GB

ការក្លូនសំឡេង:
បាទ/ ចាស

តម្លៃក្នុងមួយតួអក្សរ 1K:
2x

ស្ទ្រីម ការក្លូន Zero- Shot ភាសាចម្រុះ ការត្រួតពិនិត្យអារម្មណ៍ ភាពស្មើគ្នារបស់មនុស្ស

ល្អបំផុតសម្រាប់ & # 160; ៖: កម្មវិធីពេលវេលាពិត ស្ទ្រីម TTS អ្នកជំនួយការសំឡេង

ព្យាយាម CosyVoice 2

Dia TTS

Standard

Dia ដោយ Nari Labs គឺជាម៉ូដែលអត្ថបទ-ទៅ-ការនិយាយប៉ារ៉ាម៉ែត្រ 1.6B ដែលរចនាឡើងជាពិសេសសម្រាប់បង្កើតប្រអប់សំឡេងច្រើន។ វាអាចផលិតការសន្ទនាដែលមានសំឡេងធម្មជាតិរវាងអ្នកនិយាយពីរនាក់ជាមួយនឹងការផ្លាស់ប្តូរសមរម្យ prosody និងការបង្ហាញអារម្មណ៍។ Dia គឺល្អឥតខ្ចោះសម្រាប់បង្កើតមាតិកាបែបផែន Podcast ប្រអប់សំឡេងសៀវភៅអូឌីយ៉ូនិង AI និយាយអន្តរកម្ម។

អ្នកអភិវឌ្ឍន៍ & # 160; ៖:
Nari Labs

អាជ្ញាបណ្ណ & # 160; ៖:
Apache 2.0

ល្បឿន:
Medium

គុណភាព & # 160; ៖:

ភាសា:
en

VRAM:
4GB

ការក្លូនសំឡេង:
គ្មាន

តម្លៃក្នុងមួយតួអក្សរ 1K:
2x

ធុងបាសច្រើន ការបង្កើតប្រអប់ បង្វិលដោយធម្មជាតិ កន្សោមអារម្មណ៍ ប៉ារ៉ាម៉ែត្រ 1. 6B

ល្អបំផុតសម្រាប់ & # 160; ៖: ផតខាស់ ប្រអប់សៀវភៅអូឌីយ៉ូ មាតិកាការសន្ទនា

ព្យាយាម Dia TTS

Parler TTS

Standard

Parler TTS គឺជាម៉ូដែលអត្ថបទទៅជាការនិយាយដែលប្រើសេចក្ដីពិពណ៌នាសំឡេងភាសាធម្មជាតិដើម្បីបញ្ជាការនិយាយដែលបានបង្កើត & # 160; ។ ជំនួសឲ្យការជ្រើសពីសំឡេងដែលបានកំណត់ជាមុន អ្នកពិពណ៌នាសំឡេងដែលអ្នកចង់បាន (ឧទាហរណ៍ "សំឡេងស្ត្រីដែលមានសំឡេងអង់គ្លេសបន្តិចបន្តួច និយាយយឺតៗ និងច្បាស់) ហើយ Parler បង្កើតការនិយាយដែលផ្គូផ្គងនឹងសេចក្ដីពិពណ៌នានោះ & # 160; ។ នេះធ្វើឲ្យវាមានភាពទន់ភ្លន់សម្រាប់កម្មវិធីច្នៃប្រឌិត & # 160; ។

អ្នកអភិវឌ្ឍន៍ & # 160; ៖:
Hugging Face

អាជ្ញាបណ្ណ & # 160; ៖:
Apache 2.0

ល្បឿន:
Medium

គុណភាព & # 160; ៖:

ភាសា:
en

VRAM:
4GB

ការក្លូនសំឡេង:
គ្មាន

តម្លៃក្នុងមួយតួអក្សរ 1K:
2x

ការពិពណ៌នាសំឡេង វត្ថុបញ្ជាភាសាធម្មជាតិ ការបង្កើតសំឡេងដែលអាចបត់បែនបាន គ្មានសំឡេងដែលបានកំណត់ជាមុនដែលត្រូវការទេ

ល្អបំផុតសម្រាប់ & # 160; ៖: កម្មវិធីច្នៃប្រឌិតដែលអ្នកត្រូវការលក្ខណៈពិសេសសំឡេងផ្ទាល់ខ្លួន

ព្យាយាម Parler TTS

GLM-TTS

Standard

GLM-TTS by Zhipu AI isatext-to-speech system built on the Llama architecture with flow matching. It achieves the lowest character error rate among open-source TTS models, meaning it produces the most accurate pronunciation. GLM-TTS supports English and Chinese with voice cloning from 3-10 second audio samples.

អ្នកអភិវឌ្ឍន៍ & # 160; ៖:
Zhipu AI

អាជ្ញាបណ្ណ & # 160; ៖:
GLM-4 License

ល្បឿន:
Medium

គុណភាព & # 160; ៖:

ភាសា:
en, zh

VRAM:
4GB

ការក្លូនសំឡេង:
បាទ/ ចាស

តម្លៃក្នុងមួយតួអក្សរ 1K:
2x

អត្រាកំហុសទាបបំផុត ការក្លូនសំឡេង ការផ្គូផ្គងលំហូរ ព្យាង្គធម្មជាតិ

ល្អបំផុតសម្រាប់ & # 160; ៖: កម្មវិធីដែលត្រូវការភាពត្រឹមត្រូវនៃការបញ្ចេញសំឡេងអតិបរមាName

ព្យាយាម GLM-TTS

IndexTTS-2

Standard

IndexTTS-2 គឺជាប្រព័ន្ធអត្ថបទទៅជាការនិយាយកម្រិតខ្ពស់ដែលល្អឥតខ្ចោះនៅក្នុងការសំយោគសំឡេងសូន្យគ្រាប់ជាមួយនឹងការត្រួតពិនិត្យអារម្មណ៍ល្អិតល្អន់ & # 160; ។ វាអាចបង្កើតការនិយាយជាមួយនឹងសំឡេងអារម្មណ៍ជាក់លាក់ដូចជាសប្បាយរីករាយ សោកសៅ ខឹង ឬភ័យខ្លាច ដោយមិនចាំបាច់ទិន្នន័យហ្វឹកហាត់អារម្មណ៍ជាក់លាក់ & # 160; ។ ម៉ូដែលប្រើវ៉ិចទ័រអារម្មណ៍ដើម្បីត្រួតពិនិត្យយ៉ាងត្រឹមត្រូវនូវការបង្ហាញអារម្មណ៍នៃការនិយាយដែលបានបង្កើត & # 160; ។

អ្នកអភិវឌ្ឍន៍ & # 160; ៖:
Index Team

អាជ្ញាបណ្ណ & # 160; ៖:
Bilibili Model License

ល្បឿន:
Medium

គុណភាព & # 160; ៖:

ភាសា:
en, zh

VRAM:
4GB

ការក្លូនសំឡេង:
បាទ/ ចាស

តម្លៃក្នុងមួយតួអក្សរ 1K:
2x

ត្រួតពិនិត្យអារម្មណ៍ គ្រាប់សូន្យ វ៉ិចទ័រអារម្មណ៍ ការនិយាយដែលបង្ហាញ វត្ថុបញ្ជាមានគ្រាប់ល្អិត

ល្អបំផុតសម្រាប់ & # 160; ៖: មាតិកាដែលបង្ហាញអារម្មណ៍ សៀវភៅអូឌីយ៉ូ អ្នកជំនួយការនិម្មិត

ព្យាយាម IndexTTS-2

Spark TTS

Standard

Spark TTS ដោយ SparkAudio គឺជាគំរូអត្ថបទទៅជាការនិយាយដែលរួមបញ្ចូលការចម្លងសំឡេងជាមួយនឹងអារម្មណ៍ដែលអាចគ្រប់គ្រងបាន និងរចនាប័ទ្មនិយាយ ។ ដោយប្រើតែ5វិនាទីនៃអូឌីយ៉ូយោង វាអាចចម្លងសំឡេង ហើយបង្កើតការនិយាយជាមួយនឹងអារម្មណ៍ ល្បឿន និងរចនាប័ទ្មផ្សេងគ្នា ខណៈពេលដែលរក្សាអត្តសញ្ញាណសំឡេងដែលបានចម្លង ។ Spark TTS ប្រើប្រព័ន្ធត្រួតពិនិត្យដែលមានមូលដ្ឋានលើការជូនដំណឹង ។

អ្នកអភិវឌ្ឍន៍ & # 160; ៖:
SparkAudio

អាជ្ញាបណ្ណ & # 160; ៖:
CC BY-NC-SA 4.0

ល្បឿន:
Medium

គុណភាព & # 160; ៖:

ភាសា:
en, zh

VRAM:
4GB

ការក្លូនសំឡេង:
បាទ/ ចាស

តម្លៃក្នុងមួយតួអក្សរ 1K:
2x

ការក្លូនសំឡេង ការត្រួតពិនិត្យអារម្មណ៍ វត្ថុបញ្ជារចនាប័ទ្ម ផ្អែកលើការសួរ ក្លូន៥វិនាទី

ល្អបំផុតសម្រាប់ & # 160; ៖: ការបង្កើតមាតិកាដោយប្រើសំឡេងក្លូន និងការត្រួតពិនិត្យអារម្មណ៍

ព្យាយាម Spark TTS

GPT-SoVITS

Standard

GPT- SoVITS រួមបញ្ចូលការរចនាម៉ូដភាសារចនាប័ទ្ម GPT ជាមួយ SoVITS (ការច្រៀងសំឡេងតាមរយៈការបកប្រែ និងការសំយោគ) សម្រាប់ការក្លូនសំឡេងខ្លីមានឥទ្ធិពល ។ ជាមួយនឹងតិចជាង5វិនាទីនៃអូឌីយ៉ូយោង វាអាចក្លូនសំឡេងយ៉ាងត្រឹមត្រូវ និងបង្កើតការនិយាយថ្មីខណៈពេលរក្សាលក្ខណៈពិសេសតែមួយគត់របស់អ្នកនិយាយ ។ វាល្អបំផុតទាំងការនិយាយ និងការច្រៀងសំឡេង ។

អ្នកអភិវឌ្ឍន៍ & # 160; ៖:
RVC-Boss

អាជ្ញាបណ្ណ & # 160; ៖:
MIT

ល្បឿន:
Slow

គុណភាព & # 160; ៖:

ភាសា:
en, zh, ja, ko

VRAM:
6GB

ការក្លូនសំឡេង:
បាទ/ ចាស

តម្លៃក្នុងមួយតួអក្សរ 1K:
2x

ក្លូន ៥ វិនាទី សំឡេងច្រៀង ការរៀនតិចតួច ភាពត្រឹមត្រូវខ្ពស់ ភាសាចម្រុះ

ល្អបំផុតសម្រាប់ & # 160; ៖: ការក្លូនសំឡេង ការសំយោគការច្រៀង ការចម្លងសំឡេងអ្នកបង្កើតមាតិកា

ព្យាយាម GPT-SoVITS

Orpheus

Standard

Orpheus គឺជាគំរូអត្ថបទទៅជាការនិយាយដែលមានទំហំធំដែលសម្រេចបាននូវការបង្ហាញអារម្មណ៍កម្រិតមនុស្ស & # 160; ។ បានហ្វឹកហាត់លើទិន្នន័យការនិយាយច្រើនជាង 100, 000 ម៉ោង វាល្អឥតខ្ចោះក្នុងការបង្កើតការនិយាយជាមួយនឹងអារម្មណ៍ធម្មជាតិ ការសង្កត់ធ្ងន់ និងរចនាប័ទ្មការនិយាយ & # 160; ។ Orpheus អាចផលិតការនិយាយដែលស្ទើរតែមិនអាចបំបែកបានពីការថតរបស់មនុស្ស & # 160; ។

អ្នកអភិវឌ្ឍន៍ & # 160; ៖:
Canopy Labs

អាជ្ញាបណ្ណ & # 160; ៖:
Llama 3.2 Community

ល្បឿន:
Medium

គុណភាព & # 160; ៖:

ភាសា:
en

VRAM:
4GB

ការក្លូនសំឡេង:
គ្មាន

តម្លៃក្នុងមួយតួអក្សរ 1K:
2x

អារម្មណ៍កម្រិតមនុស្ស 100K ម៉ោងនៃការបណ្តុះបណ្តាល ការបន្លិចធម្មជាតិ ការនិយាយដែលបង្ហាញ

ល្អបំផុតសម្រាប់ & # 160; ៖: ការនិយាយដែលមានគុណភាពខ្ពស់ សៀវភៅអូឌីយ៉ូ ការសម្ដែងសំឡេង

ព្យាយាម Orpheus

Chatterbox

Premium

Chatterbox ដោយ Resemble AI គឺជាម៉ូដែលចម្លងសំឡេងសូន្យដែលឈានមុខគេ។ វាអាចចម្លងសំឡេងណាមួយពីគំរូអូឌីយ៉ូតែមួយដែលមានភាពត្រឹមត្រូវគួរឱ្យកត់សម្គាល់មិនត្រឹមតែចាប់យកសំឡេងប៉ុណ្ណោះទេប៉ុន្តែថែមទាំងរចនាប័ទ្មនៃការនិយាយនិងភាពខុសគ្នានៃអារម្មណ៍។ Chatterbox ក៏មានលក្ខណៈពិសេសនៃការត្រួតពិនិត្យអារម្មណ៍ដែលល្អឥតខ្ចោះផងដែរដែលអនុញ្ញាតឱ្យអ្នកលៃតម្រូវសំឡេងអារម្មណ៍នៃសម្ដីដែលបង្កើតដោយឯករាជ្យពីអត្តសញ្ញាណសំឡេង។

អ្នកអភិវឌ្ឍន៍ & # 160; ៖:
Resemble AI

អាជ្ញាបណ្ណ & # 160; ៖:
MIT

ល្បឿន:
Medium

គុណភាព & # 160; ៖:

ភាសា:
en

VRAM:
4GB

ការក្លូនសំឡេង:
បាទ/ ចាស

តម្លៃក្នុងមួយតួអក្សរ 1K:
4x

ក្លូន Zero- shot ត្រួតពិនិត្យអារម្មណ៍ ភាពត្រឹមត្រូវខ្ពស់ ផ្ទេររចនាប័ទ្ម ក្លូនគំរូតែមួយ

ល្អបំផុតសម្រាប់ & # 160; ៖: ការក្លូនសំឡេងជំនាញជាមួយការត្រួតពិនិត្យអារម្មណ៍ ការបង្កើតមាតិកា

ព្យាយាម Chatterbox

Tortoise TTS

Premium

Tortoise TTS គឺជាប្រព័ន្ធអត្ថបទទៅជាការនិយាយដែលមានសំឡេងច្រើនដែលមានការត្រឡប់ទៅវិញដោយស្វ័យប្រវត្តិ ដែលផ្តល់អាទិភាពដល់គុណភាពអូឌីយ៉ូលើល្បឿន & # 160; ។ វាប្រើស្ថាបត្យកម្មដែលមានការចាប់អារម្មណ៍ពី DALL- E ដើម្បីបង្កើតការនិយាយដែលមានលក្ខណៈធម្មជាតិខ្ពស់ជាមួយនឹងការនិយាយដ៏ល្អ និងភាពស្រដៀងគ្នារបស់អ្នកនិយាយ & # 160; ។ ខណៈពេលដែលយឺតជាងជម្រើសជាច្រើន Tortoise ផលិតការនិយាយដែលមានលក្ខណៈពិតបំផុតដែលអាចរកបានក្នុងប្រព័ន្ធបរិស្ថានប្រភពបើកចំហ & # 160; ។

អ្នកអភិវឌ្ឍន៍ & # 160; ៖:
James Betker

អាជ្ញាបណ្ណ & # 160; ៖:
Apache 2.0

ល្បឿន:
Slow

គុណភាព & # 160; ៖:

ភាសា:
en

VRAM:
8GB

ការក្លូនសំឡេង:
បាទ/ ចាស

តម្លៃក្នុងមួយតួអក្សរ 1K:
4x

គុណភាពខ្ពស់បំផុត សំឡេងច្រើន ស្ថាបត្យកម្ម DALL- E ការក្លូនសំឡេង ថយក្រោយដោយស្វ័យប្រវត្តិ

ល្អបំផុតសម្រាប់ & # 160; ៖: សៀវភៅអូឌីយ៉ូ មាតិកាខ្ពស់ កម្មវិធីគុណភាពដំបូង

ព្យាយាម Tortoise TTS

StyleTTS 2

Premium

StyleTTS2សម្រេចបានការសំយោគ TTS កម្រិតមនុស្សដោយបន្សំរចនាប័ទ្មចម្រុះជាមួយនឹងការហ្វឹកហាត់ប្រឆាំងគ្នាដោយប្រើម៉ូដែលភាសានិយាយធំ ។ វាបង្កើតការនិយាយដែលមានសំឡេងធម្មជាតិបំផុតក្នុងចំណោមម៉ូដែលអ្នកនិយាយតែម្នាក់ឯង ដែលប្រកួតប្រជែងនឹងការថតមនុស្ស ។ StyleTTS2ប្រើម៉ូដែលរចនាប័ទ្មដែលមានមូលដ្ឋានលើការចម្រុះដើម្បីចាប់យកជួរពេញលេញនៃភាពខុសគ្នានៃការនិយាយរបស់មនុស្ស ។

អ្នកអភិវឌ្ឍន៍ & # 160; ៖:
Columbia University

អាជ្ញាបណ្ណ & # 160; ៖:
MIT

ល្បឿន:
Medium

គុណភាព & # 160; ៖:

ភាសា:
en

VRAM:
4GB

ការក្លូនសំឡេង:
គ្មាន

តម្លៃក្នុងមួយតួអក្សរ 1K:
4x

កម្រិតមនុស្ស ការបែងចែករចនាប័ទ្ម ការហ្វឹកហាត់ប្រកួតប្រជែង ភាពខុសគ្នាធម្មជាតិ ភាពត្រឹមត្រូវខ្ពស់

ល្អបំផុតសម្រាប់ & # 160; ៖: ការសំយោគអាប់ភ្លេតតែមួយគុណភាពស្ទូឌីយោ ការនិយាយជំនាញ

ព្យាយាម StyleTTS 2

OpenVoice

Premium

OpenVoice ដោយ MyShell.ai អនុញ្ញាតឱ្យមានសំឡេងភ្លាមៗជាមួយការត្រួតពិនិត្យ granular លើរចនាប័ទ្មសំឡេងអារម្មណ៍, សំឡេង, វោហាសាស្ត្រ, វោហាសាស្ត្រ, ផ្អាក, និង intonation ។ វាអាចក្លូនសំឡេងពីវីដេអូអូឌីយ៉ូខ្លីនិងបង្កើតការនិយាយនៅក្នុងភាសាជាច្រើនខណៈពេលដែលរក្សាអត្តសញ្ញាណអ្នកនិយាយ។ OpenVoice ក៏មានមុខងារជាកម្មវិធីបម្លែងសំឡេងផងដែរដែលអនុញ្ញាតឱ្យមានការបម្លែងសំឡេងពេលវេលាពិត។

អ្នកអភិវឌ្ឍន៍ & # 160; ៖:
MyShell.ai / MIT

អាជ្ញាបណ្ណ & # 160; ៖:
MIT

ល្បឿន:
Medium

គុណភាព & # 160; ៖:

ភាសា:
en, zh, ja, ko, fr, de, es, it

VRAM:
4GB

ការក្លូនសំឡេង:
បាទ/ ចាស

តម្លៃក្នុងមួយតួអក្សរ 1K:
4x

ក្លូនភ្លាមៗ ការបម្លែងសំឡេង ត្រួតពិនិត្យអារម្មណ៍ វត្ថុបញ្ជាវណ្ណយុត្ត ភាសាច្រើន

ល្អបំផុតសម្រាប់ & # 160; ៖: ការក្លូនសំឡេងដោយប្រើការត្រួតពិនិត្យរចនាប័ទ្មដែលមានគ្រាប់ល្អ ការបម្លែងសំឡេង

ព្យាយាម OpenVoice

Qwen3 TTS

Standard

Qwen3-TTS គឺជាម៉ូដែលអត្ថបទ-ទៅ-ការនិយាយដែលមានប៉ារ៉ាម៉ែត្រ 1.7 ពាន់លានដុល្លារពីក្រុម Qwen របស់ Alibaba ។ វាគាំទ្ររបៀបបីគឺ៖ កំណត់សំឡេងជាមុនជាមួយការគ្រប់គ្រងអារម្មណ៍ (9 ធុងបាស) ការចម្លងសំឡេងពី3វិនាទីនៃអូឌីយ៉ូនិងរបៀបរចនាសំឡេងតែមួយគត់ដែលអ្នកអាចពិពណ៌នាសំឡេងដែលអ្នកចង់បានក្នុងភាសាធម្មជាតិ។ វាគ្របដណ្តប់លើភាសា 10 ជាមួយនឹងការបង្ហាញខ្ពស់និង prosody ធម្មជាតិ។

អ្នកអភិវឌ្ឍន៍ & # 160; ៖:
Alibaba (Qwen)

អាជ្ញាបណ្ណ & # 160; ៖:
Apache 2.0

ល្បឿន:
Medium

គុណភាព & # 160; ៖:

ភាសា:
en, zh, ja, ko, de, fr, ru, pt, es, it

VRAM:
7GB

ការក្លូនសំឡេង:
បាទ/ ចាស

តម្លៃក្នុងមួយតួអក្សរ 1K:
2x

ការក្លូនសំឡេង ៩ សំឡេងកំណត់ជាមុន ការរចនាសំឡេងពីអត្ថបទ ត្រួតពិនិត្យអារម្មណ៍ ភាសា

ល្អបំផុតសម្រាប់ & # 160; ៖: មាតិកាច្រើនភាសាជាមួយការក្លូនសំឡេង ឬការរចនាសំឡេងផ្ទាល់ខ្លួន

ព្យាយាម Qwen3 TTS

Sesame CSM

Premium

Sesame CSM (Conversational Speech Model) គឺជាម៉ូដែលប៉ារ៉ាម៉ែត្រមួយពាន់លានដែលបានរចនាឡើងជាពិសេសសម្រាប់បង្កើតការនិយាយការសន្ទនា & # 160; ។ វាធ្វើម៉ូដែលលំនាំធម្មជាតិនៃការសន្ទនារបស់មនុស្សរួមទាំងការកំណត់ពេលវេលាការឆ្លើយតប backchannel ការឆ្លើយតបផ្លូវអារម្មណ៍ និងលំហូរការសន្ទនា & # 160; ។ CSM បង្កើតអូឌីយ៉ូដែលមានសំឡេងដូចជាការសន្ទនាមនុស្សធម្មតាជំនួសឲ្យការនិយាយសរីរាង្គ & # 160; ។

អ្នកអភិវឌ្ឍន៍ & # 160; ៖:
Sesame

អាជ្ញាបណ្ណ & # 160; ៖:
Apache 2.0

ល្បឿន:
Slow

គុណភាព & # 160; ៖:

ភាសា:
en

VRAM:
8GB

ការក្លូនសំឡេង:
គ្មាន

តម្លៃក្នុងមួយតួអក្សរ 1K:
4x

ការនិយាយ កាលបរិច្ឆេទធម្មជាតិ បង្វិល ឆានែលខាងក្រោយ ប៉ារ៉ាម៉ែត្រ 1B

ល្អបំផុតសម្រាប់ & # 160; ៖: អ្នកជំនួយការ AI, chatbots, កម្មវិធី AI និយាយ

ព្យាយាម Sesame CSM

Chatterbox Turbo

Standard

Chatterbox Turbo ដោយ Resemble AI គឺជាការធ្វើឱ្យប្រសើរប៉ារ៉ាម៉ែត្រ 350M ទៅ Chatterbox, ផ្គត់ផ្គង់រហូតដល់ទៅ 6x ល្បឿនពេលវេលាពិតប្រាកដជាមួយនឹងការពន្យារពេលក្រោម 200ms. វាគាំទ្រស្លាក paralinguistic ដូចជា [លាន់មាត់], [ហៀរសំបោរ], និង [ញញឹម] ដោយផ្ទាល់នៅក្នុងអត្ថបទ. រួមបញ្ចូលទាំងការដាក់ស្លាកទឹក Perth លើអូឌីយ៉ូដែលបានបង្កើតទាំងអស់សម្រាប់តាមដានប្រភព.

អ្នកអភិវឌ្ឍន៍ & # 160; ៖:
Resemble AI

អាជ្ញាបណ្ណ & # 160; ៖:
MIT

ល្បឿន:
Fast

គុណភាព & # 160; ៖:

ភាសា:
en

VRAM:
2GB

ការក្លូនសំឡេង:
បាទ/ ចាស

តម្លៃក្នុងមួយតួអក្សរ 1K:
2x

ភាពយឺតក្រោម- ២០០ ម. វិ. ស្លាកភាសាប៉ារ៉ា ពេលវេលាពិត ៦x ការក្លូនសំឡេង សម្គាល់ទឹក

ល្អបំផុតសម្រាប់ & # 160; ៖: ភ្នាក់ងារសំឡេងពេលវេលាពិត ការនិយាយដែលបង្ហាញដោយមានសំឡេងធម្មជាតិ

ព្យាយាម Chatterbox Turbo

Zonos

Standard

Zonos v0.1 ដោយ Zyphra គឺជាម៉ូដែលប៉ារ៉ាម៉ែត្រ 1.6B ជាមួយនឹងការត្រួតពិនិត្យអារម្មណ៍ល្អិតល្អន់ជាមួយនឹងគ្រាប់រំកិលសម្រាប់សេចក្តីសុខ, ខឹង, សោកសៅ, ភ័យខ្លាចនិងភ្ញាក់ផ្អើល។ វាផ្តល់ជូនទាំង Transformer និង SSM ថ្មី (ម៉ូដែលចន្លោះរដ្ឋ) ចម្រុះ។ បណ្តុះបណ្តាលលើ 200K + ម៉ោងនៃការនិយាយជាភាសាច្រើនជាមួយការចម្លងសំឡេងសូន្យពី 10-30 វិនាទីនៃអូឌីយ៉ូយោង។

អ្នកអភិវឌ្ឍន៍ & # 160; ៖:
Zyphra

អាជ្ញាបណ្ណ & # 160; ៖:
Apache 2.0

ល្បឿន:
Medium

គុណភាព & # 160; ៖:

ភាសា:
en, ja, zh, fr, de

VRAM:
6GB

ការក្លូនសំឡេង:
បាទ/ ចាស

តម្លៃក្នុងមួយតួអក្សរ 1K:
2x

ត្រួតពិនិត្យអារម្មណ៍ ការក្លូនសំឡេង ស្ថាបត្យកម្ម SSM ភាសាច្រើន ត្រួតពិនិត្យកម្រិតសំឡេង/ អត្រា

ល្អបំផុតសម្រាប់ & # 160; ៖: ការនិយាយដែលបង្ហាញដោយការត្រួតពិនិត្យអារម្មណ៍ ស្ទូឌីយោរចនាសំឡេង

ព្យាយាម Zonos

Dia 2

Standard

Dia2 ដោយ Nari Labs គឺជាការធ្វើឲ្យប្រសើរឡើងជាលើកដំបូងទៅកាន់ Dia ដែលអាចរកបាននៅក្នុងប៉ារ៉ាម៉ែត្រ 1B និង 2B ។ វាចាប់ផ្ដើមបង្កើតអូឌីយ៉ូពីតួអក្សរដំបូងដែលធ្វើឲ្យវាល្អឥតខ្ចោះសម្រាប់ភ្នាក់ងារសំឡេងពេលវេលាពិត និងបំពង់សំឡេងទៅកាន់សំឡេង ។ គាំទ្រប្រអប់អ្នកនិយាយច្រើនជាមួយនឹងស្លាក [S1] / [S2] និង paralinguistic cues ដូចជា (លាន់មាត់), (ក្អក) ។

អ្នកអភិវឌ្ឍន៍ & # 160; ៖:
Nari Labs

អាជ្ញាបណ្ណ & # 160; ៖:
Apache 2.0

ល្បឿន:
Fast

គុណភាព & # 160; ៖:

ភាសា:
en

VRAM:
4GB

ការក្លូនសំឡេង:
គ្មាន

តម្លៃក្នុងមួយតួអក្សរ 1K:
2x

លទ្ធផលស្ទ្រីម ធុងបាសច្រើន ពន្យារទាប សញ្ញាបច្ចេកទេសភាសា លទ្ធផលរហូតដល់ ២ នាទី

ល្អបំផុតសម្រាប់ & # 160; ៖: ភ្នាក់ងារសំឡេងពេលវេលាពិត បង្កើតប្រអប់ កម្មវិធីស្ទ្រីម

ព្យាយាម Dia 2

VoxCPM

Standard

VoxCPM 1.5 ដោយ OpenBMB គឺជាម៉ូដែល TTS ថ្មីដែលគ្មាន tokenizer ដែលដំណើរការនៅក្នុងចន្លោះបន្តបន្ទាប់ជំនួសឱ្យតួអក្សរឯកជន។ វាផលិតអូឌីយ៉ូ 44.1kHz គុណភាពខ្ពស់គាំទ្រការចម្លងសំឡេងសូន្យពី 3-10 វិនាទីនិងរក្សាភាពឆបគ្នាតាមខ. ការចម្លងភាសាឆ្លងអនុញ្ញាតឱ្យអ្នកអនុវត្តសំឡេងអង់គ្លេសទៅជាសម្ដីចិននិង vice versa ។

អ្នកអភិវឌ្ឍន៍ & # 160; ៖:
OpenBMB

អាជ្ញាបណ្ណ & # 160; ៖:
Apache 2.0

ល្បឿន:
Fast

គុណភាព & # 160; ៖:

ភាសា:
en, zh

VRAM:
4GB

ការក្លូនសំឡេង:
បាទ/ ចាស

តម្លៃក្នុងមួយតួអក្សរ 1K:
2x

អូឌីយ៉ូ 44. 1kHz គ្មានកម្មវិធីបង្កើតនិមិត្តសញ្ញា ការក្លូនភាសាចម្រុះ បរិបទដែលមានចំណាប់អារម្មណ៍ ការលៃតម្រូវលម្អិត LoRA

ល្អបំផុតសម្រាប់ & # 160; ៖: អូឌីយ៉ូគុណភាពខ្ពស់ សៀវភៅអូឌីយ៉ូ មាតិកាទម្រង់វែងជាមួយភាពជាប់គ្នានៃសំឡេង

ព្យាយាម VoxCPM

OuteTTS

Free

OuteTTS ពង្រីកម៉ូដែលភាសាធំ ៗ ជាមួយសមត្ថភាពអត្ថបទទៅជាសំឡេង ខណៈពេលដែលរក្សាទុកស្ថាបត្យកម្មដើម។ វាគាំទ្រ backends ច្រើនរួមទាំង llama.cpp (CPU / GPU), Hugging Face Transformers, ExLlamaV2, VLLM និងសូម្បីតែការសន្និដ្ឋានកម្មវិធីរុករកតាមរយៈ Transformers.js ។ លក្ខណៈពិសេសការចម្លងសំឡេងដោយគ្មានការថតតាមរយៈទម្រង់អ្នកនិយាយដែលបានរក្សាទុកជា JSON ។

អ្នកអភិវឌ្ឍន៍ & # 160; ៖:
OuteAI

អាជ្ញាបណ្ណ & # 160; ៖:
Apache 2.0

ល្បឿន:
Fast

គុណភាព & # 160; ៖:

ភាសា:
en

VRAM:
2GB

ការក្លូនសំឡេង:
បាទ/ ចាស

តម្លៃក្នុងមួយតួអក្សរ 1K:
ទំនេរ

ការសន្និដ្ឋានរបស់ស៊ីភីយូ ការសន្និដ្ឋានកម្មវិធីរុករក ការក្លូនសំឡេង កម្មវិធីខាងក្រោយច្រើន ទម្រង់អ្នកនិយាយ

ល្អបំផុតសម្រាប់ & # 160; ៖: ការបែងចែកចំណុចប្រទាក់ TTS ផ្អែកលើកម្មវិធីរុករក បរិស្ថានធនធានទាប

ព្យាយាម OuteTTS

TADA

Standard

TADA (ការតម្រឹមអត្ថបទ-សំឡេងពីរ) ដោយ Hume AI គឺជាម៉ូដែល TTS ដ៏អស្ចារ្យដែលលុបបំបាត់ការភាន់ច្រឡំតាមរយៈស្ថាបត្យកម្មតម្រឹមពីរថ្មីដែលសាងសង់លើ Llama 3.2 ។ មាននៅក្នុង 1B (ភាសាអង់គ្លេស) និង 3B (ភាសាច្រើន) កំណែ TADA សម្រេចបាននូវ RTF នៃ 0.09 - 5x រហ័សជាងម៉ូដែល TTS ផ្អែកលើ LLM ដែលអាចប្រៀបធៀបបាន។ វាគាំទ្រដល់ 700 វិនាទីនៃបរិបទអូឌីយ៉ូនិងផលិតការនិយាយប្រកបដោយអារម្មណ៍ដោយគ្មានការភាន់ច្រឡំលើស្តង់ដារស្តង់ដារ។

អ្នកអភិវឌ្ឍន៍ & # 160; ៖:
Hume AI

អាជ្ញាបណ្ណ & # 160; ៖:
MIT

ល្បឿន:
Fast

គុណភាព & # 160; ៖:

ភាសា:
en

VRAM:
5GB

ការក្លូនសំឡេង:
គ្មាន

តម្លៃក្នុងមួយតួអក្សរ 1K:
2x

គ្មានការមើលឃើញខុសធម្មតា 5x រហ័សជាង LLM TTS កន្សោមអារម្មណ៍ បរិបទអូឌីយ៉ូ ៧០០s ការតម្រឹមទ្វេដង

ល្អបំផុតសម្រាប់ & # 160; ៖: គុណភាពខ្ពស់ការនិយាយដោយឥតគិតថ្លៃការភាន់ច្រឡំការបង្ហាញអារម្មណ៍ការសន្និដ្ឋានរហ័ស

ព្យាយាម TADA

VibeVoice

Standard

VibeVoice របស់ Microsoft មានពីរប្រភេទ: ម៉ូដែល 1.5B សម្រាប់មាតិកាដែលមានទម្រង់វែង (រហូតដល់ទៅ 90 នាទី,4អ្នកនិយាយ) និង ម៉ូដែល Realtime 0.5B សម្រាប់ស្ទ្រីមជាមួយ ~ 200ms ភាពយឺតយ៉ាវអូឌីយ៉ូដំបូង។ ប្រភេទ 1.5B ល្អប្រសើរនៅ ផតខាស់ និង សៀវភៅអូឌីយ៉ូជាមួយនឹងភាពឆបគ្នានៃអ្នកនិយាយលើការឆ្លងកាត់វែង។ ចំណាំ: ក្រុមហ៊ុន Microsoft បានយកកូដ TTS ពីឃ្លាំង និង បង្កើត អូឌីយ៉ូ រួមមាន ការ ដក ចេញ AI ដែល ឮ ។

អ្នកអភិវឌ្ឍន៍ & # 160; ៖:
Microsoft

អាជ្ញាបណ្ណ & # 160; ៖:
MIT

ល្បឿន:
Fast

គុណភាព & # 160; ៖:

ភាសា:
en, zh

VRAM:
4GB

ការក្លូនសំឡេង:
គ្មាន

តម្លៃក្នុងមួយតួអក្សរ 1K:
2x

ធុងបាសច្រើន រហូតដល់ ៩០ នាទី ការបង្កើតផតខាស់ ភាពឆបគ្នារបស់អ្នកនិយាយ ស្ទ្រីម ២០០ ម. អេ.

ល្អបំផុតសម្រាប់ & # 160; ៖: ផតខាស់ សៀវភៅអូឌីយ៉ូ មាតិកាអ្នកនិយាយច្រើនបែបបទវែង

ព្យាយាម VibeVoice

Pocket TTS

Free

Pocket TTS ដោយ Kyutai (អ្នកបង្កើត Moshi) គឺជាម៉ូដែលអត្ថបទ-ទៅ-ការនិយាយប៉ារ៉ាម៉ែត្រ 100M ដ៏តូចមួយដែលវាយលុកល្អប្រសើរជាងទំងន់របស់វា។ វារត់យ៉ាងមានប្រសិទ្ធភាពនៅលើស៊ីភីយូគាំទ្រការចម្លងសំឡេងសូន្យពីគំរូអូឌីយ៉ូតែមួយនិងផលិតការនិយាយដែលមានសំឡេងធម្មជាតិ។ ទំហំម៉ូដែលតូចធ្វើឱ្យវាសមស្របសម្រាប់បញ្ជូនច្រកនិងបរិស្ថានដែលមានធនធានទាប។

អ្នកអភិវឌ្ឍន៍ & # 160; ៖:
Kyutai

អាជ្ញាបណ្ណ & # 160; ៖:
MIT

ល្បឿន:
Fast

គុណភាព & # 160; ៖:

ភាសា:
en, fr

VRAM:
1GB

ការក្លូនសំឡេង:
បាទ/ ចាស

តម្លៃក្នុងមួយតួអក្សរ 1K:
ទំនេរ

ប៉ារ៉ាម៉ែត្រ 100M ការសន្និដ្ឋានរបស់ស៊ីភីយូ ការក្លូនសំឡេង ក្លូនគំរូតែមួយ ត្រៀមជាស្រេចសម្រាប់គែម

ល្អបំផុតសម្រាប់ & # 160; ៖: ការបែងចែកស្រាល បរិស្ថានតែស៊ីភីយូ ក្លូនសំឡេងរហ័ស

ព្យាយាម Pocket TTS

Kitten TTS

Free

Kitten TTS by KittenML is an ultra-lightweight text-to-speech model built on ONNX. With variants from 15M to 80M parameters (25-80 MB on disk), it delivers high-quality voice synthesis on CPU without requiring a GPU. Features 8 built-in voices, adjustable speech speed, and built-in text preprocessing for numbers, currencies, and units. Ideal for edge deployment and low-latency applications.

អ្នកអភិវឌ្ឍន៍ & # 160; ៖:
KittenML

អាជ្ញាបណ្ណ & # 160; ៖:
Apache 2.0

ល្បឿន:
Fast

គុណភាព & # 160; ៖:

ភាសា:
en

VRAM:
0GB

ការក្លូនសំឡេង:
គ្មាន

តម្លៃក្នុងមួយតួអក្សរ 1K:
ទំនេរ

CPU-only inference Under 80MB model size 8 built-in voices Speed control ONNX-based 24kHz output

ល្អបំផុតសម្រាប់ & # 160; ៖: Fast lightweight TTS, edge deployment, low-latency applications

ព្យាយាម Kitten TTS

CosyVoice3

Standard

CosyVoice3 is the latest evolution from Alibaba's FunAudioLLM team. It features bi-streaming inference with ~150ms latency, instruction-based control for emotion/speed/volume, and improved speaker similarity for zero-shot cloning. Supports 9 languages plus 18 Chinese dialects. RL-tuned variant delivers state-of-the-art prosody.

អ្នកអភិវឌ្ឍន៍ & # 160; ៖:
Alibaba (FunAudioLLM)

អាជ្ញាបណ្ណ & # 160; ៖:
Apache 2.0

ល្បឿន:
Fast

គុណភាព & # 160; ៖:

ភាសា:
en, zh, ja, ko, de, es, fr, it, ru

VRAM:
4GB

ការក្លូនសំឡេង:
បាទ/ ចាស

តម្លៃក្នុងមួយតួអក្សរ 1K:
2x

Bi-streaming Emotion control Voice cloning Speed/volume control Instruction following

ល្អបំផុតសម្រាប់ & # 160; ៖: Multilingual production TTS, real-time applications, voice cloning

ព្យាយាម CosyVoice3

MOSS-TTS

Premium

MOSS-TTS from OpenMOSS supports generation of up to 1 hour of continuous speech across 20 languages. Features token-level duration control, phoneme-level pronunciation control via IPA/Pinyin, and code-switching between languages. The 8B production model delivers state-of-the-art quality with zero-shot voice cloning from reference audio.

អ្នកអភិវឌ្ឍន៍ & # 160; ៖:
OpenMOSS

អាជ្ញាបណ្ណ & # 160; ៖:
Apache 2.0

ល្បឿន:
Medium

គុណភាព & # 160; ៖:

ភាសា:
en, zh, de, es, fr, ja, it, hu, ko, ru, fa, ar, pl, pt, cs, da, sv, el, tr

VRAM:
16GB

ការក្លូនសំឡេង:
បាទ/ ចាស

តម្លៃក្នុងមួយតួអក្សរ 1K:
4x

Ultra-long generation 20 languages Voice cloning Duration control Pronunciation control Code-switching

ល្អបំផុតសម្រាប់ & # 160; ៖: Audiobooks, long-form content, multilingual production

ព្យាយាម MOSS-TTS

MegaTTS3

Premium

MegaTTS3 from ByteDance uses a novel sparse alignment mechanism combined with a latent diffusion transformer. Features adjustable trade-off between speech intelligibility and speaker similarity for zero-shot voice cloning.

អ្នកអភិវឌ្ឍន៍ & # 160; ៖:
ByteDance

អាជ្ញាបណ្ណ & # 160; ៖:
Apache 2.0

ល្បឿន:
Slow

គុណភាព & # 160; ៖:

ភាសា:
en, zh

VRAM:
8GB

ការក្លូនសំឡេង:
បាទ/ ចាស

តម្លៃក្នុងមួយតួអក្សរ 1K:
4x

Voice cloning Adjustable similarity Cross-lingual

ល្អបំផុតសម្រាប់ & # 160; ៖: High-fidelity voice cloning

ព្យាយាម MegaTTS3

Kokoro

ទំនេរ

Kokoro is an 82 million parameter text-to-speech model that punches well above its weight class. Despite its tiny size, it produces remarkably natural and expressive speech. Kokoro supports multiple languages including English, Japanese, Chinese, and Korean with a variety of expressive voices. It runs incredibly fast — generating audio nearly 100x faster than real-time on a GPU.

អ្នកអភិវឌ្ឍន៍ & # 160; ៖:
Hexgrad

អាជ្ញាបណ្ណ & # 160; ៖:
Apache 2.0

ល្បឿន:
Fast

គុណភាព & # 160; ៖:

ភាសា: en, ja, zh, ko, fr, de, it, pt, es, hi, ru

ល្អបំផុតសម្រាប់ & # 160; ៖: High-quality TTS with minimal latency, streaming applications

សាកល្បងដោយឥតគិតថ្លៃ

Piper

ទំនេរ

Piper is a lightweight text-to-speech engine developed by Rhasspy that uses VITS and larynx architectures. It runs entirely on CPU, making it ideal for edge devices, home automation, and applications requiring offline TTS. With over 100 voices across 30+ languages, Piper delivers natural-sounding speech at real-time speeds even on a Raspberry Pi 4.

អ្នកអភិវឌ្ឍន៍ & # 160; ៖:
Rhasspy

អាជ្ញាបណ្ណ & # 160; ៖:
MIT

ល្បឿន:
Fast

គុណភាព & # 160; ៖:

ភាសា: en, de, fr, es, it, pt, nl, pl, ru, zh, ja, ko, ar, cs, da, fi, el, hu, is, ka, kk, ne, no, ro, sk, sr, sv, sw, tr, uk, vi

ល្អបំផុតសម្រាប់ & # 160; ៖: Quick previews, accessibility, and embedded applications

សាកល្បងដោយឥតគិតថ្លៃ

VITS

ទំនេរ

VITS (Variational Inference with adversarial learning for end-to-end Text-to-Speech) is a parallel end-to-end TTS method that generates more natural sounding audio than current two-stage models. It adopts variational inference augmented with normalizing flows and an adversarial training process, achieving a significant improvement in naturalness.

អ្នកអភិវឌ្ឍន៍ & # 160; ៖:
Jaehyeon Kim et al.

អាជ្ញាបណ្ណ & # 160; ៖:
MIT

ល្បឿន:
Fast

គុណភាព & # 160; ៖:

ភាសា: en, zh, ja, ko

ល្អបំផុតសម្រាប់ & # 160; ៖: General-purpose text-to-speech with natural prosody

សាកល្បងដោយឥតគិតថ្លៃ

MeloTTS

ទំនេរ

MeloTTS by MyShell.ai is a multilingual TTS library supporting English (American, British, Indian, Australian), Spanish, French, Chinese, Japanese, and Korean. It is extremely fast, processing text at near real-time speed on CPU alone. MeloTTS is designed for production use and supports both CPU and GPU inference.

អ្នកអភិវឌ្ឍន៍ & # 160; ៖:
MyShell.ai

អាជ្ញាបណ្ណ & # 160; ៖:
MIT

ល្បឿន:
Fast

គុណភាព & # 160; ៖:

ភាសា: en, es, fr, zh, ja, ko

ល្អបំផុតសម្រាប់ & # 160; ៖: Production applications needing fast, multilingual TTS

សាកល្បងដោយឥតគិតថ្លៃ

OuteTTS

ទំនេរ

OuteTTS extends large language models with text-to-speech capabilities while preserving the original architecture. It supports multiple backends including llama.cpp (CPU/GPU), Hugging Face Transformers, ExLlamaV2, VLLM, and even browser inference via Transformers.js. Features zero-shot voice cloning through speaker profiles saved as JSON.

អ្នកអភិវឌ្ឍន៍ & # 160; ៖:
OuteAI

អាជ្ញាបណ្ណ & # 160; ៖:
Apache 2.0

ល្បឿន:
Fast

គុណភាព & # 160; ៖:

ភាសា: en

ល្អបំផុតសម្រាប់ & # 160; ៖: Edge deployment, browser-based TTS, low-resource environments

សាកល្បងដោយឥតគិតថ្លៃ

Pocket TTS

ទំនេរ

Pocket TTS by Kyutai (creators of Moshi) is a compact 100M parameter text-to-speech model that punches well above its weight. It runs efficiently on CPU, supports zero-shot voice cloning from a single audio sample, and produces natural-sounding speech. The small model size makes it ideal for edge deployment and low-resource environments.

អ្នកអភិវឌ្ឍន៍ & # 160; ៖:
Kyutai

អាជ្ញាបណ្ណ & # 160; ៖:
MIT

ល្បឿន:
Fast

គុណភាព & # 160; ៖:

ភាសា: en, fr

លំនាំដើម

អ្នកអភិវឌ្ឍន៍ & # 160; ៖:
Alibaba (FunAudioLLM)

អាជ្ញាបណ្ណ & # 160; ៖:
Apache 2.0

ល្បឿន:
Fast

គុណភាព & # 160; ៖:

ភាសា:
en, zh, ja, ko, de, es, fr, it, ru

ការក្លូនសំឡេង:
បាទ/ ចាស

Bi-streamingEmotion controlVoice cloningSpeed/volume controlInstruction following

ល្អបំផុតសម្រាប់ & # 160; ៖: Multilingual production TTS, real-time applications, voice cloning

ព្យាយាម CosyVoice3

Chatterbox

តម្លៃខ្ពស់

Chatterbox by Resemble AI is a cutting-edge zero-shot voice cloning model. It can replicate any voice from a single audio sample with remarkable accuracy, capturing not just the timbre but also the speaking style and emotional nuances. Chatterbox also features fine-grained emotion control, allowing you to adjust the emotional tone of the generated speech independently from the voice identity.

អ្នកអភិវឌ្ឍន៍ & # 160; ៖:
Resemble AI

អាជ្ញាបណ្ណ & # 160; ៖:
MIT

ល្បឿន:
Medium

គុណភាព & # 160; ៖:

ភាសា:
en

ការក្លូនសំឡេង:
បាទ/ ចាស

VRAM:
4GB

តម្លៃក្នុងមួយតួអក្សរ 1K:
4x

Zero-shot cloningEmotion controlHigh fidelityStyle transferSingle sample cloning

ល្អបំផុតសម្រាប់ & # 160; ៖: Professional voice cloning with emotional control, content creation

ព្យាយាម Chatterbox

Tortoise TTS

តម្លៃខ្ពស់

Tortoise TTS is an autoregressive multi-voice text-to-speech system that prioritizes audio quality over speed. It uses DALL-E-inspired architecture to generate highly natural speech with excellent prosody and speaker similarity. While slower than many alternatives, Tortoise produces some of the most realistic synthetic speech available in the open-source ecosystem.

អ្នកអភិវឌ្ឍន៍ & # 160; ៖:
James Betker

អាជ្ញាបណ្ណ & # 160; ៖:
Apache 2.0

ល្បឿន:
Slow

គុណភាព & # 160; ៖:

ភាសា:
en

ការក្លូនសំឡេង:
បាទ/ ចាស

VRAM:
8GB

តម្លៃក្នុងមួយតួអក្សរ 1K:
4x

Highest qualityMulti-voiceDALL-E architectureVoice cloningAutoregressive

ល្អបំផុតសម្រាប់ & # 160; ៖: Audiobooks, premium content, quality-first applications

ព្យាយាម Tortoise TTS

StyleTTS 2

តម្លៃខ្ពស់

StyleTTS 2 achieves human-level TTS synthesis by combining style diffusion with adversarial training using large speech language models. It generates the most natural sounding speech among single-speaker models, rivaling human recordings. StyleTTS 2 uses diffusion-based style modeling to capture the full range of human speech variation.

អ្នកអភិវឌ្ឍន៍ & # 160; ៖:
Columbia University

អាជ្ញាបណ្ណ & # 160; ៖:
MIT

ល្បឿន:
Medium

គុណភាព & # 160; ៖:

ភាសា:
en

ការក្លូនសំឡេង:
គ្មាន

VRAM:
4GB

តម្លៃក្នុងមួយតួអក្សរ 1K:
4x

Human-levelStyle diffusionAdversarial trainingNatural variationHigh fidelity

ល្អបំផុតសម្រាប់ & # 160; ៖: Studio-quality single-speaker synthesis, professional narration

ព្យាយាម StyleTTS 2

OpenVoice

តម្លៃខ្ពស់

អ្នកអភិវឌ្ឍន៍ & # 160; ៖:
MyShell.ai / MIT

អាជ្ញាបណ្ណ & # 160; ៖:
MIT

ល្បឿន:
Medium

គុណភាព & # 160; ៖:

ភាសា:
en, zh, ja, ko, fr, de, es, it

ការក្លូនសំឡេង:
បាទ/ ចាស

VRAM:
4GB

តម្លៃក្នុងមួយតួអក្សរ 1K:
4x

Instant cloningVoice conversionEmotion controlAccent controlMultilingual

ល្អបំផុតសម្រាប់ & # 160; ៖: Voice cloning with fine-grained style control, voice conversion

ព្យាយាម OpenVoice

Sesame CSM

តម្លៃខ្ពស់

Sesame CSM (Conversational Speech Model) is a 1 billion parameter model designed specifically for generating conversational speech. It models the natural patterns of human conversation including turn-taking timing, backchannel responses, emotional reactions, and conversational flow. CSM generates audio that sounds like a natural human conversation rather than synthetic speech.

អ្នកអភិវឌ្ឍន៍ & # 160; ៖:
Sesame

អាជ្ញាបណ្ណ & # 160; ៖:
Apache 2.0

ល្បឿន:
Slow

គុណភាព & # 160; ៖:

ភាសា:
en

ការក្លូនសំឡេង:
គ្មាន

VRAM:
8GB

តម្លៃក្នុងមួយតួអក្សរ 1K:
4x

ConversationalNatural timingTurn-takingBackchannel1B parameters

ល្អបំផុតសម្រាប់ & # 160; ៖: AI assistants, chatbots, conversational AI applications

ព្យាយាម Sesame CSM

MOSS-TTS

តម្លៃខ្ពស់

អ្នកអភិវឌ្ឍន៍ & # 160; ៖:
OpenMOSS

អាជ្ញាបណ្ណ & # 160; ៖:
Apache 2.0

ល្បឿន:
Medium

គុណភាព & # 160; ៖:

ភាសា:
en, zh, de, es, fr, ja, it, hu, ko, ru, fa, ar, pl, pt, cs, da, sv, el, tr

ការក្លូនសំឡេង:
បាទ/ ចាស

VRAM:
16GB

តម្លៃក្នុងមួយតួអក្សរ 1K:
4x

Ultra-long generation20 languagesVoice cloningDuration controlPronunciation controlCode-switching

ល្អបំផុតសម្រាប់ & # 160; ៖: Audiobooks, long-form content, multilingual production

ព្យាយាម MOSS-TTS

MegaTTS3

តម្លៃខ្ពស់

អ្នកអភិវឌ្ឍន៍ & # 160; ៖:
ByteDance

អាជ្ញាបណ្ណ & # 160; ៖:
Apache 2.0

ល្បឿន:
Slow

គុណភាព & # 160; ៖:

ភាសា:
en, zh

ការក្លូនសំឡេង:
បាទ/ ចាស

VRAM:
8GB

តម្លៃក្នុងមួយតួអក្សរ 1K:
4x

Voice cloningAdjustable similarityCross-lingual

ល្អបំផុតសម្រាប់ & # 160; ៖: High-fidelity voice cloning

ព្យាយាម MegaTTS3

តារាងប្រៀបធៀបម៉ូដែល

ម៉ូដែល	អ្នកអភិវឌ្ឍន៍ & # 160; ៖	ផ្កាយ	ល្បឿន	ភាសា	VRAM	អាជ្ញាបណ្ណ & # 160; ៖	ក្រេឌីត
Kokoro	Hexgrad	Free	Fast	11	1.5GB	Apache 2.0	ទំនេរ	ប្រើ
Piper	Rhasspy	Free	Fast	31	0 (CPU only)	MIT	ទំនេរ	ប្រើ
VITS	Jaehyeon Kim et al.	Free	Fast	4	1GB	MIT	ទំនេរ	ប្រើ
MeloTTS	MyShell.ai	Free	Fast	6	0.5GB (GPU optional)	MIT	ទំនេរ	ប្រើ
Bark	Suno	Standard	Slow	13	5GB	MIT	2	ប្រើ
Bark Small	Suno	Standard	Medium	13	2GB	MIT	2	ប្រើ
CosyVoice 2	Alibaba (Tongyi Lab)	Standard	Medium	8	4GB	Apache 2.0	2	ប្រើ
Dia TTS	Nari Labs	Standard	Medium	1	4GB	Apache 2.0	2	ប្រើ
Parler TTS	Hugging Face	Standard	Medium	1	4GB	Apache 2.0	2	ប្រើ
GLM-TTS	Zhipu AI	Standard	Medium	2	4GB	GLM-4 License	2	ប្រើ
IndexTTS-2	Index Team	Standard	Medium	2	4GB	Bilibili Model License	2	ប្រើ
Spark TTS	SparkAudio	Standard	Medium	2	4GB	CC BY-NC-SA 4.0	2	ប្រើ
GPT-SoVITS	RVC-Boss	Standard	Slow	4	6GB	MIT	2	ប្រើ
Orpheus	Canopy Labs	Standard	Medium	1	4GB	Llama 3.2 Community	2	ប្រើ
Chatterbox	Resemble AI	Premium	Medium	1	4GB	MIT	4	ប្រើ
Tortoise TTS	James Betker	Premium	Slow	1	8GB	Apache 2.0	4	ប្រើ
StyleTTS 2	Columbia University	Premium	Medium	1	4GB	MIT	4	ប្រើ
OpenVoice	MyShell.ai / MIT	Premium	Medium	8	4GB	MIT	4	ប្រើ
Qwen3 TTS	Alibaba (Qwen)	Standard	Medium	10	7GB	Apache 2.0	2	ប្រើ
Sesame CSM	Sesame	Premium	Slow	1	8GB	Apache 2.0	4	ប្រើ
Chatterbox Turbo	Resemble AI	Standard	Fast	1	2GB	MIT	2	ប្រើ
Zonos	Zyphra	Standard	Medium	5	6GB	Apache 2.0	2	ប្រើ
Dia 2	Nari Labs	Standard	Fast	1	4GB	Apache 2.0	2	ប្រើ
VoxCPM	OpenBMB	Standard	Fast	2	4GB	Apache 2.0	2	ប្រើ
OuteTTS	OuteAI	Free	Fast	1	2GB	Apache 2.0	ទំនេរ	ប្រើ
TADA	Hume AI	Standard	Fast	1	5GB	MIT	2	ប្រើ
VibeVoice	Microsoft	Standard	Fast	2	4GB	MIT	2	ប្រើ
Pocket TTS	Kyutai	Free	Fast	2	1GB	MIT	ទំនេរ	ប្រើ
Kitten TTS	KittenML	Free	Fast	1	0GB	Apache 2.0	ទំនេរ	ប្រើ
CosyVoice3	Alibaba (FunAudioLLM)	Standard	Fast	9	4GB	Apache 2.0	2	ប្រើ
MOSS-TTS	OpenMOSS	Premium	Medium	19	16GB	Apache 2.0	4	ប្រើ
MegaTTS3	ByteDance	Premium	Slow	2	8GB	Apache 2.0	4	ប្រើ

វេទិកាអត្ថបទទៅជាការនិយាយរបស់ AI ដែលមានលក្ខណៈទូលំទូលាយបំផុត

ហេតុអ្វីបានជាជ្រើសរើស TTS.ai សម្រាប់អត្ថបទទៅជាសម្ដី?

TTS.ai នាំមកនូវម៉ូដែលអត្ថបទ-ទៅ-ការនិយាយដែលមានប្រភពបើកចំហល្អបំផុតនៅលើពិភពលោកនៅក្នុងវេទិកាតែមួយងាយស្រួលប្រើ។ មិនដូចសេវាកម្មដែលមានកម្មសិទ្ធិដែលចាក់សោអ្នកនៅក្នុងម៉ាស៊ីនសំឡេងតែមួយទេ TTS.ai ផ្តល់ឱ្យអ្នកនូវការចូលដំណើរការទៅម៉ូដែល 20+ ពីមន្ទីរពិសោធន៍ស្រាវជ្រាវឈានមុខគេរួមមាន Coqui, MyShell, Amphion, NVIDIA, Suno, HuggingFace, សាកលវិទ្យាល័យ Tsinghua និងច្រើនទៀត។

ម៉ូដែលនីមួយៗគឺជាប្រភពបើកចំហក្រោម MIT, Apache 2.0 ឬអាជ្ញាប័ណ្ណអនុញ្ញាតស្រដៀងគ្នាដែលធានាថាអ្នកមានសិទ្ធិពាណិជ្ជកម្មពេញលេញដើម្បីប្រើអូឌីយ៉ូដែលបានបង្កើតក្នុងគម្រោងរបស់អ្នក ។ ថាតើអ្នកត្រូវការការបញ្ចូលគ្នាលឿន និងស្រាលសម្រាប់កម្មវិធីពេលវេលាពិត ឬលទ្ធផលគុណភាពស្ទូឌីយោខ្ពស់សម្រាប់សៀវភៅអូឌីយ៉ូ និងផតខាស់ TTS.ai មានម៉ូដែលត្រឹមត្រូវសម្រាប់ករណីប្រើនីមួយៗ ។

ម៉ូដែលឥតគិតថ្លៃ, គ្មានគណនីដែលត្រូវការ

ចាប់ផ្ដើមភ្លាមៗជាមួយម៉ូដែល TTS ឥតគិតថ្លៃបី: Piper (លឿនខ្លាំង, ទម្ងន់ស្រាល), VITS (ការសំយោគសរសៃប្រសាទដែលមានគុណភាពខ្ពស់) និង MeloTTS (ការគាំទ្រភាសាច្រើន) ។ គ្មានការចុះឈ្មោះ, គ្មានកាតឥណទាន, គ្មានដែនកំណត់លើជំនាន់។ ម៉ូដែលឥតគិតថ្លៃគាំទ្រភាសាអង់គ្លេសនិងភាសាផ្សេងទៀតជាច្រើនជាមួយលទ្ធផលសំឡេងធម្មជាតិសមរម្យសម្រាប់កម្មវិធីភាគច្រើន។

ការដំណើរការដែលបានបង្កើនល្បឿនដោយ GPU

ម៉ូដែល TTS ទាំងអស់រត់នៅលើ GPU NVIDIA ដែលបានដាក់បញ្ចូលសម្រាប់ពេលវេលាបង្កើតដែលឆាប់រហ័សនិងមានស្ថេរភាព។ ម៉ូដែលឥតគិតថ្លៃជាធម្មតាបង្កើតអូឌីយ៉ូក្នុងរយៈពេលក្រោម2វិនាទី។ ម៉ូដែលស្តង់ដារដូចជា Kokoro, CosyVoice2និង Bark មធ្យម 3-5 វិនាទី។ ម៉ូដែល Premium ដែលមានគុណភាពខ្ពស់បំផុតដូចជា Tortoise និង Chatterbox ដំណើរការក្នុងរយៈពេល 5-15 វិនាទីអាស្រ័យលើប្រវែងអត្ថបទ។

30+ ភាសាដែលគាំទ្រ

បង្កើតការនិយាយក្នុងភាសាជាង 30 រួមមាន ភាសាអង់គ្លេស អេស្ប៉ាញ បារាំង អាល្លឺម៉ង់ អ៊ីតាលី ព័រទុយហ្គាល់ ចិន ជប៉ុន កូរ៉េ អារ៉ាប់ ឥណ្ឌា រុស្ស៊ី និងច្រើនទៀត ។ ម៉ូដែលជាច្រើនគាំទ្រការបង្កើតភាសាឆ្លងគ្នា មានន័យថា អ្នកអាចបង្កើតការនិយាយក្នុងភាសាដែលសំឡេងដើមមិនធ្លាប់បានហ្វឹកហាត់លើ ។ CosyVoice2និង GPT-SoVITS ល្អបំផុតនៅការចម្លងសំឡេងភាសាឆ្លង ។

API រួចរាល់សម្រាប់អ្នកអភិវឌ្ឍន៍

រួមបញ្ចូល TTS.ai ទៅក្នុងកម្មវិធីរបស់អ្នកជាមួយ OpenAI-សមរម្យ REST API របស់យើង។ ចំណុចបញ្ចប់មួយសម្រាប់ម៉ូដែលទាំងអស់ 20 + ។ Python, JavaScript, cURL និង Go SDKs ។ ការគាំទ្រស្ទ្រីមសម្រាប់កម្មវិធីពេលវេលាពិតប្រាកដ។ ការដំណើរការបាច់សម្រាប់បង្កើតមាតិកាធំ ៗ ។ Webhooks សម្រាប់ការជូនដំណឹង async ។ មាននៅលើផែនការ Pro និង Enterprise ។

សំណួរដែលសួរញឹកញាប់

អត្ថបទទៅជាសំឡេង (TTS) គឺជាបច្ចេកវិទ្យា AI ដែលបម្លែងអត្ថបទដែលបានសរសេរទៅជាអូឌីយ៉ូនិយាយដែលមានសំឡេងធម្មជាតិ។ ម៉ូដែល TTS សរសៃប្រសាទសម័យទំនើបដូចជា Kokoro, Chatterbox និង CosyVoice2ប្រើការរៀនជ្រៅដើម្បីផលិតការនិយាយដែលមានសំឡេងមនុស្សគួរឱ្យកត់សម្គាល់ជាមួយ prosody ធម្មជាតិអារម្មណ៍និងចង្វាក់។

វាអាស្រ័យលើតម្រូវការរបស់អ្នក & # 160; ។ សម្រាប់ការមើលជាមុនរហ័ស ប្រើ Piper ឬ MeloTTS (ឥតគិតថ្លៃ រហ័ស) & # 160; ។ សម្រាប់គុណភាពខ្ពស់ ព្យាយាម Kokoro ឬ CosyVoice2(កម្រិតស្តង់ដារ) & # 160; ។ សម្រាប់ការក្លូនសំឡេង ប្រើ Chatterbox ឬ GPT- SoVITS (ថ្លៃ) & # 160; ។ សម្រាប់មាតិកាប្រអប់/ ផតខាស់ ព្យាយាម Dia TTS & # 160; ។ ម៉ូដែលនីមួយៗមានកម្លាំងខុសៗគ្នា - ធ្វើការសាកល្បងដើម្បីរកការសមល្អ & # 160; ។

បាទ! TTS.ai ផ្តល់ជូនដោយឥតគិតថ្លៃអត្ថបទ-ទៅ-ការនិយាយជាមួយ Kokoro, Piper, VITS, និងម៉ូដែល MeloTTS. គ្មានគណនីចាំបាច់សម្រាប់រហូតដល់ទៅ 500 តួអក្សរនិង3ជំនាន់ក្នុងមួយម៉ោង. ចុះឈ្មោះសម្រាប់គណនីឥតគិតថ្លៃដើម្បីទទួលបាន 50 ពិន្ទុនិងចូលដំណើរការម៉ូដែលទាំងអស់.

ម៉ូដែល TTS របស់យើងគាំទ្ររួមគ្នា 30+ ភាសារួមទាំងភាសាអង់គ្លេស, អេស្ប៉ាញ, បារាំង, អាល្លឺម៉ង់, អ៊ីតាលី, ព័រទុយហ្គាល់, ចិន, ជប៉ុន, កូរ៉េ, អារ៉ាប់, រុស្ស៊ី, ឥណ្ឌា, និងច្រើនទៀត.

បាទ/ ចាស អូឌីយ៉ូដែលបានបង្កើតតាមរយៈ TTS.ai អាចត្រូវបានប្រើជាពាណិជ្ជកម្ម & # 160; ។ ម៉ូដែលទាំងអស់របស់យើងប្រើអាជ្ញាបណ្ណប្រភពបើកចំហ (MIT, Apache 2. 0) & # 160; ។ ពិនិត្យមើលអាជ្ញាបណ្ណម៉ូដែលនីមួយៗសម្រាប់លក្ខខណ្ឌជាក់លាក់ & # 160; ។ យើងផ្ដល់អនុសាសន៍ឲ្យពិនិត្យមើលអាជ្ញាបណ្ណរបស់ម៉ូដែលជាក់លាក់ដែលអ្នកប្រើសម្រាប់គម្រោងរបស់អ្នក & # 160; ។

TTS.ai គាំទ្រ MP3, WAV, OGG និង FLAC ទ្រង់ទ្រាយលទ្ធផល. MP3 គឺជាលំនាំដើមសម្រាប់ចាក់ផ្សាយបណ្ដាញ. WAV ត្រូវបានផ្ដល់អនុសាសន៍សម្រាប់ដំណើរការអូឌីយ៉ូបន្ថែមទៀត. អ្នកអាចបម្លែងរវាងទ្រង់ទ្រាយដោយប្រើឧបករណ៍បម្លែងអូឌីយ៉ូរបស់យើង.

ការក្លូនសំឡេងប្រើ AI ដើម្បីចម្លងសំឡេងជាក់លាក់ពីឧទាហរណ៍អូឌីយ៉ូខ្លី (ជាទូទៅ 5- 30 វិនាទី) ។ ផ្ទុកការថតច្បាស់នៃសំឡេងគោលដៅ និងម៉ូដែលដូចជា Chatterbox GPT- SoVITS ឬ OpenVoice នឹងបង្កើតការនិយាយថ្មីក្នុងសំឡេងនោះ ។ គុណភាពប្រសើរឡើងជាមួយនឹងសំឡេងយោងដែលស្អាតជាងមុន ។

អ្នកប្រើឥតគិតថ្លៃអាចបង្កើតបានរហូតដល់ទៅ 500 តួអក្សរក្នុងមួយសំណើ។ អ្នកប្រើដែលបានចុះឈ្មោះទទួលបានរហូតដល់ទៅ 5,000 តួអក្សរក្នុងមួយសំណើ។ សម្រាប់អត្ថបទវែងជាងនេះ អូឌីយ៉ូត្រូវបានបង្កើតឡើងក្នុងចាននិងដេរជាមួយគ្នាដោយស្វ័យប្រវត្តិ។ អ្នកប្រើ API អាចដំណើរការរហូតដល់ទៅ 10,000 តួអក្សរក្នុងមួយសំណើ។

ការគាំទ្រ SSML (ភាសាសម្គាល់ការសំយោគការនិយាយ) ប្រែប្រួលតាមម៉ូដែល & # 160; ។ Piper និងម៉ូដែលមួយចំនួនទៀតគាំទ្រស្លាក SSML មូលដ្ឋានសម្រាប់ការផ្អាក ការសង្កត់ធ្ងន់ និងការត្រួតពិនិត្យការនិយាយ & # 160; ។ សម្រាប់ម៉ូដែលដែលគ្មានការគាំទ្រ SSML ដើម អ្នកអាចប្រើវណ្ណយុត្តធម្មជាតិ និងការឈប់បន្ទាត់ដើម្បីជះឥទ្ធិពលលើការនិយាយ & # 160; ។

បាទ, ម៉ូដែលភាគច្រើនគាំទ្រការលៃតម្រូវល្បឿនពី 0.5x ទៅ 2.0x. ម៉ូដែលមួយចំនួនដូចជា Bark និង Parler ក៏អនុញ្ញាតឱ្យការត្រួតពិនិត្យ pitch និងរចនាប័ទ្ម. អ្នកអាចកំណត់ប៉ារ៉ាម៉ែត្រល្បឿននៅក្នុងបន្ទះការកំណត់កម្រិតខ្ពស់ឬតាមរយៈប៉ារ៉ាម៉ែត្រល្បឿន API.

បាទ/ ចាស ការដំណើរការបាច់គឺអាចប្រើបានតាមរយៈ API របស់យើង & # 160; ។ អ្នកអាចដាក់ស្នើផ្នែកអត្ថបទច្រើនក្នុងការហៅ API ឬស្គ្រីបតែមួយ ហើយនីមួយៗនឹងត្រូវបានដំណើរការ និងត្រឡប់ជាឯកសារអូឌីយ៉ូដាច់ដោយឡែក & # 160; ។ នេះគឺល្អបំផុតសម្រាប់ជំពូកសៀវភៅអូឌីយ៉ូ ម៉ូឌុលរៀនតាមអ៊ីនធឺណិត ឬស្គ្រីបប្រអប់ល្បែង & # 160; ។

បង្កើតកូនសោ API ពី dashboard គណនីរបស់អ្នក, បន្ទាប់មកផ្ញើសំណើ POST ទៅចំណុចបញ្ចប់ REST API របស់យើងជាមួយអត្ថបទរបស់អ្នក, ម៉ូដែលនិងប៉ារ៉ាម៉ែត្រសំឡេង. យើងផ្តល់ជូននូវឧទាហរណ៍កូដនៅក្នុង Python, JavaScript និង cURL. API គឺ OpenAI ឆបគ្នា, ដូច្នេះការរួមបញ្ចូលគ្នាដែលមានស្រាប់ធ្វើការជាមួយការផ្លាស់ប្តូរអប្បបរមា.

5.0/5 (2)

ចាប់ផ្ដើមបម្លែងអត្ថបទទៅជាការនិយាយឥឡូវ

ចូលរួមជាមួយអ្នកបង្កើតរាប់ពាន់នាក់ដោយប្រើ TTS.ai. ទទួលបាន 15,000 តួអក្សរដោយឥតគិតថ្លៃជាមួយគណនីថ្មីមួយ. ម៉ូដែលឥតគិតថ្លៃដែលអាចប្រើបានដោយគ្មានការចុះឈ្មោះ.

ចុះឈ្មោះដោយឥតគិតថ្លៃ មើលតម្លៃ

អត្ថបទ​ទៅ​ការ​និយាយ AIName

ស្រឡាញ់ TTS.ai? ប្រាប់មិត្តភក្តិរបស់អ្នក!

សេចក្ដី​លម្អិត​ម៉ូដែល

OpenVoice

ព័ត៌មាន​ជំនួយ​សម្រាប់​លទ្ធផល​ល្អ​ប្រសើរ

ការ​ប្រើ​តួអក្សរ

របៀប​ដែល AI អត្ថបទ​ទៅ​ការ​និយាយ​ធ្វើការ

បញ្ចូល​អត្ថបទ​របស់​អ្នក

ជ្រើស​ម៉ូដែល និង​សំឡេង

បង្កើត និង​ទាញយក

អត្ថបទ​ទៅ​ប្រើ​ករណី​និយាយ

សៀវភៅ​អូឌីយ៉ូ

វីដេអូ​និយាយ​ជា​មួយ​គ្នា

ផតខាស់

ល្បែងName

ការ​រៀន​តាម​អ៊ីនធឺណិត

ការ​ចូល​ដំណើរការ

ប្រព័ន្ធ​ទូរស័ព្ទ & IVR

បណ្ដាញ​សង្គម

ស្ទ្រីម

ទីផ្សារ

ការ​បកប្រែ​ជា​សំឡេង និង​ការ​កំណត់​ទីតាំង

វិញ្ញាណ & សុខភាព

ម៉ូដែល​អត្ថបទ​ទៅ​ជា​ការ​និយាយ​ទាំងអស់

Kokoro

Piper

VITS

MeloTTS

Bark

Bark Small

CosyVoice 2

Dia TTS

Parler TTS

GLM-TTS

IndexTTS-2

Spark TTS

GPT-SoVITS

Orpheus

Chatterbox

Tortoise TTS

StyleTTS 2

OpenVoice

Qwen3 TTS

Sesame CSM

Chatterbox Turbo

Zonos

Dia 2

VoxCPM

OuteTTS

TADA

VibeVoice

Pocket TTS

Kitten TTS

CosyVoice3

MOSS-TTS

MegaTTS3

Kokoro

Piper

VITS

MeloTTS

OuteTTS

Pocket TTS

Kitten TTS

Bark

Bark Small

CosyVoice 2

Dia TTS

Parler TTS

GLM-TTS

IndexTTS-2

Spark TTS

GPT-SoVITS

Orpheus

Qwen3 TTS

Chatterbox Turbo

Zonos

Dia 2

VoxCPM

TADA

VibeVoice

អត្ថបទទៅការនិយាយ AIName

សេចក្ដីលម្អិតម៉ូដែល

ព័ត៌មានជំនួយសម្រាប់លទ្ធផលល្អប្រសើរ

ការប្រើតួអក្សរ

របៀបដែល AI អត្ថបទទៅការនិយាយធ្វើការ

បញ្ចូលអត្ថបទរបស់អ្នក

ជ្រើសម៉ូដែល និងសំឡេង

បង្កើត និងទាញយក

អត្ថបទទៅប្រើករណីនិយាយ

សៀវភៅអូឌីយ៉ូ

វីដេអូនិយាយជាមួយគ្នា

ការរៀនតាមអ៊ីនធឺណិត

ការចូលដំណើរការ

ប្រព័ន្ធទូរស័ព្ទ & IVR

បណ្ដាញសង្គម

ការបកប្រែជាសំឡេង និងការកំណត់ទីតាំង

ម៉ូដែលអត្ថបទទៅជាការនិយាយទាំងអស់

តារាងប្រៀបធៀបម៉ូដែល

វេទិកាអត្ថបទទៅជាការនិយាយរបស់ AI ដែលមានលក្ខណៈទូលំទូលាយបំផុត

ការដំណើរការដែលបានបង្កើនល្បឿនដោយ GPU

API រួចរាល់សម្រាប់អ្នកអភិវឌ្ឍន៍

សំណួរដែលសួរញឹកញាប់

ចាប់ផ្ដើមបម្លែងអត្ថបទទៅជាការនិយាយឥឡូវ