Report Bug / Feature Request

ការ​ក្លូន​សំឡេង​ពេល​វេលា​ពិត — ក្លូន​សំឡេង​ណាមួយ​ក្នុង​វិនាទី

ក្លូនសំឡេងណាមួយជាមួយតែ5វិនាទីនៃអូឌីយ៉ូយោង។9ម៉ូដែលក្លូនសំឡេងប្រភពបើកចំហរួមទាំង Chatterbox, CosyVoice2, GPT-SoVITS និង OpenVoice ។ ក្លូនស៊េរីដោយគ្មានការបណ្តុះបណ្តាលដែលត្រូវការ - ផ្ទុកឡើងគំរូនិងបង្កើតការនិយាយភ្លាមៗ។ ម៉ូដែលទាំងអស់ត្រូវបានអនុញ្ញាតជាពាណិជ្ជកម្ម។

ពេលវេលា​ពិត គំរូ ៥ វិនាទី ៩ ម៉ូដែល​ក្លូន ប្រភព​បើកចំហ 17+ ភាសា វត្ថុ​បញ្ជា​អារម្មណ៍

លក្ខណៈ​ពិសេស​ក្លូន​សំឡេង​ពេលវេលា​ពិត

ក្លូនសំឡេងភ្លាមៗជាមួយ AI state-of-the-art - គ្មានការបណ្តុះបណ្តាលគ្មានសំណុំទិន្នន័យគ្មានការរង់ចាំ

ក្លូន Zero- Shot

គ្មានការបណ្តុះបណ្តាល, គ្មានការកែតម្រូវ, គ្មានការប្រមូលផ្តុំទិន្នន័យ. ផ្ទុកឡើង5វិនាទីនៃអូឌីយ៉ូនិងទទួលបានសំឡេងក្លូនភ្លាមៗ. AI ដកស្រង់លក្ខណៈពិសេសរបស់អ្នកនិយាយក្នុងពេលពិតប្រាកដ.

៩ ម៉ូដែល​ក្លូន

ជ្រើសពី Chatterbox, CosyVoice2, GPT-SoVITS, OpenVoice, Spark, IndexTTS-2, GLM-TTS, Qwen3-TTS, និង Tortoise ។ ម៉ូដែលនីមួយៗមានកម្លាំងខុសគ្នាសម្រាប់គុណភាពល្បឿននិងភាសា។

ការ​ក្លូន​ភាសា​ចម្រុះ

ក្លូនសំឡេងជាភាសាអង់គ្លេសនិងបង្កើតការនិយាយជាភាសាចិន, ជប៉ុន, កូរ៉េនិងច្រើនទៀត។ CosyVoice2និង Qwen3-TTS រក្សាអត្តសញ្ញាណសំឡេងនៅលើ 17+ ភាសា។

វត្ថុ​បញ្ជា​អារម្មណ៍

Chatterbox, OpenVoice និង GLM- TTS គាំទ្រ​ការ​បង្កើត​ដែល​មាន​លក្ខខណ្ឌ​អារម្មណ៍ ។ បង្កើត​អត្ថបទ​ដូចគ្នា​ជាមួយ​នឹង​អារម្មណ៍​ផ្សេង​គ្នា — សប្បាយ​រីករាយ សោកសៅ ខឹង ខ្សឹប — ខណៈ​ពេល​រក្សា​សំឡេង​ដែល​បាន​ក្លូន ។

ប្រភព​បើកចំហ និង​ពាណិជ្ជកម្ម

ម៉ូដែល​ក្លូន​នីមួយៗ​គឺ​ជា​ប្រភព​បើក​ចំហ​ក្រោម​អាជ្ញាប័ណ្ណ MIT ឬ Apache 2.0 ។ ប្រើ​សំឡេង​ក្លូន​ជា​ពាណិជ្ជកម្ម​សម្រាប់​មាតិកា ផលិតផល និង​កម្មវិធី​ដោយ​គ្មាន​ការ​បង់​ពន្ធ ។

ក្លូន API

REST API សម្រាប់​ក្លូន​សំឡេង​កម្មវិធី ។ ផ្ទុក​អូឌីយ៉ូ​យោង បញ្ជាក់​អត្ថបទ និង​ទទួល​ការ​និយាយ​ក្លូន ។ SDKs សម្រាប់ Python និង JavaScript ។ ក្លូន​បាច់​សម្រាប់​លំហូរ​ការងារ​កម្រិត​ខ្ពស់ ។

ម៉ូដែល​ក្លូន​សំឡេង

ម៉ូដែល​ប្រភព​បើក​ចំហ​ចំនួន ៩ សម្រាប់​ករណី​ប្រើ​ក្លូន​នីមួយៗ

ChatterboxChatterbox

Premium

State-of-the-art zero-shot voice cloning with emotion control from Resemble AI.

Medium 5/5 ការ​ក្លូន​សំឡេង

ល្អបំផុត​សម្រាប់ & # 160; ៖ គុណភាពទូទៅល្អបំផុត - គំរូ5វិនាទី, ត្រួតពិនិត្យអារម្មណ៍, MIT អាជ្ញាប័ណ្ណ

ព្យាយាម Chatterbox

CosyVoice 2CosyVoice 2

Standard

Alibaba's scalable streaming TTS with human-parity naturalness and near-zero latency.

Medium 5/5 ការ​ក្លូន​សំឡេង

ល្អបំផុត​សម្រាប់ & # 160; ៖ ក្លូន​ភាសា​ច្រើន​បំផុត — រក្សា​សំឡេង​តាម​រយៈ​ភាសា​ចិន អង់គ្លេស ជប៉ុន កូរ៉េ

ព្យាយាម CosyVoice 2

OpenVoiceOpenVoice

Premium

Instant voice cloning with granular control over style, emotion, and accent.

Medium 4/5 ការ​ក្លូន​សំឡេង

ល្អបំផុត​សម្រាប់ & # 160; ៖ ការ​បម្លែង​ពណ៌​សំឡេង​លឿន​ជាមួយ​នឹង​អារម្មណ៍ និង​ការ​ផ្ទេរ​រចនាប័ទ្ម

ព្យាយាម OpenVoice

Spark TTSSpark TTS

Standard

Voice cloning TTS with controllable emotion and speaking style via prompts.

Medium 4/5 ការ​ក្លូន​សំឡេង

ល្អបំផុត​សម្រាប់ & # 160; ៖ ម៉ូដែល​ក្លូន​លឿន​បំផុត - លទ្ធផល​ក្នុង ~ ១២ វិនាទី

ព្យាយាម Spark TTS

IndexTTS-2IndexTTS-2

Standard

Zero-shot TTS with fine-grained emotion control and high expressiveness.

Medium 4/5 ការ​ក្លូន​សំឡេង

ល្អបំផុត​សម្រាប់ & # 160; ៖ ការ​ក្លូន​ភាសា​ចិន- អង់គ្លេស​ដ៏​ល្អ​បំផុត​ជាមួយ​នឹង​ភាព​ស្រដៀង​គ្នា​របស់​អ្នក​និយាយ​ខ្ពស់

ព្យាយាម IndexTTS-2

Tortoise TTSTortoise TTS

Premium

Multi-voice text-to-speech focused on quality with autoregressive architecture.

Slow 5/5 ការ​ក្លូន​សំឡេង

ល្អបំផុត​សម្រាប់ & # 160; ៖ លទ្ធផល​គុណភាព​ស្ទូឌីយោ - ល្អបំផុត​សម្រាប់​សៀវភៅ​អូឌីយ៉ូ និង​ការ​និយាយ​បន្ថែម

ព្យាយាម Tortoise TTS

របៀប​ដែល​ការ​ក្លូន​សំឡេង​ពេលវេលា​ពិត​ធ្វើការ

ពី​គំរូ​អូឌីយ៉ូ​ខ្លី​ទៅ​ការ​និយាយ​ដែល​បាន​ក្លូន​ដោយ​គ្មាន​ដែន​កំណត់

1

ផ្ទុក​អូឌីយ៉ូ​យោង​ឡើង

ថត ឬ ផ្ទុក ឡើង 5-30 វិនាទី នៃ ការ និយាយ ច្បាស់ ពី សំឡេង ដែល អ្នក ចង់ ក្លូន. WAV, MP3, ឬ ថត ដោយ ផ្ទាល់ ក្នុង កម្មវិធី រុករក របស់ អ្នក.

2

ជ្រើស​ម៉ូដែល​ក្លូន

ជ្រើសម៉ូដែលដែលសមនឹងតម្រូវការរបស់អ្នក - Chatterbox សម្រាប់គុណភាព, Spark សម្រាប់ល្បឿន, CosyVoice2សម្រាប់ភាសាច្រើន។

3

បញ្ចូល​អត្ថបទ​របស់​អ្នក

វាយ ឬ​បិទភ្ជាប់​អត្ថបទ​ដែល​អ្នក​ចង់​និយាយ​ក្នុង​សំឡេង​ក្លូន & # 160; ។ ភាសា​ណា​មួយ​ដែល​បាន​គាំទ្រ​ដោយ​ម៉ូដែល​នឹង​ដំណើរការ & # 160; ។

4

បង្កើត និង​ទាញយក

ចុចបង្កើតនិងស្តាប់សំឡេងក្លូនរបស់អ្នកក្នុង 10-25 វិនាទី។ ទាញយកជា WAV ឬ MP3 សម្រាប់ប្រើភ្លាមៗ។

របៀប​ដែល​ការ​ក្លូន​សំឡេង Zero- Shot ធ្វើការ

គ្មាន​ការ​លៃតម្រូវ​លម្អិត គ្មាន​ការ​ប្រមូល​ផ្ដុំ​សំណុំ​ទិន្នន័យ - គ្រាន់តែ​ផ្ទុក​ឡើង និង​ក្លូន

ការ​ស្រង់​ចេញ​របស់​ឧបករណ៍​បង្កប់​ធុងបាស

AI វិភាគ​អូឌីយ៉ូ​យោង​របស់​អ្នក​ដើម្បី​ស្រង់​ការ​បង្កប់​របស់​អ្នក​និយាយ​ចេញ - ការ​តំណាង​គណិតវិទ្យា​តូច​នៃ​លក្ខណៈ​ពិសេស​ពិសេស​របស់​សំឡេង​រួម​មាន​កំពស់​សំឡេង​ សំឡេង​ និន្នាការ​និយាយ និង​វាយនភាព​សំឡេង ។ នេះ​កើតឡើង​ក្នុង​រយៈពេល​ក្រោម ១ វិនាទី ។

  • ធ្វើការ​ជាមួយ​នឹង​តិច​ជាង​៥ វិនាទី​នៃ​អូឌីយ៉ូ
  • ចាប់យក​កម្រិត​សំឡេង timbre និង​រចនាប័ទ្ម​និយាយ
  • គ្មាន​ការ​បណ្តុះបណ្តាល ឬ​ការ​លៃតម្រូវ​លម្អិត​ដែល​ត្រូវការ
  • អូឌីយ៉ូ​មិន​ត្រូវ​បាន​រក្សាទុក​ជា​និច្ច​ទេ

ការ​សំយោគ​ការ​និយាយ​ដែល​មាន​លក្ខខណ្ឌ

ម៉ូដែល TTS បង្កើត​ការ​និយាយ​ថ្មី​ដែល​មាន​លក្ខខណ្ឌ​លើ​ការ​បង្កប់​របស់​អ្នក​និយាយ & # 160; ។ លទ្ធផល​មាន​សំឡេង​ដូច​ជា​អ្នក​និយាយ​យោង​ដែល​និយាយ​អត្ថបទ​របស់​អ្នក - ជាមួយ​នឹង​ការ​និយាយ​ធម្មតា ការ​សង្កត់​ធ្ងន់​សមរម្យ និង​តួអក្សរ​ដើម​របស់​សំឡេង​ដែល​បាន​រក្សា​ទុក​លើ​ភាសា ឬ​មាតិកា​ណាមួយ & # 160; ។

  • បង្កើត​ការ​និយាយ​គ្មាន​ដែន​កំណត់​ពី​គំរូ​តែ​មួយ
  • ការ​ក្លូន​ភាសា​ឆ្លងកាត់ (និយាយ​ជា​ភាសា​ដែល​មិន​បាន​យោង)
  • អារម្មណ៍ និង​ការ​ផ្ទេរ​រចនាប័ទ្ម
  • លទ្ធផលក្នុង 10-25 វិនាទី

ការ​ប្រៀបធៀប​ម៉ូដែល​ក្លូន​សំឡេង

ជ្រើស​ម៉ូដែល​ត្រឹមត្រូវ​សម្រាប់​ករណី​ប្រើ​ក្លូន​របស់​អ្នក

ម៉ូដែល សេចក្ដី​យោង​អប្បបរមា ល្បឿន គុណភាព ភាសា អារម្មណ៍ អាជ្ញាបណ្ណ
Chatterbox 5s ~21s ល្អ​បំផុត EN MIT
CosyVoice 2 5s ~20s ល្អ​បំផុត CN, EN, JP, KO+ Apache 2.0
GPT-SoVITS 5s ~16s ល្អ​បំផុត CN, EN, JP, KO MIT
OpenVoice 5s ~15s ល្អ អង់គ្លេស, ចិន, អេស្ប៉ាញ, បារាំង+ MIT
Spark TTS 5s ~12s ល្អ CN, EN Apache 2.0
IndexTTS-2 5s ~18s ល្អ​បំផុត CN, EN Apache 2.0
GLM-TTS 5s ~25s ល្អ​បំផុត CN, EN Apache 2.0
Qwen3-TTS 5s ~16s ល្អ​បំផុត CN, EN, JP, KO+ Apache 2.0
Tortoise 15s ~60s ស្ទូឌីយោ EN Apache 2.0

មនុស្ស​ប្រើ​ការ​ក្លូន​សំឡេង​ពេលវេលា​ពិត​សម្រាប់​អ្វី

ពី​ការ​បង្កើត​មាតិកា​ទៅ​ការ​ចូល​ដំណើរការ​ — ការ​ក្លូន​សំឡេង​មាន​កម្មវិធី​ដែល​គ្មាន​ទី​បញ្ចប់

ការ​និយាយ​សៀវភៅ​អូឌីយ៉ូ

អ្នក​និពន្ធ​ក្លូន​សំឡេង​របស់​ពួកគេ​ផ្ទាល់ និង​បង្កើត​សៀវភៅ​អូឌីយ៉ូ​ទាំងមូល​ដោយ​មិន​ចំណាយ​ពេល​វេលា​ក្នុង​ការ​ថត​កញ្ចប់​ថត​។ កែសម្រួល​កំហុស​ដោយ​បង្កើត​ឃ្លា​តែ​មួយ​ឡើង​វិញ​ជំនួស​ឲ្យ​ការ​ថត​ឡើងវិញ & # 160; ។

ការ​បកប្រែ​វីដេអូ

ដាប់​វីដេអូ​ទៅ​ជា​ភាសា​ផ្សេង​ទៀត​ក្នុង​ពេល​ដែល​រក្សា​សំឡេង​អ្នក​និយាយ​ដើម ។ ម៉ូដែល​ភាសា​ចម្រុះ​ដូចជា CosyVoice2និង Qwen3-TTS រក្សា​អត្តសញ្ញាណ​សំឡេង​នៅ​លើ​ភាសា​ចិន អង់គ្លេស ជប៉ុន និង​កូរ៉េ ។

ការ​បង្កើត​មាតិកា

YouTubers, podcasters និងអ្នកបង្កើត TikTok ក្លូនសំឡេងរបស់ពួកគេសម្រាប់ម៉ាកយីហោដែលមិនប្រែប្រួល។ បង្កើត voiceovers សម្រាប់មាតិកាថ្មីដោយគ្មានការថតឬបង្កើតកំណែភាសាជំនួសនៃវីដេអូដែលមានស្រាប់។

មធ្យោបាយ​ងាយស្រួល

មនុស្ស​ដែល​បាន​បាត់បង់​សំឡេង​របស់​ពួកគេ​ដោយសារ​ជំងឺ ឬ​ការ​វះកាត់​អាច​រក្សា​វា​ដោយ​ក្លូន​ពី​ការ​ថត​ចាស់ & # 160; ។ សំឡេង​ដែល​បាន​ក្លូន​អនុញ្ញាត​ឲ្យ​ពួកគេ​ទំនាក់ទំនង​ដោយ​សំឡេង​របស់​ពួកគេ​ផ្ទាល់​តាម​រយៈ​អត្ថបទ​ទៅ​ជា​ការ​និយាយ & # 160; ។

ការ​អភិវឌ្ឍ​ល្បែង

ក្លូន​អ្នក​សម្ដែង​សំឡេង និង​បង្កើត​ការ​ផ្លាស់ប្ដូរ​ប្រអប់​គ្មាន​ដែន​កំណត់​ដោយ​មិន​កំណត់​ពេល​វេលា​ស្ទូឌីយោ​ឡើយ ។ ល្អ​ឥតខ្ចោះ​សម្រាប់​ល្បែង​ឥត​គិតថ្លៃ mods និង​ការ​បង្កើត​គំរូ​ដែល​ការ​ថត​បន្ទាត់​នីមួយៗ​មិន​អាច​ធ្វើ​ទៅ​បាន ។

ប្រព័ន្ធ​ទូរស័ព្ទ & IVR

ក្លូនសំឡេងអ្នកនាំពាក្យក្រុមហ៊ុនរបស់អ្នកសម្រាប់ម៉ឺនុយទូរស័ព្ទនិងឆ្លើយតបដោយស្វ័យប្រវត្តិ។ ធ្វើបច្ចុប្បន្នភាពការជូនដំណឹង IVR ភ្លាមៗដោយមិនចាំបាច់កក់អ្នកសម្ដែងសំឡេង - គ្រាន់តែវាយអត្ថបទថ្មីនិងបង្កើត។

TTS.ai ប្រឆាំង​នឹង​ដំណោះស្រាយ​ក្លូន​សំឡេង​ផ្សេងទៀត

ហេតុអ្វីបានជា9ម៉ូដែលបរាជ័យគម្រោងប្រភពបើកចំហតែមួយ

លក្ខណៈ​ពិសេស TTS.ai SV2TTS ElevenLabs Resemble AI
ក្លូន​ម៉ូដែល 9 1 1 1
អូឌីយ៉ូ​យោង​អប្បបរមា 5 sec 5 sec 30 sec 3 min
ត្រូវការ​ការ​បណ្តុះបណ្តាល គ្មាន គ្មាន គ្មាន បាទ/ ចាស
គុណភាព​អូឌីយ៉ូ (២០០៥) គុណភាព​ស្ទូឌីយោ កាលបរិច្ឆេទ ល្អ​បំផុត ល្អ​បំផុត
វត្ថុ​បញ្ជា​អារម្មណ៍
ការ​ក្លូន​ភាសា​ចម្រុះ
ប្រភព​បើកចំហ
ត្រូវការ GPU ពពក បាទ/ ចាស ពពក ពពក
ការ​ចូលដំណើរការ API
កម្រិត​ទំនេរ ១៥, ០០០ តួអក្សរ ម៉ាស៊ីន​ផ្ទាល់​ខ្លួន កំណត់

API ក្លូន​សំឡេង

ក្លូន​សំឡេង​ដោយ​កម្មវិធី​ជាមួយ REST API របស់​យើង

Python - ក្លូន​សំឡេង REST API
from tts_ai import TTSClient

client = TTSClient(api_key="sk-tts-...")

# Clone a voice from a 5-second sample
result = client.clone_voice(
    name="My Cloned Voice",
    file="reference.wav",       # 5-30 seconds of clear speech
    model="chatterbox",         # or cosyvoice2, openvoice, spark...
    text="Hello! This is my cloned voice speaking new text.",
)

# Download the cloned audio
audio = client.poll_result(result.uuid)
with open("cloned_output.wav", "wb") as f:
    f.write(audio)
cURL - ក្លូន​សំឡេង REST API
curl -X POST https://api.tts.ai/v1/voice-clone \
  -H "Authorization: Bearer sk-tts-YOUR_KEY" \
  -F "reference=@voice_sample.wav" \
  -F "text=This is my cloned voice." \
  -F "model=chatterbox"

ព័ត៌មាន​ជំនួយ​សម្រាប់​លទ្ធផល​ក្លូន​សំឡេង​ល្អ​បំផុត

ទទួល​ក្លូន​សំឡេង​ដែល​ត្រឹមត្រូវ​បំផុត​ជាមួយ​គោលការណ៍​ថត​ទាំងនេះ

បរិស្ថាន​ស្ងាត់

ថត​ក្នុង​បន្ទប់​ស្ងាត់​មួយ​ជាមួយ​នឹង​សំឡេង​ផ្ទៃ​ខាងក្រោយ​អប្បបរមា & # 160; ។ AI ដក​លក្ខណៈ​ពិសេស​សំឡេង​ចេញ​យ៉ាង​ត្រឹមត្រូវ​ពី​អូឌីយ៉ូ​ស្អាត & # 160; ។

១០- ៣០ វិនាទី

ខណៈពេលដែល5វិនាទីធ្វើការ, 10-30 វិនាទីផ្តល់នូវលទ្ធផលល្អប្រសើរគួរឱ្យកត់សម្គាល់. និយាយកាន់តែច្រើនធម្មជាតិដែល AI ឮ, ក្លូនកាន់តែត្រឹមត្រូវ។

ការ​និយាយ​ធម្មជាតិ

និយាយ​ដោយ​ធម្មជាតិ មិន​មែន​ជា​ការ​និយាយ​តែ​ម្តង​ទេ & # 160; ។ រួម​បញ្ចូល​ការ​និយាយ​ខុសៗ​គ្នា និង​ការ​ធ្វើ​ចលនា & # 160; ។ AI ចាប់​យក​រចនាប័ទ្ម​និយាយ​ធម្មជាតិ​របស់​អ្នក រួម​ទាំង​ការ​ផ្អាក និង​ការ​សង្កត់​ធ្ងន់ & # 160; ។

ធុងបាស​តែ​មួយ

ប្រើ​គំរូ​ដែល​មាន​តែ​មនុស្ស​ម្នាក់​និយាយ & # 160; ។ សំឡេង​ច្រើន​ធ្វើ​ឲ្យ​អ្នក​និយាយ​ច្របូកច្របល់ និង​បង្កើត​លទ្ធផល​លាយ​គ្នា & # 160; ។

ចាប់ផ្ដើម​ក្លូន​សំឡេង​ថ្ងៃនេះ

ផ្ទុកឡើង5វិនាទីនៃអូឌីយ៉ូនិងឮសំឡេងក្លូនរបស់អ្នកនៅក្រោម 30 វិនាទី។ ឥតគិតថ្លៃដើម្បីព្យាយាម។

ក្លូន​សំឡេង​ឥឡូវ​នេះ ឯកសារ API

សំណួរ​ដែល​សួរ​ញឹកញាប់

សំណួរ​ទូទៅ​អំពី​ការ​ក្លូន​សំឡេង​ពេល​ពិត

TTS.ai ផ្តល់ជូននូវម៉ូដែលចម្លងសំឡេង9ផ្សេងគ្នា រៀងៗខ្លួនមានកម្លាំងខុសៗគ្នាសម្រាប់គុណភាព ល្បឿន និង ការគាំទ្រភាសា។

តិចតួចដូច5វិនាទីធ្វើការជាមួយម៉ូដែលភាគច្រើន (Chatterbox, CosyVoice2, Spark, GPT- SoVITS, OpenVoice) ។ Tortoise ត្រូវការ 15+ វិនាទីសម្រាប់លទ្ធផលល្អបំផុត ។ សម្រាប់គុណភាពល្អបំផុតនៅលើម៉ូដែលទាំងអស់ 10- 30 វិនាទីនៃសំឡេងច្បាស់ អូឌីយ៉ូអាប់ដេតតែមួយត្រូវបានផ្ដល់អនុសាសន៍ ។ អូឌីយ៉ូគួរតែមានសំឡេងរំខាននិងតន្ត្រីនៅពីក្រោយ។

បច្ចេកវិទ្យា​ក្លូន​សំឡេង​ដោយ​ខ្លួន​វា​គឺ​ស្របច្បាប់​ ។ ទោះ​ជា​យ៉ាង​ណា​ក៏​ដោយ អ្នក​គួរ​តែ​ក្លូន​តែ​សំឡេង​ដែល​អ្នក​មាន​សិទ្ធិ​ប្រើ​ — សំឡេង​របស់​អ្នក​ផ្ទាល់ សំឡេង​ដែល​អ្នក​មាន​ការ​យល់ព្រម​ច្បាស់លាស់​សម្រាប់ ឬ​សំឡេង​ក្នុង​ដែន​សាធារណៈ ។ ការ​ប្រើ​ក្លូន​សំឡេង​ដើម្បី​ធ្វើ​ជា​មនុស្ស​ម្នាក់​ដោយ​គ្មាន​ការ​យល់ព្រម ធ្វើ​ការ​ក្លែងបន្លំ ឬ​បង្កើត​មាតិកា​ដែល​បំភាន់​គឺ​ខុស​ច្បាប់​នៅ​ក្នុង​តុលាការ​ភាគច្រើន ។ លក្ខខណ្ឌ​របស់ TTS.ai ទាមទារ​ឲ្យ​អ្នក​មាន​សិទ្ធិ​លើ​សំឡេង​ណាមួយ​ដែល​អ្នក​ក្លូន ។

វា​អាស្រ័យ​លើ​ករណី​ប្រើ​របស់​អ្នក & # 160; ។ Chatterbox ផលិត​ក្លូន​ភាសា​អង់គ្លេស​ដែលមាន​គុណភាព​ខ្ពស់​បំផុត​ជាមួយ​នឹង​ការ​ត្រួតពិនិត្យ​អារម្មណ៍ & # 160; ។ CosyVoice2គឺ​ល្អ​បំផុត​សម្រាប់​ក្លូន​ភាសា​ច្រើន (ចិន អង់គ្លេស ជប៉ុន កូរ៉េ) & # 160; ។ Spark គឺ​លឿន​បំផុត​នៅ ~12 វិនាទី & # 160; ។ Tortoise ផលិត​លទ្ធផល​គុណភាព​ស្ទូឌីយោ ប៉ុន្តែ​យឺត​ជាង & # 160; ។ GPT- SoVITS ល្អ​បំផុត​នៅ​ពេល​ក្លូន​សំឡេង​ចិន & # 160; ។ ព្យាយាម​ម៉ូដែល​ច្រើន​ដើម្បី​រក​ការ​ផ្គូផ្គង​ល្អ​បំផុត​សម្រាប់​សំឡេង​របស់​អ្នក & # 160; ។

បាទ/ ចាស - នេះ​ហៅ​ថា​ការ​ក្លូន​សំឡេង​ភាសា​ចម្រុះ & # 160; ។ CosyVoice2Qwen3- TTS និង OpenVoice គាំទ្រ​វា & # 160; ។ ឧទាហរណ៍ អ្នក​អាច​ផ្ទុក​ឡើង​គំរូ​សំឡេង​ជា​ភាសា​អង់គ្លេស និង​បង្កើត​ការ​និយាយ​ជា​ភាសា​ចិន ជប៉ុន ឬ​កូរ៉េ ខណៈ​ពេល​រក្សា​ទុក​លក្ខណៈ​ពិសេស​សំឡេង​របស់​អ្នក​និយាយ & # 160; ។ គុណភាព​ប្រែប្រួល​តាម​ម៉ូដែល និង​គូ​ភាសា & # 160; ។

គម្រោង CorentinJ / Real-Time-Voice-Cloning GitHub (60K+ ផ្កាយ) ប្រើ SV2TTS ជាស្ថាបត្យកម្ម 2019 ។ ខណៈពេលដែលកំពុងបង្កើតថ្មីនៅពេលនោះម៉ូដែលសម័យទំនើបដូចជា Chatterbox, CosyVoice2និង GPT-SoVITS ផលិតគុណភាពអូឌីយ៉ូល្អប្រសើរជាងមុនជាមួយនឹងភាពស្រដៀងគ្នានៃអ្នកនិយាយ។ TTS.ai ដំណើរការម៉ូដែល9នៃ state-of-the-art (vs SV2TTS) និងមិនត្រូវការការកំណត់រចនាសម្ព័ន្ធ GPU ទេ - គ្រាន់តែផ្ទុកឡើងនិងក្លូន។

បាទ/ ចាស ។ TTS.ai ផ្ដល់​នូវ​ REST API សម្រាប់​ការ​ក្លូន​សំឡេង ។ ផ្ទុក​ឡើង​អត្ថបទ​និង​អូឌីយ៉ូ​យោង ជ្រើស​ម៉ូដែល និង​ទទួល​ការ​និយាយ​ក្លូន ។ អាច​ប្រើ​បាន​តាមរយៈ Python SDK (`pip install ttsai`), JavaScript SDK (`npm install @ttsainpm/ttsai`) ឬ​សំណើ HTTP ផ្ទាល់ ។ គាំទ្រ​ការ​ក្លូន​បាច់​សម្រាប់​ដំណើរការ​អត្ថបទ​ច្រើន​ជាមួយ​នឹង​សំឡេង​ក្លូន​ដូចគ្នា ។

បាទ/ ចាស ។ បន្ទាប់​ពី​ក្លូន រក្សាទុក​សំឡេង​ទៅ​គណនី​របស់​អ្នក និង​ប្រើ​វា​ឡើងវិញ​តាម​រយៈ​ជំនាន់​ដែល​គ្មាន​ដែន​កំណត់​ដោយ​មិន​ទាញ​យក​អូឌីយ៉ូ​យោង​ឡើង​វិញ ។ សំឡេង​ដែល​បាន​រក្សាទុក​លេចឡើង​ក្នុង​បណ្ណាល័យ​សំឡេង​របស់​អ្នក​នៅលើ​ទំព័រ​ក្លូន​សំឡេង ហើយ​អាច​ចូល​ដំណើរការ​បាន​តាមរយៈ API ។

WAV, MP3, OGG, FLAC និង WebM ត្រូវ​បាន​គាំទ្រ​ទាំងអស់ & # 160; ។ អ្នក​ក៏​អាច​ថត​ដោយ​ផ្ទាល់​ក្នុង​កម្មវិធី​រុករក​របស់​អ្នក​ដោយ​ប្រើ​កម្មវិធី​ថត​មីក្រូហ្វូន​ដែល​បាន​បង្កប់ & # 160; ។ សម្រាប់​លទ្ធផល​ល្អ​បំផុត ប្រើ​ទ្រង់ទ្រាយ WAV គ្មាន​ការ​បាត់បង់​នៅ 16kHz ឬ​ខ្ពស់​ជាង & # 160; ។ AI ដំណើរការ​អូឌីយ៉ូ​ជាមុន​ដោយ​ស្វ័យប្រវត្តិ (ការ​យក​គំរូ​ឡើងវិញ ការ​ត្រង​សំឡេង​រំខាន) ដោយ​មិន​គិត​ពី​ទ្រង់ទ្រាយ​បញ្ចូល & # 160; ។

ពេលវេលា​បង្កើត​ប្រែប្រួល​តាម​ម៉ូដែល & # 160; ៖ Spark គឺ​លឿន​បំផុត​នៅ ~12 វិនាទី OpenVoice នៅ ~15 វិនាទី GPT- SoVITS នៅ ~16 វិនាទី CosyVoice2នៅ ~20 វិនាទី Chatterbox នៅ ~21 វិនាទី និង Tortoise នៅ ~60 វិនាទី & # 160; ។ ពេល​វេលា​ទាំងនេះ​គឺ​សម្រាប់​អត្ថបទ​ប្រវែង​ឃ្លា​ធម្មតា & # 160; ។ អត្ថបទ​វែង​ជាង​នេះ​ត្រូវ​ចំណាយ​ពេល​យូរ​ជាង​នេះ & # 160; ។

បាទ / ចាស ។ ម៉ូដែលក្លែងក្លាយទាំងអស់9នៅលើ TTS.ai ប្រើអាជ្ញាប័ណ្ណប្រភពបើកចំហ (MIT ឬ Apache 2.0) ដែលអនុញ្ញាតឱ្យប្រើពាណិជ្ជកម្ម។ អ្នកអាចប្រើអូឌីយ៉ូក្លែងក្លាយនៅក្នុងវីដេអូ YouTube ផតខាស់សៀវភៅអូឌីយ៉ូកម្មវិធីហ្គេមប្រព័ន្ធទូរស័ព្ទនិងកម្មវិធីពាណិជ្ជកម្មផ្សេងទៀត - ផ្តល់ឱ្យអ្នកមានសិទ្ធិលើសំឡេងប្រភព។

បាទ។ ម៉ូដែលទាំងអស់ដែលយើងរត់គឺមានប្រភពបើកចំហនិងអាចរកបាននៅលើ GitHub / HuggingFace ។ អ្នកអាចរៀបចំ Chatterbox, CosyVoice2, GPT-SoVITS, OpenVoice, Spark, IndexTTS-2, GLM-TTS, Qwen3-TTS ឬ Tortoise នៅលើម៉ាស៊ីនបម្រើ GPU ផ្ទាល់ខ្លួនរបស់អ្នក។ ម៉ូដែលភាគច្រើនត្រូវការ NVIDIA GPU ជាមួយ 4-24GB VRAM អាស្រ័យលើម៉ូដែល។ TTS.ai គ្រប់គ្រងហេដ្ឋារចនាសម្ព័ន្ធទាំងអស់ដូច្នេះអ្នកមិនចាំបាច់។
5.0/5 (1)

តើ​យើង​អាច​ធ្វើ​អ្វី​បាន​ប្រសើរ​ឡើង & # 160;? មតិ​យោបល់​របស់​អ្នក​ជួយ​យើង​ជួសជុល​បញ្ហា & # 160; ។

ក្លូន​សំឡេង​ណាមួយ​ក្នុង​មួយ​វិនាទី

9 ម៉ូដែលក្លូនសំឡេងប្រភពបើកចំហ។ គំរូ5វិនាទី។ គ្មានការបណ្តុះបណ្តាលចាំបាច់។ សាកល្បងវាដោយឥតគិតថ្លៃ - ផ្ទុកអូឌីយ៉ូរបស់អ្នកឡើងហើយស្តាប់ក្លូនភ្លាមៗ។