ຂໍ້ຄວາມໄປສູ່ການເວົ້າ (TTS) ແມ່ນຫຍັງ?

ຂໍ້ຄວາມເປັນຄໍາເວົ້າແມ່ນເຕັກໂນໂລຊີທີ່ປ່ຽນຂໍ້ຄວາມທີ່ຂຽນເປັນສຽງເວົ້າໂດຍໃຊ້ຄວາມຊຳນິຊຳນານທາງປະດິດສ້າງ. ຈາກເຄື່ອງປະສົມສຽງຂອງຄົນຂັບລົດກ່ອນຫນ້ານີ້ເຖິງເຄືອຂ່າຍ neuron ຂອງມື້ນີ້ທີ່ສຽງບໍ່ແຕກຕ່າງຈາກມະນຸດ, TTS ໄດ້ປ່ຽນແປງວິທີການທີ່ພວກເຮົາມີສ່ວນຮ່ວມກັບເຕັກໂນໂລຢີ, ບໍລິໂພກເນື້ອຫາແລະເຮັດໃຫ້ຂໍ້ມູນເຂົ້າເຖິງໄດ້.

ເຕັກໂນໂລຊີ ប្រវត្តិ ວິທີການ​ເຮັດວຽກ ເຄືອຂ່າຍ Neural Evolution ​Comment

ຂໍ້ຄວາມ​ໄປ​ເປັນ​ຄຳ​ເວົ້າName

ການ​ເຂົ້າໃຈ​ພື້ນຖານ​ຂອງ​ການ​ສັງເຄາະ​ການ​ເວົ້າ​ແບບ​ທັນ​ສະໄໝ

TTS ແມ່ນຫຍັງ

TTS ໝາຍເຖິງ Text-to-Speech - ເຕັກໂນໂລຢີທີ່ປ່ຽນຂໍ້ຄວາມທີ່ຂຽນມາເປັນສຽງທີ່ເວົ້າໂດຍໃຊ້ສຽງທີ່ສ້າງຂຶ້ນໂດຍຄອມພິວເຕີ.

ວິທີການ Neural TTS ເຮັດວຽກ

TTS ທັນສະໄໝໃຊ້ເຄືອຂ່າຍ neuron ທີ່ເລິກເຊິ່ງເພື່ອວິເຄາະຂໍ້ຄວາມ, ຄາດຄະເນແບບຟອມການເວົ້າ, ແລະ ສ້າງຮູບແບບສັນຍານສຽງທີ່ຟັງຄືກັບສຽງຂອງມະນຸດ.

ប្រវត្តិ​ຂອງ​ການ​ສັງເຄາະ​ການ​ເວົ້າ

ນັບແຕ່ປີ 1960 ລະບົບທີ່ອີງໃສ່ກົດລະບຽບຈົນເຖິງປີ 1990 ການສັງເຄາະ concatenative ເຖິງແບບ ຈຳ ລອງ neuron ປະຈຸບັນ - ວິທີການ TTS ພັດທະນາມາເປັນເວລາຫ້າທົດສະວັດ.

ຕົວແບບ AI ທັນສະໄໝ

ແບບຢ່າງໃນປັດຈຸບັນເຊັ່ນ Kokoro, Bark, ແລະ CosyVoice2ໃຊ້ transformers, diffusion, ແລະ variation inference ເພື່ອບັນລຸຄຸນນະພາບການເວົ້າໃນລະດັບມະນຸດ.

ໂປແກຼມທົ່ວໄປ

TTS ສະຫນອງພະລັງງານການອ່ານຫນ້າຈໍ, GPS ນໍາທາງ, virtual assistants, ສຽງປື້ມ, ການບໍລິການລູກຄ້າ bots, e-learning ເວທີ, ແລະການສ້າງເນື້ອໃນ.

ແຫຼ່ງເປີດ vs ການຄ້າ

ແບບ Open-source (MIT, Apache 2.0) ສະຫນອງການຟຣີ, TTS ເປັນເຈົ້າພາບຕົນເອງໃນຂະນະທີ່ການບໍລິການການຄ້າສະຫນອງການບໍລິຫານ API ທີ່ມີ SLAs ແລະສະຫນັບສະຫນູນ.

ຕົວແບບ TTS ສາມາດໃຊ້ໄດ້ໃນ TTS.ai

ຈາກ​ຄວາມ​ໄວ​ແລະ​ເບົາ​ຈົນ​ເຖິງ​ສຽງ​ທີ່​ມີ​ຄຸນ​ນະ​ພາບ​ຄື​ກັບ​ສະຕູດິໂອ

KokoroKokoro

Free

Lightweight 82M parameter model delivering studio-quality speech with blazing-fast inference.

Fast 5/5

ດີທີ່ສຸດ ສຳ ລັບ: State-of-the-art ແບບຈໍາລອງນ້ອຍ - ສະແດງໃຫ້ເຫັນວ່າ neuron TTS ໄດ້ມາຮອດບ່ອນໃດ

ພະຍາຍາມ Kokoro

BarkBark

Standard

Transformer-based text-to-audio model that generates realistic speech, music, and sound effects.

Slow 4/5

ດີທີ່ສຸດ ສຳ ລັບ: ຕົວແບບ​ທີ່​ອີງ​ໃສ່​ການ​ປ່ຽນ​ແປງ​ສະແດງ​ໃຫ້ເຫັນ​ການ​ຜະລິດ​ສຽງ​ນອກ​ເໜືອ​ຈາກ​ການ​ເວົ້າ

ພະຍາຍາມ Bark

CosyVoice 2CosyVoice 2

Standard

Alibaba's scalable streaming TTS with human-parity naturalness and near-zero latency.

Medium 5/5 ການ​ກັ່ນຕອງ​ສຽງ

ດີທີ່ສຸດ ສຳ ລັບ: ສົ່ງຕໍ່ TTS ດ້ວຍ​ຄຸນ​ນະ​ພາບ​ທີ່​ເທົ່າ​ກັບ​ມະນຸດ ແລະ ຖ່າຍ​ແບບ​ແບບ​ຄໍລອນ​ແບບ​ບໍ່ມີ​ຄົນ​ເຫັນ

ພະຍາຍາມ CosyVoice 2

ChatterboxChatterbox

Premium

State-of-the-art zero-shot voice cloning with emotion control from Resemble AI.

Medium 5/5 ການ​ກັ່ນຕອງ​ສຽງ

ດີທີ່ສຸດ ສຳ ລັບ: ການ​ກັ່ນຕອງ​ສຽງ​ແບບ Zero-shot ສະແດງ​ເຂດ​ແດນ​ຂອງ​ການ​ສັງເຄາະ​ສຽງ

ພະຍາຍາມ Chatterbox

Tortoise TTSTortoise TTS

Premium

Multi-voice text-to-speech focused on quality with autoregressive architecture.

Slow 5/5 ການ​ກັ່ນຕອງ​ສຽງ

ດີທີ່ສຸດ ສຳ ລັບ: ສະຖາປັດຕະຍະກໍາ autoregressive ໃຫ້​ຄວາມ​ສຳຄັນ​ແກ່​ຄຸນນະພາບ​ສຽງ​ສູງສຸດ

ພະຍາຍາມ Tortoise TTS

ວິທີການ Neural TTS ເຮັດວຽກ

ສາຍສົ່ງການສັງເຄາະການເວົ້າແບບທັນສະໄໝໃນ4ຂັ້ນຕອນ

1

ເຂົ້າໃຈພື້ນຖານ

TTS ປ່ຽນ​ຂໍ້ຄວາມ​ທີ່​ຂຽນ​ມາ​ເປັນ​ສຽງ​ທີ່​ເວົ້າ​ໄດ້. ລະບົບ​ທັນສະໄໝ​ໃຊ້​ເຄືອຂ່າຍ​ສະໝອງ​ທີ່​ໄດ້​ຮັບ​ການ​ຝຶກ​ອົບຮົມ​ຈາກ​ການ​ບັນທຶກ​ສຽງ​ຂອງ​ມະນຸດ​ເປັນເວລາ​ຫຼາຍ​ພັນ​ຊົ່ວໂມງ.

2

ຄົ້ນ​ຫາ​ແບບ​ທີ່​ແຕກ​ຕ່າງ​ກັນ

ຕົວແບບ TTS ແຕ່ລະແບບໃຊ້ສະຖາປັດຕະຍະກໍາທີ່ແຕກຕ່າງກັນ (transformer, diffusion, variational) ດ້ວຍຄວາມເຂັ້ມແຂງທີ່ເປັນເອກະລັກໃນຄວາມໄວ, ຄຸນນະພາບ, ແລະຄຸນລັກສະນະ.

3

ທົດລອງໃຊ້​ເອງ

ວິທີທີ່ດີທີ່ສຸດໃນການເຂົ້າໃຈ TTS ແມ່ນໃຊ້ມັນ. ພະຍາຍາມແບບຟອມຟຣີຂອງພວກເຮົາຂ້າງເທິງ - ປ້າຍຂໍ້ຄວາມໃດໆແລະຟັງມັນເວົ້າໃນສອງສາມວິນາທີ.

4

ລວມ​ເຂົ້າ​ກັບ​ໂຄງການ​ຂອງທ່ານ

ເມື່ອທ່ານພົບແບບທີ່ທ່ານຕ້ອງການ, ໃຊ້ API ຂອງພວກເຮົາເພື່ອລວມເອົາ TTS ເຂົ້າໃນແອັບພລິເຄຊັນ, ຜະລິດຕະພັນຫຼືຂະບວນການສ້າງເນື້ອຫາຂອງທ່ານ.

ប្រវត្តិ​ສັ້ນໆ​ຂອງ​ການ​ແປ​ຂໍ້ຄວາມ​ເປັນ​ຄຳ​ເວົ້າ

ຈາກ​ເຄື່ອງ​ທີ່​ເວົ້າ​ດ້ວຍ​ກົນ​ຈັກ​ໄປ​ຫາ​ເຄືອ​ຂ່າຍ​ສະໝອງ

ມື້​ທຳ​ອິດ (1950s-1980s)

ການ​ເວົ້າ​ທີ່​ຖືກ​ສ້າງ​ຂຶ້ນ​ໂດຍ​ຄອມພິວເຕີ​ຄັ້ງ​ທຳ​ອິດ​ແມ່ນ​ມີ​ມາ​ແຕ່​ປີ 1961, ເມື່ອ IBM

ລະບົບທີ່ຮູ້ຈັກ: Votrax (1970s), DECtalk (1984, ຖືກໃຊ້ໂດຍ Stephen Hawking), Apple

ການ​ປະສົມ​ປະສານ​ແບບ​ເຊື່ອມ​ຕໍ່ (1990s- 2000s)

ລະບົບ TTS ແບບ Concatenative ບັນທຶກສຽງຂອງມະນຸດທີ່ຈິງ ເວົ້າຫຼາຍພັນສຽງ, ຈາກນັ້ນກໍ່ຕິດສະຫຼາກກັນໃນຊ່ວງເວລາທີ່ແລ່ນ. ສິ່ງນີ້ໄດ້ຜະລິດສຽງເວົ້າທີ່ເບິ່ງຄືວ່າເປັນທຳມະຊາດຫຼາຍຂຶ້ນ ແຕ່ຕ້ອງການຖານຂໍ້ມູນທີ່ໃຫຍ່ (ໂດຍປົກກະຕິແລ້ວ 10- 20 ຊົ່ວໂມງຂອງການບັນທຶກຕໍ່ສຽງ). ຄຸນນະພາບແມ່ນຂຶ້ນກັບການຊອກຫາການເຊື່ອມຕໍ່ທີ່ສະອາດລະຫວ່າງພາກ.

ນໍາໃຊ້ໂດຍ: AT&T ສຽງທໍາມະຊາດ, Nuance Vocalizer, Google ແປ TTS ຕົ້ນ.

ຕົວຊີ້ວັດ/ສະຖິຕິ (2000s-2010s)

ແທນ​ທີ່​ຈະ​ຕິດ​ຕັ້ງ​ການ​ບັນທຶກ, ແບບ​ແບບ​ຕົວ​ເລກ​ໄດ້​ຮຽນ​ຮູ້​ການ​ສະ​ແດງ​ສະຖິຕິ​ຂອງ​ການ​ເວົ້າ. ແບບ​ແບບ​ທີ່​ຖືກ​ເຊື່ອງ​ໄວ້​ຂອງ Markov (HMMs) ແລະ​ເຄືອ​ຂ່າຍ​ສະໝອງ​ເລິກ​ໄດ້​ສ້າງ​ຕົວ​ເລກ​ການ​ເວົ້າ (ຄວາມ​ສູງ, ເວລາ​ດົນ​ນານ, ຄຸນ​ລັກ​ສະ​ນະ​ຂອງ​ສະ​ພາບ​ແສງ) ທີ່​ໄດ້​ຖືກ​ສົ່ງ​ຜ່ານ​ໂປແກຼມ​ສຽງ​ທີ່​ມີ​ສຽງ​ດັງ​. ສິ່ງ​ນີ້​ໄດ້​ອະນຸຍາດ​ໃຫ້​ມີ​ຄຳ​ສັບ​ບໍ່​ຈໍາກັດ ແລະ​ການ​ສ້າງ​ສຽງ​ທີ່​ງ່າຍ​ຂຶ້ນ, ແຕ່​ບາດກ້າວ​ຂອງ​ໂປແກຼມ​ສຽງ​ທີ່​ມີ​ສຽງ​ດັງ​ມັກ​ຈະ​ຜະລິດ​ສຽງ​ທີ່​ມີ​ສຽງ​ດັງ​ກວ່າ​ເກົ່າ.

ຕົວແບບຫຼັກ: HTS, Merlin, ລະບົບທີ່ອີງໃສ່ DNN ກ່ອນຫນ້ານີ້.

Neural TTS (ປີ 2016-ປັດຈຸບັນ)

ຍຸກສະ ໄໝ ໃຫມ່ໄດ້ເລີ່ມຕົ້ນດ້ວຍ WaveNet (DeepMind, 2016), ເຊິ່ງໄດ້ຜະລິດຕົວຢ່າງສຽງໂດຍຕົວຢ່າງໂດຍໃຊ້ເຄືອຂ່າຍ neuron ທີ່ເລິກເຊິ່ງ. ຕາມມາດ້ວຍ Tacotron (Google, 2017), ເຊິ່ງໄດ້ຮຽນຮູ້ທີ່ຈະວາງແຜນຂໍ້ຄວາມໂດຍກົງໄປຫາ spectrograms. ມື້ນີ້

ຜົນງານທີ່ພົ້ນເດັ່ນ: WaveNet, Tacotron, FastSpeech, VITS, Bark, Kokoro.

ວິທີການ Neural TTS ທັນສະໄຫມເຮັດວຽກ

ໂຄງສ້າງຫຼັງ​ສຽງ​ຂອງ​ AI ທີ່​ມີ​ສຽງ​ເປັນ​ທໍາມະຊາດ

ການ​ວິເຄາະ​ຂໍ້ຄວາມ ແລະ ການ​ເຮັດ​ໃຫ້​ເປັນ​ປົກກະຕິ

ຂໍ້ຄວາມ​ຕົ້ນຕໍ​ຖືກ​ລ້າງ ແລະ ຖືກ​ເຮັດ​ໃຫ້​ເປັນ​ປົກກະຕິ: ຕົວເລກ​ກາຍເປັນ​ຄໍາ (\

ແບບຟອມ​ສຽງ (ຂໍ້ຄວາມ​ເປັນ​ສະເປັກໂຕຣແກມ) Name

ແບບຟອມ​ສຽງ (ໂດຍ​ປົກກະຕິ​ແລ້ວ​ແມ່ນ Transformer ຫຼື ເຄືອຂ່າຍ autoregressive) ເອົາ​ລໍາດັບ​ສຽງ ແລະ ຄາດຄະເນ mel spectrogram - ການ​ສະ​ແດງ​ທາງ​ພາບ​ຂອງ​ສຽງ​ຄື​ແນວ​ໃດ

ຕົວ​ເລກ​ສຽງ (Spectrogram ໄປ​ເປັນ​ສຽງ)

vocoder ປ່ຽນ mel spectrogram ເປັນ waveforms ສຽງທີ່ແທ້ຈິງ. vocoders ກ່ອນຫນ້ານີ້ເຊັ່ນ Griffin-Lim ຜະລິດ robotic artifacts. vocoders neuron ທັນສະໄຫມ (HiFi-GAN, BigVGAN, Vocos) ຜະລິດສຽງ 24kHz ຫຼື 44.1kHz ທີ່ມີຄຸນນະພາບສູງທີ່ບັນທຶກລາຍລະອຽດທີ່ລະອຽດອ່ອນຂອງຄໍາເວົ້າທໍາມະຊາດ, ລວມທັງສຽງຫາຍໃຈແລະການເຄື່ອນຍ້າຍຂອງປາກທີ່ລະອຽດອ່ອນ.

ແບບ​ແບບ​ຈາກ​ຕົ້ນ​ເຖິງ​ທ້າຍ

ຕົວແບບຫຼ້າສຸດເຊັ່ນ VITS, Kokoro, ແລະ Bark ຫຼີກເວັ້ນການເຊື່ອມໂຍງສອງຂັ້ນຢ່າງເຕັມທີ່. ພວກເຂົາໄປໂດຍກົງຈາກຂໍ້ຄວາມໄປຫາສຽງໃນເຄືອຂ່າຍ neuron ດຽວ, ຜະລິດຜົນໄດ້ຮັບທີ່ທໍາມະຊາດກວ່າດ້ວຍ artifacts ທີ່ບໍ່ຫຼາຍປານໃດ. ຕົວແບບບາງຢ່າງ (ເຊັ່ນ Bark) ຍັງສາມາດຜະລິດສຽງທີ່ບໍ່ເວົ້າ, ສຽງหัวเราะ, ແລະ ສຽງດົນຕີພ້ອມກັບການເວົ້າ.

ການ​ປຽບທຽບ​ການ​ເຂົ້າ​ເຖິງ TTS

ວິທີການປຽບທຽບເຕັກໂນໂລຢີ TTS4ລຸ້ນ

ວິທີການ ເວລາ ທໍາມະຊາດ ຄວາມ​ຍືດຫຍຸ່ນ ຄວາມ​ໄວ ຕ້ອງການ​ຂໍ້ມູນ
ການ​ສັງເຄາະ Formant
ການ​ສ້າງ​ແບບ​ຄວາມ​ຖີ່​ທີ່​ອີງ​ໃສ່​ກົດ​ລະບຽບ
1960s-1990s ບໍ່ມີ
ລວມ​ກັນ
ພາກ​ສຽງ​ທີ່​ຕິດ​ຕໍ່​ກັນ
1990s-2010s 10-20 ຊົ່ວໂມງ
ພາຣາມິເຕີ (HMM/DNN)
ຕົວແບບການເວົ້າ​ສະຖິຕິ
2000s-2016 ຊົ່ວໂມງ
Neural End-to-End
ການຮຽນຮູ້ເລິກ (VITS, Kokoro, Bark)
2016-ປັດຈຸບັນ ປ່ຽນ​ວິນາທີ​ເປັນ​ຊົ່ວໂມງ

ຄໍາຮ້ອງສະຫມັກທົ່ວໄປຂອງ TTS

ບ່ອນ​ທີ່​ໃຊ້​ຂໍ້ຄວາມ​ເປັນ​ການ​ເວົ້າ​ໃນ​ມື້ນີ້

ຄວາມສາມາດ​ໃນ​ການ​ເຂົ້າເຖິງ

ອຸປະກອນອ່ານໜ້າຈໍ, ອຸປະກອນຊ່ວຍ ແລະ ເຄື່ອງມືສຳລັບຄົນທີ່ມີບັນຫາໃນການເບິ່ງເຫັນ ຫຼື ການຂຽນທີ່ຫຍຸ້ງຍາກ ຕ້ອງອີງໃສ່ TTS ເພື່ອເຮັດໃຫ້ເນື້ອໃນດິຈິຕອນສາມາດເຂົ້າເຖິງໄດ້ສຳລັບທຸກຄົນ.

ການ​ສ້າງ​ເນື້ອ​ໃນ

YouTubers, podcasters, ແລະຜູ້ສ້າງສື່ສັງຄົມໃຊ້ TTS ສຳ ລັບ voiceovers, ການເລົ່າເລື່ອງ, ແລະການຜະລິດເນື້ອຫາອັດຕະໂນມັດຕາມຂະ ໜາດ.

ຕົວຊ່ວຍ​ເສມືນName

Siri, Alexa, Google Assistant, ແລະ chatbots ບໍລິການລູກຄ້າທັງຫມົດໃຊ້ TTS ເພື່ອເວົ້າຄໍາຕອບທໍາມະຊາດກັບຜູ້ໃຊ້.

ຄໍາຖາມທີ່ຖາມເລື້ອຍໆ

ຄໍາຖາມທົ່ວໄປກ່ຽວກັບເຕັກໂນໂລຢີການແປຂໍ້ຄວາມເປັນສຽງ

TTS ໝາຍເຖິງ Text-to-Speech. ມັນ​ແມ່ນ​ເຕັກໂນໂລຢີ​ທີ່​ປ່ຽນ​ຂໍ້ຄວາມ​ທີ່​ຂຽນ​ມາ​ເປັນ​ຄຳ​ເວົ້າ​ທີ່​ສາມາດ​ຟັງ​ໄດ້ ໂດຍ​ໃຊ້​ສຽງ​ທີ່​ໄດ້​ຮັບ​ການ​ປະສົມປະສານ ຫຼື ສຽງ​ທີ່​ໄດ້​ຮັບ​ການ​ສ້າງ​ໂດຍ AI. ຄໍາ​ສັບ​ນີ້​ຖືກ​ໃຊ້​ຮ່ວມ​ກັບ "ການ​ປະສົມປະສານ​ສຽງ" ໃນ​ປຶ້ມ​ເຕັກນິກ.

ລະບົບ TTS ທັນສະໄໝ ເຮັດວຽກໃນສາມຂັ້ນຕອນ: ການວິເຄາະຂໍ້ຄວາມ (ການວິເຄາະ, ມາດຕະຖານ, ການປ່ຽນສຽງ), ການຄາດຄະເນ prosody (ການກຳນົດຈັງຫວະ, ຄວາມສູງ, ຄວາມກົດດັນ, ແລະ ການຢຸດຊົ່ວຄາວ), ແລະ ການສັງເຄາະສຽງ (ການສ້າງຮູບແບບສັນຍານສຽງທີ່ແທ້ຈິງ).

Concatenative TTS splices together pre- recorded speech fragments, which can sound choppy at transitions. Neural TTS generates speech from scratch using deep learning, producing smoother, more natural- sounding audio with better prosody and emotion.

SSML (ພາສາ​ການ​ວາງ​ມາດຖານ​ການ​ສັງເຄາະ​ການ​ເວົ້າ) ແມ່ນ​ພາສາ​ວາງ​ມາດຖານ​ທີ່​ມີ​ພື້ນຖານ​ຢູ່​ໃນ XML ເຊິ່ງ​ຈະ​ອະນຸຍາດ​ໃຫ້​ທ່ານ​ຄວບຄຸມ​ວິທີ​ທີ່​ລະບົບ TTS ເວົ້າ​ຂໍ້ຄວາມ​ໄດ້ & # 160; ។ ທ່ານ​ສາມາດ​ກຳນົດ​ການຢຸດ, ການ​ເນັ້ນ, ການ​ເວົ້າ, ການ​ປ່ຽນ​ລະດັບ ແລະ ອັດຕາ​ການ​ເວົ້າ ໂດຍ​ໃຊ້​ແທັກ SSML ໃນ​ການ​ເຂົ້າ​ຂໍ້ຄວາມ​ຂອງທ່ານ & # 160; ។

TTS ແມ່ນໃຊ້ສໍາລັບຄວາມສະດວກໃນການເຂົ້າເຖິງ (ຜູ້ອ່ານຈໍສໍາລັບຜູ້ໃຊ້ທີ່ຂາດການເບິ່ງເຫັນ), ຕົວຊ່ວຍ virtual (Siri, Alexa, Google Assistant), ການຜະລິດປື້ມສຽງ, ການຮຽນຮູ້ທາງອີເລັກໂທຣນິກ, GPS ການຂັບເຄື່ອນ, ລະບົບການບໍລິການລູກຄ້າ IVR, ການສ້າງເນື້ອຫາ, ແລະ ຄໍາຮ້ອງສະຫມັກການຮຽນຮູ້ພາສາ.

TTS ໄດ້ພັດທະນາຈາກລະບົບທີ່ອີງໃສ່ກົດລະບຽບຂອງຫຸ່ນຍົນໃນຊຸມປີ 1960, ໄປສູ່ການສັງເຄາະທີ່ເຊື່ອມໂຍງກັນໃນຊຸມປີ 1990, ໄປສູ່ການສັງເຄາະຕົວຊີ້ວັດທາງສະຖິຕິໃນຊຸມປີ 2000, ໄປສູ່ TTS ທາງສະໝອງດ້ວຍ WaveNet ໃນປີ 2016, ໄປສູ່ແບບ ຈຳ ລອງການປ່ຽນແປງແລະແຜ່ກະຈາຍໃນປະຈຸບັນທີ່ບັນລຸຄຸນນະພາບລະດັບມະນຸດ.

ລະບົບ TTS ທີ່ໃຊ້ສຽງທໍາມະຊາດ ຕ້ອງໃຊ້ສຽງທີ່ຖືກຕ້ອງ (ຈັງຫວະ, ແຮງດັນ, ສຽງ), ໄລຍະເວລາທີ່ເໝາະສົມ, ການປ່ຽນລະຫວ່າງສຽງ ແລະ ສຽງທີ່ເປັນເອກະລັກ. ແບບຈໍາລອງຂອງລະບົບສະໝອງຮຽນຮູ້ແບບນີ້ຈາກຂໍ້ມູນທີ່ໃຫຍ່ຂອງການບັນທຶກສຽງທໍາມະຊາດຂອງມະນຸດ.

ແບບຟອມການຖ່າຍທອດສຽງເຊັ່ນ Chatterbox ແລະ CosyVoice2ສາມາດຖ່າຍທອດສຽງສະເພາະຈາກສຽງທີ່ອ້າງອີງໄດ້ພຽງ 5-30 ວິນາທີເທົ່ານັ້ນ. ສຽງທີ່ຖ່າຍທອດໄດ້ບັນທຶກສຽງ, ສຽງເວົ້າ, ແລະ ຮູບແບບການເວົ້າ, ເຖິງວ່າຈະມີການພິຈາລະນາດ້ານຈັນຍາບັນແລະກົດໝາຍທີ່ໃຊ້ໃນການຖ່າຍທອດສຽງຂອງຄົນອື່ນ.

ແບບ TTS ທັນສະໄໝ ລວມກັນ ສະຫນັບສະຫນູນ 30+ ພາສາ. ບາງແບບມີວິຊາສະເພາະໃນພາສາສະເພາະໃນຂະນະທີ່ຄົນອື່ນແມ່ນຫຼາຍພາສາ. ພາສາອັງກິດມີແບບແລະສຽງທີ່ໃຊ້ໄດ້ຫຼາຍທີ່ສຸດ, ແຕ່ພາສາຈີນ, ຍີ່ປຸ່ນ, ເກົາຫຼີ, ສະເປນ, ແລະພາສາເອີຣົບແມ່ນໄດ້ຮັບການສະຫນັບສະຫນູນຢ່າງດີ.

TTS ແມ່ນຊິ້ນສ່ວນຂອງ AI ສ້າງສຽງ. TTS ສະເພາະການປ່ຽນຂໍ້ຄວາມເຂົ້າສູ່ການອອກສຽງ. AI ສ້າງສຽງແມ່ນຄໍາສັບທີ່ກວ້າງຂວາງກວ່າທີ່ຍັງລວມມີການຖ່າຍທອດສຽງ, ການປ່ຽນສຽງ, ເວົ້າ-ໃຫ້-ເວົ້າ, ແລະ ສ້າງຜົນກະທົບສຽງ.

ມັນ​ຂຶ້ນ​ກັບ​ຄວາມ​ຕ້ອງການ​ຂອງ​ທ່ານ. Kokoro ສະຫນອງ​ຄວາມ​ສົມດຸນ​ທີ່​ດີ​ທີ່​ສຸດ​ຂອງ​ຄວາມ​ໄວ​ແລະ​ຄຸນ​ນະ​ພາບ​ສຳລັບ​ການ​ໃຊ້​ງານ​ທົ່ວໄປ. Chatterbox ນໍາ​ພາ​ໃນ​ການ​ຖ່າຍ​ທອດ​ສຽງ. Orpheus ດີ​ທີ່​ສຸດ​ໃນ​ການ​ສະແດງ​ອາລົມ. StyleTTS2ຜະລິດ​ການ​ບອກ​ເລື່ອງ​ແບບ​ທໍາ​ມະ​ຊາດ​ທີ່​ສຸດ​ຂອງ​ຜູ້​ເວົ້າ​ຄົນ​ດຽວ. ບໍ່ມີ​ແບບ​ແບບ​ດຽວ "ທີ່​ດີ​ທີ່​ສຸດ" ສຳ​ລັບ​ການ​ໃຊ້​ງານ​ທຸກໆ​ກໍລະນີ.

ຍິນດີຕ້ອນຮັບ. ທຸກໆແບບໃນ TTS.ai ແມ່ນ Open Source ແລະສາມາດເປັນເຈົ້າພາບຕົນເອງໄດ້. ແບບ CPU ເທົ່ານັ້ນເຊັ່ນ Piper ແລ່ນໃນຄອມພິວເຕີໃດກໍ່ໄດ້. ແບບ GPU ເຊັ່ນ Kokoro ແລະ Bark ຕ້ອງການ NVIDIA GPU ທີ່ມີ 2-8GB VRAM. ເວທີຂອງພວກເຮົາຍັງໃຫ້ການເຂົ້າເຖິງທີ່ເປັນເຈົ້າພາບເພື່ອໃຫ້ທ່ານບໍ່ຕ້ອງຄຸ້ມຄອງພື້ນຖານໂຄງລ່າງ.
5.0/5 (1)

ພວກເຮົາສາມາດປັບປຸງໄດ້ແນວໃດ? ຄໍາຄິດເຫັນຂອງທ່ານຊ່ວຍພວກເຮົາແກ້ໄຂບັນຫາ.

ປະສົບການ TTS ທັນສະໄໝດ້ວຍຕົວທ່ານເອງ

ທົດລອງ 20+ ແບບຟອມສຽງ AI ທີ່ທັນສະໄໝໂດຍບໍ່ເສຍຄ່າ. ເບິ່ງວ່າຂໍ້ຄວາມໄປສູ່ການເວົ້າໄດ້ມາຮອດໃສ.