ຂໍ້ຄວາມໄປສູ່ການເວົ້າ (TTS) ແມ່ນຫຍັງ?
ຂໍ້ຄວາມເປັນຄໍາເວົ້າແມ່ນເຕັກໂນໂລຊີທີ່ປ່ຽນຂໍ້ຄວາມທີ່ຂຽນເປັນສຽງເວົ້າໂດຍໃຊ້ຄວາມຊຳນິຊຳນານທາງປະດິດສ້າງ. ຈາກເຄື່ອງປະສົມສຽງຂອງຄົນຂັບລົດກ່ອນຫນ້ານີ້ເຖິງເຄືອຂ່າຍ neuron ຂອງມື້ນີ້ທີ່ສຽງບໍ່ແຕກຕ່າງຈາກມະນຸດ, TTS ໄດ້ປ່ຽນແປງວິທີການທີ່ພວກເຮົາມີສ່ວນຮ່ວມກັບເຕັກໂນໂລຢີ, ບໍລິໂພກເນື້ອຫາແລະເຮັດໃຫ້ຂໍ້ມູນເຂົ້າເຖິງໄດ້.
ຂໍ້ຄວາມໄປເປັນຄຳເວົ້າName
ການເຂົ້າໃຈພື້ນຖານຂອງການສັງເຄາະການເວົ້າແບບທັນສະໄໝ
TTS ແມ່ນຫຍັງ
TTS ໝາຍເຖິງ Text-to-Speech - ເຕັກໂນໂລຢີທີ່ປ່ຽນຂໍ້ຄວາມທີ່ຂຽນມາເປັນສຽງທີ່ເວົ້າໂດຍໃຊ້ສຽງທີ່ສ້າງຂຶ້ນໂດຍຄອມພິວເຕີ.
ວິທີການ Neural TTS ເຮັດວຽກ
TTS ທັນສະໄໝໃຊ້ເຄືອຂ່າຍ neuron ທີ່ເລິກເຊິ່ງເພື່ອວິເຄາະຂໍ້ຄວາມ, ຄາດຄະເນແບບຟອມການເວົ້າ, ແລະ ສ້າງຮູບແບບສັນຍານສຽງທີ່ຟັງຄືກັບສຽງຂອງມະນຸດ.
ប្រវត្តិຂອງການສັງເຄາະການເວົ້າ
ນັບແຕ່ປີ 1960 ລະບົບທີ່ອີງໃສ່ກົດລະບຽບຈົນເຖິງປີ 1990 ການສັງເຄາະ concatenative ເຖິງແບບ ຈຳ ລອງ neuron ປະຈຸບັນ - ວິທີການ TTS ພັດທະນາມາເປັນເວລາຫ້າທົດສະວັດ.
ຕົວແບບ AI ທັນສະໄໝ
ແບບຢ່າງໃນປັດຈຸບັນເຊັ່ນ Kokoro, Bark, ແລະ CosyVoice2ໃຊ້ transformers, diffusion, ແລະ variation inference ເພື່ອບັນລຸຄຸນນະພາບການເວົ້າໃນລະດັບມະນຸດ.
ໂປແກຼມທົ່ວໄປ
TTS ສະຫນອງພະລັງງານການອ່ານຫນ້າຈໍ, GPS ນໍາທາງ, virtual assistants, ສຽງປື້ມ, ການບໍລິການລູກຄ້າ bots, e-learning ເວທີ, ແລະການສ້າງເນື້ອໃນ.
ແຫຼ່ງເປີດ vs ການຄ້າ
ແບບ Open-source (MIT, Apache 2.0) ສະຫນອງການຟຣີ, TTS ເປັນເຈົ້າພາບຕົນເອງໃນຂະນະທີ່ການບໍລິການການຄ້າສະຫນອງການບໍລິຫານ API ທີ່ມີ SLAs ແລະສະຫນັບສະຫນູນ.
ຕົວແບບ TTS ສາມາດໃຊ້ໄດ້ໃນ TTS.ai
ຈາກຄວາມໄວແລະເບົາຈົນເຖິງສຽງທີ່ມີຄຸນນະພາບຄືກັບສະຕູດິໂອ
Kokoro
Free
Lightweight 82M parameter model delivering studio-quality speech with blazing-fast inference.
ດີທີ່ສຸດ ສຳ ລັບ: State-of-the-art ແບບຈໍາລອງນ້ອຍ - ສະແດງໃຫ້ເຫັນວ່າ neuron TTS ໄດ້ມາຮອດບ່ອນໃດ
ພະຍາຍາມ Kokoro
Bark
Standard
Transformer-based text-to-audio model that generates realistic speech, music, and sound effects.
ດີທີ່ສຸດ ສຳ ລັບ: ຕົວແບບທີ່ອີງໃສ່ການປ່ຽນແປງສະແດງໃຫ້ເຫັນການຜະລິດສຽງນອກເໜືອຈາກການເວົ້າ
ພະຍາຍາມ Bark
CosyVoice 2
Standard
Alibaba's scalable streaming TTS with human-parity naturalness and near-zero latency.
ດີທີ່ສຸດ ສຳ ລັບ: ສົ່ງຕໍ່ TTS ດ້ວຍຄຸນນະພາບທີ່ເທົ່າກັບມະນຸດ ແລະ ຖ່າຍແບບແບບຄໍລອນແບບບໍ່ມີຄົນເຫັນ
ພະຍາຍາມ CosyVoice 2
Chatterbox
Premium
State-of-the-art zero-shot voice cloning with emotion control from Resemble AI.
ດີທີ່ສຸດ ສຳ ລັບ: ການກັ່ນຕອງສຽງແບບ Zero-shot ສະແດງເຂດແດນຂອງການສັງເຄາະສຽງ
ພະຍາຍາມ Chatterbox
Tortoise TTS
Premium
Multi-voice text-to-speech focused on quality with autoregressive architecture.
ດີທີ່ສຸດ ສຳ ລັບ: ສະຖາປັດຕະຍະກໍາ autoregressive ໃຫ້ຄວາມສຳຄັນແກ່ຄຸນນະພາບສຽງສູງສຸດ
ພະຍາຍາມ Tortoise TTSວິທີການ Neural TTS ເຮັດວຽກ
ສາຍສົ່ງການສັງເຄາະການເວົ້າແບບທັນສະໄໝໃນ4ຂັ້ນຕອນ
ເຂົ້າໃຈພື້ນຖານ
TTS ປ່ຽນຂໍ້ຄວາມທີ່ຂຽນມາເປັນສຽງທີ່ເວົ້າໄດ້. ລະບົບທັນສະໄໝໃຊ້ເຄືອຂ່າຍສະໝອງທີ່ໄດ້ຮັບການຝຶກອົບຮົມຈາກການບັນທຶກສຽງຂອງມະນຸດເປັນເວລາຫຼາຍພັນຊົ່ວໂມງ.
ຄົ້ນຫາແບບທີ່ແຕກຕ່າງກັນ
ຕົວແບບ TTS ແຕ່ລະແບບໃຊ້ສະຖາປັດຕະຍະກໍາທີ່ແຕກຕ່າງກັນ (transformer, diffusion, variational) ດ້ວຍຄວາມເຂັ້ມແຂງທີ່ເປັນເອກະລັກໃນຄວາມໄວ, ຄຸນນະພາບ, ແລະຄຸນລັກສະນະ.
ທົດລອງໃຊ້ເອງ
ວິທີທີ່ດີທີ່ສຸດໃນການເຂົ້າໃຈ TTS ແມ່ນໃຊ້ມັນ. ພະຍາຍາມແບບຟອມຟຣີຂອງພວກເຮົາຂ້າງເທິງ - ປ້າຍຂໍ້ຄວາມໃດໆແລະຟັງມັນເວົ້າໃນສອງສາມວິນາທີ.
ລວມເຂົ້າກັບໂຄງການຂອງທ່ານ
ເມື່ອທ່ານພົບແບບທີ່ທ່ານຕ້ອງການ, ໃຊ້ API ຂອງພວກເຮົາເພື່ອລວມເອົາ TTS ເຂົ້າໃນແອັບພລິເຄຊັນ, ຜະລິດຕະພັນຫຼືຂະບວນການສ້າງເນື້ອຫາຂອງທ່ານ.
ប្រវត្តិສັ້ນໆຂອງການແປຂໍ້ຄວາມເປັນຄຳເວົ້າ
ຈາກເຄື່ອງທີ່ເວົ້າດ້ວຍກົນຈັກໄປຫາເຄືອຂ່າຍສະໝອງ
ມື້ທຳອິດ (1950s-1980s)
ການເວົ້າທີ່ຖືກສ້າງຂຶ້ນໂດຍຄອມພິວເຕີຄັ້ງທຳອິດແມ່ນມີມາແຕ່ປີ 1961, ເມື່ອ IBM
ລະບົບທີ່ຮູ້ຈັກ: Votrax (1970s), DECtalk (1984, ຖືກໃຊ້ໂດຍ Stephen Hawking), Apple
ການປະສົມປະສານແບບເຊື່ອມຕໍ່ (1990s- 2000s)
ລະບົບ TTS ແບບ Concatenative ບັນທຶກສຽງຂອງມະນຸດທີ່ຈິງ ເວົ້າຫຼາຍພັນສຽງ, ຈາກນັ້ນກໍ່ຕິດສະຫຼາກກັນໃນຊ່ວງເວລາທີ່ແລ່ນ. ສິ່ງນີ້ໄດ້ຜະລິດສຽງເວົ້າທີ່ເບິ່ງຄືວ່າເປັນທຳມະຊາດຫຼາຍຂຶ້ນ ແຕ່ຕ້ອງການຖານຂໍ້ມູນທີ່ໃຫຍ່ (ໂດຍປົກກະຕິແລ້ວ 10- 20 ຊົ່ວໂມງຂອງການບັນທຶກຕໍ່ສຽງ). ຄຸນນະພາບແມ່ນຂຶ້ນກັບການຊອກຫາການເຊື່ອມຕໍ່ທີ່ສະອາດລະຫວ່າງພາກ.
ນໍາໃຊ້ໂດຍ: AT&T ສຽງທໍາມະຊາດ, Nuance Vocalizer, Google ແປ TTS ຕົ້ນ.
ຕົວຊີ້ວັດ/ສະຖິຕິ (2000s-2010s)
ແທນທີ່ຈະຕິດຕັ້ງການບັນທຶກ, ແບບແບບຕົວເລກໄດ້ຮຽນຮູ້ການສະແດງສະຖິຕິຂອງການເວົ້າ. ແບບແບບທີ່ຖືກເຊື່ອງໄວ້ຂອງ Markov (HMMs) ແລະເຄືອຂ່າຍສະໝອງເລິກໄດ້ສ້າງຕົວເລກການເວົ້າ (ຄວາມສູງ, ເວລາດົນນານ, ຄຸນລັກສະນະຂອງສະພາບແສງ) ທີ່ໄດ້ຖືກສົ່ງຜ່ານໂປແກຼມສຽງທີ່ມີສຽງດັງ. ສິ່ງນີ້ໄດ້ອະນຸຍາດໃຫ້ມີຄຳສັບບໍ່ຈໍາກັດ ແລະການສ້າງສຽງທີ່ງ່າຍຂຶ້ນ, ແຕ່ບາດກ້າວຂອງໂປແກຼມສຽງທີ່ມີສຽງດັງມັກຈະຜະລິດສຽງທີ່ມີສຽງດັງກວ່າເກົ່າ.
ຕົວແບບຫຼັກ: HTS, Merlin, ລະບົບທີ່ອີງໃສ່ DNN ກ່ອນຫນ້ານີ້.
Neural TTS (ປີ 2016-ປັດຈຸບັນ)
ຍຸກສະ ໄໝ ໃຫມ່ໄດ້ເລີ່ມຕົ້ນດ້ວຍ WaveNet (DeepMind, 2016), ເຊິ່ງໄດ້ຜະລິດຕົວຢ່າງສຽງໂດຍຕົວຢ່າງໂດຍໃຊ້ເຄືອຂ່າຍ neuron ທີ່ເລິກເຊິ່ງ. ຕາມມາດ້ວຍ Tacotron (Google, 2017), ເຊິ່ງໄດ້ຮຽນຮູ້ທີ່ຈະວາງແຜນຂໍ້ຄວາມໂດຍກົງໄປຫາ spectrograms. ມື້ນີ້
ຜົນງານທີ່ພົ້ນເດັ່ນ: WaveNet, Tacotron, FastSpeech, VITS, Bark, Kokoro.
ວິທີການ Neural TTS ທັນສະໄຫມເຮັດວຽກ
ໂຄງສ້າງຫຼັງສຽງຂອງ AI ທີ່ມີສຽງເປັນທໍາມະຊາດ
ການວິເຄາະຂໍ້ຄວາມ ແລະ ການເຮັດໃຫ້ເປັນປົກກະຕິ
ຂໍ້ຄວາມຕົ້ນຕໍຖືກລ້າງ ແລະ ຖືກເຮັດໃຫ້ເປັນປົກກະຕິ: ຕົວເລກກາຍເປັນຄໍາ (\
ແບບຟອມສຽງ (ຂໍ້ຄວາມເປັນສະເປັກໂຕຣແກມ) Name
ແບບຟອມສຽງ (ໂດຍປົກກະຕິແລ້ວແມ່ນ Transformer ຫຼື ເຄືອຂ່າຍ autoregressive) ເອົາລໍາດັບສຽງ ແລະ ຄາດຄະເນ mel spectrogram - ການສະແດງທາງພາບຂອງສຽງຄືແນວໃດ
ຕົວເລກສຽງ (Spectrogram ໄປເປັນສຽງ)
vocoder ປ່ຽນ mel spectrogram ເປັນ waveforms ສຽງທີ່ແທ້ຈິງ. vocoders ກ່ອນຫນ້ານີ້ເຊັ່ນ Griffin-Lim ຜະລິດ robotic artifacts. vocoders neuron ທັນສະໄຫມ (HiFi-GAN, BigVGAN, Vocos) ຜະລິດສຽງ 24kHz ຫຼື 44.1kHz ທີ່ມີຄຸນນະພາບສູງທີ່ບັນທຶກລາຍລະອຽດທີ່ລະອຽດອ່ອນຂອງຄໍາເວົ້າທໍາມະຊາດ, ລວມທັງສຽງຫາຍໃຈແລະການເຄື່ອນຍ້າຍຂອງປາກທີ່ລະອຽດອ່ອນ.
ແບບແບບຈາກຕົ້ນເຖິງທ້າຍ
ຕົວແບບຫຼ້າສຸດເຊັ່ນ VITS, Kokoro, ແລະ Bark ຫຼີກເວັ້ນການເຊື່ອມໂຍງສອງຂັ້ນຢ່າງເຕັມທີ່. ພວກເຂົາໄປໂດຍກົງຈາກຂໍ້ຄວາມໄປຫາສຽງໃນເຄືອຂ່າຍ neuron ດຽວ, ຜະລິດຜົນໄດ້ຮັບທີ່ທໍາມະຊາດກວ່າດ້ວຍ artifacts ທີ່ບໍ່ຫຼາຍປານໃດ. ຕົວແບບບາງຢ່າງ (ເຊັ່ນ Bark) ຍັງສາມາດຜະລິດສຽງທີ່ບໍ່ເວົ້າ, ສຽງหัวเราะ, ແລະ ສຽງດົນຕີພ້ອມກັບການເວົ້າ.
ການປຽບທຽບການເຂົ້າເຖິງ TTS
ວິທີການປຽບທຽບເຕັກໂນໂລຢີ TTS4ລຸ້ນ
| ວິທີການ | ເວລາ | ທໍາມະຊາດ | ຄວາມຍືດຫຍຸ່ນ | ຄວາມໄວ | ຕ້ອງການຂໍ້ມູນ |
|---|---|---|---|---|---|
| ການສັງເຄາະ Formant ການສ້າງແບບຄວາມຖີ່ທີ່ອີງໃສ່ກົດລະບຽບ |
1960s-1990s | ບໍ່ມີ | |||
| ລວມກັນ ພາກສຽງທີ່ຕິດຕໍ່ກັນ |
1990s-2010s | 10-20 ຊົ່ວໂມງ | |||
| ພາຣາມິເຕີ (HMM/DNN) ຕົວແບບການເວົ້າສະຖິຕິ |
2000s-2016 | ຊົ່ວໂມງ | |||
| Neural End-to-End ການຮຽນຮູ້ເລິກ (VITS, Kokoro, Bark) |
2016-ປັດຈຸບັນ | ປ່ຽນວິນາທີເປັນຊົ່ວໂມງ |
ຄໍາຮ້ອງສະຫມັກທົ່ວໄປຂອງ TTS
ບ່ອນທີ່ໃຊ້ຂໍ້ຄວາມເປັນການເວົ້າໃນມື້ນີ້
ຄວາມສາມາດໃນການເຂົ້າເຖິງ
ອຸປະກອນອ່ານໜ້າຈໍ, ອຸປະກອນຊ່ວຍ ແລະ ເຄື່ອງມືສຳລັບຄົນທີ່ມີບັນຫາໃນການເບິ່ງເຫັນ ຫຼື ການຂຽນທີ່ຫຍຸ້ງຍາກ ຕ້ອງອີງໃສ່ TTS ເພື່ອເຮັດໃຫ້ເນື້ອໃນດິຈິຕອນສາມາດເຂົ້າເຖິງໄດ້ສຳລັບທຸກຄົນ.
ການສ້າງເນື້ອໃນ
YouTubers, podcasters, ແລະຜູ້ສ້າງສື່ສັງຄົມໃຊ້ TTS ສຳ ລັບ voiceovers, ການເລົ່າເລື່ອງ, ແລະການຜະລິດເນື້ອຫາອັດຕະໂນມັດຕາມຂະ ໜາດ.
ຕົວຊ່ວຍເສມືນName
Siri, Alexa, Google Assistant, ແລະ chatbots ບໍລິການລູກຄ້າທັງຫມົດໃຊ້ TTS ເພື່ອເວົ້າຄໍາຕອບທໍາມະຊາດກັບຜູ້ໃຊ້.
ຄໍາຖາມທີ່ຖາມເລື້ອຍໆ
ຄໍາຖາມທົ່ວໄປກ່ຽວກັບເຕັກໂນໂລຢີການແປຂໍ້ຄວາມເປັນສຽງ
ພວກເຮົາສາມາດປັບປຸງໄດ້ແນວໃດ? ຄໍາຄິດເຫັນຂອງທ່ານຊ່ວຍພວກເຮົາແກ້ໄຂບັນຫາ.
ປະສົບການ TTS ທັນສະໄໝດ້ວຍຕົວທ່ານເອງ
ທົດລອງ 20+ ແບບຟອມສຽງ AI ທີ່ທັນສະໄໝໂດຍບໍ່ເສຍຄ່າ. ເບິ່ງວ່າຂໍ້ຄວາມໄປສູ່ການເວົ້າໄດ້ມາຮອດໃສ.