ຂໍ້ຄວາມໄປສູ່ການເວົ້າ (TTS) ແມ່ນຫຍັງ?

ຂໍ້ຄວາມເປັນຄໍາເວົ້າແມ່ນເຕັກໂນໂລຊີທີ່ປ່ຽນຂໍ້ຄວາມທີ່ຂຽນເປັນສຽງເວົ້າໂດຍໃຊ້ຄວາມຊຳນິຊຳນານທາງປະດິດສ້າງ. ຈາກເຄື່ອງປະສົມສຽງຂອງຄົນຂັບລົດກ່ອນຫນ້ານີ້ເຖິງເຄືອຂ່າຍ neuron ຂອງມື້ນີ້ທີ່ສຽງບໍ່ແຕກຕ່າງຈາກມະນຸດ, TTS ໄດ້ປ່ຽນແປງວິທີການທີ່ພວກເຮົາມີສ່ວນຮ່ວມກັບເຕັກໂນໂລຢີ, ບໍລິໂພກເນື້ອຫາແລະເຮັດໃຫ້ຂໍ້ມູນເຂົ້າເຖິງໄດ້.

ເຕັກໂນໂລຊີ ប្រវត្តិ ວິທີການເຮັດວຽກ ເຄືອຂ່າຍ Neural Evolution Comment

ເລີ່ມໃຊ້ຟຣີ ເບິ່ງລາຄາ

ຂໍ້ຄວາມໄປເປັນຄຳເວົ້າName

ການເຂົ້າໃຈພື້ນຖານຂອງການສັງເຄາະການເວົ້າແບບທັນສະໄໝ

TTS ແມ່ນຫຍັງ

TTS ໝາຍເຖິງ Text-to-Speech - ເຕັກໂນໂລຢີທີ່ປ່ຽນຂໍ້ຄວາມທີ່ຂຽນມາເປັນສຽງທີ່ເວົ້າໂດຍໃຊ້ສຽງທີ່ສ້າງຂຶ້ນໂດຍຄອມພິວເຕີ.

ວິທີການ Neural TTS ເຮັດວຽກ

TTS ທັນສະໄໝໃຊ້ເຄືອຂ່າຍ neuron ທີ່ເລິກເຊິ່ງເພື່ອວິເຄາະຂໍ້ຄວາມ, ຄາດຄະເນແບບຟອມການເວົ້າ, ແລະ ສ້າງຮູບແບບສັນຍານສຽງທີ່ຟັງຄືກັບສຽງຂອງມະນຸດ.

ប្រវត្តិຂອງການສັງເຄາະການເວົ້າ

ນັບແຕ່ປີ 1960 ລະບົບທີ່ອີງໃສ່ກົດລະບຽບຈົນເຖິງປີ 1990 ການສັງເຄາະ concatenative ເຖິງແບບ ຈຳ ລອງ neuron ປະຈຸບັນ - ວິທີການ TTS ພັດທະນາມາເປັນເວລາຫ້າທົດສະວັດ.

ຕົວແບບ AI ທັນສະໄໝ

ແບບຢ່າງໃນປັດຈຸບັນເຊັ່ນ Kokoro, Bark, ແລະ CosyVoice2ໃຊ້ transformers, diffusion, ແລະ variation inference ເພື່ອບັນລຸຄຸນນະພາບການເວົ້າໃນລະດັບມະນຸດ.

ໂປແກຼມທົ່ວໄປ

TTS ສະຫນອງພະລັງງານການອ່ານຫນ້າຈໍ, GPS ນໍາທາງ, virtual assistants, ສຽງປື້ມ, ການບໍລິການລູກຄ້າ bots, e-learning ເວທີ, ແລະການສ້າງເນື້ອໃນ.

ແຫຼ່ງເປີດ vs ການຄ້າ

ແບບ Open-source (MIT, Apache 2.0) ສະຫນອງການຟຣີ, TTS ເປັນເຈົ້າພາບຕົນເອງໃນຂະນະທີ່ການບໍລິການການຄ້າສະຫນອງການບໍລິຫານ API ທີ່ມີ SLAs ແລະສະຫນັບສະຫນູນ.

ຕົວແບບ TTS ສາມາດໃຊ້ໄດ້ໃນ TTS.ai

ຈາກຄວາມໄວແລະເບົາຈົນເຖິງສຽງທີ່ມີຄຸນນະພາບຄືກັບສະຕູດິໂອ

Kokoro

Free

Lightweight 82M parameter model delivering studio-quality speech with blazing-fast inference.

រហ័ស 5/5

ດີທີ່ສຸດ ສຳ ລັບ: State-of-the-art ແບບຈໍາລອງນ້ອຍ - ສະແດງໃຫ້ເຫັນວ່າ neuron TTS ໄດ້ມາຮອດບ່ອນໃດ

ພະຍາຍາມ Kokoro

Bark

Standard

Transformer-based text-to-audio model that generates realistic speech, music, and sound effects.

ຊ້າ 4/5

ດີທີ່ສຸດ ສຳ ລັບ: ຕົວແບບທີ່ອີງໃສ່ການປ່ຽນແປງສະແດງໃຫ້ເຫັນການຜະລິດສຽງນອກເໜືອຈາກການເວົ້າ

ພະຍາຍາມ Bark

CosyVoice 2

Standard

Alibaba's scalable streaming TTS with human-parity naturalness and near-zero latency.

ກາງ 5/5 ການກັ່ນຕອງສຽງ

ດີທີ່ສຸດ ສຳ ລັບ: ສົ່ງຕໍ່ TTS ດ້ວຍຄຸນນະພາບທີ່ເທົ່າກັບມະນຸດ ແລະ ຖ່າຍແບບແບບຄໍລອນແບບບໍ່ມີຄົນເຫັນ

ພະຍາຍາມ CosyVoice 2

Chatterbox

Premium

State-of-the-art zero-shot voice cloning with emotion control from Resemble AI.

ກາງ 5/5 ການກັ່ນຕອງສຽງ

ດີທີ່ສຸດ ສຳ ລັບ: ການກັ່ນຕອງສຽງແບບ Zero-shot ສະແດງເຂດແດນຂອງການສັງເຄາະສຽງ

ພະຍາຍາມ Chatterbox

Tortoise TTS

Premium

Multi-voice text-to-speech focused on quality with autoregressive architecture.

ຊ້າ 5/5 ການກັ່ນຕອງສຽງ

ດີທີ່ສຸດ ສຳ ລັບ: ສະຖາປັດຕະຍະກໍາ autoregressive ໃຫ້ຄວາມສຳຄັນແກ່ຄຸນນະພາບສຽງສູງສຸດ

ພະຍາຍາມ Tortoise TTS

ວິທີການ Neural TTS ເຮັດວຽກ

ສາຍສົ່ງການສັງເຄາະການເວົ້າແບບທັນສະໄໝໃນ4ຂັ້ນຕອນ

ເຂົ້າໃຈພື້ນຖານ

TTS ປ່ຽນຂໍ້ຄວາມທີ່ຂຽນມາເປັນສຽງທີ່ເວົ້າໄດ້. ລະບົບທັນສະໄໝໃຊ້ເຄືອຂ່າຍສະໝອງທີ່ໄດ້ຮັບການຝຶກອົບຮົມຈາກການບັນທຶກສຽງຂອງມະນຸດເປັນເວລາຫຼາຍພັນຊົ່ວໂມງ.

ຄົ້ນຫາແບບທີ່ແຕກຕ່າງກັນ

ຕົວແບບ TTS ແຕ່ລະແບບໃຊ້ສະຖາປັດຕະຍະກໍາທີ່ແຕກຕ່າງກັນ (transformer, diffusion, variational) ດ້ວຍຄວາມເຂັ້ມແຂງທີ່ເປັນເອກະລັກໃນຄວາມໄວ, ຄຸນນະພາບ, ແລະຄຸນລັກສະນະ.

ທົດລອງໃຊ້ເອງ

ວິທີທີ່ດີທີ່ສຸດໃນການເຂົ້າໃຈ TTS ແມ່ນໃຊ້ມັນ. ພະຍາຍາມແບບຟອມຟຣີຂອງພວກເຮົາຂ້າງເທິງ - ປ້າຍຂໍ້ຄວາມໃດໆແລະຟັງມັນເວົ້າໃນສອງສາມວິນາທີ.

ລວມເຂົ້າກັບໂຄງການຂອງທ່ານ

ເມື່ອທ່ານພົບແບບທີ່ທ່ານຕ້ອງການ, ໃຊ້ API ຂອງພວກເຮົາເພື່ອລວມເອົາ TTS ເຂົ້າໃນແອັບພລິເຄຊັນ, ຜະລິດຕະພັນຫຼືຂະບວນການສ້າງເນື້ອຫາຂອງທ່ານ.

ប្រវត្តិສັ້ນໆຂອງການແປຂໍ້ຄວາມເປັນຄຳເວົ້າ

ຈາກເຄື່ອງທີ່ເວົ້າດ້ວຍກົນຈັກໄປຫາເຄືອຂ່າຍສະໝອງ

ມື້ທຳອິດ (1950s-1980s)

ການເວົ້າທີ່ຖືກສ້າງຂຶ້ນໂດຍຄອມພິວເຕີຄັ້ງທຳອິດແມ່ນມີມາແຕ່ປີ 1961, ເມື່ອ IBM

ລະບົບທີ່ຮູ້ຈັກ: Votrax (1970s), DECtalk (1984, ຖືກໃຊ້ໂດຍ Stephen Hawking), Apple

ການປະສົມປະສານແບບເຊື່ອມຕໍ່ (1990s- 2000s)

ລະບົບ TTS ແບບ Concatenative ບັນທຶກສຽງຂອງມະນຸດທີ່ຈິງ ເວົ້າຫຼາຍພັນສຽງ, ຈາກນັ້ນກໍ່ຕິດສະຫຼາກກັນໃນຊ່ວງເວລາທີ່ແລ່ນ. ສິ່ງນີ້ໄດ້ຜະລິດສຽງເວົ້າທີ່ເບິ່ງຄືວ່າເປັນທຳມະຊາດຫຼາຍຂຶ້ນ ແຕ່ຕ້ອງການຖານຂໍ້ມູນທີ່ໃຫຍ່ (ໂດຍປົກກະຕິແລ້ວ 10- 20 ຊົ່ວໂມງຂອງການບັນທຶກຕໍ່ສຽງ). ຄຸນນະພາບແມ່ນຂຶ້ນກັບການຊອກຫາການເຊື່ອມຕໍ່ທີ່ສະອາດລະຫວ່າງພາກ.

ນໍາໃຊ້ໂດຍ: AT&T ສຽງທໍາມະຊາດ, Nuance Vocalizer, Google ແປ TTS ຕົ້ນ.

ຕົວຊີ້ວັດ/ສະຖິຕິ (2000s-2010s)

ແທນທີ່ຈະຕິດຕັ້ງການບັນທຶກ, ແບບແບບຕົວເລກໄດ້ຮຽນຮູ້ການສະແດງສະຖິຕິຂອງການເວົ້າ. ແບບແບບທີ່ຖືກເຊື່ອງໄວ້ຂອງ Markov (HMMs) ແລະເຄືອຂ່າຍສະໝອງເລິກໄດ້ສ້າງຕົວເລກການເວົ້າ (ຄວາມສູງ, ເວລາດົນນານ, ຄຸນລັກສະນະຂອງສະພາບແສງ) ທີ່ໄດ້ຖືກສົ່ງຜ່ານໂປແກຼມສຽງທີ່ມີສຽງດັງ. ສິ່ງນີ້ໄດ້ອະນຸຍາດໃຫ້ມີຄຳສັບບໍ່ຈໍາກັດ ແລະການສ້າງສຽງທີ່ງ່າຍຂຶ້ນ, ແຕ່ບາດກ້າວຂອງໂປແກຼມສຽງທີ່ມີສຽງດັງມັກຈະຜະລິດສຽງທີ່ມີສຽງດັງກວ່າເກົ່າ.

ຕົວແບບຫຼັກ: HTS, Merlin, ລະບົບທີ່ອີງໃສ່ DNN ກ່ອນຫນ້ານີ້.

Neural TTS (ປີ 2016-ປັດຈຸບັນ)

ຍຸກສະ ໄໝ ໃຫມ່ໄດ້ເລີ່ມຕົ້ນດ້ວຍ WaveNet (DeepMind, 2016), ເຊິ່ງໄດ້ຜະລິດຕົວຢ່າງສຽງໂດຍຕົວຢ່າງໂດຍໃຊ້ເຄືອຂ່າຍ neuron ທີ່ເລິກເຊິ່ງ. ຕາມມາດ້ວຍ Tacotron (Google, 2017), ເຊິ່ງໄດ້ຮຽນຮູ້ທີ່ຈະວາງແຜນຂໍ້ຄວາມໂດຍກົງໄປຫາ spectrograms. ມື້ນີ້

ຜົນງານທີ່ພົ້ນເດັ່ນ: WaveNet, Tacotron, FastSpeech, VITS, Bark, Kokoro.

ທົດລອງໃຊ້ Neural TTS ແບບທັນສະໄໝ

ວິທີການ Neural TTS ທັນສະໄຫມເຮັດວຽກ

ໂຄງສ້າງຫຼັງສຽງຂອງ AI ທີ່ມີສຽງເປັນທໍາມະຊາດ

ການວິເຄາະຂໍ້ຄວາມ ແລະ ການເຮັດໃຫ້ເປັນປົກກະຕິ

ຂໍ້ຄວາມຕົ້ນຕໍຖືກລ້າງ ແລະ ຖືກເຮັດໃຫ້ເປັນປົກກະຕິ: ຕົວເລກກາຍເປັນຄໍາ (\

ແບບຟອມສຽງ (ຂໍ້ຄວາມເປັນສະເປັກໂຕຣແກມ) Name

ແບບຟອມສຽງ (ໂດຍປົກກະຕິແລ້ວແມ່ນ Transformer ຫຼື ເຄືອຂ່າຍ autoregressive) ເອົາລໍາດັບສຽງ ແລະ ຄາດຄະເນ mel spectrogram - ການສະແດງທາງພາບຂອງສຽງຄືແນວໃດ

ຕົວເລກສຽງ (Spectrogram ໄປເປັນສຽງ)

vocoder ປ່ຽນ mel spectrogram ເປັນ waveforms ສຽງທີ່ແທ້ຈິງ. vocoders ກ່ອນຫນ້ານີ້ເຊັ່ນ Griffin-Lim ຜະລິດ robotic artifacts. vocoders neuron ທັນສະໄຫມ (HiFi-GAN, BigVGAN, Vocos) ຜະລິດສຽງ 24kHz ຫຼື 44.1kHz ທີ່ມີຄຸນນະພາບສູງທີ່ບັນທຶກລາຍລະອຽດທີ່ລະອຽດອ່ອນຂອງຄໍາເວົ້າທໍາມະຊາດ, ລວມທັງສຽງຫາຍໃຈແລະການເຄື່ອນຍ້າຍຂອງປາກທີ່ລະອຽດອ່ອນ.

ແບບແບບຈາກຕົ້ນເຖິງທ້າຍ

ຕົວແບບຫຼ້າສຸດເຊັ່ນ VITS, Kokoro, ແລະ Bark ຫຼີກເວັ້ນການເຊື່ອມໂຍງສອງຂັ້ນຢ່າງເຕັມທີ່. ພວກເຂົາໄປໂດຍກົງຈາກຂໍ້ຄວາມໄປຫາສຽງໃນເຄືອຂ່າຍ neuron ດຽວ, ຜະລິດຜົນໄດ້ຮັບທີ່ທໍາມະຊາດກວ່າດ້ວຍ artifacts ທີ່ບໍ່ຫຼາຍປານໃດ. ຕົວແບບບາງຢ່າງ (ເຊັ່ນ Bark) ຍັງສາມາດຜະລິດສຽງທີ່ບໍ່ເວົ້າ, ສຽງหัวเราะ, ແລະ ສຽງດົນຕີພ້ອມກັບການເວົ້າ.

ທົດລອງໃຊ້ເອງ

ການປຽບທຽບການເຂົ້າເຖິງ TTS

ວິທີການປຽບທຽບເຕັກໂນໂລຢີ TTS4ລຸ້ນ

ວິທີການ	ເວລາ	ຕ້ອງການຂໍ້ມູນ
ການສັງເຄາະ Formant ການສ້າງແບບຄວາມຖີ່ທີ່ອີງໃສ່ກົດລະບຽບ	1960s-1990s	ບໍ່ມີ
ລວມກັນ ພາກສຽງທີ່ຕິດຕໍ່ກັນ	1990s-2010s	10-20 ຊົ່ວໂມງ
ພາຣາມິເຕີ (HMM/DNN) ຕົວແບບການເວົ້າສະຖິຕິ	2000s-2016	ຊົ່ວໂມງ
Neural End-to-End ການຮຽນຮູ້ເລິກ (VITS, Kokoro, Bark)	2016-ປັດຈຸບັນ	ປ່ຽນວິນາທີເປັນຊົ່ວໂມງ

ທົດລອງ Neural TTS ຟຣີ

ຄໍາຮ້ອງສະຫມັກທົ່ວໄປຂອງ TTS

ບ່ອນທີ່ໃຊ້ຂໍ້ຄວາມເປັນການເວົ້າໃນມື້ນີ້

ຄວາມສາມາດໃນການເຂົ້າເຖິງ

ອຸປະກອນອ່ານໜ້າຈໍ, ອຸປະກອນຊ່ວຍ ແລະ ເຄື່ອງມືສຳລັບຄົນທີ່ມີບັນຫາໃນການເບິ່ງເຫັນ ຫຼື ການຂຽນທີ່ຫຍຸ້ງຍາກ ຕ້ອງອີງໃສ່ TTS ເພື່ອເຮັດໃຫ້ເນື້ອໃນດິຈິຕອນສາມາດເຂົ້າເຖິງໄດ້ສຳລັບທຸກຄົນ.

ການສ້າງເນື້ອໃນ

YouTubers, podcasters, ແລະຜູ້ສ້າງສື່ສັງຄົມໃຊ້ TTS ສຳ ລັບ voiceovers, ການເລົ່າເລື່ອງ, ແລະການຜະລິດເນື້ອຫາອັດຕະໂນມັດຕາມຂະ ໜາດ.

ຕົວຊ່ວຍເສມືນName

Siri, Alexa, Google Assistant, ແລະ chatbots ບໍລິການລູກຄ້າທັງຫມົດໃຊ້ TTS ເພື່ອເວົ້າຄໍາຕອບທໍາມະຊາດກັບຜູ້ໃຊ້.

ພະຍາຍາມການແປຂໍ້ຄວາມເປັນຄຳເວົ້າດຽວນີ້

ຄໍາຖາມທີ່ຖາມເລື້ອຍໆ

ຄໍາຖາມທົ່ວໄປກ່ຽວກັບເຕັກໂນໂລຢີການແປຂໍ້ຄວາມເປັນສຽງ

TTS ໝາຍເຖິງ Text-to-Speech. ມັນແມ່ນເຕັກໂນໂລຢີທີ່ປ່ຽນຂໍ້ຄວາມທີ່ຂຽນມາເປັນຄຳເວົ້າທີ່ສາມາດຟັງໄດ້ ໂດຍໃຊ້ສຽງທີ່ໄດ້ຮັບການປະສົມປະສານ ຫຼື ສຽງທີ່ໄດ້ຮັບການສ້າງໂດຍ AI. ຄໍາສັບນີ້ຖືກໃຊ້ຮ່ວມກັບ "ການປະສົມປະສານສຽງ" ໃນປຶ້ມເຕັກນິກ.

ລະບົບ TTS ທັນສະໄໝ ເຮັດວຽກໃນສາມຂັ້ນຕອນ: ການວິເຄາະຂໍ້ຄວາມ (ການວິເຄາະ, ມາດຕະຖານ, ການປ່ຽນສຽງ), ການຄາດຄະເນ prosody (ການກຳນົດຈັງຫວະ, ຄວາມສູງ, ຄວາມກົດດັນ, ແລະ ການຢຸດຊົ່ວຄາວ), ແລະ ການສັງເຄາະສຽງ (ການສ້າງຮູບແບບສັນຍານສຽງທີ່ແທ້ຈິງ).

Concatenative TTS splices together pre- recorded speech fragments, which can sound choppy at transitions. Neural TTS generates speech from scratch using deep learning, producing smoother, more natural- sounding audio with better prosody and emotion.

SSML (ພາສາການວາງມາດຖານການສັງເຄາະການເວົ້າ) ແມ່ນພາສາວາງມາດຖານທີ່ມີພື້ນຖານຢູ່ໃນ XML ເຊິ່ງຈະອະນຸຍາດໃຫ້ທ່ານຄວບຄຸມວິທີທີ່ລະບົບ TTS ເວົ້າຂໍ້ຄວາມໄດ້ ។ ທ່ານສາມາດກຳນົດການຢຸດ, ການເນັ້ນ, ການເວົ້າ, ການປ່ຽນລະດັບ ແລະ ອັດຕາການເວົ້າ ໂດຍໃຊ້ແທັກ SSML ໃນການເຂົ້າຂໍ້ຄວາມຂອງທ່ານ ។

TTS ແມ່ນໃຊ້ສໍາລັບຄວາມສະດວກໃນການເຂົ້າເຖິງ (ຜູ້ອ່ານຈໍສໍາລັບຜູ້ໃຊ້ທີ່ຂາດການເບິ່ງເຫັນ), ຕົວຊ່ວຍ virtual (Siri, Alexa, Google Assistant), ການຜະລິດປື້ມສຽງ, ການຮຽນຮູ້ທາງອີເລັກໂທຣນິກ, GPS ການຂັບເຄື່ອນ, ລະບົບການບໍລິການລູກຄ້າ IVR, ການສ້າງເນື້ອຫາ, ແລະ ຄໍາຮ້ອງສະຫມັກການຮຽນຮູ້ພາສາ.

TTS ໄດ້ພັດທະນາຈາກລະບົບທີ່ອີງໃສ່ກົດລະບຽບຂອງຫຸ່ນຍົນໃນຊຸມປີ 1960, ໄປສູ່ການສັງເຄາະທີ່ເຊື່ອມໂຍງກັນໃນຊຸມປີ 1990, ໄປສູ່ການສັງເຄາະຕົວຊີ້ວັດທາງສະຖິຕິໃນຊຸມປີ 2000, ໄປສູ່ TTS ທາງສະໝອງດ້ວຍ WaveNet ໃນປີ 2016, ໄປສູ່ແບບ ຈຳ ລອງການປ່ຽນແປງແລະແຜ່ກະຈາຍໃນປະຈຸບັນທີ່ບັນລຸຄຸນນະພາບລະດັບມະນຸດ.

ລະບົບ TTS ທີ່ໃຊ້ສຽງທໍາມະຊາດ ຕ້ອງໃຊ້ສຽງທີ່ຖືກຕ້ອງ (ຈັງຫວະ, ແຮງດັນ, ສຽງ), ໄລຍະເວລາທີ່ເໝາະສົມ, ການປ່ຽນລະຫວ່າງສຽງ ແລະ ສຽງທີ່ເປັນເອກະລັກ. ແບບຈໍາລອງຂອງລະບົບສະໝອງຮຽນຮູ້ແບບນີ້ຈາກຂໍ້ມູນທີ່ໃຫຍ່ຂອງການບັນທຶກສຽງທໍາມະຊາດຂອງມະນຸດ.

ແບບຟອມການຖ່າຍທອດສຽງເຊັ່ນ Chatterbox ແລະ CosyVoice2ສາມາດຖ່າຍທອດສຽງສະເພາະຈາກສຽງທີ່ອ້າງອີງໄດ້ພຽງ 5-30 ວິນາທີເທົ່ານັ້ນ. ສຽງທີ່ຖ່າຍທອດໄດ້ບັນທຶກສຽງ, ສຽງເວົ້າ, ແລະ ຮູບແບບການເວົ້າ, ເຖິງວ່າຈະມີການພິຈາລະນາດ້ານຈັນຍາບັນແລະກົດໝາຍທີ່ໃຊ້ໃນການຖ່າຍທອດສຽງຂອງຄົນອື່ນ.

ແບບ TTS ທັນສະໄໝ ລວມກັນ ສະຫນັບສະຫນູນ 30+ ພາສາ. ບາງແບບມີວິຊາສະເພາະໃນພາສາສະເພາະໃນຂະນະທີ່ຄົນອື່ນແມ່ນຫຼາຍພາສາ. ພາສາອັງກິດມີແບບແລະສຽງທີ່ໃຊ້ໄດ້ຫຼາຍທີ່ສຸດ, ແຕ່ພາສາຈີນ, ຍີ່ປຸ່ນ, ເກົາຫຼີ, ສະເປນ, ແລະພາສາເອີຣົບແມ່ນໄດ້ຮັບການສະຫນັບສະຫນູນຢ່າງດີ.

TTS ແມ່ນຊິ້ນສ່ວນຂອງ AI ສ້າງສຽງ. TTS ສະເພາະການປ່ຽນຂໍ້ຄວາມເຂົ້າສູ່ການອອກສຽງ. AI ສ້າງສຽງແມ່ນຄໍາສັບທີ່ກວ້າງຂວາງກວ່າທີ່ຍັງລວມມີການຖ່າຍທອດສຽງ, ການປ່ຽນສຽງ, ເວົ້າ-ໃຫ້-ເວົ້າ, ແລະ ສ້າງຜົນກະທົບສຽງ.

ມັນຂຶ້ນກັບຄວາມຕ້ອງການຂອງທ່ານ. Kokoro ສະຫນອງຄວາມສົມດຸນທີ່ດີທີ່ສຸດຂອງຄວາມໄວແລະຄຸນນະພາບສຳລັບການໃຊ້ງານທົ່ວໄປ. Chatterbox ນໍາພາໃນການຖ່າຍທອດສຽງ. Orpheus ດີທີ່ສຸດໃນການສະແດງອາລົມ. StyleTTS2ຜະລິດການບອກເລື່ອງແບບທໍາມະຊາດທີ່ສຸດຂອງຜູ້ເວົ້າຄົນດຽວ. ບໍ່ມີແບບແບບດຽວ "ທີ່ດີທີ່ສຸດ" ສຳລັບການໃຊ້ງານທຸກໆກໍລະນີ.

ຍິນດີຕ້ອນຮັບ. ທຸກໆແບບໃນ TTS.ai ແມ່ນ Open Source ແລະສາມາດເປັນເຈົ້າພາບຕົນເອງໄດ້. ແບບ CPU ເທົ່ານັ້ນເຊັ່ນ Piper ແລ່ນໃນຄອມພິວເຕີໃດກໍ່ໄດ້. ແບບ GPU ເຊັ່ນ Kokoro ແລະ Bark ຕ້ອງການ NVIDIA GPU ທີ່ມີ 2-8GB VRAM. ເວທີຂອງພວກເຮົາຍັງໃຫ້ການເຂົ້າເຖິງທີ່ເປັນເຈົ້າພາບເພື່ອໃຫ້ທ່ານບໍ່ຕ້ອງຄຸ້ມຄອງພື້ນຖານໂຄງລ່າງ.

5.0/5 (1)

ປະສົບການ TTS ທັນສະໄໝດ້ວຍຕົວທ່ານເອງ

ທົດລອງ 20+ ແບບຟອມສຽງ AI ທີ່ທັນສະໄໝໂດຍບໍ່ເສຍຄ່າ. ເບິ່ງວ່າຂໍ້ຄວາມໄປສູ່ການເວົ້າໄດ້ມາຮອດໃສ.

ລົງທະບຽນຟຣີ ເບິ່ງລາຄາ

ຂໍ້ຄວາມໄປສູ່ການເວົ້າ (TTS) ແມ່ນຫຍັງ?

ຂໍ້ຄວາມ​ໄປ​ເປັນ​ຄຳ​ເວົ້າName

TTS ແມ່ນຫຍັງ

ວິທີການ Neural TTS ເຮັດວຽກ

ប្រវត្តិ​ຂອງ​ການ​ສັງເຄາະ​ການ​ເວົ້າ

ຕົວແບບ AI ທັນສະໄໝ

ໂປແກຼມທົ່ວໄປ

ແຫຼ່ງເປີດ vs ການຄ້າ

ຕົວແບບ TTS ສາມາດໃຊ້ໄດ້ໃນ TTS.ai

Kokoro

Bark

CosyVoice 2

Chatterbox

Tortoise TTS

ວິທີການ Neural TTS ເຮັດວຽກ

ເຂົ້າໃຈພື້ນຖານ

ຄົ້ນ​ຫາ​ແບບ​ທີ່​ແຕກ​ຕ່າງ​ກັນ

ທົດລອງໃຊ້​ເອງ

ລວມ​ເຂົ້າ​ກັບ​ໂຄງການ​ຂອງທ່ານ

ប្រវត្តិ​ສັ້ນໆ​ຂອງ​ການ​ແປ​ຂໍ້ຄວາມ​ເປັນ​ຄຳ​ເວົ້າ

ມື້​ທຳ​ອິດ (1950s-1980s)

ການ​ປະສົມ​ປະສານ​ແບບ​ເຊື່ອມ​ຕໍ່ (1990s- 2000s)

ຕົວຊີ້ວັດ/ສະຖິຕິ (2000s-2010s)

Neural TTS (ປີ 2016-ປັດຈຸບັນ)

ວິທີການ Neural TTS ທັນສະໄຫມເຮັດວຽກ

ການ​ວິເຄາະ​ຂໍ້ຄວາມ ແລະ ການ​ເຮັດ​ໃຫ້​ເປັນ​ປົກກະຕິ

ແບບຟອມ​ສຽງ (ຂໍ້ຄວາມ​ເປັນ​ສະເປັກໂຕຣແກມ) Name

ຕົວ​ເລກ​ສຽງ (Spectrogram ໄປ​ເປັນ​ສຽງ)

ແບບ​ແບບ​ຈາກ​ຕົ້ນ​ເຖິງ​ທ້າຍ

ການ​ປຽບທຽບ​ການ​ເຂົ້າ​ເຖິງ TTS

ຄໍາຮ້ອງສະຫມັກທົ່ວໄປຂອງ TTS

ຄວາມສາມາດ​ໃນ​ການ​ເຂົ້າເຖິງ

ການ​ສ້າງ​ເນື້ອ​ໃນ

ຕົວຊ່ວຍ​ເສມືນName

ຄໍາຖາມທີ່ຖາມເລື້ອຍໆ

TTS ໝາຍເຖິງຫຍັງ?

ຂໍ້ຄວາມ-ເປັນ-ການເວົ້າເຮັດວຽກໄດ້ແນວໃດ?

ຄວາມແຕກຕ່າງລະຫວ່າງ Neural TTS ແລະ Concatenative TTS ແມ່ນຫຍັງ?

SSML ແມ່ນຫຍັງ ແລະ ມັນຖືກໃຊ້ກັບ TTS ແນວໃດ?

ເຕັກໂນໂລຊີ TTS ຖືກນຳໃຊ້ໃນດ້ານຫຍັງ?

ເຕັກໂນໂລຢີ TTS ໄດ້ພັດທະນາໄປຕາມເວລາແນວໃດ?

ຫຍັງເຮັດໃຫ້ສຽງ TTS ມີສຽງທີ່ທໍາມະຊາດ?

TTS ສາມາດຖ່າຍທອດສຽງຂອງມະນຸດໄດ້ບໍ?

TTS ສະໜັບສະໜູນພາສາໃດ?

TTS ຄື​ກັນ​ກັບ​ການ​ສ້າງ​ສຽງ AI ບໍ?

ແບບຈໍາລອງ TTS ທີ່ດີທີ່ສຸດແມ່ນຫຍັງ?

ຂ້ອຍສາມາດໃຊ້ຕົວແບບ TTS ໃນຄອມພິວເຕີຂອງຂ້ອຍເອງໄດ້ບໍ?

ປະສົບການ TTS ທັນສະໄໝດ້ວຍຕົວທ່ານເອງ

ຂໍ້ຄວາມໄປເປັນຄຳເວົ້າName

ប្រវត្តិຂອງການສັງເຄາະການເວົ້າ

ຄົ້ນຫາແບບທີ່ແຕກຕ່າງກັນ

ທົດລອງໃຊ້ເອງ

ລວມເຂົ້າກັບໂຄງການຂອງທ່ານ

ប្រវត្តិສັ້ນໆຂອງການແປຂໍ້ຄວາມເປັນຄຳເວົ້າ

ມື້ທຳອິດ (1950s-1980s)

ການປະສົມປະສານແບບເຊື່ອມຕໍ່ (1990s- 2000s)

ການວິເຄາະຂໍ້ຄວາມ ແລະ ການເຮັດໃຫ້ເປັນປົກກະຕິ

ແບບຟອມສຽງ (ຂໍ້ຄວາມເປັນສະເປັກໂຕຣແກມ) Name

ຕົວເລກສຽງ (Spectrogram ໄປເປັນສຽງ)

ແບບແບບຈາກຕົ້ນເຖິງທ້າຍ

ການປຽບທຽບການເຂົ້າເຖິງ TTS

ຄວາມສາມາດໃນການເຂົ້າເຖິງ

ການສ້າງເນື້ອໃນ

ຕົວຊ່ວຍເສມືນName