ແປຂໍ້ຄວາມເປັນຄຳເວົ້າName
ປ່ຽນຂໍ້ຄວາມເປັນສຽງເວົ້າທີ່ມີສຽງທໍາມະຊາດດ້ວຍແບບຟອມ AI ທີ່ມີແຫຼ່ງເປີດ. ໃຊ້ຟຣີ, ບໍ່ຕ້ອງການບັນຊີໃຊ້ງານໃດໆ.
ວາງຂໍ້ຄວາມຂອງທ່ານໄວ້ໃນແທັກ SSML ເພື່ອຄວບຄຸມຢ່າງລະອຽດ:
<speak><prosody rate="slow">Slow speech</prosody></speak>
ເພີ່ມຕົວຊີ້ບອກອາລົມເພື່ອສົ່ງຜົນກະທົບຕໍ່ການສົ່ງອອກ (ການສະໜັບສະໜູນແບບຟອມແຕກຕ່າງກັນ):
ຕັ້ງຄ່າການອອກສຽງແບບສ່ວນຕົວ (ຄໍາ = ການອອກສຽງ):
ລາຍລະອຽດແບບ
Kitten TTS
Kitten TTS by KittenML is an ultra-lightweight text-to-speech model built on ONNX. With variants from 15M to 80M parameters (25-80 MB on disk), it delivers high-quality voice synthesis on CPU without requiring a GPU. Features 8 built-in voices, adjustable speech speed, and built-in text preprocessing for numbers, currencies, and units. Ideal for edge deployment and low-latency applications.
| ຜູ້ພັດທະນາ: | KittenML |
| ໃບອະນຸຍາດ: | Apache 2.0 |
| ຄວາມໄວ | Fast |
| ຄຸນນະພາບ: | |
| ພາສາ | 1 ພາສາ |
| VRAM | 0GB |
| ການກັ່ນຕອງສຽງ | ບໍ່ໄດ້ສະໜັບສະໜູນ |
ຂໍ້ແນະນຳສຳລັບຜົນທີ່ດີກວ່າ
- ໃຊ້ການວາງຕົວໜັງສືທີ່ຖືກຕ້ອງເພື່ອການຢຸດຊົ່ວຄາວ ແລະ ການເວົ້າແບບທຳມະດາ
- ຕົວອັກສອນຕົວເລກ ແລະ ຕົວອັກສອນຫຍໍ້ເພື່ອການອອກສຽງທີ່ຈະແຈ້ງ
- ເພີ່ມຕົວຄ້ອນຕີເພື່ອສ້າງການຢຸດຊົ່ວຄາວລະຫວ່າງຄຳສັບ
- ໃຊ້ຕົວຫ້າມ (...) ສຳລັບການຢຸດຊົ່ວຄາວທີ່ຍາວກວ່າ
- ທົດລອງໃຊ້ Kokoro ຫຼື CosyVoice2ເພື່ອຮັບຜົນໄດ້ຮັບທີ່ຖືກຕ້ອງທີ່ສຸດ
- ໃຊ້ Dia ສຳ ລັບການສົນທະນາຫຼາຍຄົນ ແລະ ເນື້ອໃນຂອງໂປດແກຼມ
ຄ່າໃຊ້ຈ່າຍຂອງສິນເຊື່ອ
| ສັດ | ຄ່າໃຊ້ຈ່າຍຕໍ່ຕົວອັກສອນ 1K |
|---|---|
| ຟຣີ | 0 ຄະແນນ (ບໍ່ຈໍາກັດ) |
| ມາດຕະຖານ | 2 ຄະແນນ / 1K ຕົວອັກສອນ |
| ລາຄາຖືກ | 4 ຄະແນນ / 1K ຕົວອັກສອນ |
ວິທີການໃຊ້ AI Text to Speech
ສ້າງສຽງເວົ້າທີ່ມີຄຸນນະພາບເປັນມືອາຊີບໃນສາມບາດກ້າວງ່າຍໆ. ບໍ່ມີຄວາມຮູ້ດ້ານເຕັກນິກທີ່ຕ້ອງການ.
បញ្ចូលຂໍ້ຄວາມຂອງທ່ານ
ພິມ, ປ້າຍ ຫຼື ສົ່ງຂໍ້ຄວາມທີ່ທ່ານຕ້ອງການປ່ຽນເປັນສຽງ. ສະໜັບສະໜູນເຖິງ 5, 000 ຕົວອັກສອນຕໍ່ການລຸ້ນ ສຳ ລັບຜູ້ໃຊ້ທີ່ເຂົ້າໃຊ້ລະບົບ. ໃຊ້ຂໍ້ຄວາມປົກກະຕິ ຫຼື ເພີ່ມແທັກ SSML ສຳ ລັບການຄວບຄຸມລະດັບສູງກ່ຽວກັບການອອກສຽງ, ການຢຸດຊົ່ວຄາວ, ແລະ ການເນັ້ນ.
ເລືອກແບບ ແລະ ສຽງ
ເລືອກຈາກ 20+ ແບບ AI ຜ່ານສາມຊັ້ນ. ເລືອກສຽງທີ່ເຫມາະສົມກັບເນື້ອໃນຂອງທ່ານ, ເລືອກພາສາເປົ້າຫມາຍຂອງທ່ານ, ປັບຄວາມໄວການຫຼິ້ນຈາກ 0.5x ເຖິງ 2.0x, ແລະເລືອກຮູບແບບຜົນອອກທີ່ທ່ານຕ້ອງການ (MP3, WAV, OGG, ຫຼື FLAC).
ສ້າງ ແລະ ດາວໂຫລດ
ກົດ ສ້າງ ແລະ ສຽງຂອງທ່ານຈະພ້ອມໃນສອງວິນາທີ. ເບິ່ງກ່ອນໃຊ້ເຄື່ອງຫຼິ້ນທີ່ມີຢູ່ພາຍໃນ, ດາວໂຫລດໃນຮູບແບບທີ່ທ່ານເລືອກ, ຫຼື ຖ່າຍທອດການເຊື່ອມຕໍ່ທີ່ສາມາດແບ່ງປັນໄດ້. ໃຊ້ API ສຳລັບການປະມວນຜົນຫຼາຍໆຄັ້ງ ແລະ ການລວມເຂົ້າກັບລໍາດັບວຽກຂອງທ່ານ.
ຂໍ້ຄວາມໄປສູ່ການເວົ້າ
AI-powered text-to-speech ກໍາລັງປ່ຽນແປງວິທີການທີ່ປະຊາຊົນສ້າງ, ບໍລິໂພກ, ແລະ ມີສ່ວນຮ່ວມກັບເນື້ອໃນສຽງໃນຫຼາຍສິບອຸດສາຫະກໍາ.
ແບບແບບຂໍ້ຄວາມເປັນການເວົ້າທັງໝົດ
ຂໍ້ກໍານົດລະອຽດສໍາລັບທຸກ AI ແບບຈໍາລອງທີ່ມີຢູ່ໃນ TTS.ai. ປຽບທຽບຄຸນນະພາບ, ຄວາມໄວ, ການສະຫນັບສະຫນູນພາສາ, ແລະຄຸນສົມບັດເພື່ອຊອກຫາແບບຈໍາລອງທີ່ສົມບູນແບບສໍາລັບໂຄງການຂອງທ່ານ.
Kokoro
Free
Kokoro ແມ່ນ 82 ລ້ານຕົວແບບການແປພາສາຈາກຂໍ້ຄວາມເປັນສຽງທີ່ຕີໄດ້ດີກວ່າລະດັບນໍ້າໜັກຂອງມັນ. ເຖິງວ່າຈະມີຂະ ໜາດ ນ້ອຍ, ມັນກໍ່ຜະລິດການເວົ້າທີ່ ໜ້າ ສົນໃຈແລະສະແດງອອກ. Kokoro ສະຫນັບສະຫນູນຫຼາຍພາສາລວມທັງພາສາອັງກິດ, ຍີ່ປຸ່ນ, ຈີນ, ແລະເກົາຫຼີດ້ວຍສຽງສະແດງອອກທີ່ຫຼາກຫຼາຍ. ມັນແລ່ນໄວຫຼາຍ — ສ້າງສຽງເກືອບ 100x ໄວກວ່າເວລາຈິງໃນ GPU.
Hexgrad
Apache 2.0
Fast
en, ja, zh, ko, fr, de, it, pt, es, hi, ru
1.5GB
ບໍ່ມີ
ຟຣີ
Piper
Free
Piper ແມ່ນເຄື່ອງຈັກການແປພາສາຂໍ້ຄວາມເປັນສຽງທີ່ເບົາບາງທີ່ພັດທະນາໂດຍ Rhasspy ເຊິ່ງໃຊ້ VITS ແລະ larynx architectures. ມັນແລ່ນທັງ ໝົດ ເທິງ CPU, ເຮັດໃຫ້ມັນ ເໝາະ ສົມ ສຳ ລັບອຸປະກອນ Edge, ອັດຕະໂນມັດໃນເຮືອນ, ແລະ ຄໍາຮ້ອງສະຫມັກທີ່ຕ້ອງການ TTS ນອກອິນເຕີເນັດ. ດ້ວຍສຽງຫຼາຍກວ່າ 100 ຜ່ານ 30 + ພາສາ, Piper ສົ່ງຄໍາເວົ້າທີ່ຟັງຄືກັບທໍາມະຊາດໃນຄວາມໄວທີ່ແທ້ຈິງເຖິງແມ່ນວ່າຢູ່ໃນ Raspberry Pi 4.
Rhasspy
MIT
Fast
en, de, fr, es, it, pt, nl, pl, ru, zh, ja, ko, ar, cs, da, fi, el, hu, is, ka, kk, ne, no, ro, sk, sr, sv, sw, tr, uk, vi
0 (CPU only)
ບໍ່ມີ
ຟຣີ
VITS
Free
VITS (ການຄິດໄລ່ຄວາມແຕກຕ່າງດ້ວຍການຮຽນຮູ້ທີ່ມີການຕໍ່ສູ້ເພື່ອການແປຂໍ້ຄວາມເປັນຄຳເວົ້າຈາກຕົ້ນເຖິງທ້າຍ) ແມ່ນວິທີການ TTS ແບບຄຽງຄູ່ກັນລະຫວ່າງຕົ້ນເຖິງທ້າຍທີ່ຜະລິດສຽງທີ່ມີສຽງທໍາມະຊາດຫຼາຍຂຶ້ນກວ່າແບບແບບສອງຂັ້ນທີ່ມີຢູ່ໃນປັດຈຸບັນ. ມັນໃຊ້ການຄິດໄລ່ຄວາມແຕກຕ່າງທີ່ເພີ່ມຂຶ້ນດ້ວຍການປ່ຽນແປງຂອງການໄຫຼ ແລະ ຂະບວນການຝຶກອົບຮົມທີ່ມີການຕໍ່ສູ້ກັນ, ເຮັດໃຫ້ການປັບປຸງທີ່ມີຄວາມໝາຍໃນການເວົ້າທີ່ມີຄວາມເປັນທໍາມະຊາດຫຼາຍຂຶ້ນ.
Jaehyeon Kim et al.
MIT
Fast
en, zh, ja, ko
1GB
ບໍ່ມີ
ຟຣີ
MeloTTS
Free
MeloTTS ໂດຍ MyShell.ai ແມ່ນຫ້ອງສະໝຸດ TTS ຫຼາຍພາສາທີ່ສະຫນັບສະຫນູນພາສາອັງກິດ (ອາເມລິກາ, ບຣາຊິນ, ອິນເດຍ, ອົດສະຕາລີ), ສະເປນ, ຝຣັ່ງ, ຈີນ, ຍີ່ປຸ່ນ, ແລະເກົາຫຼີ. ມັນໄວຫຼາຍ, ຂະບວນການຂໍ້ຄວາມທີ່ໃກ້ກັບຄວາມໄວເວລາຈິງໃນ CPU ດຽວ. MeloTTS ແມ່ນອອກແບບສໍາລັບການໃຊ້ງານການຜະລິດແລະສະຫນັບສະຫນູນທັງ CPU ແລະ GPU ຜົນການຄິດໄລ່.
MyShell.ai
MIT
Fast
en, es, fr, zh, ja, ko
0.5GB (GPU optional)
ບໍ່ມີ
ຟຣີ
Bark
Standard
Bark ໂດຍ Suno ແມ່ນແບບຟອມຂໍ້ຄວາມ-ຫາ-ສຽງທີ່ອີງໃສ່ຕົວປ່ຽນທີ່ສາມາດຜະລິດສຽງເວົ້າຫຼາຍພາສາທີ່ຈິງຈັງໄດ້ດີ, ເຊັ່ນດຽວກັນກັບສຽງອື່ນໆເຊັ່ນດົນຕີ, ສຽງລົບກວນດ້ານຫລັງ, ແລະ ຜົນສະທ້ອນສຽງ. ມັນສາມາດຜະລິດການສື່ສານທີ່ບໍ່ເວົ້າເຊັ່ນ: ຫົວ, ຍິ້ມ, ແລະ ຮ້ອງ. Bark ສະຫນັບສະຫນູນ speakers ຫຼາຍກວ່າ 100 ຕົວເລືອກແລະ 13+ ພາສາ.
Suno
MIT
Slow
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
5GB
ບໍ່ມີ
2x
Bark Small
Standard
Bark Small ແມ່ນເວີຊັນທີ່ໄດ້ດູດເອົາຈາກແບບແບບ Bark ເຊິ່ງໄດ້ປ່ຽນຄຸນນະພາບສຽງບາງຢ່າງເພື່ອຄວາມໄວໃນການຄິດໄລ່ທີ່ໄວຂຶ້ນ ແລະ ຄວາມຕ້ອງການຄວາມຈຳທີ່ຕ່ຳກວ່າເກົ່າ. ມັນຍັງຮັກສາຄວາມສາມາດຂອງ Bark ໃນການສ້າງການເວົ້າດ້ວຍອາລົມ, ສຽງຫົວ ແລະ ພາສາຫຼາຍພາສາໄວ້.
Suno
MIT
Medium
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
2GB
ບໍ່ມີ
2x
CosyVoice 2
Standard
CosyVoice 2ໂດຍ Alibaba's Tongyi Lab ບັນລຸຄຸນນະພາບການເວົ້າທີ່ທຽບເທົ່າກັບມະນຸດດ້ວຍ latency ທີ່ຕ່ ຳ ທີ່ສຸດ, ເຮັດໃຫ້ມັນ ເໝາະ ສົມ ສຳ ລັບແອັບພລິເຄຊັນເວລາຈິງ. ມັນໃຊ້ວິທີການ quantization scalar finite ສຳ ລັບການສະກັດສຽງແລະສະຫນັບສະຫນູນການຖ່າຍທອດສຽງແບບບໍ່ມີສຽງ, ການສັງເຄາະພາສາແລະການຄວບຄຸມອາລົມທີ່ລະອຽດອ່ອນ. ມັນໄດ້ດີກວ່າລະບົບ TTS ການຄ້າຫຼາຍຢ່າງໃນການວິເຄາະ subjective.
Alibaba (Tongyi Lab)
Apache 2.0
Medium
en, zh, ja, ko, fr, de, it, es
4GB
ແມ່ນ
2x
Dia TTS
Standard
Dia ໂດຍ Nari Labs ແມ່ນແບບຟອມການແປພາສາຂໍ້ຄວາມເປັນສຽງທີ່ມີຕົວກໍານົດ 1.6B ເຊິ່ງຖືກອອກແບບໂດຍສະເພາະເພື່ອສ້າງການສົນທະນາລະຫວ່າງຜູ້ເວົ້າຫຼາຍຄົນ. ມັນສາມາດຜະລິດການສົນທະນາທີ່ຟັງຄືກັບທໍາມະຊາດລະຫວ່າງຜູ້ເວົ້າສອງຄົນດ້ວຍການປ່ຽນແປງທີ່ເໝາະສົມ, ສຽງແລະຄວາມຮູ້ສຶກ. Dia ແມ່ນສົມບູນແບບ ສຳ ລັບການສ້າງເນື້ອໃນແບບ podcast, ການສົນທະນາຂອງປື້ມສຽງແລະ AI ແບບໂຕ້ຕອບ.
Nari Labs
Apache 2.0
Medium
en
4GB
ບໍ່ມີ
2x
Parler TTS
Standard
Parler TTS ແມ່ນແບບແບບຂໍ້ຄວາມເປັນຄຳເວົ້າທີ່ໃຊ້ການອະທິບາຍສຽງພາສາທໍາມະຊາດເພື່ອຄວບຄຸມການເວົ້າທີ່ໄດ້ສ້າງຂຶ້ນມາ. ແທນທີ່ຈະເລືອກຈາກສຽງທີ່ໄດ້ຕັ້ງໄວ້ລ່ວງໜ້າ, ທ່ານອະທິບາຍສຽງທີ່ທ່ານຕ້ອງການ (ຕົວຢ່າງ, "ສຽງຍິງທີ່ອົບອຸ່ນດ້ວຍສຽງອັງກິດເລັກນ້ອຍ, ເວົ້າຊ້າໆ ແລະ ແຈ້ງ") ແລະ Parler ສ້າງການເວົ້າທີ່ກົງກັບການອະທິບາຍນັ້ນ. ນີ້ເຮັດໃຫ້ມັນມີຄວາມຍືດຫຍຸ່ນເປັນເອກະລັກສຳລັບການໃຊ້ງານທີ່ສ້າງສັນ.
Hugging Face
Apache 2.0
Medium
en
4GB
ບໍ່ມີ
2x
GLM-TTS
Standard
GLM-TTS ໂດຍ Zhipu AI ແມ່ນລະບົບການແປພາສາທີ່ສ້າງຂຶ້ນໂດຍອີງໃສ່ສະຖາປັດຕະຍະກໍາ Llama ທີ່ມີການເຂົ້າກັນໄດ້ກັບລົມ. ມັນບັນລຸອັດຕາຄວາມຜິດພາດຂອງຕົວອັກສອນທີ່ຕ່ໍາທີ່ສຸດໃນບັນດາແບບຟອມ TTS ທີ່ມີແຫຼ່ງເປີດ, ໝາຍຄວາມວ່າມັນຜະລິດການອອກສຽງທີ່ຖືກຕ້ອງທີ່ສຸດ. GLM-TTS ສະຫນັບສະຫນູນພາສາອັງກິດແລະຈີນດ້ວຍການກັ່ນຕອງສຽງຈາກຕົວຢ່າງສຽງ 3-10 ວິນາທີ.
Zhipu AI
GLM-4 License
Medium
en, zh
4GB
ແມ່ນ
2x
IndexTTS-2
Standard
IndexTTS-2 ແມ່ນລະບົບການແປພາສາຂໍ້ຄວາມເປັນຄຳເວົ້າທີ່ກ້າວໜ້າທີ່ໂດດເດັ່ນໃນການສະສົມສຽງແບບ Zero-shot ດ້ວຍການຄວບຄຸມອາລົມທີ່ລະອຽດອ່ອນ. ມັນສາມາດສ້າງການເວົ້າດ້ວຍສຽງອາລົມທີ່ລະອຽດອ່ອນເຊັ່ນ: ມີຄວາມສຸກ, ເສຍໃຈ, ໂກດແຄ້ນ, ຫຼື ກັງວົນໂດຍບໍ່ຕ້ອງຕ້ອງການຂໍ້ມູນການຝຶກອົບຮົມອາລົມທີ່ລະອຽດອ່ອນ. ແບບ ຈຳ ລອງໃຊ້ເວັກເຕີອາລົມເພື່ອຄວບຄຸມການສະແດງອາລົມຂອງຄຳເວົ້າທີ່ສ້າງຂຶ້ນຢ່າງຖືກຕ້ອງ.
Index Team
Bilibili Model License
Medium
en, zh
4GB
ແມ່ນ
2x
Spark TTS
Standard
Spark TTS ໂດຍ SparkAudio ແມ່ນແບບຟອມຂໍ້ຄວາມ-ເປັນ-ການເວົ້າທີ່ປະສົມປະສານການຖ່າຍທອດສຽງກັບອາລົມທີ່ຄວບຄຸມໄດ້ແລະແບບເວົ້າ. ໂດຍໃຊ້ພຽງແຕ່5ວິນາທີຂອງການອ້າງອີງສຽງ, ມັນສາມາດຖ່າຍທອດສຽງແລະຫຼັງຈາກນັ້ນສ້າງການເວົ້າທີ່ມີອາລົມ, ຄວາມໄວແລະແບບທີ່ແຕກຕ່າງກັນໃນຂະນະທີ່ຮັກສາຕົວຕົນຂອງສຽງທີ່ຖ່າຍທອດໄດ້. Spark TTS ໃຊ້ລະບົບຄວບຄຸມທີ່ອີງໃສ່ການແຈ້ງເຕືອນ.
SparkAudio
CC BY-NC-SA 4.0
Medium
en, zh
4GB
ແມ່ນ
2x
GPT-SoVITS
Standard
GPT- SoVITS ລວມເອົາການສ້າງແບບພາສາແບບ GPT ກັບ SoVITS (ການຄິດໄລ່ສຽງຜ່ານການແປ ແລະ ການປະສົມປະສານ) ເພື່ອການກັ່ນຕອງສຽງທີ່ມີປະສິດທິຜົນຫຼາຍ. ດ້ວຍສຽງທີ່ໃຊ້ໄດ້ພຽງ5ວິນາທີ, ມັນສາມາດກັ່ນຕອງສຽງຢ່າງຖືກຕ້ອງ ແລະ ສ້າງການເວົ້າໃໝ່ໄດ້ ໃນຂະນະທີ່ຮັກສາຄຸນລັກສະນະທີ່ເປັນເອກະລັກຂອງຜູ້ເວົ້າໄວ້. ມັນດີເລີດທັງໃນການເວົ້າ ແລະ ການປະສົມສຽງຮ້ອງ.
RVC-Boss
MIT
Slow
en, zh, ja, ko
6GB
ແມ່ນ
2x
Orpheus
Standard
Orpheus ແມ່ນແບບຈໍາລອງຂໍ້ຄວາມ-ເປັນ-ຄໍາເວົ້າທີ່ມີຂະ ໜາດ ໃຫຍ່ທີ່ບັນລຸການສະແດງອາລົມໃນລະດັບມະນຸດ. ໄດ້ຮັບການຝຶກອົບຮົມໃນຫຼາຍກວ່າ 100,000 ຊົ່ວໂມງຂອງຂໍ້ມູນການເວົ້າທີ່ຫຼາກຫຼາຍ, ມັນດີເລີດໃນການສ້າງຄໍາເວົ້າທີ່ມີອາລົມທໍາມະຊາດ, ການເນັ້ນຫນັກ, ແລະ ຮູບແບບການເວົ້າ. Orpheus ສາມາດຜະລິດຄໍາເວົ້າທີ່ virtually indistinguishable ຈາກການບັນທຶກຂອງມະນຸດ.
Canopy Labs
Llama 3.2 Community
Medium
en
4GB
ບໍ່ມີ
2x
Chatterbox
Premium
Chatterbox ໂດຍ Resemble AI ແມ່ນຮູບແບບການຖ່າຍທອດສຽງແບບ zero-shot ທີ່ທັນສະໄໝ. ມັນສາມາດຖ່າຍທອດສຽງໃດກໍ່ໄດ້ຈາກຕົວຢ່າງສຽງດຽວດ້ວຍຄວາມຖືກຕ້ອງທີ່ ໜ້າ ສັງເກດ, ບໍ່ພຽງແຕ່ບັນທຶກສຽງເທົ່ານັ້ນແຕ່ຍັງບັນທຶກຮູບແບບການເວົ້າແລະຄວາມຮູ້ສຶກຂອງຄວາມຮູ້ສຶກ. Chatterbox ຍັງມີຄຸນສົມບັດການຄວບຄຸມຄວາມຮູ້ສຶກທີ່ລະອຽດອ່ອນ, ອະນຸຍາດໃຫ້ທ່ານປັບແຕ່ງສຽງຂອງຄວາມຮູ້ສຶກຂອງການເວົ້າທີ່ສ້າງຂຶ້ນໂດຍອີງໃສ່ຕົວຕົນຂອງສຽງ.
Resemble AI
MIT
Medium
en
4GB
ແມ່ນ
4x
Tortoise TTS
Premium
Tortoise TTS ແມ່ນລະບົບການແປຂໍ້ຄວາມເປັນຄຳເວົ້າດ້ວຍສຽງຫຼາຍສຽງທີ່ມີຄວາມສຳຄັນຕໍ່ຄຸນນະພາບສຽງກ່ວາຄວາມໄວ. ມັນໃຊ້ໂຄງສ້າງທີ່ໄດ້ຮັບແຮງບັນດານໃຈຈາກ DALL- E ເພື່ອສ້າງການເວົ້າທີ່ເປັນທຳມະຊາດສູງດ້ວຍການເວົ້າທີ່ດີເລີດ ແລະ ສຽງທີ່ຄ້າຍຄືກັນກັບຜູ້ເວົ້າ. ໃນຂະນະທີ່ຊ້າກວ່າຕົວເລືອກອື່ນໆຫຼາຍຢ່າງ, Tortoise ຜະລິດການເວົ້າທີ່ມີຄວາມຈິງຫຼາຍທີ່ສຸດທີ່ມີຢູ່ໃນລະບົບຊີວະພາບແຫຼ່ງເປີດ.
James Betker
Apache 2.0
Slow
en
8GB
ແມ່ນ
4x
StyleTTS 2
Premium
StyleTTS2ບັນລຸການສັງເຄາະ TTS ລະດັບມະນຸດໂດຍການລວມເອົາການແຜ່ກະຈາຍແບບແບບກັບການຝຶກອົບຮົມທີ່ຂັດແຍ້ງກັນໂດຍການໃຊ້ແບບພາສາເວົ້າທີ່ໃຫຍ່. ມັນຜະລິດການເວົ້າທີ່ຟັງຄືກັບທໍາມະຊາດທີ່ສຸດໃນບັນດາແບບແບບຜູ້ເວົ້າຄົນດຽວ, ແຂ່ງຂັນກັບການບັນທຶກຂອງມະນຸດ. StyleTTS2ໃຊ້ການວາງແບບແບບແບບແບບທີ່ອີງໃສ່ການແຜ່ກະຈາຍເພື່ອບັນທຶກຄວາມຫຼາກຫຼາຍຂອງສຽງເວົ້າຂອງມະນຸດ.
Columbia University
MIT
Medium
en
4GB
ບໍ່ມີ
4x
OpenVoice
Premium
OpenVoice ໂດຍ MyShell.ai ອະນຸຍາດໃຫ້ມີການຖ່າຍທອດສຽງທັນທີດ້ວຍການຄວບຄຸມ granular ຜ່ານຮູບແບບສຽງ, ອາລົມ, ສຽງ, ທ່າ, ພັກຜ່ອນ, ແລະ intonation. ມັນສາມາດຖ່າຍທອດສຽງຈາກຄລິບສຽງສັ້ນແລະສ້າງການເວົ້າໃນຫຼາຍພາສາໃນຂະນະທີ່ຮັກສາຕົວຕົນຂອງຜູ້ເວົ້າ. OpenVoice ຍັງເຮັດວຽກເປັນຕົວປ່ຽນສຽງ, ອະນຸຍາດໃຫ້ມີການປ່ຽນສຽງໃນເວລາຈິງ.
MyShell.ai / MIT
MIT
Medium
en, zh, ja, ko, fr, de, es, it
4GB
ແມ່ນ
4x
Qwen3 TTS
Standard
Qwen3-TTS ແມ່ນແບບຟອມການແປພາສາຂໍ້ຄວາມເປັນສຽງທີ່ມີຕົວປ່ຽນແປງ 1.7 ຕື້ຕົວຈາກທີມ Qwen ຂອງ Alibaba. ມັນສະຫນັບສະຫນູນສາມຮູບແບບ: ສຽງທີ່ຕັ້ງໄວ້ລ່ວງໜ້າດ້ວຍການຄວບຄຸມອາລົມ (9 ໄມໂຄໂຟນ), ການກັ່ນຕອງສຽງຈາກສຽງພຽງ3ວິນາທີ, ແລະຮູບແບບການອອກແບບສຽງທີ່ເປັນເອກະລັກເຊິ່ງທ່ານອະທິບາຍສຽງທີ່ທ່ານຕ້ອງການໃນພາສາທໍາມະຊາດ. ມັນປົກຄຸມພາສາ 10 ພາສາທີ່ມີການສະແດງອອກສູງແລະສຽງທໍາມະຊາດ.
Alibaba (Qwen)
Apache 2.0
Medium
en, zh, ja, ko, de, fr, ru, pt, es, it
7GB
ແມ່ນ
2x
Sesame CSM
Premium
Sesame CSM (Conversational Speech Model) ແມ່ນແບບ ຈຳ ລອງ 1 ພັນລ້ານປາຣາເມັດທີ່ອອກແບບໂດຍສະເພາະ ສຳ ລັບການສ້າງການສົນທະນາ. ມັນສ້າງແບບ ຈຳ ລອງແບບ ທຳ ມະຊາດຂອງການສົນທະນາຂອງມະນຸດລວມທັງການປ່ຽນເວລາ, ການຕອບໂຕ້ backchannel, ການຕອບໂຕ້ທາງອາລົມ, ແລະ ການໄຫຼຂອງການສົນທະນາ. CSM ສ້າງສຽງທີ່ຄ້າຍຄືກັບການສົນທະນາຂອງມະນຸດ ທຳ ມະຊາດແທນທີ່ຈະເປັນການເວົ້າ synthesized.
Sesame
Apache 2.0
Slow
en
8GB
ບໍ່ມີ
4x
Kitten TTS
Free
Kitten TTS by KittenML is an ultra-lightweight text-to-speech model built on ONNX. With variants from 15M to 80M parameters (25-80 MB on disk), it delivers high-quality voice synthesis on CPU without requiring a GPU. Features 8 built-in voices, adjustable speech speed, and built-in text preprocessing for numbers, currencies, and units. Ideal for edge deployment and low-latency applications.
KittenML
Apache 2.0
Fast
en
0GB
ບໍ່ມີ
ຟຣີ
Kokoro
ຟຣີ
Kokoro is an 82 million parameter text-to-speech model that punches well above its weight class. Despite its tiny size, it produces remarkably natural and expressive speech. Kokoro supports multiple languages including English, Japanese, Chinese, and Korean with a variety of expressive voices. It runs incredibly fast — generating audio nearly 100x faster than real-time on a GPU.
Hexgrad
Apache 2.0
Fast
Piper
ຟຣີ
Piper is a lightweight text-to-speech engine developed by Rhasspy that uses VITS and larynx architectures. It runs entirely on CPU, making it ideal for edge devices, home automation, and applications requiring offline TTS. With over 100 voices across 30+ languages, Piper delivers natural-sounding speech at real-time speeds even on a Raspberry Pi 4.
Rhasspy
MIT
Fast
VITS
ຟຣີ
VITS (Variational Inference with adversarial learning for end-to-end Text-to-Speech) is a parallel end-to-end TTS method that generates more natural sounding audio than current two-stage models. It adopts variational inference augmented with normalizing flows and an adversarial training process, achieving a significant improvement in naturalness.
Jaehyeon Kim et al.
MIT
Fast
MeloTTS
ຟຣີ
MeloTTS by MyShell.ai is a multilingual TTS library supporting English (American, British, Indian, Australian), Spanish, French, Chinese, Japanese, and Korean. It is extremely fast, processing text at near real-time speed on CPU alone. MeloTTS is designed for production use and supports both CPU and GPU inference.
MyShell.ai
MIT
Fast
Kitten TTS
ຟຣີ
Kitten TTS by KittenML is an ultra-lightweight text-to-speech model built on ONNX. With variants from 15M to 80M parameters (25-80 MB on disk), it delivers high-quality voice synthesis on CPU without requiring a GPU. Features 8 built-in voices, adjustable speech speed, and built-in text preprocessing for numbers, currencies, and units. Ideal for edge deployment and low-latency applications.
KittenML
Apache 2.0
Fast
Bark
ມາດຕະຖານ
Bark by Suno is a transformer-based text-to-audio model that can generate highly realistic, multilingual speech as well as other audio like music, background noise, and sound effects. It can produce nonverbal communications like laughing, sighing, and crying. Bark supports over 100 speaker presets and 13+ languages.
Suno
MIT
Slow
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
ບໍ່ມີ
Bark Small
ມາດຕະຖານ
Bark Small is a distilled version of the Bark model that trades some audio quality for significantly faster inference speeds and lower memory requirements. It retains Bark's ability to generate speech with emotions, laughter, and multiple languages.
Suno
MIT
Medium
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
ບໍ່ມີ
CosyVoice 2
ມາດຕະຖານ
CosyVoice 2 by Alibaba's Tongyi Lab achieves human-comparable speech quality with extremely low latency, making it ideal for real-time applications. It uses a finite scalar quantization approach for streaming synthesis and supports zero-shot voice cloning, cross-lingual synthesis, and fine-grained emotion control. It outperforms many commercial TTS systems in subjective evaluations.
Alibaba (Tongyi Lab)
Apache 2.0
Medium
en, zh, ja, ko, fr, de, it, es
ແມ່ນ
Dia TTS
ມາດຕະຖານ
Dia by Nari Labs is a 1.6B parameter text-to-speech model designed specifically for generating multi-speaker dialogue. It can produce natural-sounding conversations between two speakers with appropriate turn-taking, prosody, and emotional expression. Dia is perfect for creating podcast-style content, audiobook dialogues, and interactive conversational AI.
Nari Labs
Apache 2.0
Medium
en
ບໍ່ມີ
Parler TTS
ມາດຕະຖານ
Parler TTS is a text-to-speech model that uses natural language voice descriptions to control the generated speech. Instead of selecting from preset voices, you describe the voice you want (e.g., "a warm female voice with a slight British accent, speaking slowly and clearly") and Parler generates speech matching that description. This makes it uniquely flexible for creative applications.
Hugging Face
Apache 2.0
Medium
en
ບໍ່ມີ
GLM-TTS
ມາດຕະຖານ
GLM-TTS by Zhipu AI is a text-to-speech system built on the Llama architecture with flow matching. It achieves the lowest character error rate among open-source TTS models, meaning it produces the most accurate pronunciation. GLM-TTS supports English and Chinese with voice cloning from 3-10 second audio samples.
Zhipu AI
GLM-4 License
Medium
en, zh
ແມ່ນ
IndexTTS-2
ມາດຕະຖານ
IndexTTS-2 is an advanced text-to-speech system that excels at zero-shot voice synthesis with fine-grained emotion control. It can generate speech with specific emotional tones like happy, sad, angry, or fearful without requiring emotion-specific training data. The model uses emotion vectors to precisely control the emotional expression of generated speech.
Index Team
Bilibili Model License
Medium
en, zh
ແມ່ນ
Spark TTS
ມາດຕະຖານ
Spark TTS by SparkAudio is a text-to-speech model that combines voice cloning with controllable emotion and speaking style. Using just 5 seconds of reference audio, it can clone a voice and then generate speech with different emotions, speeds, and styles while maintaining the cloned voice identity. Spark TTS uses a prompt-based control system.
SparkAudio
CC BY-NC-SA 4.0
Medium
en, zh
ແມ່ນ
GPT-SoVITS
ມາດຕະຖານ
GPT-SoVITS combines GPT-style language modeling with SoVITS (Singing Voice Inference via Translation and Synthesis) for powerful few-shot voice cloning. With as little as 5 seconds of reference audio, it can accurately clone a voice and generate new speech while preserving the speaker's unique characteristics. It excels at both speaking and singing voice synthesis.
RVC-Boss
MIT
Slow
en, zh, ja, ko
ແມ່ນ
Orpheus
ມາດຕະຖານ
Orpheus is a large-scale text-to-speech model that achieves human-level emotional expression. Trained on over 100,000 hours of diverse speech data, it excels at generating speech with natural emotions, emphasis, and speaking styles. Orpheus can produce speech that is virtually indistinguishable from human recordings.
Canopy Labs
Llama 3.2 Community
Medium
en
ບໍ່ມີ
Qwen3 TTS
ມາດຕະຖານ
Qwen3-TTS is a 1.7 billion parameter text-to-speech model from Alibaba's Qwen team. It supports three modes: preset voices with emotion control (9 speakers), voice cloning from just 3 seconds of audio, and a unique voice design mode where you describe the voice you want in natural language. It covers 10 languages with high expressiveness and natural prosody.
Alibaba (Qwen)
Apache 2.0
Medium
en, zh, ja, ko, de, fr, ru, pt, es, it
ແມ່ນ
ຕາຕະລາງການປຽບທຽບແບບ
| ແບບ | ຜູ້ພັດທະນາ: | ສັດ | ຄຸນນະພາບ: | ຄວາມໄວ | ພາສາ | ການກັ່ນຕອງສຽງ | VRAM | ໃບອະນຸຍາດ: | ຄ່າໃຊ້ຈ່າຍ | |
|---|---|---|---|---|---|---|---|---|---|---|
| Kokoro | Hexgrad | Free | Fast | 11 | 1.5GB | Apache 2.0 | ຟຣີ | ប្រើ | ||
| Piper | Rhasspy | Free | Fast | 31 | 0 (CPU only) | MIT | ຟຣີ | ប្រើ | ||
| VITS | Jaehyeon Kim et al. | Free | Fast | 4 | 1GB | MIT | ຟຣີ | ប្រើ | ||
| MeloTTS | MyShell.ai | Free | Fast | 6 | 0.5GB (GPU optional) | MIT | ຟຣີ | ប្រើ | ||
| Bark | Suno | Standard | Slow | 13 | 5GB | MIT | 2 | ប្រើ | ||
| Bark Small | Suno | Standard | Medium | 13 | 2GB | MIT | 2 | ប្រើ | ||
| CosyVoice 2 | Alibaba (Tongyi Lab) | Standard | Medium | 8 | 4GB | Apache 2.0 | 2 | ប្រើ | ||
| Dia TTS | Nari Labs | Standard | Medium | 1 | 4GB | Apache 2.0 | 2 | ប្រើ | ||
| Parler TTS | Hugging Face | Standard | Medium | 1 | 4GB | Apache 2.0 | 2 | ប្រើ | ||
| GLM-TTS | Zhipu AI | Standard | Medium | 2 | 4GB | GLM-4 License | 2 | ប្រើ | ||
| IndexTTS-2 | Index Team | Standard | Medium | 2 | 4GB | Bilibili Model License | 2 | ប្រើ | ||
| Spark TTS | SparkAudio | Standard | Medium | 2 | 4GB | CC BY-NC-SA 4.0 | 2 | ប្រើ | ||
| GPT-SoVITS | RVC-Boss | Standard | Slow | 4 | 6GB | MIT | 2 | ប្រើ | ||
| Orpheus | Canopy Labs | Standard | Medium | 1 | 4GB | Llama 3.2 Community | 2 | ប្រើ | ||
| Chatterbox | Resemble AI | Premium | Medium | 1 | 4GB | MIT | 4 | ប្រើ | ||
| Tortoise TTS | James Betker | Premium | Slow | 1 | 8GB | Apache 2.0 | 4 | ប្រើ | ||
| StyleTTS 2 | Columbia University | Premium | Medium | 1 | 4GB | MIT | 4 | ប្រើ | ||
| OpenVoice | MyShell.ai / MIT | Premium | Medium | 8 | 4GB | MIT | 4 | ប្រើ | ||
| Qwen3 TTS | Alibaba (Qwen) | Standard | Medium | 10 | 7GB | Apache 2.0 | 2 | ប្រើ | ||
| Sesame CSM | Sesame | Premium | Slow | 1 | 8GB | Apache 2.0 | 4 | ប្រើ | ||
| Kitten TTS | KittenML | Free | Fast | 1 | 0GB | Apache 2.0 | ຟຣີ | ប្រើ |
ເວທີ AI ຂໍ້ຄວາມເປັນຄຳເວົ້າທີ່ກວ້າງຂວາງທີ່ສຸດ
ເຫດຜົນທີ່ເລືອກ TTS.ai ສໍາລັບຂໍ້ຄວາມເພື່ອການເວົ້າ?
TTS.ai ນໍາເອົາແບບຈໍາລອງຂໍ້ຄວາມ-ເປັນ-ຄໍາເວົ້າທີ່ເປີດແຫຼ່ງທີ່ດີທີ່ສຸດໃນໂລກມາລວມກັນໃນເວທີດຽວ, ງ່າຍຕໍ່ການໃຊ້ງານ. ບໍ່ຄືກັບການບໍລິການທີ່ເປັນເຈົ້າຂອງທີ່ກັກທ່ານໄວ້ໃນເຄື່ອງຈັກສຽງດຽວ, TTS.ai ຊ່ວຍໃຫ້ທ່ານສາມາດເຂົ້າເຖິງແບບຈໍາລອງ 20+ ຈາກຫ້ອງທົດລອງຄົ້ນຄວ້າທີ່ນໍາໜ້າລວມທັງ Coqui, MyShell, Amphion, NVIDIA, Suno, HuggingFace, Tsinghua University ແລະອື່ນໆ.
ທຸກໆແບບແມ່ນ Open Source ຕາມ MIT, Apache 2.0, ຫຼື ໃບອະນຸຍາດທີ່ອະນຸຍາດໃຫ້ຄ້າຍຄືກັນ, ຮັບປະກັນວ່າທ່ານມີສິດການຄ້າເຕັມທີ່ເພື່ອໃຊ້ສຽງທີ່ຜະລິດໃນໂຄງການຂອງທ່ານ. ບໍ່ວ່າທ່ານຈະຕ້ອງການການສັງເຄາະທີ່ໄວ, ເບົາ ສຳ ລັບແອັບພລິເຄຊັນເວລາຈິງຫຼືຜົນຜະລິດທີ່ມີຄຸນນະພາບສູງ ສຳ ລັບປື້ມສຽງແລະ podcasts, TTS.ai ມີແບບທີ່ຖືກຕ້ອງ ສຳ ລັບທຸກໆກໍລະນີໃຊ້.
ແບບຟອມຟຣີ, ບໍ່ມີບັນຊີທີ່ຕ້ອງການ
ເລີ່ມຕົ້ນທັນທີກັບສາມແບບຟອມ TTS ຟຣີ: Piper (ໄວ, ນ້ໍາຫນັກເບົາ), VITS (ການສັງເຄາະລະບົບປະສາດທີ່ມີຄຸນນະພາບສູງ), ແລະ MeloTTS (ການສະຫນັບສະຫນູນຫຼາຍພາສາ). ບໍ່ມີການລົງທະບຽນ, ບໍ່ມີບັດເຄຣດິດ, ບໍ່ມີຂໍ້ຈໍາກັດກ່ຽວກັບລຸ້ນ. ແບບຟອມຟຣີສະຫນັບສະຫນູນພາສາອັງກິດແລະຫຼາຍພາສາອື່ນໆທີ່ມີຜົນຜະລິດສຽງທໍາມະຊາດທີ່ເຫມາະສົມສໍາລັບຄໍາຮ້ອງສະຫມັກສ່ວນຫຼາຍ.
ການປະມວນຜົນທີ່ໃຊ້ຄວາມໄວ GPU
ແບບ TTS ທັງໝົດແມ່ນໃຊ້ GPU NVIDIA ທີ່ມີປະສິດທິພາບສູງ ເພື່ອຜະລິດສຽງໄດ້ໄວ ແລະ ຖືກຕ້ອງ. ແບບຟອມຟຣີ ປົກກະຕິແລ້ວຈະຜະລິດສຽງໄດ້ໃນ2ວິນາທີ. ແບບຟອມມາດຕະຖານເຊັ່ນ Kokoro, CosyVoice 2, ແລະ Bark ໃຊ້ເວລາປະມານ 3-5 ວິນາທີ. ແບບຟອມທີ່ລາຄາຖືກກວ່າ ທີ່ມີຄຸນນະພາບສູງທີ່ສຸດ ເຊັ່ນ Tortoise ແລະ Chatterbox ໃຊ້ເວລາ 5-15 ວິນາທີ ຂຶ້ນກັບຄວາມຍາວຂອງຂໍ້ຄວາມ.
ສະຫນັບສະຫນູນ 30+ ພາສາ
ສ້າງການເວົ້າໃນພາສາຫຼາຍກວ່າ 30 ພາສາລວມທັງພາສາອັງກິດ, ສະເປນ, ຝຣັ່ງ, ເຢຍລະມັນ, ອີຕາລີ, ໂປຕຸເກດ, ຈີນ, ຍີ່ປຸ່ນ, ເກົາຫຼີ, ອາຣັບ, ອິນເດຍ, ຣັດເຊຍ, ແລະຫຼາຍຢ່າງ. ແບບ ຈຳ ນວນ ໜຶ່ງ ສະຫນັບສະຫນູນການເຊື່ອມໂຍງພາສາ, ຫມາຍຄວາມວ່າທ່ານສາມາດສ້າງການເວົ້າໃນພາສາທີ່ສຽງຕົ້ນສະບັບບໍ່ເຄີຍໄດ້ຮັບການຝຶກອົບຮົມ. CosyVoice 2ແລະ GPT-SoVITS ດີເລີດໃນການກັ່ນຕອງສຽງພາສາ.
ເປີດການພັດທະນາ
ລວມເອົາ TTS.ai ເຂົ້າໃນແອັບ your ຂອງທ່ານດ້ວຍ OpenAI-compatible REST API ຂອງພວກເຮົາ. ຈຸດສຸດທ້າຍ ໜຶ່ງ ສຳ ລັບທຸກໆແບບ 20 +. Python, JavaScript, cURL, ແລະ Go SDKs. ການສະຫນັບສະຫນູນການຖ່າຍທອດສົດ ສຳ ລັບແອັບພລິເຄຊັນເວລາຈິງ. ການປຸງແຕ່ງແບດເຕີລີ່ ສຳ ລັບການສ້າງເນື້ອຫາຂະ ໜາດ ໃຫຍ່. Webhooks ສຳ ລັບແຈ້ງການ async. ມີຢູ່ໃນແຜນ Pro ແລະ Enterprise.
ຄໍາຖາມທີ່ຖາມເລື້ອຍໆ
ພວກເຮົາສາມາດປັບປຸງໄດ້ແນວໃດ? ຄໍາຄິດເຫັນຂອງທ່ານຊ່ວຍພວກເຮົາແກ້ໄຂບັນຫາ.
ເລີ່ມຕົ້ນການປ່ຽນຂໍ້ຄວາມເປັນການເວົ້າດຽວນີ້
ເຂົ້າຮ່ວມພັນໆຜູ້ສ້າງໂດຍໃຊ້ TTS.ai. ໄດ້ຮັບ 15,000 ຕົວອັກສອນຟຣີກັບບັນຊີໃຫມ່. ແບບຟອມຟຣີມີໃຫ້ໂດຍບໍ່ມີການລົງທະບຽນ.