AI ແບບ​ຟຣີ ຂໍ້ຄວາມ​ເປັນ​ການ​ເວົ້າName

82M ປາຣາມເຕີ ໄວຫຼາຍ ສຽງທີ່ສະແດງອອກ ຫຼາຍພາສາ ການສະໜັບສະໜູນການຖ່າຍທອດ

ແບບ ຈຳ ລອງ 82M ທີ່ມີນ້ ຳ ໜັກ ເບົາ ທີ່ສະ ໜອງ ການເວົ້າທີ່ມີຄຸນນະພາບຂອງສະຕູດິໂອພ້ອມດ້ວຍການຄິດໄລ່ທີ່ໄວທີ່ສຸດ.

រហ័ស · 1.5GB VRAM ທົດລອງໃຊ້

Piper

ງ່າຍຕໍ່ CPU ນອກបណ្ដាញ ສຽງ 100+ ພາສາ ການສະໜັບສະໜູນ SSML

ລະບົບການແປຂໍ້ຄວາມເປັນຄຳເວົ້າແບບພື້ນເມືອງທີ່ໄວທີ່ສຸດ ຖືກປັບໃຫ້ດີທີ່ສຸດສຳລັບ Raspberry Pi ແລະ ອຸປະກອນທີ່ຖືກຝັງໄວ້ອື່ນໆ.

រហ័ស · 0 (CPU only) VRAM ທົດລອງໃຊ້

VITS

ການສັງເຄາະຈາກຕົ້ນເຖິງທ້າຍ ພາສາທຳມະຊາດ ການຄິດໄລ່ໄວ ຫຼາຍໂຕ

ຕົວເຂົ້າລະຫັດຕົວເອງທີ່ມີເງື່ອນໄຂກັບການຮຽນຮູ້ທີ່ຂັດແຍ້ງກັນເພື່ອການແປຂໍ້ຄວາມເປັນຄຳເວົ້າຈາກຕົ້ນເຖິງທ້າຍName

រហ័ស · 1GB VRAM ທົດລອງໃຊ້

MeloTTS

ເພີ່ມປະສິດທິພາບຂອງ CPU ຫຼາຍພາສາ ຕົວອັກສອນທີ່ມີສຽງດັງຫຼາຍຕົວ ທັນກັບການຜະລິດ ເວລາລໍຖ້າຕ່ຳ

ຂໍ້ຄວາມເປັນສຽງຫຼາຍພາສາທີ່ມີຄຸນນະພາບສູງທີ່ໃຊ້ CPU ທີ່ມີຄວາມຊ້າຕ່ຳສຸດ.

រហ័ស · 0.5GB (GPU optional) VRAM ທົດລອງໃຊ້

Bark

ຜົນປະທັບສຽງ ຍິ້ມ/ຮ້ອງໄຫ້ ການສ້າງດົນຕີ 100+ ໄມໂຄຣໂຟນ ຫຼາຍພາສາ

ແບບຈໍາລອງຂໍ້ຄວາມເປັນສຽງທີ່ອີງໃສ່ການປ່ຽນແປງທີ່ສ້າງການເວົ້າ, ດົນຕີ ແລະ ຜົນສະທ້ອນສຽງທີ່ເປັນຈິງ.

ຊ້າ · 5GB VRAM ທົດລອງໃຊ້

Bark Small

ແໜ້ນ ໄວກວ່າ Bark ເຕັມ ການເວົ້າທີ່ມີອາລົມ ຫຼາຍພາສາ

ເວີຊັນເບົາກວ່າຂອງ Bark ດ້ວຍການຄິດໄລ່ໄວກວ່າ ແລະ ຫຼຸດການໃຊ້ຄວາມຈຳລົງ

ກາງ · 2GB VRAM ທົດລອງໃຊ້

CosyVoice 2

ສົ່ງຕໍ່ ການກັ່ນຕອງແບບ Zero-shot ພາສາຕ່າງກັນ ຄວບຄຸມອາລົມ ຄວາມເທົ່າທຽມຂອງມະນຸດ

Alibaba's scalable streaming TTS with human-parity naturalness and near-zero latency.

Dia TTS

ຫຼາຍໄມໂຄຣໂຟນ បង្កើតប្រអប់ ປ່ຽນໄປຕາມທຳມະຊາດ ສະແດງອາລົມ 1.6B ພາຣາມິເຕີ

ແບບຟອມການສ້າງການສົນທະນາຂອງຜູ້ເວົ້າຫຼາຍຄົນທີ່ສ້າງການສົນທະນາແບບທຳມະຊາດລະຫວ່າງຜູ້ເວົ້າ

Parler TTS

ການອະທິບາຍສຽງ ການຄວບຄຸມພາສາທໍາມະຊາດ ການສ້າງສຽງແບບຍືດຫຍຸ່ນ ບໍ່ມີສຽງທີ່ຕັ້ງໄວ້ລ່ວງໜ້າທີ່ຕ້ອງການ

ອະທິບາຍສຽງທີ່ທ່ານຕ້ອງການໃນພາສາທໍາມະຊາດ ແລະ Parler ຈະສ້າງການເວົ້າທີ່ກົງກັນ.

Indic Parler TTS

ພາສາອິນເດຍ ຄໍາອະທິບາຍສຽງ ຄວບຄຸມພາສາທໍາມະຊາດ ການອອກສຽງແບບອິນເດຍທີ່ຖືກຕ້ອງ

ສຽງທີ່ມີຄຸນນະພາບສູງສຳລັບພາສາອິນເດຍ 8+ ດ້ວຍການຄວບຄຸມສຽງພາສາທໍາມະຊາດ.

ຊ້າ · 8GB VRAM ທົດລອງໃຊ້

KhanomTan TTS

ພາສາໄທ TTS ຫຼາຍໂຕ ໂຄງສ້າງ YourTTS ໃບອະນຸຍາດທີ່ປອດໄພທາງການຄ້າ

ພາສາລາວ-ພາສາທຳອິດ ຂໍ້ຄວາມ-ເປັນ-ຄຳເວົ້າ ທີ່ມີສຽງຜູ້ເວົ້າທີ່ເລືອກໄດ້.

រហ័ស · 2GB VRAM ທົດລອງໃຊ້

IndexTTS-2

ຄວບຄຸມອາລົມ ສິ້ນສຸດການຍິງ ເວກເຕີອາລົມ ການເວົ້າທີ່ສະແດງອອກ ຕົວຄວບຄຸມຂະໜາດນ້ອຍ

Zero-shot TTS ທີ່ມີການຄວບຄຸມອາລົມທີ່ລະອຽດອ່ອນ ແລະ ຄວາມສະແດງອອກສູງ.

Spark TTS

ການປິດສຽງ ຄວບຄຸມອາລົມ ຕົວຄວບຄຸມແບບ ຕັ້ງຄ່າແບບຖາມ 5 ວິນາທີ

ການກັ່ນຕອງສຽງ TTS ດ້ວຍອາລົມທີ່ສາມາດຄວບຄຸມໄດ້ ແລະ ແບບເວົ້າຜ່ານການແຈ້ງເຕືອນ.

GPT-SoVITS

ການຖ່າຍແບບແບບສອງເທົ່າ 5- ວິນາທີ ສຽງຮ້ອງ ການຮຽນຮູ້ແບບບໍ່ຫຼາຍປານໃດ ລະດັບຄວາມເຊື່ອຖືສູງ ພາສາຕ່າງກັນ

ສຽງທີ່ໄດ້ຮັບການກັ່ນຕອງສຽງ TTS ທີ່ເຮັດໃຫ້ສຽງໃດໆມີສຽງຄືກັນກັບສຽງທີ່ໄດ້ຮັບຈາກສຽງ5ວິນາທີເທົ່ານັ້ນ.

ຊ້າ · 6GB VRAM ທົດລອງໃຊ້

Orpheus

ລະດັບອາລົມຂອງມະນຸດ 100K ຊົ່ວໂມງຝຶກອົບຮົມ ການເນັ້ນແບບທຳມະຊາດ ການເວົ້າທີ່ສະແດງອອກ

ແບບຈໍາລອງ TTS ລະດັບມະນຸດທີ່ຮຽນຮູ້ຈາກຂໍ້ມູນການເວົ້າ 100K ຊົ່ວໂມງ.

Chatterbox

ຖ່າຍແບບແບບຄລີນແບບບໍ່ມີການຖ່າຍ ຄວບຄຸມອາລົມ ລະດັບຄວາມເຊື່ອຖືສູງ ສົ່ງແບບ ຖ່າຍແບບຕົວຢ່າງດຽວ

ເຕັກໂນໂລຊີການຖ່າຍແບບສຽງແບບບໍ່ມີສຽງກັບການຄວບຄຸມອາລົມຈາກ Resemble AI.

Tortoise TTS

ຄຸນນະພາບສູງສຸດ ສຽງຫຼາຍສຽງ ໂຄງສ້າງ DALL- E ການກັ່ນຕອງສຽງ ການຖອນຕົວເອງ

ຂໍ້ຄວາມ-ເປັນ-ການເວົ້າຫຼາຍສຽງທີ່ສຸມໃສ່ຄຸນນະພາບດ້ວຍໂຄງສ້າງໂຄງສ້າງທີ່ກັບຄືນໄປບ່ອນເອງ.

ຊ້າ · 8GB VRAM ທົດລອງໃຊ້

StyleTTS 2

ລະດັບມະນຸດ ແບບແຜ່ກະຈາຍ ການຝຶກອົບຮົມແບບຕໍ່ສູ້ ຕົວແປທໍາມະຊາດ ລະດັບຄວາມເຊື່ອຖືສູງ

ຂໍ້ຄວາມເປັນຄຳເວົ້າໃນລະດັບມະນຸດຜ່ານການແຜ່ກະຈາຍແບບແລະການຝຶກອົບຮົມທີ່ມີການຕໍ່ສູ້ກັນ.

OpenVoice

ក្លូនທັນທີ ການປ່ຽນສຽງ ຄວບຄຸມອາລົມ ឧបករណ៍បញ្ជាការ accent ຫຼາຍພາສາ

ສຽງແບບຄລີນທັນທີດ້ວຍການຄວບຄຸມທີ່ລະອຽດອ່ອນກວ່າແບບ, ອາລົມ, ແລະສຽງອ່ອນ.

Qwen3 TTS

ສຽງທີ່ຕັ້ງໄວ້ລ່ວງໜ້າ 9 ການອອກແບບສຽງຈາກຂໍ້ຄວາມ ຄວບຄຸມອາລົມ ພາສາ

Alibaba's multilingual TTS with preset voices and voice design from text.

ກາງ · 7GB VRAM ທົດລອງໃຊ້

VieNeu-TTS-v2

ສຽງ7ສຽງທີ່ຕັ້ງໄວ້ລ່ວງໜ້າ (ສຽງອັກສອນພາກເໜືອ + ພາກໃຕ້) ການປ່ຽນລະຫັດ En-Vi ການປ້ອນສຽງ (3-5s ລະບຸ) ການສະ ໜັບ ສະ ໜູນ ເພງໂປດຄອນ / ສຽງຫຼາຍໆສຽງ CPU ເທົ່ານັ້ນ — ບໍ່ຕ້ອງການ GPU

ພາສາຫວຽດ + ພາສາອັງກິດ ປ່ຽນລະຫັດ TTS ດ້ວຍສຽງ7ສຽງ ແລະ ສຽງທີ່ບໍ່ມີສຽງ. CPU-only, ບໍ່ຕ້ອງການ GPU.

រហ័ស · CPU VRAM ທົດລອງໃຊ້

Sesame CSM

ສົນທະນາ ເວລາທໍາມະຊາດ ປ່ຽນກັນເຮັດ ຖອນຊ່ອງທາງ 1B ພາລາມິເຕີ

ແບບຟອມການເວົ້າແບບສົນທະນາທີ່ສ້າງການສົນທະນາແບບ ທຳ ມະຊາດດ້ວຍເວລາທີ່ເໝາະສົມແລະອາລົມ.

ຊ້າ · 8GB VRAM ທົດລອງໃຊ້

Chatterbox Turbo

ເວລາລໍຖ້າຕ່ຳກວ່າ 200ms ແທັກ Paralinguistic 6x ເວລາຈິງ ການປິດສຽງ ເຄື່ອງໝາຍນ້ຳ

Chatterbox ໄວຂຶ້ນດ້ວຍ sub-200ms latency ແລະ tag paralinguistic ສຳ ລັບສຽງຫົວ, ສຽງໄອ, ແລະອື່ນໆ.

រហ័ស · 2GB VRAM ທົດລອງໃຊ້

VoxCPM

ສຽງ ບໍ່ມີ Tokenizer ການກັ່ນຕອງພາສາ ຮັບຮູ້ເນື້ອໃນ ການປັບແຕ່ງລະອຽດ LoRA

Tokenizer-free TTS ຜະລິດ 44.1kHz ສຽງກັບ context-aware ຂໍ້ຄວາມຄົບຖ້ວນ.

រហ័ស · 4GB VRAM ທົດລອງໃຊ້

Kani TTS 2

3GB VRAM ໄວຫຼາຍ ງ່າຍ ລະຫັດບັນທຶກສຽງ NanoCodec ບໍ່ມີ

ແບບຢ່າງ TTS ພາສາອັງກິດ 400M ທີ່ມີນໍ້າໜັກເບົາ ແລ່ນໄດ້ພຽງ 3GB VRAM.

រហ័ស · 3GB VRAM ທົດລອງໃຊ້

OuteTTS

ຜົນສະທ້ອນຂອງ CPU ການຄິດໄລ່ຕົວເລກຂອງຕົວທ່ອງເວັບ ພາກສ່ວນຫຼັງຫຼາຍຢ່າງ ແບບຟອມຜູ້ເວົ້າ

LLM-based TTS ທີ່ແລ່ນຢູ່ໃນ CPU, GPU, ຫຼື ເວບໄຊທ໌ຜ່ານ llama.cpp ແລະ Transformers.js.

ຊ້າ · 2GB VRAM ທົດລອງໃຊ້

VibeVoice

ຫຼາຍໄມໂຄຣໂຟນ ເຖິງ 90 ນາທີ ສ້າງ Podcast ສຽງທີ່ຄົບຖ້ວນ 200ms ສົ່ງຕໍ່

ແບບຟອມ Microsoft ສຳ ລັບເນື້ອໃນແບບຟອມຍາວທີ່ມີຜູ້ເວົ້າຫຼາຍຄົນເຊັ່ນ Podcasts ແລະ Audiobooks.

រហ័ស · 4GB VRAM ທົດລອງໃຊ້

Pocket TTS

100M ປາຣາມເຕີ ຜົນສະທ້ອນຂອງ CPU ການປິດສຽງ ແບບຟອມແບບດຽວ ເຕັມແລ້ວ

ແບບຈໍາລອງຕົວເລກເບົາ 100M ໂດຍ Kyutai ທີ່ມີການກັ່ນຕອງສຽງຈາກຕົວຢ່າງດຽວ.

រហ័ស · 1GB VRAM ທົດລອງໃຊ້

Kitten TTS

ພຽງແຕ່ການຄິດໄລ່ CPU ເທົ່ານັ້ນ ນ້ອຍກວ່າ 80MB ສຽງທີ່ມີຢູ່ພາຍໃນ 8 ສຽງ ຄວບຄຸມຄວາມໄວ ພື້ນຖານ ONNX ຜົນອອກ 24kHz

TTS ຂະໜາດນ້ອຍທີ່ສຸດພາຍໃຕ້ 80MB. ແລ່ນຢູ່ CPU ໂດຍບໍ່ມີ GPU.

រហ័ស · 0GB VRAM ທົດລອງໃຊ້

CosyVoice3

ស្ទ្រីມສອງທາງ ຄວບຄຸມອາລົມ ການປິດສຽງ ຄວບຄຸມຄວາມໄວ/ສຽງ ຄໍາສັ່ງທີ່ລຸ່ມນີ້

TTS ຫຼາຍພາສາລຸ້ນຕໍ່ໄປທີ່ມີ bi-streaming, ການຄວບຄຸມອາລົມ, ແລະ ການກັ່ນຕອງສຽງແບບ zero-shot.

រហ័ស · 4GB VRAM ທົດລອງໃຊ້

NAMAA Saudi TTS

ພາສາອາຣັບຊາອູດີName ອາຣັບມາດຕະຖານທັນສະໄໝ ການປ້ອນສຽງແບບ Zero-shot ຄວບຄຸມອາລົມ ການອອກສຽງຂອງທ້ອງຖິ່ນ

ພາສາອາຣັບຊາອຸດີທີ່ເປີດໃຊ້ໄດ້ຄັ້ງທຳອິດທີ່ມີການກັ່ນຕອງສຽງແບບ Chatterbox.

ກາງ · 6GB VRAM ທົດລອງໃຊ້

Darwin TTS

ການປິດສຽງ ພາສາຕ່າງກັນ ປະສົມກັບ FFN ພາສາຕົ້ນຕໍ 4 ພື້ນຖານ Qwen3

ຕົວແປ Qwen3- TTS ແບບ cross- mode ທີ່ມີນໍ້າໜັກ FFN ຖືກປະສົມຈາກແບບຟອມພາສາ Qwen3- 1. 7B ເພື່ອການກັ່ນຕອງພາສາຫຼາຍພາສາທີ່ຊັດເຈນກວ່າ.

ກາງ · 7GB VRAM ທົດລອງໃຊ້

MOSS-TTSD

ຕົວເລືອກການຕັ້ງຄ່າສຽງ ເຖິງ5ຫູຟັງ ສຽງທີ່ສອດຄ່ອງກັນ 60min ການປິດສຽງ ປັບແຕ່ງໂປດແກລມ

ແບບຟອມການສົນທະນາແບບຕໍ່ເນື່ອງຂອງຫຼາຍຄົນ - ສ້າງການສົນທະນາແບບ podcast ທີ່ມີຜູ້ເວົ້າເຖິງ5ຄົນແລະ 60 ນາທີຂອງສຽງທີ່ເປັນເອກະພາບ.

ກາງ · 12GB VRAM ທົດລອງໃຊ້

Ming-Omni TTS

ຜົນອອກ 44. 1kHz ການປິດສຽງ ຄວບຄຸມອາລົມ ຄວບຄຸມພາສາພື້ນເມືອງ ສ້າງ BGM ອັດລົງ 0. 5B

ແບບຈໍາລອງການເວົ້າແບບ omni-modal 0.5B ຈາກ inclusionAI ທີ່ມີຜົນຜະລິດ 44.1kHz ທີ່ມີຄຸນນະພາບສູງແລະການກັ່ນຕອງສຽງແບບ zero-shot.

ກາງ · 3GB VRAM ທົດລອງໃຊ້

MOSS-TTS Nano