ແປຂໍ້ຄວາມເປັນຄຳເວົ້າName

ປ່ຽນຂໍ້ຄວາມເປັນສຽງເວົ້າທີ່ມີສຽງທໍາມະຊາດດ້ວຍແບບຟອມ AI ທີ່ມີແຫຼ່ງເປີດ. ໃຊ້ຟຣີ, ບໍ່ຕ້ອງການບັນຊີໃຊ້ງານໃດໆ.

ລົງທະບຽນຟຣີ

ພວກເຮົາຍັງບໍ່ມີສຽງ TTS ໃນພາສາຂອງທ່ານເທື່ອ. ຊ່ວຍພວກເຮົາເພີ່ມສຽງຂອງທ່ານ! ຂາຍສຽງຂອງທ່ານ

0/500 តួអក្សរ

ລົງທະບຽນ ຈໍາກັດຕົວອັກສອນໃຫ້ໄດ້ 5,000

របៀប SSML (ພາສາການສັງເຄາະການເວົ້າເພື່ອການຄວບຄຸມທີ່ດີ)

ວາງຂໍ້ຄວາມຂອງທ່ານໄວ້ໃນແທັກ SSML ເພື່ອຄວບຄຸມຢ່າງລະອຽດ:

<speak><prosody rate="slow">Slow speech</prosody></speak>

ແທັກອາລົມ/ ແບບ

ເພີ່ມຕົວຊີ້ວັດອາລົມເພື່ອສົ່ງຜົນກະທົບຕໍ່ການສົ່ງອອກ (ການສະໜັບສະໜູນແບບຟອມແຕກຕ່າງກັນ):

ພະຍາກອນການອອກສຽງ

ຕັ້ງຄ່າການອອກສຽງແບບສ່ວນຕົວ (ຄໍາ = ການອອກສຽງ):

ລະດັບສຽງ 0

-12 +12

ແບບ AI

ສຽງ

ພາສາ

ຮູບແບບຜົນອອກມາ

ໄວ 1.0x

0.5x 2.0x

ຟຣີກັບ Piper, VITS, MeloTTS

ສຽງທີ່ໄດ້ສ້າງຂຶ້ນຂອງທ່ານຈະປາກົດຢູ່ທີ່ນີ້. ເລືອກແບບ, ເຂົ້າເຖິງຂໍ້ຄວາມ ແລະ ຄລິກໃສ່ ສ້າງ.

ລາຍລະອຽດແບບ

OpenVoice

Premium

OpenVoice by MyShell.ai enables instant voice cloning with granular control over voice style, emotion, accent, rhythm, pauses, and intonation. It can clone a voice from a short audio clip and generate speech in multiple languages while maintaining the speaker identity. OpenVoice also functions as a voice converter, allowing real-time voice transformation.

ຜູ້ພັດທະນາ:	MyShell.ai / MIT
ໃບອະນຸຍາດ:	MIT
ຄວາມໄວ	Medium
ຄຸນນະພາບ:
ພາສາ	8 ພາສາ
VRAM	4GB
ການກັ່ນຕອງສຽງ	ສະໜັບສະໜູນ

ຄຸນສົມບັດ:

Instant cloning Voice conversion Emotion control Accent control Multilingual

ດີທີ່ສຸດ ສຳ ລັບ:: Voice cloning with fine-grained style control, voice conversion

ຂໍ້ແນະນຳສຳລັບຜົນທີ່ດີກວ່າ

ໃຊ້ການວາງຕົວໜັງສືທີ່ຖືກຕ້ອງເພື່ອການຢຸດຊົ່ວຄາວ ແລະ ການເວົ້າແບບທຳມະດາ
ຕົວອັກສອນຕົວເລກ ແລະ ຕົວອັກສອນຫຍໍ້ເພື່ອການອອກສຽງທີ່ຈະແຈ້ງ
ເພີ່ມຕົວຄ້ອນຕີເພື່ອສ້າງການຢຸດຊົ່ວຄາວລະຫວ່າງຄຳສັບ
ໃຊ້ຕົວຫ້າມ (...) ສຳລັບການຢຸດຊົ່ວຄາວທີ່ຍາວກວ່າ
ທົດລອງໃຊ້ Kokoro ຫຼື CosyVoice2ເພື່ອຮັບຜົນໄດ້ຮັບທີ່ຖືກຕ້ອງທີ່ສຸດ
ໃຊ້ Dia ສຳ ລັບການສົນທະນາຫຼາຍຄົນ ແລະ ເນື້ອໃນຂອງໂປດແກຼມ

ຄ່າໃຊ້ຈ່າຍຂອງສິນເຊື່ອ

ສັດ	ຄ່າໃຊ້ຈ່າຍຕໍ່ຕົວອັກສອນ 1K
ຟຣີ	0 ຄະແນນ (ບໍ່ຈໍາກັດ)
ມາດຕະຖານ	2 ຄະແນນ / 1K ຕົວອັກສອນ
ລາຄາຖືກ	4 ຄະແນນ / 1K ຕົວອັກສອນ

ເອົາຕົວອັກສອນເພີ່ມເຕີມ

ວິທີການໃຊ້ AI Text to Speech

ສ້າງສຽງເວົ້າທີ່ມີຄຸນນະພາບເປັນມືອາຊີບໃນສາມບາດກ້າວງ່າຍໆ. ບໍ່ມີຄວາມຮູ້ດ້ານເຕັກນິກທີ່ຕ້ອງການ.

ຂັ້ນຕອນທີ 1

បញ្ចូលຂໍ້ຄວາມຂອງທ່ານ

ພິມ, ປ້າຍ ຫຼື ສົ່ງຂໍ້ຄວາມທີ່ທ່ານຕ້ອງການປ່ຽນເປັນສຽງ. ສະໜັບສະໜູນເຖິງ 5, 000 ຕົວອັກສອນຕໍ່ການລຸ້ນ ສຳ ລັບຜູ້ໃຊ້ທີ່ເຂົ້າໃຊ້ລະບົບ. ໃຊ້ຂໍ້ຄວາມປົກກະຕິ ຫຼື ເພີ່ມແທັກ SSML ສຳ ລັບການຄວບຄຸມລະດັບສູງກ່ຽວກັບການອອກສຽງ, ການຢຸດຊົ່ວຄາວ, ແລະ ການເນັ້ນ.

ບາດກ້າວທີ 2

ເລືອກແບບ ແລະ ສຽງ

ເລືອກຈາກ 20+ ແບບ AI ຜ່ານສາມຊັ້ນ. ເລືອກສຽງທີ່ເຫມາະສົມກັບເນື້ອໃນຂອງທ່ານ, ເລືອກພາສາເປົ້າຫມາຍຂອງທ່ານ, ປັບຄວາມໄວການຫຼິ້ນຈາກ 0.5x ເຖິງ 2.0x, ແລະເລືອກຮູບແບບຜົນອອກທີ່ທ່ານຕ້ອງການ (MP3, WAV, OGG, ຫຼື FLAC).

ຂັ້ນຕອນທີ 3

ສ້າງ ແລະ ດາວໂຫລດ

ກົດ ສ້າງ ແລະ ສຽງຂອງທ່ານຈະພ້ອມໃນສອງວິນາທີ. ເບິ່ງກ່ອນໃຊ້ເຄື່ອງຫຼິ້ນທີ່ມີຢູ່ພາຍໃນ, ດາວໂຫລດໃນຮູບແບບທີ່ທ່ານເລືອກ, ຫຼື ຖ່າຍທອດການເຊື່ອມຕໍ່ທີ່ສາມາດແບ່ງປັນໄດ້. ໃຊ້ API ສຳລັບການປະມວນຜົນຫຼາຍໆຄັ້ງ ແລະ ການລວມເຂົ້າກັບລໍາດັບວຽກຂອງທ່ານ.

ຂໍ້ຄວາມໄປສູ່ການເວົ້າ

AI-powered text-to-speech ກໍາລັງປ່ຽນແປງວິທີການທີ່ປະຊາຊົນສ້າງ, ບໍລິໂພກ, ແລະ ມີສ່ວນຮ່ວມກັບເນື້ອໃນສຽງໃນຫຼາຍສິບອຸດສາຫະກໍາ.

ອ່ານປື້ມສຽງ

ປ່ຽນປື້ມທັງໝົດເປັນປື້ມສຽງທີ່ມີສຽງທໍາມະຊາດດ້ວຍການເວົ້າທີ່ມີຄຸນນະພາບຂອງສະຕູດິໂອ. ສະໜັບສະໜູນຜູ້ເວົ້າຫຼາຍຄົນດ້ວຍ Dia ສຳລັບການສົນທະນາຕົວອັກສອນ.

ສຽງວີດີໂອ

ສ້າງ voiceovers ມືອາຊີບສໍາລັບ YouTube, TikTok, Instagram Reels, ແລະ Shorts. 100+ ສຽງຫຼື clone ຂອງທ່ານເອງ.

ផតខាស់

ສ້າງບົດເພງຈາກສະຄິບດ້ວຍສຽງ AI ຫຼາຍໆສຽງ. ໃຊ້ Dia ສຳລັບການສົນທະນາແບບທໍາມະຊາດສອງຄົນ.

ເກມName

AI ສຽງສະແດງສໍາລັບ indie ເກມ, ນະວະນິຍາຍເບິ່ງ, ແລະ interaction fiction. NPC ຄໍາເວົ້າ, cutscene ສຽງ, 30 + ພາສາ.

ການຮຽນຮູ້ທາງອີເລັກໂຕຣນິກ

ປ່ຽນວັດຖຸຫຼັກສູດ, ບົດສອນ, ແລະ ເນື້ອໃນການຝຶກອົບຮົມເປັນສຽງ. ສະຫນັບສະຫນູນຫຼາຍພາສາສໍາລັບເວທີທົ່ວໂລກ.

ການເຂົ້າເຖິງ

ສ້າງເວບໄຊທ໌, ເອກະສານ, ແລະ ແອັບພລິເຄຊັນທີ່ສາມາດເຂົ້າເຖິງໄດ້. ການເຊື່ອມໂຍງຜູ້ອ່ານ ໜ້າຈໍ API ແລະ ການປ່ຽນບົດຄວາມເປັນສຽງ.

ລະບົບໂທລະສັບName

ລະບົບພະລັງງານ IVR, ເມນູໂທລະສັບ, ແລະການບໍລິການລູກຄ້າທີ່ມີສຽງ AI ທໍາມະຊາດ. ຕ່ໍາ-latency ການຖ່າຍທອດສໍາລັບສູນໂທ.

ສື່ສັງຄົມ

ການເລົ່າເລື່ອງ TikTok, Instagram Reels, ຄຳ ເຫັນ Twitter / X, YouTube Shorts. ໄວໃນການສ້າງແບບຟອມຟຣີ.

ການຖ່າຍທອດ

ແຈ້ງເຕືອນ Twitch TTS, ສົນທະນາ-ຫາ-ສຽງ, AI ຮ່ວມກັນ-ຜູ້ເປັນເຈົ້າພາບ, ແລະ bots Discord. ຕ່ໍາ latency, 100+ ສຽງ, StreamElements ເຂົ້າກັນໄດ້.

ຕະຫຼາດ

ໂຄສະນາ voiceovers, ວິດີໂອອະທິບາຍ, ຜະລິດຕະພັນທົດລອງ, ແລະການນໍາສະເຫນີການຂາຍ. ຂະ ໜາດ ການຜະລິດເນື້ອໃນສຽງ across campaigns.

ການດັດແປງສຽງ ແລະ ການຕັ້ງຕົວເມືອງ

ແປແລະ dub ວິດີໂອໃນ 30 + ພາສາທີ່ມີສຽງ-ກົງ AI. ແປແລະຜູ້ກ່າວຄໍາປາໄສການກວດພົບ.

ສຸຂະອະນາໄມ

ຄໍາແນະນໍາໃນການຄິດ, ເລື່ອງຂອງການນອນ, ການອອກກໍາລັງກາຍການຫາຍໃຈ, ແລະ ການຢືນຢັນດ້ວຍສຽງ AI ທີ່ສະຫງົບ, ເຮັດໃຫ້ຮູ້ສຶກສະບາຍໃຈ.

ເບິ່ງກໍລະນີໃຊ້ງານ ແລະ ເຄື່ອງມືທັງໝົດ

ແບບແບບຂໍ້ຄວາມເປັນການເວົ້າທັງໝົດ

ຂໍ້ກໍານົດລະອຽດສໍາລັບທຸກ AI ແບບຈໍາລອງທີ່ມີຢູ່ໃນ TTS.ai. ປຽບທຽບຄຸນນະພາບ, ຄວາມໄວ, ການສະຫນັບສະຫນູນພາສາ, ແລະຄຸນສົມບັດເພື່ອຊອກຫາແບບຈໍາລອງທີ່ສົມບູນແບບສໍາລັບໂຄງການຂອງທ່ານ.

Kokoro

Free

Kokoro ແມ່ນ 82 ລ້ານຕົວແບບການແປພາສາຈາກຂໍ້ຄວາມເປັນສຽງທີ່ຕີໄດ້ດີກວ່າລະດັບນໍ້າໜັກຂອງມັນ. ເຖິງວ່າຈະມີຂະ ໜາດ ນ້ອຍ, ມັນກໍ່ຜະລິດການເວົ້າທີ່ ໜ້າ ສົນໃຈແລະສະແດງອອກ. Kokoro ສະຫນັບສະຫນູນຫຼາຍພາສາລວມທັງພາສາອັງກິດ, ຍີ່ປຸ່ນ, ຈີນ, ແລະເກົາຫຼີດ້ວຍສຽງສະແດງອອກທີ່ຫຼາກຫຼາຍ. ມັນແລ່ນໄວຫຼາຍ — ສ້າງສຽງເກືອບ 100x ໄວກວ່າເວລາຈິງໃນ GPU.

ຜູ້ພັດທະນາ::
Hexgrad

ໃບອະນຸຍາດ::
Apache 2.0

ຄວາມໄວ:
Fast

ຄຸນນະພາບ::

ພາສາ:
en, ja, zh, ko, fr, de, it, pt, es, hi, ru

VRAM:
1.5GB

ການກັ່ນຕອງສຽງ:
ບໍ່ມີ

ຄ່າໃຊ້ຈ່າຍຕໍ່ຕົວອັກສອນ 1K:
ຟຣີ

82M ປາຣາມເຕີ ໄວຫຼາຍ ສຽງທີ່ສະແດງອອກ ຫຼາຍພາສາ ການສະໜັບສະໜູນການຖ່າຍທອດ

ດີທີ່ສຸດ ສຳ ລັບ:: TTS ທີ່ມີຄຸນນະພາບສູງດ້ວຍຄວາມຊ້າສຸດ, កម្មវិធីດາວໂຫລດ

ພະຍາຍາມ Kokoro

Piper

Free

Piper ແມ່ນເຄື່ອງຈັກການແປພາສາຂໍ້ຄວາມເປັນສຽງທີ່ເບົາບາງທີ່ພັດທະນາໂດຍ Rhasspy ເຊິ່ງໃຊ້ VITS ແລະ larynx architectures. ມັນແລ່ນທັງ ໝົດ ເທິງ CPU, ເຮັດໃຫ້ມັນ ເໝາະ ສົມ ສຳ ລັບອຸປະກອນ Edge, ອັດຕະໂນມັດໃນເຮືອນ, ແລະ ຄໍາຮ້ອງສະຫມັກທີ່ຕ້ອງການ TTS ນອກອິນເຕີເນັດ. ດ້ວຍສຽງຫຼາຍກວ່າ 100 ຜ່ານ 30 + ພາສາ, Piper ສົ່ງຄໍາເວົ້າທີ່ຟັງຄືກັບທໍາມະຊາດໃນຄວາມໄວທີ່ແທ້ຈິງເຖິງແມ່ນວ່າຢູ່ໃນ Raspberry Pi 4.

ຜູ້ພັດທະນາ::
Rhasspy

ໃບອະນຸຍາດ::
MIT

ຄວາມໄວ:
Fast

ຄຸນນະພາບ::

ພາສາ:
en, de, fr, es, it, pt, nl, pl, ru, zh, ja, ko, ar, cs, da, fi, el, hu, is, ka, kk, ne, no, ro, sk, sr, sv, sw, tr, uk, vi

VRAM:
0 (CPU only)

ການກັ່ນຕອງສຽງ:
ບໍ່ມີ

ຄ່າໃຊ້ຈ່າຍຕໍ່ຕົວອັກສອນ 1K:
ຟຣີ

ງ່າຍຕໍ່ CPU ນອກបណ្ដាញ ສຽງ 100+ 30+ ພາສາ ການສະໜັບສະໜູນ SSML

ດີທີ່ສຸດ ສຳ ລັບ:: ການເບິ່ງກ່ອນໄວ, ການເຂົ້າເຖິງງ່າຍ, ແລະໂປແກຼມທີ່ຖືກຝັງໄວ້

ພະຍາຍາມ Piper

VITS

Free

VITS (ການຄິດໄລ່ຄວາມແຕກຕ່າງດ້ວຍການຮຽນຮູ້ທີ່ມີການຕໍ່ສູ້ເພື່ອການແປຂໍ້ຄວາມເປັນຄຳເວົ້າຈາກຕົ້ນເຖິງທ້າຍ) ແມ່ນວິທີການ TTS ແບບຄຽງຄູ່ກັນລະຫວ່າງຕົ້ນເຖິງທ້າຍທີ່ຜະລິດສຽງທີ່ມີສຽງທໍາມະຊາດຫຼາຍຂຶ້ນກວ່າແບບແບບສອງຂັ້ນທີ່ມີຢູ່ໃນປັດຈຸບັນ. ມັນໃຊ້ການຄິດໄລ່ຄວາມແຕກຕ່າງທີ່ເພີ່ມຂຶ້ນດ້ວຍການປ່ຽນແປງຂອງການໄຫຼ ແລະ ຂະບວນການຝຶກອົບຮົມທີ່ມີການຕໍ່ສູ້ກັນ, ເຮັດໃຫ້ການປັບປຸງທີ່ມີຄວາມໝາຍໃນການເວົ້າທີ່ມີຄວາມເປັນທໍາມະຊາດຫຼາຍຂຶ້ນ.

ຜູ້ພັດທະນາ::
Jaehyeon Kim et al.

ໃບອະນຸຍາດ::
MIT

ຄວາມໄວ:
Fast

ຄຸນນະພາບ::

ພາສາ:
en, zh, ja, ko

VRAM:
1GB

ການກັ່ນຕອງສຽງ:
ບໍ່ມີ

ຄ່າໃຊ້ຈ່າຍຕໍ່ຕົວອັກສອນ 1K:
ຟຣີ

ການສັງເຄາະຈາກຕົ້ນເຖິງທ້າຍ ພາສາທຳມະຊາດ ການຄິດໄລ່ໄວ ຫຼາຍໂຕ

ດີທີ່ສຸດ ສຳ ລັບ:: ຂໍ້ຄວາມໄປສູ່ການເວົ້າແບບທົ່ວໄປດ້ວຍການເວົ້າແບບທຳມະຊາດ

ພະຍາຍາມ VITS

MeloTTS

Free

MeloTTS ໂດຍ MyShell.ai ແມ່ນຫ້ອງສະໝຸດ TTS ຫຼາຍພາສາທີ່ສະຫນັບສະຫນູນພາສາອັງກິດ (ອາເມລິກາ, ບຣາຊິນ, ອິນເດຍ, ອົດສະຕາລີ), ສະເປນ, ຝຣັ່ງ, ຈີນ, ຍີ່ປຸ່ນ, ແລະເກົາຫຼີ. ມັນໄວຫຼາຍ, ຂະບວນການຂໍ້ຄວາມທີ່ໃກ້ກັບຄວາມໄວເວລາຈິງໃນ CPU ດຽວ. MeloTTS ແມ່ນອອກແບບສໍາລັບການໃຊ້ງານການຜະລິດແລະສະຫນັບສະຫນູນທັງ CPU ແລະ GPU ຜົນການຄິດໄລ່.

ຜູ້ພັດທະນາ::
MyShell.ai

ໃບອະນຸຍາດ::
MIT

ຄວາມໄວ:
Fast

ຄຸນນະພາບ::

ພາສາ:
en, es, fr, zh, ja, ko

VRAM:
0.5GB (GPU optional)

ການກັ່ນຕອງສຽງ:
ບໍ່ມີ

ຄ່າໃຊ້ຈ່າຍຕໍ່ຕົວອັກສອນ 1K:
ຟຣີ

ເພີ່ມປະສິດທິພາບຂອງ CPU ຫຼາຍພາສາ ຕົວອັກສອນທີ່ມີສຽງດັງຫຼາຍຕົວ ທັນກັບການຜະລິດ ເວລາລໍຖ້າຕ່ຳ

ດີທີ່ສຸດ ສຳ ລັບ:: ໂປແກຼມຜະລິດທີ່ຕ້ອງການ TTS ໄວ, ຫຼາຍພາສາ

ພະຍາຍາມ MeloTTS

Bark

Standard

Bark ໂດຍ Suno ແມ່ນແບບຟອມຂໍ້ຄວາມ-ຫາ-ສຽງທີ່ອີງໃສ່ຕົວປ່ຽນທີ່ສາມາດຜະລິດສຽງເວົ້າຫຼາຍພາສາທີ່ຈິງຈັງໄດ້ດີ, ເຊັ່ນດຽວກັນກັບສຽງອື່ນໆເຊັ່ນດົນຕີ, ສຽງລົບກວນດ້ານຫລັງ, ແລະ ຜົນສະທ້ອນສຽງ. ມັນສາມາດຜະລິດການສື່ສານທີ່ບໍ່ເວົ້າເຊັ່ນ: ຫົວ, ຍິ້ມ, ແລະ ຮ້ອງ. Bark ສະຫນັບສະຫນູນ speakers ຫຼາຍກວ່າ 100 ຕົວເລືອກແລະ 13+ ພາສາ.

ຜູ້ພັດທະນາ::
Suno

ໃບອະນຸຍາດ::
MIT

ຄວາມໄວ:
Slow

ຄຸນນະພາບ::

ພາສາ:
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr

VRAM:
5GB

ການກັ່ນຕອງສຽງ:
ບໍ່ມີ

ຄ່າໃຊ້ຈ່າຍຕໍ່ຕົວອັກສອນ 1K:
2x

ຜົນປະທັບສຽງ ຍິ້ມ/ຮ້ອງໄຫ້ ການສ້າງດົນຕີ 100+ ໄມໂຄຣໂຟນ ຫຼາຍພາສາ

ດີທີ່ສຸດ ສຳ ລັບ:: ເນື້ອໃນສຽງທີ່ສ້າງສັນ, ຫນັງສືສຽງທີ່ມີອາລົມ, ຜົນສະທ້ອນສຽງ

ພະຍາຍາມ Bark

Bark Small

Standard

Bark Small ແມ່ນເວີຊັນທີ່ໄດ້ດູດເອົາຈາກແບບແບບ Bark ເຊິ່ງໄດ້ປ່ຽນຄຸນນະພາບສຽງບາງຢ່າງເພື່ອຄວາມໄວໃນການຄິດໄລ່ທີ່ໄວຂຶ້ນ ແລະ ຄວາມຕ້ອງການຄວາມຈຳທີ່ຕ່ຳກວ່າເກົ່າ. ມັນຍັງຮັກສາຄວາມສາມາດຂອງ Bark ໃນການສ້າງການເວົ້າດ້ວຍອາລົມ, ສຽງຫົວ ແລະ ພາສາຫຼາຍພາສາໄວ້.

ຜູ້ພັດທະນາ::
Suno

ໃບອະນຸຍາດ::
MIT

ຄວາມໄວ:
Medium

ຄຸນນະພາບ::

ພາສາ:
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr

VRAM:
2GB

ການກັ່ນຕອງສຽງ:
ບໍ່ມີ

ຄ່າໃຊ້ຈ່າຍຕໍ່ຕົວອັກສອນ 1K:
2x

ແໜ້ນ ໄວກວ່າ Bark ເຕັມ ການເວົ້າທີ່ມີອາລົມ ຫຼາຍພາສາ

ດີທີ່ສຸດ ສຳ ລັບ:: ສຽງທີ່ສ້າງສັນໄວ ເມື່ອການຮ້ອງເຕັມຊ້າເກີນໄປ

ພະຍາຍາມ Bark Small

CosyVoice 2

Standard

CosyVoice 2ໂດຍ Alibaba's Tongyi Lab ບັນລຸຄຸນນະພາບການເວົ້າທີ່ທຽບເທົ່າກັບມະນຸດດ້ວຍ latency ທີ່ຕ່ ຳ ທີ່ສຸດ, ເຮັດໃຫ້ມັນ ເໝາະ ສົມ ສຳ ລັບແອັບພລິເຄຊັນເວລາຈິງ. ມັນໃຊ້ວິທີການ quantization scalar finite ສຳ ລັບການສະກັດສຽງແລະສະຫນັບສະຫນູນການຖ່າຍທອດສຽງແບບບໍ່ມີສຽງ, ການສັງເຄາະພາສາແລະການຄວບຄຸມອາລົມທີ່ລະອຽດອ່ອນ. ມັນໄດ້ດີກວ່າລະບົບ TTS ການຄ້າຫຼາຍຢ່າງໃນການວິເຄາະ subjective.

ຜູ້ພັດທະນາ::
Alibaba (Tongyi Lab)

ໃບອະນຸຍາດ::
Apache 2.0

ຄວາມໄວ:
Medium

ຄຸນນະພາບ::

ພາສາ:
en, zh, ja, ko, fr, de, it, es

VRAM:
4GB

ການກັ່ນຕອງສຽງ:
ແມ່ນ

ຄ່າໃຊ້ຈ່າຍຕໍ່ຕົວອັກສອນ 1K:
2x

ສົ່ງຕໍ່ ການກັ່ນຕອງແບບ Zero-shot ພາສາຕ່າງກັນ ຄວບຄຸມອາລົມ ຄວາມເທົ່າທຽມຂອງມະນຸດ

ດີທີ່ສຸດ ສຳ ລັບ:: ຕົວປະສົມປະສານເວລາຈິງ, ສົ່ງຕໍ່ TTS, ຜູ້ຊ່ວຍສຽງ

ພະຍາຍາມ CosyVoice 2

Dia TTS

Standard

Dia ໂດຍ Nari Labs ແມ່ນແບບຟອມການແປພາສາຂໍ້ຄວາມເປັນສຽງທີ່ມີຕົວກໍານົດ 1.6B ເຊິ່ງຖືກອອກແບບໂດຍສະເພາະເພື່ອສ້າງການສົນທະນາລະຫວ່າງຜູ້ເວົ້າຫຼາຍຄົນ. ມັນສາມາດຜະລິດການສົນທະນາທີ່ຟັງຄືກັບທໍາມະຊາດລະຫວ່າງຜູ້ເວົ້າສອງຄົນດ້ວຍການປ່ຽນແປງທີ່ເໝາະສົມ, ສຽງແລະຄວາມຮູ້ສຶກ. Dia ແມ່ນສົມບູນແບບ ສຳ ລັບການສ້າງເນື້ອໃນແບບ podcast, ການສົນທະນາຂອງປື້ມສຽງແລະ AI ແບບໂຕ້ຕອບ.

ຜູ້ພັດທະນາ::
Nari Labs

ໃບອະນຸຍາດ::
Apache 2.0

ຄວາມໄວ:
Medium

ຄຸນນະພາບ::

ພາສາ:
en

VRAM:
4GB

ການກັ່ນຕອງສຽງ:
ບໍ່ມີ

ຄ່າໃຊ້ຈ່າຍຕໍ່ຕົວອັກສອນ 1K:
2x

ຫຼາຍໄມໂຄຣໂຟນ បង្កើតប្រអប់ ປ່ຽນໄປຕາມທຳມະຊາດ ສະແດງອາລົມ 1.6B ພາຣາມິເຕີ

ດີທີ່ສຸດ ສຳ ລັບ:: ເພງໂປດ, ຂໍ້ຄວາມໃນປື້ມສຽງ, ເນື້ອໃນການສົນທະນາ

ພະຍາຍາມ Dia TTS

Parler TTS

Standard

Parler TTS ແມ່ນແບບແບບຂໍ້ຄວາມເປັນຄຳເວົ້າທີ່ໃຊ້ການອະທິບາຍສຽງພາສາທໍາມະຊາດເພື່ອຄວບຄຸມການເວົ້າທີ່ໄດ້ສ້າງຂຶ້ນມາ. ແທນທີ່ຈະເລືອກຈາກສຽງທີ່ໄດ້ຕັ້ງໄວ້ລ່ວງໜ້າ, ທ່ານອະທິບາຍສຽງທີ່ທ່ານຕ້ອງການ (ຕົວຢ່າງ, "ສຽງຍິງທີ່ອົບອຸ່ນດ້ວຍສຽງອັງກິດເລັກນ້ອຍ, ເວົ້າຊ້າໆ ແລະ ແຈ້ງ") ແລະ Parler ສ້າງການເວົ້າທີ່ກົງກັບການອະທິບາຍນັ້ນ. ນີ້ເຮັດໃຫ້ມັນມີຄວາມຍືດຫຍຸ່ນເປັນເອກະລັກສຳລັບການໃຊ້ງານທີ່ສ້າງສັນ.

ຜູ້ພັດທະນາ::
Hugging Face

ໃບອະນຸຍາດ::
Apache 2.0

ຄວາມໄວ:
Medium

ຄຸນນະພາບ::

ພາສາ:
en

VRAM:
4GB

ການກັ່ນຕອງສຽງ:
ບໍ່ມີ

ຄ່າໃຊ້ຈ່າຍຕໍ່ຕົວອັກສອນ 1K:
2x

ການອະທິບາຍສຽງ ການຄວບຄຸມພາສາທໍາມະຊາດ ການສ້າງສຽງແບບຍືດຫຍຸ່ນ ບໍ່ມີສຽງທີ່ຕັ້ງໄວ້ລ່ວງໜ້າທີ່ຕ້ອງການ

ດີທີ່ສຸດ ສຳ ລັບ:: ສ້າງកម្មវិធីທີ່ທ່ານຕ້ອງການຄຸນລັກສະນະສຽງທີ່ໄດ້ກຳນົດເອງ

ພະຍາຍາມ Parler TTS

GLM-TTS

Standard

GLM-TTS ໂດຍ Zhipu AI ແມ່ນລະບົບການແປພາສາທີ່ສ້າງຂຶ້ນໂດຍອີງໃສ່ສະຖາປັດຕະຍະກໍາ Llama ທີ່ມີການເຂົ້າກັນໄດ້ກັບລົມ. ມັນບັນລຸອັດຕາຄວາມຜິດພາດຂອງຕົວອັກສອນທີ່ຕ່ໍາທີ່ສຸດໃນບັນດາແບບຟອມ TTS ທີ່ມີແຫຼ່ງເປີດ, ໝາຍຄວາມວ່າມັນຜະລິດການອອກສຽງທີ່ຖືກຕ້ອງທີ່ສຸດ. GLM-TTS ສະຫນັບສະຫນູນພາສາອັງກິດແລະຈີນດ້ວຍການກັ່ນຕອງສຽງຈາກຕົວຢ່າງສຽງ 3-10 ວິນາທີ.

ຜູ້ພັດທະນາ::
Zhipu AI

ໃບອະນຸຍາດ::
GLM-4 License

ຄວາມໄວ:
Medium

ຄຸນນະພາບ::

ພາສາ:
en, zh

VRAM:
4GB

ການກັ່ນຕອງສຽງ:
ແມ່ນ

ຄ່າໃຊ້ຈ່າຍຕໍ່ຕົວອັກສອນ 1K:
2x

ອັດຕາຂໍ້ຜິດພາດຕ່ຳສຸດ ການປິດສຽງ ການສອດຄ່ອງຂອງລໍາ ພາສາທຳມະຊາດ

ດີທີ່ສຸດ ສຳ ລັບ:: ຕົວເລືອກການເວົ້າທີ່ຖືກຕ້ອງທີ່ສຸດName

ພະຍາຍາມ GLM-TTS

IndexTTS-2

Standard

IndexTTS-2 ແມ່ນລະບົບການແປພາສາຂໍ້ຄວາມເປັນຄຳເວົ້າທີ່ກ້າວໜ້າທີ່ໂດດເດັ່ນໃນການສະສົມສຽງແບບ Zero-shot ດ້ວຍການຄວບຄຸມອາລົມທີ່ລະອຽດອ່ອນ. ມັນສາມາດສ້າງການເວົ້າດ້ວຍສຽງອາລົມທີ່ລະອຽດອ່ອນເຊັ່ນ: ມີຄວາມສຸກ, ເສຍໃຈ, ໂກດແຄ້ນ, ຫຼື ກັງວົນໂດຍບໍ່ຕ້ອງຕ້ອງການຂໍ້ມູນການຝຶກອົບຮົມອາລົມທີ່ລະອຽດອ່ອນ. ແບບ ຈຳ ລອງໃຊ້ເວັກເຕີອາລົມເພື່ອຄວບຄຸມການສະແດງອາລົມຂອງຄຳເວົ້າທີ່ສ້າງຂຶ້ນຢ່າງຖືກຕ້ອງ.

ຜູ້ພັດທະນາ::
Index Team

ໃບອະນຸຍາດ::
Bilibili Model License

ຄວາມໄວ:
Medium

ຄຸນນະພາບ::

ພາສາ:
en, zh

VRAM:
4GB

ການກັ່ນຕອງສຽງ:
ແມ່ນ

ຄ່າໃຊ້ຈ່າຍຕໍ່ຕົວອັກສອນ 1K:
2x

ຄວບຄຸມອາລົມ ສິ້ນສຸດການຍິງ ເວກເຕີອາລົມ ການເວົ້າທີ່ສະແດງອອກ ຕົວຄວບຄຸມຂະໜາດນ້ອຍ

ດີທີ່ສຸດ ສຳ ລັບ:: ເນື້ອໃນທີ່ສະແດງອອກດ້ວຍອາລົມ, ຫນັງສືສຽງ, ຜູ້ຊ່ວຍເສມືນ

ພະຍາຍາມ IndexTTS-2

Spark TTS

Standard

Spark TTS ໂດຍ SparkAudio ແມ່ນແບບຟອມຂໍ້ຄວາມ-ເປັນ-ການເວົ້າທີ່ປະສົມປະສານການຖ່າຍທອດສຽງກັບອາລົມທີ່ຄວບຄຸມໄດ້ແລະແບບເວົ້າ. ໂດຍໃຊ້ພຽງແຕ່5ວິນາທີຂອງການອ້າງອີງສຽງ, ມັນສາມາດຖ່າຍທອດສຽງແລະຫຼັງຈາກນັ້ນສ້າງການເວົ້າທີ່ມີອາລົມ, ຄວາມໄວແລະແບບທີ່ແຕກຕ່າງກັນໃນຂະນະທີ່ຮັກສາຕົວຕົນຂອງສຽງທີ່ຖ່າຍທອດໄດ້. Spark TTS ໃຊ້ລະບົບຄວບຄຸມທີ່ອີງໃສ່ການແຈ້ງເຕືອນ.

ຜູ້ພັດທະນາ::
SparkAudio

ໃບອະນຸຍາດ::
CC BY-NC-SA 4.0

ຄວາມໄວ:
Medium

ຄຸນນະພາບ::

ພາສາ:
en, zh

VRAM:
4GB

ການກັ່ນຕອງສຽງ:
ແມ່ນ

ຄ່າໃຊ້ຈ່າຍຕໍ່ຕົວອັກສອນ 1K:
2x

ການປິດສຽງ ຄວບຄຸມອາລົມ ຕົວຄວບຄຸມແບບ ຕັ້ງຄ່າແບບຖາມ 5 ວິນາທີ

ດີທີ່ສຸດ ສຳ ລັບ:: ການສ້າງເນື້ອໃນດ້ວຍສຽງທີ່ຖືກກັ່ນຕອງ ແລະ ການຄວບຄຸມອາລົມ

ພະຍາຍາມ Spark TTS

GPT-SoVITS

Standard

GPT- SoVITS ລວມເອົາການສ້າງແບບພາສາແບບ GPT ກັບ SoVITS (ການຄິດໄລ່ສຽງຜ່ານການແປ ແລະ ການປະສົມປະສານ) ເພື່ອການກັ່ນຕອງສຽງທີ່ມີປະສິດທິຜົນຫຼາຍ. ດ້ວຍສຽງທີ່ໃຊ້ໄດ້ພຽງ5ວິນາທີ, ມັນສາມາດກັ່ນຕອງສຽງຢ່າງຖືກຕ້ອງ ແລະ ສ້າງການເວົ້າໃໝ່ໄດ້ ໃນຂະນະທີ່ຮັກສາຄຸນລັກສະນະທີ່ເປັນເອກະລັກຂອງຜູ້ເວົ້າໄວ້. ມັນດີເລີດທັງໃນການເວົ້າ ແລະ ການປະສົມສຽງຮ້ອງ.

ຜູ້ພັດທະນາ::
RVC-Boss

ໃບອະນຸຍາດ::
MIT

ຄວາມໄວ:
Slow

ຄຸນນະພາບ::

ພາສາ:
en, zh, ja, ko

VRAM:
6GB

ການກັ່ນຕອງສຽງ:
ແມ່ນ

ຄ່າໃຊ້ຈ່າຍຕໍ່ຕົວອັກສອນ 1K:
2x

ການຖ່າຍແບບແບບສອງເທົ່າ 5- ວິນາທີ ສຽງຮ້ອງ ການຮຽນຮູ້ແບບບໍ່ຫຼາຍປານໃດ ລະດັບຄວາມເຊື່ອຖືສູງ ພາສາຕ່າງກັນ

ດີທີ່ສຸດ ສຳ ລັບ:: ການກັ່ນຕອງສຽງ, ການປະສົມສຽງຮ້ອງ, ການຖ່າຍທອດສຽງຂອງຜູ້ສ້າງເນື້ອໃນ

ພະຍາຍາມ GPT-SoVITS

Orpheus

Standard

Orpheus ແມ່ນແບບຈໍາລອງຂໍ້ຄວາມ-ເປັນ-ຄໍາເວົ້າທີ່ມີຂະ ໜາດ ໃຫຍ່ທີ່ບັນລຸການສະແດງອາລົມໃນລະດັບມະນຸດ. ໄດ້ຮັບການຝຶກອົບຮົມໃນຫຼາຍກວ່າ 100,000 ຊົ່ວໂມງຂອງຂໍ້ມູນການເວົ້າທີ່ຫຼາກຫຼາຍ, ມັນດີເລີດໃນການສ້າງຄໍາເວົ້າທີ່ມີອາລົມທໍາມະຊາດ, ການເນັ້ນຫນັກ, ແລະ ຮູບແບບການເວົ້າ. Orpheus ສາມາດຜະລິດຄໍາເວົ້າທີ່ virtually indistinguishable ຈາກການບັນທຶກຂອງມະນຸດ.

ຜູ້ພັດທະນາ::
Canopy Labs

ໃບອະນຸຍາດ::
Llama 3.2 Community

ຄວາມໄວ:
Medium

ຄຸນນະພາບ::

ພາສາ:
en

VRAM:
4GB

ການກັ່ນຕອງສຽງ:
ບໍ່ມີ

ຄ່າໃຊ້ຈ່າຍຕໍ່ຕົວອັກສອນ 1K:
2x

ລະດັບອາລົມຂອງມະນຸດ 100K ຊົ່ວໂມງຝຶກອົບຮົມ ການເນັ້ນແບບທຳມະຊາດ ການເວົ້າທີ່ສະແດງອອກ

ດີທີ່ສຸດ ສຳ ລັບ:: ການເວົ້າທີ່ມີຄຸນນະພາບສູງ, ປຶ້ມສຽງ, ການສະແດງສຽງ

ພະຍາຍາມ Orpheus

Chatterbox

Premium

Chatterbox ໂດຍ Resemble AI ແມ່ນແບບຈໍາລອງການຖ່າຍທອດສຽງແບບ zero-shot ທີ່ທັນສະໄໝ. ມັນສາມາດຖ່າຍທອດສຽງໃດໆຈາກຕົວຢ່າງສຽງດຽວດ້ວຍຄວາມຖືກຕ້ອງທີ່ຫນ້າປະຫລາດໃຈ, ຈັບບໍ່ພຽງແຕ່ສຽງແຕ່ຍັງເປັນແບບເວົ້າແລະຄວາມຮູ້ສຶກທີ່ແຕກຕ່າງ. Chatterbox ຍັງມີຄຸນສົມບັດການຄວບຄຸມຄວາມຮູ້ສຶກທີ່ລະອຽດອ່ອນ, ອະນຸຍາດໃຫ້ທ່ານປັບແຕ່ງສຽງຂອງຄວາມຮູ້ສຶກຂອງການເວົ້າທີ່ຜະລິດຂຶ້ນໂດຍອີງໃສ່ຕົວຕົນຂອງສຽງ.

ຜູ້ພັດທະນາ::
Resemble AI

ໃບອະນຸຍາດ::
MIT

ຄວາມໄວ:
Medium

ຄຸນນະພາບ::

ພາສາ:
en

VRAM:
4GB

ການກັ່ນຕອງສຽງ:
ແມ່ນ

ຄ່າໃຊ້ຈ່າຍຕໍ່ຕົວອັກສອນ 1K:
4x

ຖ່າຍແບບແບບຄລີນແບບບໍ່ມີການຖ່າຍ ຄວບຄຸມອາລົມ ລະດັບຄວາມເຊື່ອຖືສູງ ສົ່ງແບບ ຖ່າຍແບບຕົວຢ່າງດຽວ

ດີທີ່ສຸດ ສຳ ລັບ:: ສ້າງສຽງແບບມືອາຊີບດ້ວຍການຄວບຄຸມອາລົມ, ສ້າງເນື້ອໃນ

ພະຍາຍາມ Chatterbox

Tortoise TTS

Premium

Tortoise TTS ແມ່ນລະບົບການແປພາສາຂໍ້ຄວາມເປັນສຽງຫຼາຍສຽງທີ່ໃຊ້ລະບົບ autoregressive ເຊິ່ງໃຫ້ຄວາມສຳຄັນກັບຄຸນນະພາບສຽງຫຼາຍກວ່າຄວາມໄວ. ມັນໃຊ້ໂຄງສ້າງທີ່ອີງໃສ່ DALL- E ເພື່ອສ້າງການເວົ້າທີ່ເປັນທຳມະຊາດສູງດ້ວຍສຽງທີ່ງົດງາມ ແລະ ສຽງທີ່ຄ້າຍຄືກັນ. ໃນຂະນະທີ່ຊ້າກວ່າຕົວເລືອກອື່ນໆຫຼາຍຢ່າງ, Tortoise ຜະລິດການເວົ້າທີ່ສົມເຫດສົມຜົນທີ່ສຸດທີ່ສາມາດໃຊ້ໄດ້ໃນລະບົບ Open Source.

ຜູ້ພັດທະນາ::
James Betker

ໃບອະນຸຍາດ::
Apache 2.0

ຄວາມໄວ:
Slow

ຄຸນນະພາບ::

ພາສາ:
en

VRAM:
8GB

ການກັ່ນຕອງສຽງ:
ແມ່ນ

ຄ່າໃຊ້ຈ່າຍຕໍ່ຕົວອັກສອນ 1K:
4x

ຄຸນນະພາບສູງສຸດ ສຽງຫຼາຍສຽງ ໂຄງສ້າງ DALL- E ການກັ່ນຕອງສຽງ ການຖອນຕົວເອງ

ດີທີ່ສຸດ ສຳ ລັບ:: ອ່ານປື້ມ, ເນື້ອໃນທີ່ດີ, ໂປແກຼມທີ່ມີຄຸນນະພາບດີ

ພະຍາຍາມ Tortoise TTS

StyleTTS 2

Premium

StyleTTS2ບັນລຸການສັງເຄາະ TTS ລະດັບມະນຸດໂດຍການລວມເອົາການແຜ່ກະຈາຍແບບແບບກັບການຝຶກອົບຮົມທີ່ຂັດແຍ້ງກັນໂດຍການໃຊ້ແບບພາສາເວົ້າທີ່ໃຫຍ່. ມັນຜະລິດການເວົ້າທີ່ຟັງຄືກັບທໍາມະຊາດທີ່ສຸດໃນບັນດາແບບແບບຜູ້ເວົ້າຄົນດຽວ, ແຂ່ງຂັນກັບການບັນທຶກຂອງມະນຸດ. StyleTTS2ໃຊ້ການວາງແບບແບບແບບແບບທີ່ອີງໃສ່ການແຜ່ກະຈາຍເພື່ອບັນທຶກຄວາມຫຼາກຫຼາຍຂອງສຽງເວົ້າຂອງມະນຸດ.

ຜູ້ພັດທະນາ::
Columbia University

ໃບອະນຸຍາດ::
MIT

ຄວາມໄວ:
Medium

ຄຸນນະພາບ::

ພາສາ:
en

VRAM:
4GB

ການກັ່ນຕອງສຽງ:
ບໍ່ມີ

ຄ່າໃຊ້ຈ່າຍຕໍ່ຕົວອັກສອນ 1K:
4x

ລະດັບມະນຸດ ແບບແຜ່ກະຈາຍ ການຝຶກອົບຮົມແບບຕໍ່ສູ້ ຕົວແປທໍາມະຊາດ ລະດັບຄວາມເຊື່ອຖືສູງ

ດີທີ່ສຸດ ສຳ ລັບ:: ສຽງສະສົມສຽງດຽວທີ່ມີຄຸນນະພາບຄືກັບສະຕູດິໂອ, ສຽງເວົ້າທີ່ຊ່ຽວຊານ

ພະຍາຍາມ StyleTTS 2

OpenVoice

Premium

OpenVoice ໂດຍ MyShell.ai ອະນຸຍາດໃຫ້ມີການຖ່າຍທອດສຽງທັນທີດ້ວຍການຄວບຄຸມ granular ຜ່ານຮູບແບບສຽງ, ອາລົມ, ສຽງ, ທ່າ, ພັກຜ່ອນ, ແລະ intonation. ມັນສາມາດຖ່າຍທອດສຽງຈາກຄລິບສຽງສັ້ນແລະສ້າງການເວົ້າໃນຫຼາຍພາສາໃນຂະນະທີ່ຮັກສາຕົວຕົນຂອງຜູ້ເວົ້າ. OpenVoice ຍັງເຮັດວຽກເປັນຕົວປ່ຽນສຽງ, ອະນຸຍາດໃຫ້ມີການປ່ຽນສຽງໃນເວລາຈິງ.

ຜູ້ພັດທະນາ::
MyShell.ai / MIT

ໃບອະນຸຍາດ::
MIT

ຄວາມໄວ:
Medium

ຄຸນນະພາບ::

ພາສາ:
en, zh, ja, ko, fr, de, es, it

VRAM:
4GB

ການກັ່ນຕອງສຽງ:
ແມ່ນ

ຄ່າໃຊ້ຈ່າຍຕໍ່ຕົວອັກສອນ 1K:
4x

ក្លូនທັນທີ ການປ່ຽນສຽງ ຄວບຄຸມອາລົມ ឧបករណ៍បញ្ជាការ accent ຫຼາຍພາສາ

ດີທີ່ສຸດ ສຳ ລັບ:: ການກັ່ນຕອງສຽງດ້ວຍການຄວບຄຸມແບບທີ່ລະອຽດອ່ອນ, ການປ່ຽນສຽງ

ພະຍາຍາມ OpenVoice

Qwen3 TTS

Standard

Qwen3-TTS ແມ່ນແບບຟອມການແປພາສາຂໍ້ຄວາມເປັນສຽງທີ່ມີຕົວປ່ຽນແປງ 1.7 ຕື້ຕົວຈາກທີມ Qwen ຂອງ Alibaba. ມັນສະຫນັບສະຫນູນສາມຮູບແບບ: ສຽງທີ່ຕັ້ງໄວ້ລ່ວງໜ້າດ້ວຍການຄວບຄຸມອາລົມ (9 ໄມໂຄໂຟນ), ການກັ່ນຕອງສຽງຈາກສຽງພຽງ3ວິນາທີ, ແລະຮູບແບບການອອກແບບສຽງທີ່ເປັນເອກະລັກເຊິ່ງທ່ານອະທິບາຍສຽງທີ່ທ່ານຕ້ອງການໃນພາສາທໍາມະຊາດ. ມັນປົກຄຸມພາສາ 10 ພາສາທີ່ມີການສະແດງອອກສູງແລະສຽງທໍາມະຊາດ.

ຜູ້ພັດທະນາ::
Alibaba (Qwen)

ໃບອະນຸຍາດ::
Apache 2.0

ຄວາມໄວ:
Medium

ຄຸນນະພາບ::

ພາສາ:
en, zh, ja, ko, de, fr, ru, pt, es, it

VRAM:
7GB

ການກັ່ນຕອງສຽງ:
ແມ່ນ

ຄ່າໃຊ້ຈ່າຍຕໍ່ຕົວອັກສອນ 1K:
2x

ການປິດສຽງ ສຽງທີ່ຕັ້ງໄວ້ລ່ວງໜ້າ 9 ການອອກແບບສຽງຈາກຂໍ້ຄວາມ ຄວບຄຸມອາລົມ ພາສາ

ດີທີ່ສຸດ ສຳ ລັບ:: ເນື້ອໃນຫຼາຍພາສາດ້ວຍການກັ່ນຕອງສຽງ ຫຼື ການອອກແບບສຽງຕາມໃຈເອງ

ພະຍາຍາມ Qwen3 TTS

Sesame CSM

Premium

Sesame CSM (Conversational Speech Model) ແມ່ນແບບ ຈຳ ລອງ 1 ພັນລ້ານປາຣາເມັດທີ່ອອກແບບໂດຍສະເພາະ ສຳ ລັບການສ້າງການສົນທະນາ. ມັນສ້າງແບບ ຈຳ ລອງແບບ ທຳ ມະຊາດຂອງການສົນທະນາຂອງມະນຸດລວມທັງການປ່ຽນເວລາ, ການຕອບໂຕ້ backchannel, ການຕອບໂຕ້ທາງອາລົມ, ແລະ ການໄຫຼຂອງການສົນທະນາ. CSM ສ້າງສຽງທີ່ຄ້າຍຄືກັບການສົນທະນາຂອງມະນຸດ ທຳ ມະຊາດແທນທີ່ຈະເປັນການເວົ້າ synthesized.

ຜູ້ພັດທະນາ::
Sesame

ໃບອະນຸຍາດ::
Apache 2.0

ຄວາມໄວ:
Slow

ຄຸນນະພາບ::

ພາສາ:
en

VRAM:
8GB

ການກັ່ນຕອງສຽງ:
ບໍ່ມີ

ຄ່າໃຊ້ຈ່າຍຕໍ່ຕົວອັກສອນ 1K:
4x

ສົນທະນາ ເວລາທໍາມະຊາດ ປ່ຽນກັນເຮັດ ຖອນຊ່ອງທາງ 1B ພາລາມິເຕີ

ດີທີ່ສຸດ ສຳ ລັບ:: ຕົວຊ່ວຍ AI, chatbots, កម្មវិធី AI ສົນທະນາ

ພະຍາຍາມ Sesame CSM

Chatterbox Turbo

Standard

Chatterbox Turbo ໂດຍ Resemble AI ແມ່ນການປັບປຸງຕົວກໍານົດການ 350M ເຖິງ Chatterbox, ສົ່ງເຖິງຄວາມໄວເວລາຈິງ 6x ດ້ວຍການຊັກຊ້າພາຍໃຕ້ 200ms. ມັນສະຫນັບສະຫນູນ tags paralinguistic ເຊັ່ນ [ຫົວຍິ້ມ], [ຫາຍໃຈ], ແລະ [ຫົວຍິ້ມ] ໂດຍກົງໃນຂໍ້ຄວາມ. ລວມມີ Perth watermarking ໃສ່ສຽງທີ່ຜະລິດທັງຫມົດສໍາລັບການຕິດຕາມ provenance.

ຜູ້ພັດທະນາ::
Resemble AI

ໃບອະນຸຍາດ::
MIT

ຄວາມໄວ:
Fast

ຄຸນນະພາບ::

ພາສາ:
en

VRAM:
2GB

ການກັ່ນຕອງສຽງ:
ແມ່ນ

ຄ່າໃຊ້ຈ່າຍຕໍ່ຕົວອັກສອນ 1K:
2x

ເວລາລໍຖ້າຕ່ຳກວ່າ 200ms ແທັກ Paralinguistic 6x ເວລາຈິງ ການປິດສຽງ ເຄື່ອງໝາຍນ້ຳ

ດີທີ່ສຸດ ສຳ ລັບ:: ຕົວແທນສຽງເວລາຈິງ, ເວົ້າທີ່ສະແດງອອກດ້ວຍສຽງທໍາມະຊາດ

ພະຍາຍາມ Chatterbox Turbo

Zonos

Standard

Zonos v0.1 ໂດຍ Zyphra ແມ່ນແບບ ຈຳ ລອງຕົວຊີ້ວັດ 1.6B ທີ່ມີການຄວບຄຸມອາລົມທີ່ລະອຽດອ່ອນດ້ວຍ sliders ສຳ ລັບຄວາມສຸກ, ຄວາມໂກດແຄ້ນ, ຄວາມເສົ້າສະຫລົດໃຈ, ຄວາມຢ້ານກົວແລະແປກໃຈ. ມັນສະ ເໜີ ທັງ Transformer ແລະ SSM (ແບບ ຈຳ ລອງພື້ນທີ່ລັດ) ແບບ ໃໝ່. ຝຶກອົບຮົມໃນ 200K + ຊົ່ວໂມງຂອງການເວົ້າຫຼາຍພາສາດ້ວຍການກັ່ນຕອງສຽງສິ້ນສຸດຈາກ 10-30 ວິນາທີຂອງສຽງອ້າງອີງ.

ຜູ້ພັດທະນາ::
Zyphra

ໃບອະນຸຍາດ::
Apache 2.0

ຄວາມໄວ:
Medium

ຄຸນນະພາບ::

ພາສາ:
en, ja, zh, fr, de

VRAM:
6GB

ການກັ່ນຕອງສຽງ:
ແມ່ນ

ຄ່າໃຊ້ຈ່າຍຕໍ່ຕົວອັກສອນ 1K:
2x

ຄວບຄຸມອາລົມ ການກັ່ນຕອງສຽງ ສະຖາປັດຕະຍະກໍາ SSM ຫຼາຍພາສາ ຄວບຄຸມລະດັບ/ອັດຕາ

ດີທີ່ສຸດ ສຳ ລັບ:: ເວົ້າແບບສະແດງອອກດ້ວຍການຄວບຄຸມອາລົມ, ຫ້ອງອອກແບບສຽງ

ພະຍາຍາມ Zonos

Dia 2

Standard

Dia2 ໂດຍ Nari Labs ແມ່ນການອັບເດດການຖ່າຍທອດຄັ້ງທຳອິດຂອງ Dia, ມີຢູ່ໃນ 1B ແລະ 2B. ມັນເລີ່ມສັງເຄາະສຽງຈາກໂຕເຄນບໍ່ຫຼາຍເທົ່າໃດຄັ້ງທຳອິດ, ເຮັດໃຫ້ມັນດີເລີດສຳລັບຕົວແທນສຽງເວລາຈິງ ແລະ ສາຍສົ່ງການເວົ້າໄປຫາການເວົ້າ. ສະໜັບສະໜູນການໂອ້ລົມຂອງຜູ້ເວົ້າຫຼາຍຄົນດ້ວຍ [S1]/[S2] tags ແລະ paralinguistic cues ເຊັ່ນ (laughs), (coughs).

ຜູ້ພັດທະນາ::
Nari Labs

ໃບອະນຸຍາດ::
Apache 2.0

ຄວາມໄວ:
Fast

ຄຸນນະພາບ::

ພາສາ:
en

VRAM:
4GB

ການກັ່ນຕອງສຽງ:
ບໍ່ມີ

ຄ່າໃຊ້ຈ່າຍຕໍ່ຕົວອັກສອນ 1K:
2x

ຜົນອອກມາຂອງການຖ່າຍທອດ ຫຼາຍໄມໂຄຣໂຟນ ເວລາລໍຖ້າຕ່ຳ ຄໍາແນະນໍາດ້ານພາສາ ເຖິງ2ນາທີ

ດີທີ່ສຸດ ສຳ ລັບ:: ຕົວແທນສຽງເວລາຈິງ, ສ້າງການສົນທະນາ, កម្មវិធីດາວໂຫລດ

ພະຍາຍາມ Dia 2

VoxCPM

Standard

VoxCPM 1.5 ໂດຍ OpenBMB ແມ່ນແບບ TTS ແບບ tokenizer- free ທີ່ເຮັດວຽກໃນພື້ນທີ່ທີ່ຕໍ່ເນື່ອງແທນທີ່ຈະເປັນ tokens ທີ່ບໍ່ລະອຽດ. ມັນຜະລິດສຽງ 44.1kHz ທີ່ມີຄຸນນະພາບສູງ, ສະໜັບສະໜູນການຖ່າຍທອດສຽງແບບ zero-shot ຈາກ 3-10 ວິນາທີ, ແລະຮັກສາຄວາມສອດຄ່ອງລະຫວ່າງຂໍ້ຄວາມ. ການຖ່າຍທອດພາສາຂ້າມພາສາຊ່ວຍໃຫ້ທ່ານສາມາດໃຊ້ສຽງພາສາອັງກິດເພື່ອເວົ້າພາສາຈີນແລະ vice versa.

ຜູ້ພັດທະນາ::
OpenBMB

ໃບອະນຸຍາດ::
Apache 2.0

ຄວາມໄວ:
Fast

ຄຸນນະພາບ::

ພາສາ:
en, zh

VRAM:
4GB

ການກັ່ນຕອງສຽງ:
ແມ່ນ

ຄ່າໃຊ້ຈ່າຍຕໍ່ຕົວອັກສອນ 1K:
2x

ສຽງ ບໍ່ມີ Tokenizer ການກັ່ນຕອງພາສາ ຮັບຮູ້ເນື້ອໃນ ການປັບແຕ່ງລະອຽດ LoRA

ດີທີ່ສຸດ ສຳ ລັບ:: ສຽງທີ່ມີຄວາມເຊື່ອຖືສູງ, ຫນັງສືສຽງ, ເນື້ອໃນແບບຟອມຍາວທີ່ມີສຽງທີ່ຄົບຖ້ວນ

ພະຍາຍາມ VoxCPM

OuteTTS

Free

OuteTTS ຂະຫຍາຍຕົວແບບພາສາໃຫຍ່ທີ່ມີຄວາມສາມາດໃນການແປພາສາໃນຂະນະດຽວກັນຮັກສາໂຄງສ້າງຕົ້ນສະບັບ. ມັນສະຫນັບສະຫນູນ backends ຫຼາຍຢ່າງລວມທັງ llama.cpp (CPU / GPU), Hugging Face Transformers, ExLlamaV2, VLLM, ແລະເຖິງແມ່ນວ່າການຄາດຄະເນຂອງຕົວທ່ອງເວັບຜ່ານ Transformers.js. ຄຸນສົມບັດການກັ່ນຕອງສຽງຜ່ານໂປຼໄຟລ໌ຜູ້ເວົ້າທີ່ເກັບໄວ້ເປັນ JSON.

ຜູ້ພັດທະນາ::
OuteAI

ໃບອະນຸຍາດ::
Apache 2.0

ຄວາມໄວ:
Fast

ຄຸນນະພາບ::

ພາສາ:
en

VRAM:
2GB

ການກັ່ນຕອງສຽງ:
ແມ່ນ

ຄ່າໃຊ້ຈ່າຍຕໍ່ຕົວອັກສອນ 1K:
ຟຣີ

ຜົນສະທ້ອນຂອງ CPU ການຄິດໄລ່ຕົວເລກຂອງຕົວທ່ອງເວັບ ການປິດສຽງ ພາກສ່ວນຫຼັງຫຼາຍຢ່າງ ແບບຟອມຜູ້ເວົ້າ

ດີທີ່ສຸດ ສຳ ລັບ:: ການຈັດຕັ້ງໃຊ້ Edge, TTS ທີ່ມີພື້ນຖານໃນຕົວທ່ອງເວັບ, ສະພາບແວດລ້ອມທີ່ມີຊັບພະຍາກອນຕ່ຳ

ພະຍາຍາມ OuteTTS

TADA

Standard

TADA (Text-Acoustic Dual Alignment) ໂດຍ Hume AI ແມ່ນແບບ TTS ແບບ ໃໝ່ ທີ່ ກຳ ຈັດການເບິ່ງເຫັນຜ່ານສະຖາປັດຕະຍະ ກຳ ແບບ ໃໝ່ ສອງຢ່າງທີ່ສ້າງຂຶ້ນໃນ Llama 3.2. ມີຢູ່ໃນ 1B (ພາສາອັງກິດ) ແລະ 3B (ພາສາຫຼາຍພາສາ), TADA ບັນລຸ RTF ຂອງ 0.09 - 5x ໄວກວ່າແບບ TTS ທີ່ມີພື້ນຖານ LLM. ມັນສະຫນັບສະຫນູນເຖິງ 700 ວິນາທີຂອງສະພາບແວດລ້ອມສຽງແລະຜະລິດການເວົ້າທີ່ສະແດງອອກດ້ວຍອາລົມທີ່ມີການເບິ່ງເຫັນສະເລ່ຍທີ່ສະເລ່ຍ.

ຜູ້ພັດທະນາ::
Hume AI

ໃບອະນຸຍາດ::
MIT

ຄວາມໄວ:
Fast

ຄຸນນະພາບ::

ພາສາ:
en

VRAM:
5GB

ການກັ່ນຕອງສຽງ:
ບໍ່ມີ

ຄ່າໃຊ້ຈ່າຍຕໍ່ຕົວອັກສອນ 1K:
2x

ບໍ່ມີການເບິ່ງເຫັນພາບທີ່ຜິດປົກກະຕິ 5x ໄວກວ່າ LLM TTS ສະແດງອາລົມ ບັນຍາກາດສຽງ ການຈັດລຽງສອງເທົ່າ

ດີທີ່ສຸດ ສຳ ລັບ:: ສຽງທີ່ມີຄຸນນະພາບສູງ, ສະແດງອາລົມ, ຜົນໄດ້ຮັບທີ່ໄວ

ພະຍາຍາມ TADA

VibeVoice

Standard

VibeVoice ໂດຍ Microsoft ມີສອງຕົວເລືອກ: ແບບ 1.5B ສຳ ລັບເນື້ອຫາແບບຍາວ (ເຖິງ 90 ນາທີ, 4ຜູ້ກ່າວ) ແລະແບບ Realtime 0.5B ສຳ ລັບການຖ່າຍທອດສົດດ້ວຍ ~ 200ms ສຽງລົບກວນຄັ້ງ ທຳ ອິດ. ຕົວເລືອກ 1.5B ດີເລີດໃນ podcasts ແລະ audiobooks ທີ່ມີສຽງທີ່ສອດຄ່ອງກັບຜູ້ເວົ້າໃນໄລຍະໄລຍະຍາວ. ຂໍ້ສັງເກດ: Microsoft ໄດ້ເອົາລະຫັດ TTS ອອກຈາກບ່ອນເກັບມ້ຽນແລະສ້າງສຽງລວມມີການຍົກເວັ້ນຄວາມຮັບຜິດຊອບຂອງ AI ທີ່ສາມາດຟັງໄດ້.

ຜູ້ພັດທະນາ::
Microsoft

ໃບອະນຸຍາດ::
MIT

ຄວາມໄວ:
Fast

ຄຸນນະພາບ::

ພາສາ:
en, zh

VRAM:
4GB

ການກັ່ນຕອງສຽງ:
ບໍ່ມີ

ຄ່າໃຊ້ຈ່າຍຕໍ່ຕົວອັກສອນ 1K:
2x

ຫຼາຍໄມໂຄຣໂຟນ ເຖິງ 90 ນາທີ ສ້າງ Podcast ສຽງທີ່ຄົບຖ້ວນ 200ms ສົ່ງຕໍ່

ດີທີ່ສຸດ ສຳ ລັບ:: ເພງໂປດ, ເພງໃນປຶ້ມ, ເນື້ອໃນແບບຟອມຍາວຫຼາຍໂຕ

ພະຍາຍາມ VibeVoice

Pocket TTS

Free

Pocket TTS ໂດຍ Kyutai (ຜູ້ສ້າງ Moshi) ແມ່ນແບບຟອມການແປພາສາຂໍ້ຄວາມເປັນສຽງທີ່ມີຂະໜາດນ້ອຍ 100M ທີ່ມີນໍ້າໜັກເບົາກວ່າ. ມັນສາມາດໃຊ້ງານໄດ້ຢ່າງມີປະສິດຕິພາບໃນ CPU, ສະຫນັບສະຫນູນການກັ່ນຕອງສຽງແບບ zero-shot ຈາກຕົວຢ່າງສຽງດຽວ, ແລະຜະລິດສຽງເວົ້າທີ່ຟັງຄືກັບທໍາມະຊາດ. ຂະໜາດຂອງແບບຟອມທີ່ນ້ອຍເຮັດໃຫ້ມັນ ເໝາະ ສົມກັບການຕິດຕັ້ງດ້ານນອກແລະສະພາບແວດລ້ອມທີ່ມີຊັບພະຍາກອນຕ່ໍາ.

ຜູ້ພັດທະນາ::
Kyutai

ໃບອະນຸຍາດ::
MIT

ຄວາມໄວ:
Fast

ຄຸນນະພາບ::

ພາສາ:
en, fr

VRAM:
1GB

ການກັ່ນຕອງສຽງ:
ແມ່ນ

ຄ່າໃຊ້ຈ່າຍຕໍ່ຕົວອັກສອນ 1K:
ຟຣີ

100M ປາຣາມເຕີ ຜົນສະທ້ອນຂອງ CPU ການປິດສຽງ ແບບຟອມແບບດຽວ ເຕັມແລ້ວ

ດີທີ່ສຸດ ສຳ ລັບ:: ການຈັດຕັ້ງໃຊ້ເບົາ, ສະພາບແວດລ້ອມ CPU-only, ການກັ່ນຕອງສຽງຢ່າງໄວ

ພະຍາຍາມ Pocket TTS

Kitten TTS

Free

Kitten TTS by KittenML is an ultra-lightweight text-to-speech model built on ONNX. With variants from 15M to 80M parameters (25-80 MB on disk), it delivers high-quality voice synthesis on CPU without requiring a GPU. Features 8 built-in voices, adjustable speech speed, and built-in text preprocessing for numbers, currencies, and units. Ideal for edge deployment and low-latency applications.

ຜູ້ພັດທະນາ::
KittenML

ໃບອະນຸຍາດ::
Apache 2.0

ຄວາມໄວ:
Fast

ຄຸນນະພາບ::

ພາສາ:
en

VRAM:
0GB

ການກັ່ນຕອງສຽງ:
ບໍ່ມີ

ຄ່າໃຊ້ຈ່າຍຕໍ່ຕົວອັກສອນ 1K:
ຟຣີ

CPU-only inference Under 80MB model size 8 built-in voices Speed control ONNX-based 24kHz output

ດີທີ່ສຸດ ສຳ ລັບ:: Fast lightweight TTS, edge deployment, low-latency applications

ພະຍາຍາມ Kitten TTS

CosyVoice3

Standard

CosyVoice3 is the latest evolution from Alibaba's FunAudioLLM team. It features bi-streaming inference with ~150ms latency, instruction-based control for emotion/speed/volume, and improved speaker similarity for zero-shot cloning. Supports 9 languages plus 18 Chinese dialects. RL-tuned variant delivers state-of-the-art prosody.

ຜູ້ພັດທະນາ::
Alibaba (FunAudioLLM)

ໃບອະນຸຍາດ::
Apache 2.0

ຄວາມໄວ:
Fast

ຄຸນນະພາບ::

ພາສາ:
en, zh, ja, ko, de, es, fr, it, ru

VRAM:
4GB

ການກັ່ນຕອງສຽງ:
ແມ່ນ

ຄ່າໃຊ້ຈ່າຍຕໍ່ຕົວອັກສອນ 1K:
2x

Bi-streaming Emotion control Voice cloning Speed/volume control Instruction following

ດີທີ່ສຸດ ສຳ ລັບ:: Multilingual production TTS, real-time applications, voice cloning

ພະຍາຍາມ CosyVoice3

MOSS-TTS

Premium

MOSS-TTS from OpenMOSS supports generation of up to 1 hour of continuous speech across 20 languages. Features token-level duration control, phoneme-level pronunciation control via IPA/Pinyin, and code-switching between languages. The 8B production model delivers state-of-the-art quality with zero-shot voice cloning from reference audio.

ຜູ້ພັດທະນາ::
OpenMOSS

ໃບອະນຸຍາດ::
Apache 2.0

ຄວາມໄວ:
Medium

ຄຸນນະພາບ::

ພາສາ:
en, zh, de, es, fr, ja, it, hu, ko, ru, fa, ar, pl, pt, cs, da, sv, el, tr

VRAM:
16GB

ການກັ່ນຕອງສຽງ:
ແມ່ນ

ຄ່າໃຊ້ຈ່າຍຕໍ່ຕົວອັກສອນ 1K:
4x

Ultra-long generation 20 languages Voice cloning Duration control Pronunciation control Code-switching

ດີທີ່ສຸດ ສຳ ລັບ:: Audiobooks, long-form content, multilingual production

ພະຍາຍາມ MOSS-TTS

MegaTTS3

Premium

MegaTTS3 from ByteDance uses a novel sparse alignment mechanism combined with a latent diffusion transformer. Features adjustable trade-off between speech intelligibility and speaker similarity for zero-shot voice cloning.

ຜູ້ພັດທະນາ::
ByteDance

ໃບອະນຸຍາດ::
Apache 2.0

ຄວາມໄວ:
Slow

ຄຸນນະພາບ::

ພາສາ:
en, zh

VRAM:
8GB

ການກັ່ນຕອງສຽງ:
ແມ່ນ

ຄ່າໃຊ້ຈ່າຍຕໍ່ຕົວອັກສອນ 1K:
4x

Voice cloning Adjustable similarity Cross-lingual

ດີທີ່ສຸດ ສຳ ລັບ:: High-fidelity voice cloning

ພະຍາຍາມ MegaTTS3

Kokoro

ຟຣີ

Kokoro is an 82 million parameter text-to-speech model that punches well above its weight class. Despite its tiny size, it produces remarkably natural and expressive speech. Kokoro supports multiple languages including English, Japanese, Chinese, and Korean with a variety of expressive voices. It runs incredibly fast — generating audio nearly 100x faster than real-time on a GPU.

ຜູ້ພັດທະນາ::
Hexgrad

ໃບອະນຸຍາດ::
Apache 2.0

ຄວາມໄວ:
Fast

ຄຸນນະພາບ::

ພາສາ: en, ja, zh, ko, fr, de, it, pt, es, hi, ru

ດີທີ່ສຸດ ສຳ ລັບ:: High-quality TTS with minimal latency, streaming applications

ທົດລອງຟຣີ

Piper

ຟຣີ

Piper is a lightweight text-to-speech engine developed by Rhasspy that uses VITS and larynx architectures. It runs entirely on CPU, making it ideal for edge devices, home automation, and applications requiring offline TTS. With over 100 voices across 30+ languages, Piper delivers natural-sounding speech at real-time speeds even on a Raspberry Pi 4.

ຜູ້ພັດທະນາ::
Rhasspy

ໃບອະນຸຍາດ::
MIT

ຄວາມໄວ:
Fast

ຄຸນນະພາບ::

ພາສາ: en, de, fr, es, it, pt, nl, pl, ru, zh, ja, ko, ar, cs, da, fi, el, hu, is, ka, kk, ne, no, ro, sk, sr, sv, sw, tr, uk, vi

ດີທີ່ສຸດ ສຳ ລັບ:: Quick previews, accessibility, and embedded applications

ທົດລອງຟຣີ

VITS

ຟຣີ

VITS (Variational Inference with adversarial learning for end-to-end Text-to-Speech) is a parallel end-to-end TTS method that generates more natural sounding audio than current two-stage models. It adopts variational inference augmented with normalizing flows and an adversarial training process, achieving a significant improvement in naturalness.

ຜູ້ພັດທະນາ::
Jaehyeon Kim et al.

ໃບອະນຸຍາດ::
MIT

ຄວາມໄວ:
Fast

ຄຸນນະພາບ::

ພາສາ: en, zh, ja, ko

ດີທີ່ສຸດ ສຳ ລັບ:: General-purpose text-to-speech with natural prosody

ທົດລອງຟຣີ

MeloTTS

ຟຣີ

MeloTTS by MyShell.ai is a multilingual TTS library supporting English (American, British, Indian, Australian), Spanish, French, Chinese, Japanese, and Korean. It is extremely fast, processing text at near real-time speed on CPU alone. MeloTTS is designed for production use and supports both CPU and GPU inference.

ຜູ້ພັດທະນາ::
MyShell.ai

ໃບອະນຸຍາດ::
MIT

ຄວາມໄວ:
Fast

ຄຸນນະພາບ::

ພາສາ: en, es, fr, zh, ja, ko

ດີທີ່ສຸດ ສຳ ລັບ:: Production applications needing fast, multilingual TTS

ທົດລອງຟຣີ

OuteTTS

ຟຣີ

OuteTTS extends large language models with text-to-speech capabilities while preserving the original architecture. It supports multiple backends including llama.cpp (CPU/GPU), Hugging Face Transformers, ExLlamaV2, VLLM, and even browser inference via Transformers.js. Features zero-shot voice cloning through speaker profiles saved as JSON.

ຜູ້ພັດທະນາ::
OuteAI

ໃບອະນຸຍາດ::
Apache 2.0

ຄວາມໄວ:
Fast

ຄຸນນະພາບ::

ພາສາ: en

ດີທີ່ສຸດ ສຳ ລັບ:: Edge deployment, browser-based TTS, low-resource environments

ທົດລອງຟຣີ

Pocket TTS

ຟຣີ

Pocket TTS by Kyutai (creators of Moshi) is a compact 100M parameter text-to-speech model that punches well above its weight. It runs efficiently on CPU, supports zero-shot voice cloning from a single audio sample, and produces natural-sounding speech. The small model size makes it ideal for edge deployment and low-resource environments.

ຜູ້ພັດທະນາ::
Kyutai

ໃບອະນຸຍາດ::
MIT

ຄວາມໄວ:
Fast

ຄຸນນະພາບ::

ພາສາ: en, fr

ມາດຕະຖານ

ຜູ້ພັດທະນາ::
Alibaba (FunAudioLLM)

ໃບອະນຸຍາດ::
Apache 2.0

ຄວາມໄວ:
Fast

ຄຸນນະພາບ::

ພາສາ:
en, zh, ja, ko, de, es, fr, it, ru

ການກັ່ນຕອງສຽງ:
ແມ່ນ

Bi-streamingEmotion controlVoice cloningSpeed/volume controlInstruction following

ດີທີ່ສຸດ ສຳ ລັບ:: Multilingual production TTS, real-time applications, voice cloning

ພະຍາຍາມ CosyVoice3

Chatterbox

ລາຄາຖືກ

Chatterbox by Resemble AI is a cutting-edge zero-shot voice cloning model. It can replicate any voice from a single audio sample with remarkable accuracy, capturing not just the timbre but also the speaking style and emotional nuances. Chatterbox also features fine-grained emotion control, allowing you to adjust the emotional tone of the generated speech independently from the voice identity.

ຜູ້ພັດທະນາ::
Resemble AI

ໃບອະນຸຍາດ::
MIT

ຄວາມໄວ:
Medium

ຄຸນນະພາບ::

ພາສາ:
en

ການກັ່ນຕອງສຽງ:
ແມ່ນ

VRAM:
4GB

ຄ່າໃຊ້ຈ່າຍຕໍ່ຕົວອັກສອນ 1K:
4x

Zero-shot cloningEmotion controlHigh fidelityStyle transferSingle sample cloning

ດີທີ່ສຸດ ສຳ ລັບ:: Professional voice cloning with emotional control, content creation

ພະຍາຍາມ Chatterbox

Tortoise TTS

ລາຄາຖືກ

Tortoise TTS is an autoregressive multi-voice text-to-speech system that prioritizes audio quality over speed. It uses DALL-E-inspired architecture to generate highly natural speech with excellent prosody and speaker similarity. While slower than many alternatives, Tortoise produces some of the most realistic synthetic speech available in the open-source ecosystem.

ຜູ້ພັດທະນາ::
James Betker

ໃບອະນຸຍາດ::
Apache 2.0

ຄວາມໄວ:
Slow

ຄຸນນະພາບ::

ພາສາ:
en

ການກັ່ນຕອງສຽງ:
ແມ່ນ

VRAM:
8GB

ຄ່າໃຊ້ຈ່າຍຕໍ່ຕົວອັກສອນ 1K:
4x

Highest qualityMulti-voiceDALL-E architectureVoice cloningAutoregressive

ດີທີ່ສຸດ ສຳ ລັບ:: Audiobooks, premium content, quality-first applications

ພະຍາຍາມ Tortoise TTS

StyleTTS 2

ລາຄາຖືກ

StyleTTS 2 achieves human-level TTS synthesis by combining style diffusion with adversarial training using large speech language models. It generates the most natural sounding speech among single-speaker models, rivaling human recordings. StyleTTS 2 uses diffusion-based style modeling to capture the full range of human speech variation.

ຜູ້ພັດທະນາ::
Columbia University

ໃບອະນຸຍາດ::
MIT

ຄວາມໄວ:
Medium

ຄຸນນະພາບ::

ພາສາ:
en

ການກັ່ນຕອງສຽງ:
ບໍ່ມີ

VRAM:
4GB

ຄ່າໃຊ້ຈ່າຍຕໍ່ຕົວອັກສອນ 1K:
4x

Human-levelStyle diffusionAdversarial trainingNatural variationHigh fidelity

ດີທີ່ສຸດ ສຳ ລັບ:: Studio-quality single-speaker synthesis, professional narration

ພະຍາຍາມ StyleTTS 2

OpenVoice

ລາຄາຖືກ

ຜູ້ພັດທະນາ::
MyShell.ai / MIT

ໃບອະນຸຍາດ::
MIT

ຄວາມໄວ:
Medium

ຄຸນນະພາບ::

ພາສາ:
en, zh, ja, ko, fr, de, es, it

ການກັ່ນຕອງສຽງ:
ແມ່ນ

VRAM:
4GB

ຄ່າໃຊ້ຈ່າຍຕໍ່ຕົວອັກສອນ 1K:
4x

Instant cloningVoice conversionEmotion controlAccent controlMultilingual

ດີທີ່ສຸດ ສຳ ລັບ:: Voice cloning with fine-grained style control, voice conversion

ພະຍາຍາມ OpenVoice

Sesame CSM

ລາຄາຖືກ

Sesame CSM (Conversational Speech Model) is a 1 billion parameter model designed specifically for generating conversational speech. It models the natural patterns of human conversation including turn-taking timing, backchannel responses, emotional reactions, and conversational flow. CSM generates audio that sounds like a natural human conversation rather than synthetic speech.

ຜູ້ພັດທະນາ::
Sesame

ໃບອະນຸຍາດ::
Apache 2.0

ຄວາມໄວ:
Slow

ຄຸນນະພາບ::

ພາສາ:
en

ການກັ່ນຕອງສຽງ:
ບໍ່ມີ

VRAM:
8GB

ຄ່າໃຊ້ຈ່າຍຕໍ່ຕົວອັກສອນ 1K:
4x

ConversationalNatural timingTurn-takingBackchannel1B parameters

ດີທີ່ສຸດ ສຳ ລັບ:: AI assistants, chatbots, conversational AI applications

ພະຍາຍາມ Sesame CSM

MOSS-TTS

ລາຄາຖືກ

ຜູ້ພັດທະນາ::
OpenMOSS

ໃບອະນຸຍາດ::
Apache 2.0

ຄວາມໄວ:
Medium

ຄຸນນະພາບ::

ພາສາ:
en, zh, de, es, fr, ja, it, hu, ko, ru, fa, ar, pl, pt, cs, da, sv, el, tr

ການກັ່ນຕອງສຽງ:
ແມ່ນ

VRAM:
16GB

ຄ່າໃຊ້ຈ່າຍຕໍ່ຕົວອັກສອນ 1K:
4x

Ultra-long generation20 languagesVoice cloningDuration controlPronunciation controlCode-switching

ດີທີ່ສຸດ ສຳ ລັບ:: Audiobooks, long-form content, multilingual production

ພະຍາຍາມ MOSS-TTS

MegaTTS3

ລາຄາຖືກ

ຜູ້ພັດທະນາ::
ByteDance

ໃບອະນຸຍາດ::
Apache 2.0

ຄວາມໄວ:
Slow

ຄຸນນະພາບ::

ພາສາ:
en, zh

ການກັ່ນຕອງສຽງ:
ແມ່ນ

VRAM:
8GB

ຄ່າໃຊ້ຈ່າຍຕໍ່ຕົວອັກສອນ 1K:
4x

Voice cloningAdjustable similarityCross-lingual

ດີທີ່ສຸດ ສຳ ລັບ:: High-fidelity voice cloning

ພະຍາຍາມ MegaTTS3

ຕາຕະລາງການປຽບທຽບແບບ

ແບບ	ຜູ້ພັດທະນາ:	ສັດ	ຄວາມໄວ	ພາສາ	VRAM	ໃບອະນຸຍາດ:	ຄ່າໃຊ້ຈ່າຍ
Kokoro	Hexgrad	Free	Fast	11	1.5GB	Apache 2.0	ຟຣີ	ប្រើ
Piper	Rhasspy	Free	Fast	31	0 (CPU only)	MIT	ຟຣີ	ប្រើ
VITS	Jaehyeon Kim et al.	Free	Fast	4	1GB	MIT	ຟຣີ	ប្រើ
MeloTTS	MyShell.ai	Free	Fast	6	0.5GB (GPU optional)	MIT	ຟຣີ	ប្រើ
Bark	Suno	Standard	Slow	13	5GB	MIT	2	ប្រើ
Bark Small	Suno	Standard	Medium	13	2GB	MIT	2	ប្រើ
CosyVoice 2	Alibaba (Tongyi Lab)	Standard	Medium	8	4GB	Apache 2.0	2	ប្រើ
Dia TTS	Nari Labs	Standard	Medium	1	4GB	Apache 2.0	2	ប្រើ
Parler TTS	Hugging Face	Standard	Medium	1	4GB	Apache 2.0	2	ប្រើ
GLM-TTS	Zhipu AI	Standard	Medium	2	4GB	GLM-4 License	2	ប្រើ
IndexTTS-2	Index Team	Standard	Medium	2	4GB	Bilibili Model License	2	ប្រើ
Spark TTS	SparkAudio	Standard	Medium	2	4GB	CC BY-NC-SA 4.0	2	ប្រើ
GPT-SoVITS	RVC-Boss	Standard	Slow	4	6GB	MIT	2	ប្រើ
Orpheus	Canopy Labs	Standard	Medium	1	4GB	Llama 3.2 Community	2	ប្រើ
Chatterbox	Resemble AI	Premium	Medium	1	4GB	MIT	4	ប្រើ
Tortoise TTS	James Betker	Premium	Slow	1	8GB	Apache 2.0	4	ប្រើ
StyleTTS 2	Columbia University	Premium	Medium	1	4GB	MIT	4	ប្រើ
OpenVoice	MyShell.ai / MIT	Premium	Medium	8	4GB	MIT	4	ប្រើ
Qwen3 TTS	Alibaba (Qwen)	Standard	Medium	10	7GB	Apache 2.0	2	ប្រើ
Sesame CSM	Sesame	Premium	Slow	1	8GB	Apache 2.0	4	ប្រើ
Chatterbox Turbo	Resemble AI	Standard	Fast	1	2GB	MIT	2	ប្រើ
Zonos	Zyphra	Standard	Medium	5	6GB	Apache 2.0	2	ប្រើ
Dia 2	Nari Labs	Standard	Fast	1	4GB	Apache 2.0	2	ប្រើ
VoxCPM	OpenBMB	Standard	Fast	2	4GB	Apache 2.0	2	ប្រើ
OuteTTS	OuteAI	Free	Fast	1	2GB	Apache 2.0	ຟຣີ	ប្រើ
TADA	Hume AI	Standard	Fast	1	5GB	MIT	2	ប្រើ
VibeVoice	Microsoft	Standard	Fast	2	4GB	MIT	2	ប្រើ
Pocket TTS	Kyutai	Free	Fast	2	1GB	MIT	ຟຣີ	ប្រើ
Kitten TTS	KittenML	Free	Fast	1	0GB	Apache 2.0	ຟຣີ	ប្រើ
CosyVoice3	Alibaba (FunAudioLLM)	Standard	Fast	9	4GB	Apache 2.0	2	ប្រើ
MOSS-TTS	OpenMOSS	Premium	Medium	19	16GB	Apache 2.0	4	ប្រើ
MegaTTS3	ByteDance	Premium	Slow	2	8GB	Apache 2.0	4	ប្រើ

ເວທີ AI ຂໍ້ຄວາມເປັນຄຳເວົ້າທີ່ກວ້າງຂວາງທີ່ສຸດ

ເຮັດຫຍັງຈິ່ງເລືອກ TTS.ai ສຳ ລັບຂໍ້ຄວາມເປັນຄຳເວົ້າ?

TTS.ai ນໍາເອົາແບບຈໍາລອງຂໍ້ຄວາມ-ເປັນ-ຄໍາເວົ້າທີ່ເປີດແຫຼ່ງທີ່ດີທີ່ສຸດໃນໂລກມາລວມກັນໃນເວທີດຽວ, ງ່າຍຕໍ່ການໃຊ້ງານ. ບໍ່ຄືກັບການບໍລິການທີ່ເປັນເຈົ້າຂອງທີ່ກັກທ່ານໄວ້ໃນເຄື່ອງຈັກສຽງດຽວ, TTS.ai ຊ່ວຍໃຫ້ທ່ານສາມາດເຂົ້າເຖິງແບບຈໍາລອງ 20+ ຈາກຫ້ອງທົດລອງຄົ້ນຄວ້າທີ່ນໍາໜ້າລວມທັງ Coqui, MyShell, Amphion, NVIDIA, Suno, HuggingFace, Tsinghua University ແລະອື່ນໆ.

ທຸກໆແບບແມ່ນ Open Source ຕາມ MIT, Apache 2.0, ຫຼື ໃບອະນຸຍາດທີ່ອະນຸຍາດໃຫ້ຄ້າຍຄືກັນ, ຮັບປະກັນວ່າທ່ານມີສິດການຄ້າເຕັມທີ່ເພື່ອໃຊ້ສຽງທີ່ຜະລິດໃນໂຄງການຂອງທ່ານ. ບໍ່ວ່າທ່ານຈະຕ້ອງການການສັງເຄາະທີ່ໄວ, ເບົາ ສຳ ລັບແອັບພລິເຄຊັນເວລາຈິງຫຼືຜົນຜະລິດທີ່ມີຄຸນນະພາບສູງ ສຳ ລັບປື້ມສຽງແລະ podcasts, TTS.ai ມີແບບທີ່ຖືກຕ້ອງ ສຳ ລັບທຸກໆກໍລະນີໃຊ້.

ແບບຟອມຟຣີ, ບໍ່ມີບັນຊີທີ່ຕ້ອງການ

ເລີ່ມຕົ້ນທັນທີກັບສາມແບບຟອມ TTS ຟຣີ: Piper (ໄວ, ນ້ໍາຫນັກເບົາ), VITS (ການສັງເຄາະລະບົບປະສາດທີ່ມີຄຸນນະພາບສູງ), ແລະ MeloTTS (ການສະຫນັບສະຫນູນຫຼາຍພາສາ). ບໍ່ມີການລົງທະບຽນ, ບໍ່ມີບັດເຄຣດິດ, ບໍ່ມີຂໍ້ຈໍາກັດກ່ຽວກັບລຸ້ນ. ແບບຟອມຟຣີສະຫນັບສະຫນູນພາສາອັງກິດແລະຫຼາຍພາສາອື່ນໆທີ່ມີຜົນຜະລິດສຽງທໍາມະຊາດທີ່ເຫມາະສົມສໍາລັບຄໍາຮ້ອງສະຫມັກສ່ວນຫຼາຍ.

ການປະມວນຜົນທີ່ໃຊ້ຄວາມໄວ GPU

ແບບ TTS ທັງໝົດແມ່ນໃຊ້ GPU NVIDIA ທີ່ມີປະສິດທິພາບສູງ ເພື່ອຜະລິດສຽງໄດ້ໄວ ແລະ ຖືກຕ້ອງ. ແບບຟອມຟຣີ ປົກກະຕິແລ້ວຈະຜະລິດສຽງໄດ້ໃນ2ວິນາທີ. ແບບຟອມມາດຕະຖານເຊັ່ນ Kokoro, CosyVoice 2, ແລະ Bark ໃຊ້ເວລາປະມານ 3-5 ວິນາທີ. ແບບຟອມທີ່ລາຄາຖືກກວ່າ ທີ່ມີຄຸນນະພາບສູງທີ່ສຸດ ເຊັ່ນ Tortoise ແລະ Chatterbox ໃຊ້ເວລາ 5-15 ວິນາທີ ຂຶ້ນກັບຄວາມຍາວຂອງຂໍ້ຄວາມ.

ສະຫນັບສະຫນູນ 30+ ພາສາ

ສ້າງການເວົ້າໃນພາສາຫຼາຍກວ່າ 30 ພາສາລວມທັງພາສາອັງກິດ, ສະເປນ, ຝຣັ່ງ, ເຢຍລະມັນ, ອີຕາລີ, ໂປຕຸເກດ, ຈີນ, ຍີ່ປຸ່ນ, ເກົາຫຼີ, ອາຣັບ, ອິນເດຍ, ຣັດເຊຍ, ແລະຫຼາຍຢ່າງ. ແບບ ຈຳ ນວນ ໜຶ່ງ ສະຫນັບສະຫນູນການເຊື່ອມໂຍງພາສາ, ຫມາຍຄວາມວ່າທ່ານສາມາດສ້າງການເວົ້າໃນພາສາທີ່ສຽງຕົ້ນສະບັບບໍ່ເຄີຍໄດ້ຮັບການຝຶກອົບຮົມ. CosyVoice 2ແລະ GPT-SoVITS ດີເລີດໃນການກັ່ນຕອງສຽງພາສາ.

ເປີດການພັດທະນາ

ລວມເອົາ TTS.ai ເຂົ້າໃນແອັບ your ຂອງທ່ານດ້ວຍ OpenAI-compatible REST API ຂອງພວກເຮົາ. ຈຸດສຸດທ້າຍ ໜຶ່ງ ສຳ ລັບທຸກໆແບບ 20 +. Python, JavaScript, cURL, ແລະ Go SDKs. ການສະຫນັບສະຫນູນການຖ່າຍທອດສົດ ສຳ ລັບແອັບພລິເຄຊັນເວລາຈິງ. ການປຸງແຕ່ງແບດເຕີລີ່ ສຳ ລັບການສ້າງເນື້ອຫາຂະ ໜາດ ໃຫຍ່. Webhooks ສຳ ລັບແຈ້ງການ async. ມີຢູ່ໃນແຜນ Pro ແລະ Enterprise.

ຄໍາຖາມທີ່ຖາມເລື້ອຍໆ

Text to Speech (TTS) ແມ່ນເຕັກໂນໂລຊີ AI ທີ່ປ່ຽນຂໍ້ຄວາມທີ່ຂຽນມາເປັນສຽງເວົ້າທີ່ມີສຽງທໍາມະຊາດ. ແບບຈໍາລອງ TTS ແບບດັ້ງເດີມເຊັ່ນ Kokoro, Chatterbox, ແລະ CosyVoice 2ໃຊ້ການຮຽນຮູ້ເລິກເຊິ່ງເພື່ອຜະລິດຄໍາເວົ້າທີ່ມີສຽງທີ່ໂດດເດັ່ນຂອງມະນຸດ, ດ້ວຍການເວົ້າແບບທໍາມະຊາດ, ຄວາມຮູ້ສຶກແລະຈັງຫວະ.

ມັນຂຶ້ນກັບຄວາມຕ້ອງການຂອງທ່ານ. ສຳ ລັບເບິ່ງກ່ອນໄວໆນີ້, ໃຊ້ Piper ຫຼື MeloTTS (ຟຣີ, ໄວ). ສຳ ລັບຄຸນນະພາບສູງ, ພະຍາຍາມ Kokoro ຫຼື CosyVoice 2(ມາດຕະຖານ). ສຳ ລັບການກັ່ນຕອງສຽງ, ໃຊ້ Chatterbox ຫຼື GPT-SoVITS (ປະຢັດ). ສຳ ລັບເນື້ອຫາຂອງຂໍ້ຄວາມ/ປັ໊ກກາສ, ພະຍາຍາມ Dia TTS. ແບບທຸກແບບມີຈຸດແຂງທີ່ແຕກຕ່າງກັນ - ທົດລອງເພື່ອຊອກຫາທີ່ ເໝາະ ສົມທີ່ສຸດ.

ແມ່ນແລ້ວ! TTS.ai ສະຫນອງການຟຣີຂໍ້ຄວາມ-ເພື່ອ-ການເວົ້າກັບ Kokoro, Piper, VITS, ແລະ MeloTTS ແບບ. ບໍ່ມີບັນຊີທີ່ຈໍາເປັນສໍາລັບເຖິງ 500 ຕົວອັກສອນແລະ3ລຸ້ນຕໍ່ຊົ່ວໂມງ. ລົງທະບຽນສໍາລັບບັນຊີຟຣີເພື່ອໄດ້ຮັບ 15 ສິນເຊື່ອແລະເຂົ້າເຖິງທຸກໆແບບ.

ແບບ TTS ຂອງພວກເຮົາລວມກັນສະຫນັບສະຫນູນ 30 + ພາສາລວມທັງພາສາອັງກິດ, ສະເປນ, ຝຣັ່ງ, ເຢຍລະມັນ, ຍິຕາລີ, ໂປຕຸເກດ, ຈີນ, ຍີ່ປຸ່ນ, ເກົາຫຼີ, ພາສາອາຣັບ, ລັດເຊຍ, ພາສາອິນເດຍ, ແລະຫຼາຍ. ພາສາທີ່ໃຊ້ໄດ້ແຕກຕ່າງກັນໂດຍແບບ.

ໂອ້, ສຽງທີ່ຜະລິດຜ່ານ TTS.ai ສາມາດໃຊ້ໄດ້ໃນທາງການຄ້າ. ແບບຂອງພວກເຮົາທັງ ໝົດ ໃຊ້ໃບອະນຸຍາດ Open Source (MIT, Apache 2. 0). ກວດເບິ່ງໃບອະນຸຍາດແບບແຕ່ລະອັນ ສຳ ລັບເງື່ອນໄຂສະເພາະ. ພວກເຮົາແນະ ນຳ ໃຫ້ກວດເບິ່ງໃບອະນຸຍາດຂອງແບບສະເພາະທີ່ທ່ານໃຊ້ ສຳ ລັບໂຄງການຂອງທ່ານ.

TTS.ai ສະຫນັບສະຫນູນ MP3, WAV, OGG, ແລະ FLAC ຮູບແບບຜົນອອກ. MP3 ແມ່ນປ້ອນຂໍ້ມູນແບບປ້ອນຂໍ້ມູນສໍາລັບການຫຼິ້ນເວບໄຊທ໌. WAV ແມ່ນແນະນໍາສໍາລັບການປຸງແຕ່ງສຽງເພີ່ມເຕີມ. ທ່ານສາມາດປ່ຽນລະຫວ່າງຮູບແບບໂດຍໃຊ້ເຄື່ອງມືການປ່ຽນສຽງຂອງພວກເຮົາ.

ການຖ່າຍທອດສຽງໃຊ້ AI ເພື່ອຖ່າຍທອດສຽງສະເພາະຈາກຕົວຢ່າງສຽງສັ້ນໆ (ປົກກະຕິແລ້ວ 5-30 ວິນາທີ). ອັບໂຫລດການບັນທຶກສຽງທີ່ຊັດເຈນຂອງເປົ້າ ໝາຍ ແລະ ແບບ ຈຳ ລອງເຊັ່ນ Chatterbox, GPT-SoVITS, ຫຼື OpenVoice ຈະສ້າງການເວົ້າ ໃໝ່ ໃນສຽງນັ້ນ. ຄຸນະພາບໄດ້ປັບປຸງດ້ວຍສຽງທີ່ສະອາດແລະຍາວກວ່າ.

ຜູ້ໃຊ້ຟຣີສາມາດສ້າງໄດ້ເຖິງ 500 ຕົວອັກສອນຕໍ່ຄໍາຮ້ອງຂໍ. ຜູ້ໃຊ້ທີ່ລົງທະບຽນໄດ້ຮັບເຖິງ 5,000 ຕົວອັກສອນຕໍ່ຄໍາຮ້ອງຂໍ. ສຳ ລັບຂໍ້ຄວາມທີ່ຍາວກວ່າ, ສຽງຖືກສ້າງຂຶ້ນໃນຊິ້ນແລະຕິດກັນຢ່າງອັດຕະໂນມັດ. ຜູ້ໃຊ້ API ສາມາດປະມວນຜົນໄດ້ເຖິງ 10,000 ຕົວອັກສອນຕໍ່ຄໍາຮ້ອງຂໍ.

ການສະໜັບສະໜູນ SSML (ພາສາການສັງເຄາະການເວົ້າ) ແຕກຕ່າງກັນຕາມແບບ. Piper ແລະ ແບບອື່ນໆບາງຢ່າງສະໜັບສະໜູນແທັກ SSML ພື້ນຖານສຳລັບການຢຸດ, ການເນັ້ນ, ແລະ ການຄວບຄຸມການເວົ້າ. ສຳ ລັບແບບທີ່ບໍ່ມີການສະໜັບສະໜູນ SSML ແບບຕົ້ນຕໍ, ທ່ານສາມາດໃຊ້ການວາງຕົວໜັງສືແບບທຳມະຊາດ ແລະ ການຢຸດສາຍເພື່ອສົ່ງຜົນກະທົບຕໍ່ການເວົ້າໄດ້.

ແມ່ນແລ້ວ, ຕົວແບບສ່ວນໃຫຍ່ສະຫນັບສະຫນູນການປັບຄວາມໄວຈາກ 0.5x ເຖິງ 2.0x. ຕົວແບບບາງຢ່າງເຊັ່ນ Bark ແລະ Parler ຍັງອະນຸຍາດໃຫ້ການຄວບຄຸມ pitch ແລະ style. ທ່ານສາມາດຕັ້ງຄ່າຕົວກໍານົດການຄວາມໄວໃນແຜງການຕັ້ງຄ່າລະດັບສູງຫຼືຜ່ານຕົວກໍານົດການຄວາມໄວ API.

ແມ່ນແລ້ວ, ການປະມວນຜົນຫຼາຍຄັ້ງແມ່ນສາມາດເຮັດໄດ້ຜ່ານ API ຂອງພວກເຮົາ. ທ່ານສາມາດສົ່ງຂໍ້ຄວາມຫຼາຍສ່ວນໃນການໂທ API ດຽວ ຫຼື ສະຄິບ, ແລະ ແຕ່ລະອັນຈະຖືກປະມວນຜົນ ແລະ ສົ່ງຄືນເປັນໄຟລ໌ສຽງທີ່ແຕກຕ່າງກັນ. ນີ້ແມ່ນດີເລີດສຳລັບບົດຂອງປຶ້ມສຽງ, ໂມດູນການຮຽນຮູ້ທາງອີເລັກໂຕຣນິກ, ຫຼື ສະຄິບການສົນທະນາເກມ.

ສ້າງກຸນແຈ API ຈາກ dashboard ຂອງບັນຊີຂອງທ່ານ, ຫຼັງຈາກນັ້ນສົ່ງຄໍາຮ້ອງຂໍ POST ໄປທີ່ຈຸດສຸດທ້າຍຂອງ REST API ຂອງພວກເຮົາດ້ວຍຂໍ້ຄວາມ, ແບບ ຈຳ ລອງແລະບຣາມິເຕີສຽງຂອງທ່ານ. ພວກເຮົາສະ ໜອງ ຕົວຢ່າງຂອງໂປແກຼມໃນ Python, JavaScript ແລະ cURL. API ແມ່ນເຂົ້າກັນໄດ້ກັບ OpenAI, ສະນັ້ນການປະສົມປະສານທີ່ມີຢູ່ແລ້ວເຮັດວຽກກັບການປ່ຽນແປງຢ່າງ ໜ້ອຍ.

5.0/5 (2)

ເລີ່ມຕົ້ນການປ່ຽນຂໍ້ຄວາມເປັນການເວົ້າດຽວນີ້

ເຂົ້າຮ່ວມພັນໆຜູ້ສ້າງໂດຍໃຊ້ TTS.ai. ໄດ້ຮັບ 15,000 ຕົວອັກສອນຟຣີກັບບັນຊີໃຫມ່. ແບບຟອມຟຣີມີໃຫ້ໂດຍບໍ່ມີການລົງທະບຽນ.

ລົງທະບຽນຟຣີ ເບິ່ງລາຄາ

ແປ​ຂໍ້ຄວາມ​ເປັນ​ຄຳ​ເວົ້າName

ຮັກ TTS.ai? ເວົ້າກັບເພື່ອນຂອງທ່ານ!

ລາຍລະອຽດ​ແບບ

OpenVoice

ຂໍ້​ແນະນຳ​ສຳລັບ​ຜົນ​ທີ່​ດີ​ກວ່າ

ຄ່າ​ໃຊ້​ຈ່າຍ​ຂອງ​ສິນເຊື່ອ

ວິທີການ​ໃຊ້ AI Text to Speech

បញ្ចូល​ຂໍ້ຄວາມ​ຂອງ​ທ່ານ

ເລືອກ​ແບບ ແລະ ສຽງ

ສ້າງ ແລະ ດາວໂຫລດ

ຂໍ້ຄວາມ​ໄປ​ສູ່​ການ​ເວົ້າ

ອ່ານ​ປື້ມ​ສຽງ

ສຽງ​ວີດີໂອ

ផតខាស់

ເກມName

ການ​ຮຽນ​ຮູ້​ທາງ​ອີເລັກໂຕຣນິກ

ການ​ເຂົ້າ​ເຖິງ

ລະບົບ​ໂທລະສັບName

ສື່ສັງຄົມ

ການ​ຖ່າຍ​ທອດ

ຕະຫຼາດ

ການ​ດັດ​ແປງ​ສຽງ ແລະ ການ​ຕັ້ງ​ຕົວ​ເມືອງ

ສຸຂະອະນາໄມ

ແບບ​ແບບ​ຂໍ້ຄວາມ​ເປັນ​ການ​ເວົ້າ​ທັງ​ໝົດ

Kokoro

Piper

VITS

MeloTTS

Bark

Bark Small

CosyVoice 2

Dia TTS

Parler TTS

GLM-TTS

IndexTTS-2

Spark TTS

GPT-SoVITS

Orpheus

Chatterbox

Tortoise TTS

StyleTTS 2

OpenVoice

Qwen3 TTS

Sesame CSM

Chatterbox Turbo

Zonos

Dia 2

VoxCPM

OuteTTS

TADA

VibeVoice

Pocket TTS

Kitten TTS

CosyVoice3

MOSS-TTS

MegaTTS3

Kokoro

Piper

VITS

MeloTTS

OuteTTS

Pocket TTS

Kitten TTS

Bark

Bark Small

CosyVoice 2

Dia TTS

Parler TTS

GLM-TTS

IndexTTS-2

Spark TTS

GPT-SoVITS

Orpheus

Qwen3 TTS

Chatterbox Turbo

Zonos

Dia 2

VoxCPM

TADA

VibeVoice

ແປຂໍ້ຄວາມເປັນຄຳເວົ້າName

ລາຍລະອຽດແບບ

ຂໍ້ແນະນຳສຳລັບຜົນທີ່ດີກວ່າ

ຄ່າໃຊ້ຈ່າຍຂອງສິນເຊື່ອ

ວິທີການໃຊ້ AI Text to Speech

បញ្ចូលຂໍ້ຄວາມຂອງທ່ານ

ເລືອກແບບ ແລະ ສຽງ

ຂໍ້ຄວາມໄປສູ່ການເວົ້າ

ອ່ານປື້ມສຽງ

ສຽງວີດີໂອ

ການຮຽນຮູ້ທາງອີເລັກໂຕຣນິກ

ການເຂົ້າເຖິງ

ລະບົບໂທລະສັບName

ການຖ່າຍທອດ

ການດັດແປງສຽງ ແລະ ການຕັ້ງຕົວເມືອງ

ແບບແບບຂໍ້ຄວາມເປັນການເວົ້າທັງໝົດ

ຕາຕະລາງການປຽບທຽບແບບ

ເວທີ AI ຂໍ້ຄວາມເປັນຄຳເວົ້າທີ່ກວ້າງຂວາງທີ່ສຸດ

ເຮັດຫຍັງຈິ່ງເລືອກ TTS.ai ສຳ ລັບຂໍ້ຄວາມເປັນຄຳເວົ້າ?

ການປະມວນຜົນທີ່ໃຊ້ຄວາມໄວ GPU

ເປີດການພັດທະນາ

ເລີ່ມຕົ້ນການປ່ຽນຂໍ້ຄວາມເປັນການເວົ້າດຽວນີ້