ແປຂໍ້ຄວາມເປັນຄຳເວົ້າName

ປ່ຽນຂໍ້ຄວາມເປັນສຽງເວົ້າທີ່ມີສຽງທໍາມະຊາດດ້ວຍແບບຟອມ AI ທີ່ມີແຫຼ່ງເປີດ. ໃຊ້ຟຣີ, ບໍ່ຕ້ອງການບັນຊີໃຊ້ງານໃດໆ.

ລົງທະບຽນຟຣີ

ພວກເຮົາຍັງບໍ່ມີສຽງ TTS ໃນພາສາຂອງທ່ານເທື່ອ. ຊ່ວຍພວກເຮົາເພີ່ມສຽງຂອງທ່ານ! ຂາຍສຽງຂອງທ່ານ

0/500 តួអក្សរ · ລົງທະບຽນສໍາລັບ 5,000 ຕໍ່ຄົນ →

ລົງທະບຽນ ຈໍາກັດຕົວອັກສອນໃຫ້ໄດ້ 5,000

របៀប SSML (ພາສາການສັງເຄາະການເວົ້າເພື່ອການຄວບຄຸມທີ່ດີ)

ວາງຂໍ້ຄວາມຂອງທ່ານໄວ້ໃນແທັກ SSML ເພື່ອຄວບຄຸມຢ່າງລະອຽດ:

<speak><prosody rate="slow">Slow speech</prosody></speak>

ແທັກອາລົມ/ ແບບ

ເພີ່ມຕົວຊີ້ວັດອາລົມເພື່ອສົ່ງຜົນກະທົບຕໍ່ການສົ່ງອອກ (ການສະໜັບສະໜູນແບບຟອມແຕກຕ່າງກັນ):

ພະຍາກອນການອອກສຽງ

ຕັ້ງຄ່າການອອກສຽງແບບສ່ວນຕົວ (ຄໍາ = ການອອກສຽງ):

ລະດັບສຽງ 0

-12 +12

ແບບ AI

ສຽງ

ພາສາ

ຮູບແບບຜົນອອກມາ

ໄວ 1.0x

0.5x 2.0x

ຟຣີກັບ Piper, VITS, MeloTTS

ສຽງທີ່ໄດ້ສ້າງຂຶ້ນຂອງທ່ານຈະປາກົດຢູ່ທີ່ນີ້. ເລືອກແບບ, ເຂົ້າເຖິງຂໍ້ຄວາມ ແລະ ຄລິກໃສ່ ສ້າງ.

ລາຍລະອຽດແບບ

Kitten TTS

Free

Kitten TTS by KittenML is an ultra-lightweight text-to-speech model built on ONNX. With variants from 15M to 80M parameters (25-80 MB on disk), it delivers high-quality voice synthesis on CPU without requiring a GPU. Features 8 built-in voices, adjustable speech speed, and built-in text preprocessing for numbers, currencies, and units. Ideal for edge deployment and low-latency applications.

ຜູ້ພັດທະນາ:	KittenML
ໃບອະນຸຍາດ:	Apache 2.0
ຄວາມໄວ	Fast
ຄຸນນະພາບ:
ພາສາ	1 ພາສາ
VRAM	0GB
ການກັ່ນຕອງສຽງ	ບໍ່ໄດ້ສະໜັບສະໜູນ

ຄຸນສົມບັດ:

CPU-only inference Under 80MB model size 8 built-in voices Speed control ONNX-based 24kHz output

ດີທີ່ສຸດ ສຳ ລັບ:: Fast lightweight TTS, edge deployment, low-latency applications

ຂໍ້ແນະນຳສຳລັບຜົນທີ່ດີກວ່າ

ໃຊ້ການວາງຕົວໜັງສືທີ່ຖືກຕ້ອງເພື່ອການຢຸດຊົ່ວຄາວ ແລະ ການເວົ້າແບບທຳມະດາ
ຕົວອັກສອນຕົວເລກ ແລະ ຕົວອັກສອນຫຍໍ້ເພື່ອການອອກສຽງທີ່ຈະແຈ້ງ
ເພີ່ມຕົວຄ້ອນຕີເພື່ອສ້າງການຢຸດຊົ່ວຄາວລະຫວ່າງຄຳສັບ
ໃຊ້ຕົວຫ້າມ (...) ສຳລັບການຢຸດຊົ່ວຄາວທີ່ຍາວກວ່າ
ທົດລອງໃຊ້ Kokoro ຫຼື CosyVoice2ເພື່ອຮັບຜົນໄດ້ຮັບທີ່ຖືກຕ້ອງທີ່ສຸດ
ໃຊ້ Dia ສຳ ລັບການສົນທະນາຫຼາຍຄົນ ແລະ ເນື້ອໃນຂອງໂປດແກຼມ

ຄ່າໃຊ້ຈ່າຍຂອງສິນເຊື່ອ

ສັດ	ຄ່າໃຊ້ຈ່າຍຕໍ່ຕົວອັກສອນ 1K
ຟຣີ	0 ຄະແນນ (ບໍ່ຈໍາກັດ)
ມາດຕະຖານ	2 ຄະແນນ / 1K ຕົວອັກສອນ
ລາຄາຖືກ	4 ຄະແນນ / 1K ຕົວອັກສອນ

ເອົາຕົວອັກສອນເພີ່ມເຕີມ

ວິທີການໃຊ້ AI Text to Speech

ສ້າງສຽງເວົ້າທີ່ມີຄຸນນະພາບເປັນມືອາຊີບໃນສາມບາດກ້າວງ່າຍໆ. ບໍ່ມີຄວາມຮູ້ດ້ານເຕັກນິກທີ່ຕ້ອງການ.

ຂັ້ນຕອນທີ 1

បញ្ចូលຂໍ້ຄວາມຂອງທ່ານ

ພິມ, ປ້າຍ ຫຼື ສົ່ງຂໍ້ຄວາມທີ່ທ່ານຕ້ອງການປ່ຽນເປັນສຽງ. ສະໜັບສະໜູນເຖິງ 5, 000 ຕົວອັກສອນຕໍ່ການລຸ້ນ ສຳ ລັບຜູ້ໃຊ້ທີ່ເຂົ້າໃຊ້ລະບົບ. ໃຊ້ຂໍ້ຄວາມປົກກະຕິ ຫຼື ເພີ່ມແທັກ SSML ສຳ ລັບການຄວບຄຸມລະດັບສູງກ່ຽວກັບການອອກສຽງ, ການຢຸດຊົ່ວຄາວ, ແລະ ການເນັ້ນ.

ບາດກ້າວທີ 2

ເລືອກແບບ ແລະ ສຽງ

ເລືອກຈາກ 20+ ແບບ AI ຜ່ານສາມຊັ້ນ. ເລືອກສຽງທີ່ເຫມາະສົມກັບເນື້ອໃນຂອງທ່ານ, ເລືອກພາສາເປົ້າຫມາຍຂອງທ່ານ, ປັບຄວາມໄວການຫຼິ້ນຈາກ 0.5x ເຖິງ 2.0x, ແລະເລືອກຮູບແບບຜົນອອກທີ່ທ່ານຕ້ອງການ (MP3, WAV, OGG, ຫຼື FLAC).

ຂັ້ນຕອນທີ 3

ສ້າງ ແລະ ດາວໂຫລດ

ກົດ ສ້າງ ແລະ ສຽງຂອງທ່ານຈະພ້ອມໃນສອງວິນາທີ. ເບິ່ງກ່ອນໃຊ້ເຄື່ອງຫຼິ້ນທີ່ມີຢູ່ພາຍໃນ, ດາວໂຫລດໃນຮູບແບບທີ່ທ່ານເລືອກ, ຫຼື ຖ່າຍທອດການເຊື່ອມຕໍ່ທີ່ສາມາດແບ່ງປັນໄດ້. ໃຊ້ API ສຳລັບການປະມວນຜົນຫຼາຍໆຄັ້ງ ແລະ ການລວມເຂົ້າກັບລໍາດັບວຽກຂອງທ່ານ.

ຂໍ້ຄວາມໄປສູ່ການເວົ້າ

AI-powered text-to-speech ກໍາລັງປ່ຽນແປງວິທີການທີ່ປະຊາຊົນສ້າງ, ບໍລິໂພກ, ແລະ ມີສ່ວນຮ່ວມກັບເນື້ອໃນສຽງໃນຫຼາຍສິບອຸດສາຫະກໍາ.

ອ່ານປື້ມສຽງ

ປ່ຽນປື້ມທັງໝົດເປັນປື້ມສຽງທີ່ມີສຽງທໍາມະຊາດດ້ວຍການເວົ້າທີ່ມີຄຸນນະພາບຂອງສະຕູດິໂອ. ສະໜັບສະໜູນຜູ້ເວົ້າຫຼາຍຄົນດ້ວຍ Dia ສຳລັບການສົນທະນາຕົວອັກສອນ.

ສຽງວີດີໂອ

ສ້າງ voiceovers ມືອາຊີບສໍາລັບ YouTube, TikTok, Instagram Reels, ແລະ Shorts. 100+ ສຽງຫຼື clone ຂອງທ່ານເອງ.

ផតខាស់

ສ້າງບົດເພງຈາກສະຄິບດ້ວຍສຽງ AI ຫຼາຍໆສຽງ. ໃຊ້ Dia ສຳລັບການສົນທະນາແບບທໍາມະຊາດສອງຄົນ.

ເກມName

AI ສຽງສະແດງສໍາລັບ indie ເກມ, ນະວະນິຍາຍເບິ່ງ, ແລະ interaction fiction. NPC ຄໍາເວົ້າ, cutscene ສຽງ, 30 + ພາສາ.

ການຮຽນຮູ້ທາງອີເລັກໂຕຣນິກ

ປ່ຽນວັດຖຸຫຼັກສູດ, ບົດສອນ, ແລະ ເນື້ອໃນການຝຶກອົບຮົມເປັນສຽງ. ສະຫນັບສະຫນູນຫຼາຍພາສາສໍາລັບເວທີທົ່ວໂລກ.

ການເຂົ້າເຖິງ

ສ້າງເວບໄຊທ໌, ເອກະສານ, ແລະ ແອັບພລິເຄຊັນທີ່ສາມາດເຂົ້າເຖິງໄດ້. ການເຊື່ອມໂຍງຜູ້ອ່ານ ໜ້າຈໍ API ແລະ ການປ່ຽນບົດຄວາມເປັນສຽງ.

ລະບົບໂທລະສັບName

ລະບົບພະລັງງານ IVR, ເມນູໂທລະສັບ, ແລະການບໍລິການລູກຄ້າທີ່ມີສຽງ AI ທໍາມະຊາດ. ຕ່ໍາ-latency ການຖ່າຍທອດສໍາລັບສູນໂທ.

ສື່ສັງຄົມ

ການເລົ່າເລື່ອງ TikTok, Instagram Reels, ຄຳ ເຫັນ Twitter / X, YouTube Shorts. ໄວໃນການສ້າງແບບຟອມຟຣີ.

ການຖ່າຍທອດ

ແຈ້ງເຕືອນ Twitch TTS, ສົນທະນາ-ຫາ-ສຽງ, AI ຮ່ວມກັນ-ຜູ້ເປັນເຈົ້າພາບ, ແລະ bots Discord. ຕ່ໍາ latency, 100+ ສຽງ, StreamElements ເຂົ້າກັນໄດ້.

ຕະຫຼາດ

ໂຄສະນາ voiceovers, ວິດີໂອອະທິບາຍ, ຜະລິດຕະພັນທົດລອງ, ແລະການນໍາສະເຫນີການຂາຍ. ຂະ ໜາດ ການຜະລິດເນື້ອໃນສຽງ across campaigns.

ການດັດແປງສຽງ ແລະ ການຕັ້ງຕົວເມືອງ

ແປແລະ dub ວິດີໂອໃນ 30 + ພາສາທີ່ມີສຽງ-ກົງ AI. ແປແລະຜູ້ກ່າວຄໍາປາໄສການກວດພົບ.

ສຸຂະອະນາໄມ

ຄໍາແນະນໍາໃນການຄິດ, ເລື່ອງຂອງການນອນ, ການອອກກໍາລັງກາຍການຫາຍໃຈ, ແລະ ການຢືນຢັນດ້ວຍສຽງ AI ທີ່ສະຫງົບ, ເຮັດໃຫ້ຮູ້ສຶກສະບາຍໃຈ.

ເບິ່ງກໍລະນີໃຊ້ງານ ແລະ ເຄື່ອງມືທັງໝົດ

ແບບແບບຂໍ້ຄວາມເປັນການເວົ້າທັງໝົດ

ຂໍ້ກໍານົດລະອຽດສໍາລັບທຸກ AI ແບບຈໍາລອງທີ່ມີຢູ່ໃນ TTS.ai. ປຽບທຽບຄຸນນະພາບ, ຄວາມໄວ, ການສະຫນັບສະຫນູນພາສາ, ແລະຄຸນສົມບັດເພື່ອຊອກຫາແບບຈໍາລອງທີ່ສົມບູນແບບສໍາລັບໂຄງການຂອງທ່ານ.

Kokoro

Free

Kokoro ແມ່ນ 82 ລ້ານຕົວແບບການແປພາສາຈາກຂໍ້ຄວາມເປັນສຽງທີ່ຕີໄດ້ດີກວ່າລະດັບນໍ້າໜັກຂອງມັນ. ເຖິງວ່າຈະມີຂະ ໜາດ ນ້ອຍ, ມັນກໍ່ຜະລິດການເວົ້າທີ່ ໜ້າ ສົນໃຈແລະສະແດງອອກ. Kokoro ສະຫນັບສະຫນູນຫຼາຍພາສາລວມທັງພາສາອັງກິດ, ຍີ່ປຸ່ນ, ຈີນ, ແລະເກົາຫຼີດ້ວຍສຽງສະແດງອອກທີ່ຫຼາກຫຼາຍ. ມັນແລ່ນໄວຫຼາຍ — ສ້າງສຽງເກືອບ 100x ໄວກວ່າເວລາຈິງໃນ GPU.

ຜູ້ພັດທະນາ::
Hexgrad

ໃບອະນຸຍາດ::
Apache 2.0

ຄວາມໄວ:
Fast

ຄຸນນະພາບ::

ພາສາ:
en, ja, zh, fr, it, pt, es, hi

VRAM:
1.5GB

ການກັ່ນຕອງສຽງ:
ບໍ່ມີ

ຄ່າໃຊ້ຈ່າຍຕໍ່ຕົວອັກສອນ 1K:
ຟຣີ

82M ປາຣາມເຕີ ໄວຫຼາຍ ສຽງທີ່ສະແດງອອກ ຫຼາຍພາສາ ການສະໜັບສະໜູນການຖ່າຍທອດ

ດີທີ່ສຸດ ສຳ ລັບ:: TTS ທີ່ມີຄຸນນະພາບສູງດ້ວຍຄວາມຊ້າສຸດ, កម្មវិធីດາວໂຫລດ

ພະຍາຍາມ Kokoro

Piper

Free

Piper ແມ່ນເຄື່ອງຈັກການແປພາສາຂໍ້ຄວາມເປັນສຽງທີ່ເບົາບາງທີ່ພັດທະນາໂດຍ Rhasspy ເຊິ່ງໃຊ້ VITS ແລະ larynx architectures. ມັນແລ່ນທັງ ໝົດ ເທິງ CPU, ເຮັດໃຫ້ມັນ ເໝາະ ສົມ ສຳ ລັບອຸປະກອນ Edge, ອັດຕະໂນມັດໃນເຮືອນ, ແລະ ຄໍາຮ້ອງສະຫມັກທີ່ຕ້ອງການ TTS ນອກອິນເຕີເນັດ. ດ້ວຍສຽງຫຼາຍກວ່າ 100 ຜ່ານ 30 + ພາສາ, Piper ສົ່ງຄໍາເວົ້າທີ່ຟັງຄືກັບທໍາມະຊາດໃນຄວາມໄວທີ່ແທ້ຈິງເຖິງແມ່ນວ່າຢູ່ໃນ Raspberry Pi 4.

ຜູ້ພັດທະນາ::
Rhasspy

ໃບອະນຸຍາດ::
MIT

ຄວາມໄວ:
Fast

ຄຸນນະພາບ::

ພາສາ:
en, de, fr, es, it, pt, nl, pl, ru, zh, ar, cs, da, fi, el, hu, is, ka, kk, ne, no, ro, sk, sr, sv, sw, tr, uk, vi

VRAM:
0 (CPU only)

ການກັ່ນຕອງສຽງ:
ບໍ່ມີ

ຄ່າໃຊ້ຈ່າຍຕໍ່ຕົວອັກສອນ 1K:
ຟຣີ

ງ່າຍຕໍ່ CPU ນອກបណ្ដាញ ສຽງ 100+ 30+ ພາສາ ການສະໜັບສະໜູນ SSML

ດີທີ່ສຸດ ສຳ ລັບ:: ການເບິ່ງກ່ອນໄວ, ການເຂົ້າເຖິງງ່າຍ, ແລະໂປແກຼມທີ່ຖືກຝັງໄວ້

ພະຍາຍາມ Piper

VITS

Free

VITS (ການຄິດໄລ່ຄວາມແຕກຕ່າງດ້ວຍການຮຽນຮູ້ທີ່ມີການຕໍ່ສູ້ເພື່ອການແປຂໍ້ຄວາມເປັນຄຳເວົ້າຈາກຕົ້ນເຖິງທ້າຍ) ແມ່ນວິທີການ TTS ແບບຄຽງຄູ່ກັນລະຫວ່າງຕົ້ນເຖິງທ້າຍທີ່ຜະລິດສຽງທີ່ມີສຽງທໍາມະຊາດຫຼາຍຂຶ້ນກວ່າແບບແບບສອງຂັ້ນທີ່ມີຢູ່ໃນປັດຈຸບັນ. ມັນໃຊ້ການຄິດໄລ່ຄວາມແຕກຕ່າງທີ່ເພີ່ມຂຶ້ນດ້ວຍການປ່ຽນແປງຂອງການໄຫຼ ແລະ ຂະບວນການຝຶກອົບຮົມທີ່ມີການຕໍ່ສູ້ກັນ, ເຮັດໃຫ້ການປັບປຸງທີ່ມີຄວາມໝາຍໃນການເວົ້າທີ່ມີຄວາມເປັນທໍາມະຊາດຫຼາຍຂຶ້ນ.

ຜູ້ພັດທະນາ::
Jaehyeon Kim et al.

ໃບອະນຸຍາດ::
MIT

ຄວາມໄວ:
Fast

ຄຸນນະພາບ::

ພາສາ:
en, de, es, fr, pt, nl, fi, hu, bg, uk, pl

VRAM:
1GB

ການກັ່ນຕອງສຽງ:
ບໍ່ມີ

ຄ່າໃຊ້ຈ່າຍຕໍ່ຕົວອັກສອນ 1K:
ຟຣີ

ການສັງເຄາະຈາກຕົ້ນເຖິງທ້າຍ ພາສາທຳມະຊາດ ການຄິດໄລ່ໄວ ຫຼາຍໂຕ

ດີທີ່ສຸດ ສຳ ລັບ:: ຂໍ້ຄວາມໄປສູ່ການເວົ້າແບບທົ່ວໄປດ້ວຍການເວົ້າແບບທຳມະຊາດ

ພະຍາຍາມ VITS

MeloTTS

Free

MeloTTS ໂດຍ MyShell.ai ແມ່ນຫ້ອງສະໝຸດ TTS ຫຼາຍພາສາທີ່ສະຫນັບສະຫນູນພາສາອັງກິດ (ອາເມລິກາ, ບຣາຊິນ, ອິນເດຍ, ອົດສະຕາລີ), ສະເປນ, ຝຣັ່ງ, ຈີນ, ຍີ່ປຸ່ນ, ແລະເກົາຫຼີ. ມັນໄວຫຼາຍ, ຂະບວນການຂໍ້ຄວາມທີ່ໃກ້ກັບຄວາມໄວເວລາຈິງໃນ CPU ດຽວ. MeloTTS ແມ່ນອອກແບບສໍາລັບການໃຊ້ງານການຜະລິດແລະສະຫນັບສະຫນູນທັງ CPU ແລະ GPU ຜົນການຄິດໄລ່.

ຜູ້ພັດທະນາ::
MyShell.ai

ໃບອະນຸຍາດ::
MIT

ຄວາມໄວ:
Fast

ຄຸນນະພາບ::

ພາສາ:
en, es, fr, zh, ja, ko

VRAM:
0.5GB (GPU optional)

ການກັ່ນຕອງສຽງ:
ບໍ່ມີ

ຄ່າໃຊ້ຈ່າຍຕໍ່ຕົວອັກສອນ 1K:
ຟຣີ

ເພີ່ມປະສິດທິພາບຂອງ CPU ຫຼາຍພາສາ ຕົວອັກສອນທີ່ມີສຽງດັງຫຼາຍຕົວ ທັນກັບການຜະລິດ ເວລາລໍຖ້າຕ່ຳ

ດີທີ່ສຸດ ສຳ ລັບ:: ໂປແກຼມຜະລິດທີ່ຕ້ອງການ TTS ໄວ, ຫຼາຍພາສາ

ພະຍາຍາມ MeloTTS

Bark

Standard

Bark ໂດຍ Suno ແມ່ນແບບຟອມຂໍ້ຄວາມ-ຫາ-ສຽງທີ່ອີງໃສ່ຕົວປ່ຽນທີ່ສາມາດຜະລິດສຽງເວົ້າຫຼາຍພາສາທີ່ຈິງຈັງໄດ້ດີ, ເຊັ່ນດຽວກັນກັບສຽງອື່ນໆເຊັ່ນດົນຕີ, ສຽງລົບກວນດ້ານຫລັງ, ແລະ ຜົນສະທ້ອນສຽງ. ມັນສາມາດຜະລິດການສື່ສານທີ່ບໍ່ເວົ້າເຊັ່ນ: ຫົວ, ຍິ້ມ, ແລະ ຮ້ອງ. Bark ສະຫນັບສະຫນູນ speakers ຫຼາຍກວ່າ 100 ຕົວເລືອກແລະ 13+ ພາສາ.

ຜູ້ພັດທະນາ::
Suno

ໃບອະນຸຍາດ::
MIT

ຄວາມໄວ:
Slow

ຄຸນນະພາບ::

ພາສາ:
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr

VRAM:
5GB

ການກັ່ນຕອງສຽງ:
ບໍ່ມີ

ຄ່າໃຊ້ຈ່າຍຕໍ່ຕົວອັກສອນ 1K:
2x

ຜົນປະທັບສຽງ ຍິ້ມ/ຮ້ອງໄຫ້ ການສ້າງດົນຕີ 100+ ໄມໂຄຣໂຟນ ຫຼາຍພາສາ

ດີທີ່ສຸດ ສຳ ລັບ:: ເນື້ອໃນສຽງທີ່ສ້າງສັນ, ຫນັງສືສຽງທີ່ມີອາລົມ, ຜົນສະທ້ອນສຽງ

ພະຍາຍາມ Bark

Bark Small

Standard

Bark Small ແມ່ນເວີຊັນທີ່ໄດ້ດູດເອົາຈາກແບບແບບ Bark ເຊິ່ງໄດ້ປ່ຽນຄຸນນະພາບສຽງບາງຢ່າງເພື່ອຄວາມໄວໃນການຄິດໄລ່ທີ່ໄວຂຶ້ນ ແລະ ຄວາມຕ້ອງການຄວາມຈຳທີ່ຕ່ຳກວ່າເກົ່າ. ມັນຍັງຮັກສາຄວາມສາມາດຂອງ Bark ໃນການສ້າງການເວົ້າດ້ວຍອາລົມ, ສຽງຫົວ ແລະ ພາສາຫຼາຍພາສາໄວ້.

ຜູ້ພັດທະນາ::
Suno

ໃບອະນຸຍາດ::
MIT

ຄວາມໄວ:
Medium

ຄຸນນະພາບ::

ພາສາ:
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr

VRAM:
2GB

ການກັ່ນຕອງສຽງ:
ບໍ່ມີ

ຄ່າໃຊ້ຈ່າຍຕໍ່ຕົວອັກສອນ 1K:
2x

ແໜ້ນ ໄວກວ່າ Bark ເຕັມ ການເວົ້າທີ່ມີອາລົມ ຫຼາຍພາສາ

ດີທີ່ສຸດ ສຳ ລັບ:: ສຽງທີ່ສ້າງສັນໄວ ເມື່ອການຮ້ອງເຕັມຊ້າເກີນໄປ

ພະຍາຍາມ Bark Small

CosyVoice 2

Standard

CosyVoice 2ໂດຍ Alibaba's Tongyi Lab ບັນລຸຄຸນນະພາບການເວົ້າທີ່ທຽບເທົ່າກັບມະນຸດດ້ວຍ latency ທີ່ຕ່ ຳ ທີ່ສຸດ, ເຮັດໃຫ້ມັນ ເໝາະ ສົມ ສຳ ລັບແອັບພລິເຄຊັນເວລາຈິງ. ມັນໃຊ້ວິທີການ quantization scalar finite ສຳ ລັບການສະກັດສຽງແລະສະຫນັບສະຫນູນການຖ່າຍທອດສຽງແບບບໍ່ມີສຽງ, ການສັງເຄາະພາສາແລະການຄວບຄຸມອາລົມທີ່ລະອຽດອ່ອນ. ມັນໄດ້ດີກວ່າລະບົບ TTS ການຄ້າຫຼາຍຢ່າງໃນການວິເຄາະ subjective.

ຜູ້ພັດທະນາ::
Alibaba (Tongyi Lab)

ໃບອະນຸຍາດ::
Apache 2.0

ຄວາມໄວ:
Medium

ຄຸນນະພາບ::

ພາສາ:
en, zh, ja, ko, fr, de, it, es

VRAM:
4GB

ການກັ່ນຕອງສຽງ:
ແມ່ນ

ຄ່າໃຊ້ຈ່າຍຕໍ່ຕົວອັກສອນ 1K:
2x

ສົ່ງຕໍ່ ການກັ່ນຕອງແບບ Zero-shot ພາສາຕ່າງກັນ ຄວບຄຸມອາລົມ ຄວາມເທົ່າທຽມຂອງມະນຸດ

ດີທີ່ສຸດ ສຳ ລັບ:: ຕົວປະສົມປະສານເວລາຈິງ, ສົ່ງຕໍ່ TTS, ຜູ້ຊ່ວຍສຽງ

ພະຍາຍາມ CosyVoice 2

Dia TTS

Standard

Dia ໂດຍ Nari Labs ແມ່ນແບບຟອມການແປພາສາຂໍ້ຄວາມເປັນສຽງທີ່ມີຕົວກໍານົດ 1.6B ເຊິ່ງຖືກອອກແບບໂດຍສະເພາະເພື່ອສ້າງການສົນທະນາລະຫວ່າງຜູ້ເວົ້າຫຼາຍຄົນ. ມັນສາມາດຜະລິດການສົນທະນາທີ່ຟັງຄືກັບທໍາມະຊາດລະຫວ່າງຜູ້ເວົ້າສອງຄົນດ້ວຍການປ່ຽນແປງທີ່ເໝາະສົມ, ສຽງແລະຄວາມຮູ້ສຶກ. Dia ແມ່ນສົມບູນແບບ ສຳ ລັບການສ້າງເນື້ອໃນແບບ podcast, ການສົນທະນາຂອງປື້ມສຽງແລະ AI ແບບໂຕ້ຕອບ.

ຜູ້ພັດທະນາ::
Nari Labs

ໃບອະນຸຍາດ::
Apache 2.0

ຄວາມໄວ:
Medium

ຄຸນນະພາບ::

ພາສາ:
en

VRAM:
4GB

ການກັ່ນຕອງສຽງ:
ບໍ່ມີ

ຄ່າໃຊ້ຈ່າຍຕໍ່ຕົວອັກສອນ 1K:
2x

ຫຼາຍໄມໂຄຣໂຟນ បង្កើតប្រអប់ ປ່ຽນໄປຕາມທຳມະຊາດ ສະແດງອາລົມ 1.6B ພາຣາມິເຕີ

ດີທີ່ສຸດ ສຳ ລັບ:: ເພງໂປດ, ຂໍ້ຄວາມໃນປື້ມສຽງ, ເນື້ອໃນການສົນທະນາ

ພະຍາຍາມ Dia TTS

Parler TTS

Standard

Parler TTS ແມ່ນແບບແບບຂໍ້ຄວາມເປັນຄຳເວົ້າທີ່ໃຊ້ການອະທິບາຍສຽງພາສາທໍາມະຊາດເພື່ອຄວບຄຸມການເວົ້າທີ່ໄດ້ສ້າງຂຶ້ນມາ. ແທນທີ່ຈະເລືອກຈາກສຽງທີ່ໄດ້ຕັ້ງໄວ້ລ່ວງໜ້າ, ທ່ານອະທິບາຍສຽງທີ່ທ່ານຕ້ອງການ (ຕົວຢ່າງ, "ສຽງຍິງທີ່ອົບອຸ່ນດ້ວຍສຽງອັງກິດເລັກນ້ອຍ, ເວົ້າຊ້າໆ ແລະ ແຈ້ງ") ແລະ Parler ສ້າງການເວົ້າທີ່ກົງກັບການອະທິບາຍນັ້ນ. ນີ້ເຮັດໃຫ້ມັນມີຄວາມຍືດຫຍຸ່ນເປັນເອກະລັກສຳລັບການໃຊ້ງານທີ່ສ້າງສັນ.

ຜູ້ພັດທະນາ::
Hugging Face

ໃບອະນຸຍາດ::
Apache 2.0

ຄວາມໄວ:
Medium

ຄຸນນະພາບ::

ພາສາ:
en

VRAM:
4GB

ການກັ່ນຕອງສຽງ:
ບໍ່ມີ

ຄ່າໃຊ້ຈ່າຍຕໍ່ຕົວອັກສອນ 1K:
2x

ການອະທິບາຍສຽງ ການຄວບຄຸມພາສາທໍາມະຊາດ ການສ້າງສຽງແບບຍືດຫຍຸ່ນ ບໍ່ມີສຽງທີ່ຕັ້ງໄວ້ລ່ວງໜ້າທີ່ຕ້ອງການ

ດີທີ່ສຸດ ສຳ ລັບ:: ສ້າງកម្មវិធីທີ່ທ່ານຕ້ອງການຄຸນລັກສະນະສຽງທີ່ໄດ້ກຳນົດເອງ

ພະຍາຍາມ Parler TTS

GLM-TTS

Standard

GLM-TTS ໂດຍ Zhipu AI ແມ່ນລະບົບການແປພາສາທີ່ສ້າງຂຶ້ນໂດຍອີງໃສ່ສະຖາປັດຕະຍະກໍາ Llama ທີ່ມີການເຂົ້າກັນໄດ້ກັບລົມ. ມັນບັນລຸອັດຕາຄວາມຜິດພາດຂອງຕົວອັກສອນທີ່ຕ່ໍາທີ່ສຸດໃນບັນດາແບບຟອມ TTS ທີ່ມີແຫຼ່ງເປີດ, ໝາຍຄວາມວ່າມັນຜະລິດການອອກສຽງທີ່ຖືກຕ້ອງທີ່ສຸດ. GLM-TTS ສະຫນັບສະຫນູນພາສາອັງກິດແລະຈີນດ້ວຍການກັ່ນຕອງສຽງຈາກຕົວຢ່າງສຽງ 3-10 ວິນາທີ.

ຜູ້ພັດທະນາ::
Zhipu AI

ໃບອະນຸຍາດ::
GLM-4 License

ຄວາມໄວ:
Medium

ຄຸນນະພາບ::

ພາສາ:
en, zh

VRAM:
4GB

ການກັ່ນຕອງສຽງ:
ແມ່ນ

ຄ່າໃຊ້ຈ່າຍຕໍ່ຕົວອັກສອນ 1K:
2x

ອັດຕາຂໍ້ຜິດພາດຕ່ຳສຸດ ການປິດສຽງ ການສອດຄ່ອງຂອງລໍາ ພາສາທຳມະຊາດ

ດີທີ່ສຸດ ສຳ ລັບ:: ຕົວເລືອກການເວົ້າທີ່ຖືກຕ້ອງທີ່ສຸດName

ພະຍາຍາມ GLM-TTS

IndexTTS-2

Standard

IndexTTS-2 ແມ່ນລະບົບການແປພາສາຂໍ້ຄວາມເປັນຄຳເວົ້າທີ່ກ້າວໜ້າທີ່ໂດດເດັ່ນໃນການສະສົມສຽງແບບ Zero-shot ດ້ວຍການຄວບຄຸມອາລົມທີ່ລະອຽດອ່ອນ. ມັນສາມາດສ້າງການເວົ້າດ້ວຍສຽງອາລົມທີ່ລະອຽດອ່ອນເຊັ່ນ: ມີຄວາມສຸກ, ເສຍໃຈ, ໂກດແຄ້ນ, ຫຼື ກັງວົນໂດຍບໍ່ຕ້ອງຕ້ອງການຂໍ້ມູນການຝຶກອົບຮົມອາລົມທີ່ລະອຽດອ່ອນ. ແບບ ຈຳ ລອງໃຊ້ເວັກເຕີອາລົມເພື່ອຄວບຄຸມການສະແດງອາລົມຂອງຄຳເວົ້າທີ່ສ້າງຂຶ້ນຢ່າງຖືກຕ້ອງ.

ຜູ້ພັດທະນາ::
Index Team

ໃບອະນຸຍາດ::
Bilibili Model License

ຄວາມໄວ:
Medium

ຄຸນນະພາບ::

ພາສາ:
en, zh

VRAM:
4GB

ການກັ່ນຕອງສຽງ:
ແມ່ນ

ຄ່າໃຊ້ຈ່າຍຕໍ່ຕົວອັກສອນ 1K:
2x

ຄວບຄຸມອາລົມ ສິ້ນສຸດການຍິງ ເວກເຕີອາລົມ ການເວົ້າທີ່ສະແດງອອກ ຕົວຄວບຄຸມຂະໜາດນ້ອຍ

ດີທີ່ສຸດ ສຳ ລັບ:: ເນື້ອໃນທີ່ສະແດງອອກດ້ວຍອາລົມ, ຫນັງສືສຽງ, ຜູ້ຊ່ວຍເສມືນ

ພະຍາຍາມ IndexTTS-2

Spark TTS

Standard

Spark TTS ໂດຍ SparkAudio ແມ່ນແບບຟອມຂໍ້ຄວາມ-ເປັນ-ການເວົ້າທີ່ປະສົມປະສານການຖ່າຍທອດສຽງກັບອາລົມທີ່ຄວບຄຸມໄດ້ແລະແບບເວົ້າ. ໂດຍໃຊ້ພຽງແຕ່5ວິນາທີຂອງການອ້າງອີງສຽງ, ມັນສາມາດຖ່າຍທອດສຽງແລະຫຼັງຈາກນັ້ນສ້າງການເວົ້າທີ່ມີອາລົມ, ຄວາມໄວແລະແບບທີ່ແຕກຕ່າງກັນໃນຂະນະທີ່ຮັກສາຕົວຕົນຂອງສຽງທີ່ຖ່າຍທອດໄດ້. Spark TTS ໃຊ້ລະບົບຄວບຄຸມທີ່ອີງໃສ່ການແຈ້ງເຕືອນ.

ຜູ້ພັດທະນາ::
SparkAudio

ໃບອະນຸຍາດ::
CC BY-NC-SA 4.0

ຄວາມໄວ:
Medium

ຄຸນນະພາບ::

ພາສາ:
en, zh

VRAM:
4GB

ການກັ່ນຕອງສຽງ:
ແມ່ນ

ຄ່າໃຊ້ຈ່າຍຕໍ່ຕົວອັກສອນ 1K:
2x

ການປິດສຽງ ຄວບຄຸມອາລົມ ຕົວຄວບຄຸມແບບ ຕັ້ງຄ່າແບບຖາມ 5 ວິນາທີ

ດີທີ່ສຸດ ສຳ ລັບ:: ການສ້າງເນື້ອໃນດ້ວຍສຽງທີ່ຖືກກັ່ນຕອງ ແລະ ການຄວບຄຸມອາລົມ

ພະຍາຍາມ Spark TTS

GPT-SoVITS

Standard

GPT- SoVITS ລວມເອົາການສ້າງແບບພາສາແບບ GPT ກັບ SoVITS (ການຄິດໄລ່ສຽງຜ່ານການແປ ແລະ ການປະສົມປະສານ) ເພື່ອການກັ່ນຕອງສຽງທີ່ມີປະສິດທິຜົນຫຼາຍ. ດ້ວຍສຽງທີ່ໃຊ້ໄດ້ພຽງ5ວິນາທີ, ມັນສາມາດກັ່ນຕອງສຽງຢ່າງຖືກຕ້ອງ ແລະ ສ້າງການເວົ້າໃໝ່ໄດ້ ໃນຂະນະທີ່ຮັກສາຄຸນລັກສະນະທີ່ເປັນເອກະລັກຂອງຜູ້ເວົ້າໄວ້. ມັນດີເລີດທັງໃນການເວົ້າ ແລະ ການປະສົມສຽງຮ້ອງ.

ຜູ້ພັດທະນາ::
RVC-Boss

ໃບອະນຸຍາດ::
MIT

ຄວາມໄວ:
Slow

ຄຸນນະພາບ::

ພາສາ:
en, zh, ja, ko

VRAM:
6GB

ການກັ່ນຕອງສຽງ:
ແມ່ນ

ຄ່າໃຊ້ຈ່າຍຕໍ່ຕົວອັກສອນ 1K:
2x

ການຖ່າຍແບບແບບສອງເທົ່າ 5- ວິນາທີ ສຽງຮ້ອງ ການຮຽນຮູ້ແບບບໍ່ຫຼາຍປານໃດ ລະດັບຄວາມເຊື່ອຖືສູງ ພາສາຕ່າງກັນ

ດີທີ່ສຸດ ສຳ ລັບ:: ການກັ່ນຕອງສຽງ, ການປະສົມສຽງຮ້ອງ, ການຖ່າຍທອດສຽງຂອງຜູ້ສ້າງເນື້ອໃນ

ພະຍາຍາມ GPT-SoVITS

Orpheus

Standard

Orpheus ແມ່ນແບບຈໍາລອງຂໍ້ຄວາມ-ເປັນ-ຄໍາເວົ້າທີ່ມີຂະ ໜາດ ໃຫຍ່ທີ່ບັນລຸການສະແດງອາລົມໃນລະດັບມະນຸດ. ໄດ້ຮັບການຝຶກອົບຮົມໃນຫຼາຍກວ່າ 100,000 ຊົ່ວໂມງຂອງຂໍ້ມູນການເວົ້າທີ່ຫຼາກຫຼາຍ, ມັນດີເລີດໃນການສ້າງຄໍາເວົ້າທີ່ມີອາລົມທໍາມະຊາດ, ການເນັ້ນຫນັກ, ແລະ ຮູບແບບການເວົ້າ. Orpheus ສາມາດຜະລິດຄໍາເວົ້າທີ່ virtually indistinguishable ຈາກການບັນທຶກຂອງມະນຸດ.

ຜູ້ພັດທະນາ::
Canopy Labs

ໃບອະນຸຍາດ::
Llama 3.2 Community

ຄວາມໄວ:
Medium

ຄຸນນະພາບ::

ພາສາ:
en

VRAM:
4GB

ການກັ່ນຕອງສຽງ:
ບໍ່ມີ

ຄ່າໃຊ້ຈ່າຍຕໍ່ຕົວອັກສອນ 1K:
2x

ລະດັບອາລົມຂອງມະນຸດ 100K ຊົ່ວໂມງຝຶກອົບຮົມ ການເນັ້ນແບບທຳມະຊາດ ການເວົ້າທີ່ສະແດງອອກ

ດີທີ່ສຸດ ສຳ ລັບ:: ການເວົ້າທີ່ມີຄຸນນະພາບສູງ, ປຶ້ມສຽງ, ການສະແດງສຽງ

ພະຍາຍາມ Orpheus

Chatterbox

Premium

Chatterbox ໂດຍ Resemble AI ແມ່ນແບບຈໍາລອງການຖ່າຍທອດສຽງແບບ zero-shot ທີ່ທັນສະໄໝ. ມັນສາມາດຖ່າຍທອດສຽງໃດໆຈາກຕົວຢ່າງສຽງດຽວດ້ວຍຄວາມຖືກຕ້ອງທີ່ຫນ້າປະຫລາດໃຈ, ຈັບບໍ່ພຽງແຕ່ສຽງແຕ່ຍັງເປັນແບບເວົ້າແລະຄວາມຮູ້ສຶກທີ່ແຕກຕ່າງ. Chatterbox ຍັງມີຄຸນສົມບັດການຄວບຄຸມຄວາມຮູ້ສຶກທີ່ລະອຽດອ່ອນ, ອະນຸຍາດໃຫ້ທ່ານປັບແຕ່ງສຽງຂອງຄວາມຮູ້ສຶກຂອງການເວົ້າທີ່ຜະລິດຂຶ້ນໂດຍອີງໃສ່ຕົວຕົນຂອງສຽງ.

ຜູ້ພັດທະນາ::
Resemble AI

ໃບອະນຸຍາດ::
MIT

ຄວາມໄວ:
Medium

ຄຸນນະພາບ::

ພາສາ:
en

VRAM:
4GB

ການກັ່ນຕອງສຽງ:
ແມ່ນ

ຄ່າໃຊ້ຈ່າຍຕໍ່ຕົວອັກສອນ 1K:
4x

ຖ່າຍແບບແບບຄລີນແບບບໍ່ມີການຖ່າຍ ຄວບຄຸມອາລົມ ລະດັບຄວາມເຊື່ອຖືສູງ ສົ່ງແບບ ຖ່າຍແບບຕົວຢ່າງດຽວ

ດີທີ່ສຸດ ສຳ ລັບ:: ສ້າງສຽງແບບມືອາຊີບດ້ວຍການຄວບຄຸມອາລົມ, ສ້າງເນື້ອໃນ

ພະຍາຍາມ Chatterbox

Tortoise TTS

Premium

Tortoise TTS ແມ່ນລະບົບການແປພາສາຂໍ້ຄວາມເປັນສຽງຫຼາຍສຽງທີ່ໃຊ້ລະບົບ autoregressive ເຊິ່ງໃຫ້ຄວາມສຳຄັນກັບຄຸນນະພາບສຽງຫຼາຍກວ່າຄວາມໄວ. ມັນໃຊ້ໂຄງສ້າງທີ່ອີງໃສ່ DALL- E ເພື່ອສ້າງການເວົ້າທີ່ເປັນທຳມະຊາດສູງດ້ວຍສຽງທີ່ງົດງາມ ແລະ ສຽງທີ່ຄ້າຍຄືກັນ. ໃນຂະນະທີ່ຊ້າກວ່າຕົວເລືອກອື່ນໆຫຼາຍຢ່າງ, Tortoise ຜະລິດການເວົ້າທີ່ສົມເຫດສົມຜົນທີ່ສຸດທີ່ສາມາດໃຊ້ໄດ້ໃນລະບົບ Open Source.

ຜູ້ພັດທະນາ::
James Betker

ໃບອະນຸຍາດ::
Apache 2.0

ຄວາມໄວ:
Slow

ຄຸນນະພາບ::

ພາສາ:
en

VRAM:
8GB

ການກັ່ນຕອງສຽງ:
ແມ່ນ

ຄ່າໃຊ້ຈ່າຍຕໍ່ຕົວອັກສອນ 1K:
4x

ຄຸນນະພາບສູງສຸດ ສຽງຫຼາຍສຽງ ໂຄງສ້າງ DALL- E ການກັ່ນຕອງສຽງ ການຖອນຕົວເອງ

ດີທີ່ສຸດ ສຳ ລັບ:: ອ່ານປື້ມ, ເນື້ອໃນທີ່ດີ, ໂປແກຼມທີ່ມີຄຸນນະພາບດີ

ພະຍາຍາມ Tortoise TTS

StyleTTS 2

Premium

StyleTTS2ບັນລຸການສັງເຄາະ TTS ລະດັບມະນຸດໂດຍການລວມເອົາການແຜ່ກະຈາຍແບບແບບກັບການຝຶກອົບຮົມທີ່ຂັດແຍ້ງກັນໂດຍການໃຊ້ແບບພາສາເວົ້າທີ່ໃຫຍ່. ມັນຜະລິດການເວົ້າທີ່ຟັງຄືກັບທໍາມະຊາດທີ່ສຸດໃນບັນດາແບບແບບຜູ້ເວົ້າຄົນດຽວ, ແຂ່ງຂັນກັບການບັນທຶກຂອງມະນຸດ. StyleTTS2ໃຊ້ການວາງແບບແບບແບບແບບທີ່ອີງໃສ່ການແຜ່ກະຈາຍເພື່ອບັນທຶກຄວາມຫຼາກຫຼາຍຂອງສຽງເວົ້າຂອງມະນຸດ.

ຜູ້ພັດທະນາ::
Columbia University

ໃບອະນຸຍາດ::
MIT

ຄວາມໄວ:
Medium

ຄຸນນະພາບ::

ພາສາ:
en

VRAM:
4GB

ການກັ່ນຕອງສຽງ:
ບໍ່ມີ

ຄ່າໃຊ້ຈ່າຍຕໍ່ຕົວອັກສອນ 1K:
4x

ລະດັບມະນຸດ ແບບແຜ່ກະຈາຍ ການຝຶກອົບຮົມແບບຕໍ່ສູ້ ຕົວແປທໍາມະຊາດ ລະດັບຄວາມເຊື່ອຖືສູງ

ດີທີ່ສຸດ ສຳ ລັບ:: ສຽງສະສົມສຽງດຽວທີ່ມີຄຸນນະພາບຄືກັບສະຕູດິໂອ, ສຽງເວົ້າທີ່ຊ່ຽວຊານ

ພະຍາຍາມ StyleTTS 2

OpenVoice

Premium

OpenVoice ໂດຍ MyShell.ai ອະນຸຍາດໃຫ້ມີການຖ່າຍທອດສຽງທັນທີດ້ວຍການຄວບຄຸມ granular ຜ່ານຮູບແບບສຽງ, ອາລົມ, ສຽງ, ທ່າ, ພັກຜ່ອນ, ແລະ intonation. ມັນສາມາດຖ່າຍທອດສຽງຈາກຄລິບສຽງສັ້ນແລະສ້າງການເວົ້າໃນຫຼາຍພາສາໃນຂະນະທີ່ຮັກສາຕົວຕົນຂອງຜູ້ເວົ້າ. OpenVoice ຍັງເຮັດວຽກເປັນຕົວປ່ຽນສຽງ, ອະນຸຍາດໃຫ້ມີການປ່ຽນສຽງໃນເວລາຈິງ.

ຜູ້ພັດທະນາ::
MyShell.ai / MIT

ໃບອະນຸຍາດ::
MIT

ຄວາມໄວ:
Medium

ຄຸນນະພາບ::

ພາສາ:
en, zh, ja, ko, fr, es

VRAM:
4GB

ການກັ່ນຕອງສຽງ:
ແມ່ນ

ຄ່າໃຊ້ຈ່າຍຕໍ່ຕົວອັກສອນ 1K:
4x

ក្លូនທັນທີ ການປ່ຽນສຽງ ຄວບຄຸມອາລົມ ឧបករណ៍បញ្ជាការ accent ຫຼາຍພາສາ

ດີທີ່ສຸດ ສຳ ລັບ:: ການກັ່ນຕອງສຽງດ້ວຍການຄວບຄຸມແບບທີ່ລະອຽດອ່ອນ, ການປ່ຽນສຽງ

ພະຍາຍາມ OpenVoice

Qwen3 TTS

Standard

Qwen3-TTS ແມ່ນແບບຟອມການແປພາສາຂໍ້ຄວາມເປັນສຽງທີ່ມີຕົວປ່ຽນແປງ 1.7 ຕື້ຕົວຈາກທີມ Qwen ຂອງ Alibaba. ມັນສະຫນັບສະຫນູນສາມຮູບແບບ: ສຽງທີ່ຕັ້ງໄວ້ລ່ວງໜ້າດ້ວຍການຄວບຄຸມອາລົມ (9 ໄມໂຄໂຟນ), ການກັ່ນຕອງສຽງຈາກສຽງພຽງ3ວິນາທີ, ແລະຮູບແບບການອອກແບບສຽງທີ່ເປັນເອກະລັກເຊິ່ງທ່ານອະທິບາຍສຽງທີ່ທ່ານຕ້ອງການໃນພາສາທໍາມະຊາດ. ມັນປົກຄຸມພາສາ 10 ພາສາທີ່ມີການສະແດງອອກສູງແລະສຽງທໍາມະຊາດ.

ຜູ້ພັດທະນາ::
Alibaba (Qwen)

ໃບອະນຸຍາດ::
Apache 2.0

ຄວາມໄວ:
Medium

ຄຸນນະພາບ::

ພາສາ:
en, zh, ja, ko, de, fr, ru, pt, es, it

VRAM:
7GB

ການກັ່ນຕອງສຽງ:
ແມ່ນ

ຄ່າໃຊ້ຈ່າຍຕໍ່ຕົວອັກສອນ 1K:
2x

ການປິດສຽງ ສຽງທີ່ຕັ້ງໄວ້ລ່ວງໜ້າ 9 ການອອກແບບສຽງຈາກຂໍ້ຄວາມ ຄວບຄຸມອາລົມ ພາສາ

ດີທີ່ສຸດ ສຳ ລັບ:: ເນື້ອໃນຫຼາຍພາສາດ້ວຍການກັ່ນຕອງສຽງ ຫຼື ການອອກແບບສຽງຕາມໃຈເອງ

ພະຍາຍາມ Qwen3 TTS

Sesame CSM

Premium

Sesame CSM (Conversational Speech Model) ແມ່ນແບບ ຈຳ ລອງ 1 ພັນລ້ານປາຣາເມັດທີ່ອອກແບບໂດຍສະເພາະ ສຳ ລັບການສ້າງການສົນທະນາ. ມັນສ້າງແບບ ຈຳ ລອງແບບ ທຳ ມະຊາດຂອງການສົນທະນາຂອງມະນຸດລວມທັງການປ່ຽນເວລາ, ການຕອບໂຕ້ backchannel, ການຕອບໂຕ້ທາງອາລົມ, ແລະ ການໄຫຼຂອງການສົນທະນາ. CSM ສ້າງສຽງທີ່ຄ້າຍຄືກັບການສົນທະນາຂອງມະນຸດ ທຳ ມະຊາດແທນທີ່ຈະເປັນການເວົ້າ synthesized.

ຜູ້ພັດທະນາ::
Sesame

ໃບອະນຸຍາດ::
Apache 2.0

ຄວາມໄວ:
Slow

ຄຸນນະພາບ::

ພາສາ:
en

VRAM:
8GB

ການກັ່ນຕອງສຽງ:
ບໍ່ມີ

ຄ່າໃຊ້ຈ່າຍຕໍ່ຕົວອັກສອນ 1K:
4x

ສົນທະນາ ເວລາທໍາມະຊາດ ປ່ຽນກັນເຮັດ ຖອນຊ່ອງທາງ 1B ພາລາມິເຕີ

ດີທີ່ສຸດ ສຳ ລັບ:: ຕົວຊ່ວຍ AI, chatbots, កម្មវិធី AI ສົນທະນາ

ພະຍາຍາມ Sesame CSM

Chatterbox Turbo

Standard

Chatterbox Turbo ໂດຍ Resemble AI ແມ່ນການປັບປຸງຕົວກໍານົດການ 350M ເຖິງ Chatterbox, ສົ່ງເຖິງຄວາມໄວເວລາຈິງ 6x ດ້ວຍການຊັກຊ້າພາຍໃຕ້ 200ms. ມັນສະຫນັບສະຫນູນ tags paralinguistic ເຊັ່ນ [ຫົວຍິ້ມ], [ຫາຍໃຈ], ແລະ [ຫົວຍິ້ມ] ໂດຍກົງໃນຂໍ້ຄວາມ. ລວມມີ Perth watermarking ໃສ່ສຽງທີ່ຜະລິດທັງຫມົດສໍາລັບການຕິດຕາມ provenance.

ຜູ້ພັດທະນາ::
Resemble AI

ໃບອະນຸຍາດ::
MIT

ຄວາມໄວ:
Fast

ຄຸນນະພາບ::

ພາສາ:
en

VRAM:
2GB

ການກັ່ນຕອງສຽງ:
ແມ່ນ

ຄ່າໃຊ້ຈ່າຍຕໍ່ຕົວອັກສອນ 1K:
2x

ເວລາລໍຖ້າຕ່ຳກວ່າ 200ms ແທັກ Paralinguistic 6x ເວລາຈິງ ການປິດສຽງ ເຄື່ອງໝາຍນ້ຳ

ດີທີ່ສຸດ ສຳ ລັບ:: ຕົວແທນສຽງເວລາຈິງ, ເວົ້າທີ່ສະແດງອອກດ້ວຍສຽງທໍາມະຊາດ

ພະຍາຍາມ Chatterbox Turbo

VoxCPM

Standard

VoxCPM 1.5 ໂດຍ OpenBMB ແມ່ນແບບ TTS ແບບ tokenizer- free ທີ່ເຮັດວຽກໃນພື້ນທີ່ທີ່ຕໍ່ເນື່ອງແທນທີ່ຈະເປັນ tokens ທີ່ບໍ່ລະອຽດ. ມັນຜະລິດສຽງ 44.1kHz ທີ່ມີຄຸນນະພາບສູງ, ສະໜັບສະໜູນການຖ່າຍທອດສຽງແບບ zero-shot ຈາກ 3-10 ວິນາທີ, ແລະຮັກສາຄວາມສອດຄ່ອງລະຫວ່າງຂໍ້ຄວາມ. ການຖ່າຍທອດພາສາຂ້າມພາສາຊ່ວຍໃຫ້ທ່ານສາມາດໃຊ້ສຽງພາສາອັງກິດເພື່ອເວົ້າພາສາຈີນແລະ vice versa.

ຜູ້ພັດທະນາ::
OpenBMB

ໃບອະນຸຍາດ::
Apache 2.0

ຄວາມໄວ:
Fast

ຄຸນນະພາບ::

ພາສາ:
en, zh

VRAM:
4GB

ການກັ່ນຕອງສຽງ:
ແມ່ນ

ຄ່າໃຊ້ຈ່າຍຕໍ່ຕົວອັກສອນ 1K:
2x

ສຽງ ບໍ່ມີ Tokenizer ການກັ່ນຕອງພາສາ ຮັບຮູ້ເນື້ອໃນ ການປັບແຕ່ງລະອຽດ LoRA

ດີທີ່ສຸດ ສຳ ລັບ:: ສຽງທີ່ມີຄວາມເຊື່ອຖືສູງ, ຫນັງສືສຽງ, ເນື້ອໃນແບບຟອມຍາວທີ່ມີສຽງທີ່ຄົບຖ້ວນ

ພະຍາຍາມ VoxCPM

Kani TTS 2

Free

Kani-TTS-2 ໂດຍ NineNineSix ແມ່ນແບບ ຈຳ ລອງຕົວຊີ້ວັດ 400M ທີ່ມີຄວາມເບົາບາງທີ່ສ້າງຂຶ້ນໂດຍໃຊ້ Liquid AI LFM2 backbone ດ້ວຍ NVIDIA NanoCodec. ມັນແລ່ນໃນພຽງແຕ່ 3GB VRAM ແລະຜະລິດ ~ 10 ວິນາທີຂອງການເວົ້າໃນ ~2 ວິນາທີໃນ A100 (RTF 0.2). ການປ່ອຍສາທາລະນະປະຈຸບັນສົ່ງເຄື່ອງກວດສອບພາສາອັງກິດ `kani-tts-2-en` ແລະບໍ່ເປີດເຜີຍຮູຮັບສຽງທີ່ ຈຳ ເປັນ ສຳ ລັບການກັ່ນຕອງສຽງ - ໃຊ້ Chatterbox / IndexTTS2 / F5-TTS ສຳ ລັບການກັ່ນຕອງ, ຫຼື Kokoro / MeloTTS ສຳ ລັບພາສາທີ່ບໍ່ເປັນພາສາອັງກິດ.

ຜູ້ພັດທະນາ::
NineNineSix

ໃບອະນຸຍາດ::
Apache 2.0

ຄວາມໄວ:
Fast

ຄຸນນະພາບ::

ພາສາ:
en

VRAM:
3GB

ການກັ່ນຕອງສຽງ:
ບໍ່ມີ

ຄ່າໃຊ້ຈ່າຍຕໍ່ຕົວອັກສອນ 1K:
ຟຣີ

3GB VRAM ໄວຫຼາຍ ງ່າຍ ລະຫັດບັນທຶກສຽງ NanoCodec ບໍ່ມີ

ດີທີ່ສຸດ ສຳ ລັບ:: ສ້າງພາສາອັງກິດໄວຂຶ້ນ ເທິງຮາດແວ VRAM ຕ່ຳ, ເບິ່ງກ່ອນໄວ

ພະຍາຍາມ Kani TTS 2

OuteTTS

Free

OuteTTS ຂະຫຍາຍຕົວແບບພາສາໃຫຍ່ທີ່ມີຄວາມສາມາດໃນການແປພາສາໃນຂະນະດຽວກັນຮັກສາໂຄງສ້າງຕົ້ນສະບັບ. ມັນສະຫນັບສະຫນູນ backends ຫຼາຍຢ່າງລວມທັງ llama.cpp (CPU / GPU), Hugging Face Transformers, ExLlamaV2, VLLM, ແລະເຖິງແມ່ນວ່າການຄາດຄະເນຂອງຕົວທ່ອງເວັບຜ່ານ Transformers.js. ຄຸນສົມບັດການກັ່ນຕອງສຽງຜ່ານໂປຼໄຟລ໌ຜູ້ເວົ້າທີ່ເກັບໄວ້ເປັນ JSON.

ຜູ້ພັດທະນາ::
OuteAI

ໃບອະນຸຍາດ::
Apache 2.0

ຄວາມໄວ:
Fast

ຄຸນນະພາບ::

ພາສາ:
en

VRAM:
2GB

ການກັ່ນຕອງສຽງ:
ແມ່ນ

ຄ່າໃຊ້ຈ່າຍຕໍ່ຕົວອັກສອນ 1K:
ຟຣີ

ຜົນສະທ້ອນຂອງ CPU ການຄິດໄລ່ຕົວເລກຂອງຕົວທ່ອງເວັບ ການປິດສຽງ ພາກສ່ວນຫຼັງຫຼາຍຢ່າງ ແບບຟອມຜູ້ເວົ້າ

ດີທີ່ສຸດ ສຳ ລັບ:: ການຈັດຕັ້ງໃຊ້ Edge, TTS ທີ່ມີພື້ນຖານໃນຕົວທ່ອງເວັບ, ສະພາບແວດລ້ອມທີ່ມີຊັບພະຍາກອນຕ່ຳ

ພະຍາຍາມ OuteTTS

VibeVoice

Standard

VibeVoice ໂດຍ Microsoft ມີສອງຕົວເລືອກ: ແບບ 1.5B ສຳ ລັບເນື້ອຫາແບບຍາວ (ເຖິງ 90 ນາທີ, 4ຜູ້ກ່າວ) ແລະແບບ Realtime 0.5B ສຳ ລັບການຖ່າຍທອດສົດດ້ວຍ ~ 200ms ສຽງລົບກວນຄັ້ງ ທຳ ອິດ. ຕົວເລືອກ 1.5B ດີເລີດໃນ podcasts ແລະ audiobooks ທີ່ມີສຽງທີ່ສອດຄ່ອງກັບຜູ້ເວົ້າໃນໄລຍະໄລຍະຍາວ. ຂໍ້ສັງເກດ: Microsoft ໄດ້ເອົາລະຫັດ TTS ອອກຈາກບ່ອນເກັບມ້ຽນແລະສ້າງສຽງລວມມີການຍົກເວັ້ນຄວາມຮັບຜິດຊອບຂອງ AI ທີ່ສາມາດຟັງໄດ້.

ຜູ້ພັດທະນາ::
Microsoft

ໃບອະນຸຍາດ::
MIT

ຄວາມໄວ:
Fast

ຄຸນນະພາບ::

ພາສາ:
en, zh

VRAM:
4GB

ການກັ່ນຕອງສຽງ:
ບໍ່ມີ

ຄ່າໃຊ້ຈ່າຍຕໍ່ຕົວອັກສອນ 1K:
2x

ຫຼາຍໄມໂຄຣໂຟນ ເຖິງ 90 ນາທີ ສ້າງ Podcast ສຽງທີ່ຄົບຖ້ວນ 200ms ສົ່ງຕໍ່

ດີທີ່ສຸດ ສຳ ລັບ:: ເພງໂປດ, ເພງໃນປຶ້ມ, ເນື້ອໃນແບບຟອມຍາວຫຼາຍໂຕ

ພະຍາຍາມ VibeVoice

Pocket TTS

Free

Pocket TTS ໂດຍ Kyutai (ຜູ້ສ້າງ Moshi) ແມ່ນແບບຟອມການແປພາສາຂໍ້ຄວາມເປັນສຽງທີ່ມີຂະໜາດນ້ອຍ 100M ທີ່ມີນໍ້າໜັກເບົາກວ່າ. ມັນສາມາດໃຊ້ງານໄດ້ຢ່າງມີປະສິດຕິພາບໃນ CPU, ສະຫນັບສະຫນູນການກັ່ນຕອງສຽງແບບ zero-shot ຈາກຕົວຢ່າງສຽງດຽວ, ແລະຜະລິດສຽງເວົ້າທີ່ຟັງຄືກັບທໍາມະຊາດ. ຂະໜາດຂອງແບບຟອມທີ່ນ້ອຍເຮັດໃຫ້ມັນ ເໝາະ ສົມກັບການຕິດຕັ້ງດ້ານນອກແລະສະພາບແວດລ້ອມທີ່ມີຊັບພະຍາກອນຕ່ໍາ.

ຜູ້ພັດທະນາ::
Kyutai

ໃບອະນຸຍາດ::
MIT

ຄວາມໄວ:
Fast

ຄຸນນະພາບ::

ພາສາ:
en, fr

VRAM:
1GB

ການກັ່ນຕອງສຽງ:
ແມ່ນ

ຄ່າໃຊ້ຈ່າຍຕໍ່ຕົວອັກສອນ 1K:
ຟຣີ

100M ປາຣາມເຕີ ຜົນສະທ້ອນຂອງ CPU ການປິດສຽງ ແບບຟອມແບບດຽວ ເຕັມແລ້ວ

ດີທີ່ສຸດ ສຳ ລັບ:: ການຈັດຕັ້ງໃຊ້ເບົາ, ສະພາບແວດລ້ອມ CPU-only, ການກັ່ນຕອງສຽງຢ່າງໄວ

ພະຍາຍາມ Pocket TTS

Kitten TTS

Free

Kitten TTS ໂດຍ KittenML ແມ່ນແບບຟອມການແປພາສາຂໍ້ຄວາມທີ່ເບົາທີ່ສຸດທີ່ສ້າງຂຶ້ນໂດຍ ONNX. ດ້ວຍຕົວເລືອກຈາກ 15M ເຖິງ 80M (25-80 MB ໃນຮາດດິດ), ມັນສະ ໜອງ ການສັງເຄາະສຽງທີ່ມີຄຸນນະພາບສູງໃນ CPU ໂດຍບໍ່ຕ້ອງໃຊ້ GPU. ຄຸນລັກສະນະ 8 ສຽງພາຍໃນ, ໄວໃນການເວົ້າທີ່ປັບໄດ້, ແລະ ການປຸງແຕ່ງຂໍ້ຄວາມກ່ອນ ສຳ ລັບຕົວເລກ, ເງິນຕາແລະ ໜ່ວຍ. ດີເລີດ ສຳ ລັບການ ນຳ ໃຊ້ດ້ານ ໜ້າ ແລະ កម្មវិធីທີ່ມີ latency ຕ່ ຳ.

ຜູ້ພັດທະນາ::
KittenML

ໃບອະນຸຍາດ::
Apache 2.0

ຄວາມໄວ:
Fast

ຄຸນນະພາບ::

ພາສາ:
en

VRAM:
0GB

ການກັ່ນຕອງສຽງ:
ບໍ່ມີ

ຄ່າໃຊ້ຈ່າຍຕໍ່ຕົວອັກສອນ 1K:
ຟຣີ

ພຽງແຕ່ການຄິດໄລ່ CPU ເທົ່ານັ້ນ ນ້ອຍກວ່າ 80MB ສຽງທີ່ມີຢູ່ພາຍໃນ 8 ສຽງ ຄວບຄຸມຄວາມໄວ ພື້ນຖານ ONNX ຜົນອອກ 24kHz

ດີທີ່ສຸດ ສຳ ລັບ:: TTS ງ່າຍ ແລະ ໄວ, ຈັດການໃຊ້ງານດ້ານໜ້າ, ໂປແກຼມທີ່ໃຊ້ເວລາລໍຖ້າຕ່ຳ

ພະຍາຍາມ Kitten TTS

CosyVoice3

Standard

CosyVoice3 ແມ່ນການພັດທະນາຫຼ້າສຸດຈາກທີມ FunAudioLLM ຂອງ Alibaba. ມັນມີຄຸນສົມບັດການຄິດໄລ່ bi-streaming ທີ່ມີ ~ 150ms latency, ການຄວບຄຸມທີ່ອີງໃສ່ຄໍາແນະນໍາ ສຳ ລັບອາລົມ / ໄວ / ຂະ ໜາດ, ແລະ ການປັບປຸງຄວາມຄ້າຍຄືກັນຂອງຜູ້ເວົ້າ ສຳ ລັບການກັ່ນຕອງແບບສີ່ຫລ່ຽມ. ສະຫນັບສະຫນູນພາສາ9ແລະ 18 ພາສາຈີນ. RL-tuned variant delivers state-of-the-art prosody.

ຜູ້ພັດທະນາ::
Alibaba (FunAudioLLM)

ໃບອະນຸຍາດ::
Apache 2.0

ຄວາມໄວ:
Fast

ຄຸນນະພາບ::

ພາສາ:
en, zh, ja, ko, de, es, fr, it, ru

VRAM:
4GB

ການກັ່ນຕອງສຽງ:
ແມ່ນ

ຄ່າໃຊ້ຈ່າຍຕໍ່ຕົວອັກສອນ 1K:
2x

ស្ទ្រីມສອງທາງ ຄວບຄຸມອາລົມ ການປິດສຽງ ຄວບຄຸມຄວາມໄວ/ສຽງ ຄໍາສັ່ງທີ່ລຸ່ມນີ້

ດີທີ່ສຸດ ສຳ ລັບ:: ຜະລິດ TTS ຫຼາຍພາສາ, ຕົວປະສົມຕົວຈິງ, ສຽງທີ່ໄດ້ຮັບການກັ່ນຕອງ

ພະຍາຍາມ CosyVoice3

NAMAA Saudi TTS

Standard

NAMAA Saudi TTS ແມ່ນພາສາອາຣັບຊາອຸດີທີ່ປັບແຕ່ງ ChatterboxMultilingual ຂອງ Resemble AI. ໄດ້ຮັບການຝຶກອົບຮົມໂດຍ NAMAA Space ໃນການເວົ້າພາສາອາຣັບຊາອຸດີທີ່ຖືກຕ້ອງ, ມັນຜະລິດການອອກສຽງພາສາອາຣັບສະໄໝໃໝ່ແລະພາສາອາຣັບຊາອຸດີທີ່ເວົ້າໄດ້ງ່າຍທີ່ແບບແບບທົ່ວໄປຫຼາຍພາສາບໍ່ສາມາດທຽບໄດ້. ຮັບເອົາການກັ່ນຕອງສຽງແບບ zero-shot ຂອງ Chatterbox ແລະຄວບຄຸມອາລົມຜ່ານການແຈ້ງເຕືອນສຽງທີ່ອີງໃສ່. ພາສາອາຣັບ TTS ທີ່ມີນໍ້າໜັກເປີດຄັ້ງທຳອິດໄດ້ຈັດສົ່ງໃນ TTS.ai.

ຜູ້ພັດທະນາ::
NAMAA Space

ໃບອະນຸຍາດ::
MIT

ຄວາມໄວ:
Medium

ຄຸນນະພາບ::

ພາສາ:
ar

VRAM:
6GB

ການກັ່ນຕອງສຽງ:
ແມ່ນ

ຄ່າໃຊ້ຈ່າຍຕໍ່ຕົວອັກສອນ 1K:
2x

ພາສາອາຣັບຊາອູດີName ອາຣັບມາດຕະຖານທັນສະໄໝ ການປ້ອນສຽງແບບ Zero-shot ຄວບຄຸມອາລົມ ການອອກສຽງຂອງທ້ອງຖິ່ນ

ດີທີ່ສຸດ ສຳ ລັບ:: ເນື້ອໃນພາສາອາຣັບສຳລັບຜູ້ຟັງຊາອຸດີ, ການເວົ້າຂອງ MSA, ຕົວແທນສຽງ Khaleeji-dialect, ສຽງຂອງປຶ້ມພາສາອາຣັບ

ພະຍາຍາມ NAMAA Saudi TTS

Darwin TTS

Standard

Darwin-TTS-1.7B-Cross ໂດຍ FINAL-Bench ແມ່ນ ຕົວປ່ຽນແປງຂອງ Qwen3-TTS-1.7B ບ່ອນທີ່ 84 talker-FFN tensors (8.6%) ແມ່ນຖືກປະສົມປະສານຢູ່ທີ່ α=3% ກັບ tensors ທີ່ກົງກັນຂ້າມຈາກ Qwen3-1.7B-Base. ການປະສົມປະສານແມ່ນຖືກສ້າງຂຶ້ນໂດຍບໍ່ຕ້ອງຝຶກອົບຮົມຄືນໃໝ່ ແລະ ຜະລິດການກັ່ນຕອງສຽງທີ່ຊັດເຈນກວ່າເກົ່າໃນພາສາເກົາຫຼີ, ພາສາອັງກິດ, ພາສາຍີ່ປຸ່ນ ແລະ ພາສາຈີນ. ປະຕິບັດໃນຮູບແບບການກັ່ນຕອງສຽງທີ່ບໍ່ມີສຽງ (3 ວິນາທີຂອງສຽງທີ່ອີງໃສ່).

ຜູ້ພັດທະນາ::
FINAL-Bench

ໃບອະນຸຍາດ::
Apache 2.0

ຄວາມໄວ:
Medium

ຄຸນນະພາບ::

ພາສາ:
en, ko, ja, zh

VRAM:
7GB

ການກັ່ນຕອງສຽງ:
ແມ່ນ

ຄ່າໃຊ້ຈ່າຍຕໍ່ຕົວອັກສອນ 1K:
2x

ການປິດສຽງ ພາສາຕ່າງກັນ ປະສົມກັບ FFN ພາສາຕົ້ນຕໍ 4 ພື້ນຖານ Qwen3

ດີທີ່ສຸດ ສຳ ລັບ:: ການກັ່ນຕອງສຽງລະຫວ່າງພາສາອັງກິດ / ເກົາຫຼີ / ຍີ່ປຸ່ນ / ຈີນ ໂດຍໃຊ້ສຽງອ້າງອີງດຽວ

ພະຍາຍາມ Darwin TTS

MOSS-TTSD

Standard

MOSS-TTSD v1.0 ຈາກ OpenMOSS ແມ່ນແບບຟອມການສົນທະນາແບບ 7B ແບບຂໍ້ຄວາມ-ຫາ-ການເວົ້າທີ່ສືບຕໍ່ການສົນທະນາຈາກສຽງສັ້ນໆ. ສະຫນັບສະຫນູນເຖິງ5ຜູ້ເວົ້າພ້ອມກັນຜ່ານ [S1] / [S2] tags, ສຽງທີ່ບໍ່ມີສຽງຈາກສຽງທີ່ອີງໃສ່ 3-10s, ແລະເຖິງ 60 ນາທີຂອງການສົນທະນາຫຼາຍຄັ້ງທີ່ເປັນເອກະພາບໃນ 20 ພາສາ.

ຜູ້ພັດທະນາ::
OpenMOSS

ໃບອະນຸຍາດ::
Apache 2.0

ຄວາມໄວ:
Medium

ຄຸນນະພາບ::

ພາສາ:
en, zh

VRAM:
12GB

ການກັ່ນຕອງສຽງ:
ແມ່ນ

ຄ່າໃຊ້ຈ່າຍຕໍ່ຕົວອັກສອນ 1K:
2x

ຕົວເລືອກການຕັ້ງຄ່າສຽງ ເຖິງ5ຫູຟັງ ສຽງທີ່ສອດຄ່ອງກັນ 60min ການປິດສຽງ ປັບແຕ່ງໂປດແກລມ

ດີທີ່ສຸດ ສຳ ລັບ:: ເພງໂປດຄອນ, ເພງໃນປຶ້ມ, ຄໍາເວົ້າທີ່ໄດ້ຮັບສຽງແປ, ເນື້ອໃນການສົນທະນາດ້ວຍສຽງຫຼາຍໆສຽງ

ພະຍາຍາມ MOSS-TTSD

Ming-Omni TTS

Free

Ming-omni-tts-0.5B ໂດຍ inclusionAI ແມ່ນແບບຈໍາລອງການເວົ້າ omni-modal ຂະຫນາດນ້ອຍທີ່ສ້າງຂຶ້ນໃນ BailingMM ແຂງ backbone ທີ່ມີ Patch-by-Patch ສຽງ decoder ກົງກັນຂ້າມ. ສະຫນອງການອອກສຽງ 44.1kHz (ໃກ້ກັບຄຸນນະພາບ CD), ສະຫນັບສະຫນູນການຖ່າຍທອດສຽງສິ້ນສຸດລົງຈາກ 3+ ຄໍາຮ້ອງສະຫມັກຄັ້ງທໍາອິດ, ແລະປະກອບມີ built-in ຮູ້ສຶກ / ພາສາ / BGM ຄວບຄຸມຜ່ານຄໍາແນະນໍາ JSON. ມີຄວາມຫມັ້ນຄົງທີ່ດີ - 0.83% WER ກ່ຽວກັບການ benchmarks ຈີນ.

ຜູ້ພັດທະນາ::
inclusionAI

ໃບອະນຸຍາດ::
Apache 2.0

ຄວາມໄວ:
Medium

ຄຸນນະພາບ::

ພາສາ:
en, zh

VRAM:
3GB

ການກັ່ນຕອງສຽງ:
ແມ່ນ

ຄ່າໃຊ້ຈ່າຍຕໍ່ຕົວອັກສອນ 1K:
ຟຣີ

ຜົນອອກ 44. 1kHz ການປິດສຽງ ຄວບຄຸມອາລົມ ຄວບຄຸມພາສາພື້ນເມືອງ ສ້າງ BGM ອັດລົງ 0. 5B

ດີທີ່ສຸດ ສຳ ລັບ:: ພາສາສອງພາສາທີ່ມີຄວາມເຊື່ອຖືສູງ, ສຽງທີ່ຄວບຄຸມດ້ວຍອາລົມ, ເນື້ອໃນຂອງປື້ມສຽງພາສາຈີນ

ພະຍາຍາມ Ming-Omni TTS

Kokoro

ຟຣີ

Kokoro is an 82 million parameter text-to-speech model that punches well above its weight class. Despite its tiny size, it produces remarkably natural and expressive speech. Kokoro supports multiple languages including English, Japanese, Chinese, and Korean with a variety of expressive voices. It runs incredibly fast — generating audio nearly 100x faster than real-time on a GPU.

ຜູ້ພັດທະນາ::
Hexgrad

ໃບອະນຸຍາດ::
Apache 2.0

ຄວາມໄວ:
Fast

ຄຸນນະພາບ::

ພາສາ: en, ja, zh, fr, it, pt, es, hi

ດີທີ່ສຸດ ສຳ ລັບ:: High-quality TTS with minimal latency, streaming applications

ທົດລອງຟຣີ

Piper

ຟຣີ

Piper is a lightweight text-to-speech engine developed by Rhasspy that uses VITS and larynx architectures. It runs entirely on CPU, making it ideal for edge devices, home automation, and applications requiring offline TTS. With over 100 voices across 30+ languages, Piper delivers natural-sounding speech at real-time speeds even on a Raspberry Pi 4.

ຜູ້ພັດທະນາ::
Rhasspy

ໃບອະນຸຍາດ::
MIT

ຄວາມໄວ:
Fast

ຄຸນນະພາບ::

ພາສາ: en, de, fr, es, it, pt, nl, pl, ru, zh, ar, cs, da, fi, el, hu, is, ka, kk, ne, no, ro, sk, sr, sv, sw, tr, uk, vi

ດີທີ່ສຸດ ສຳ ລັບ:: Quick previews, accessibility, and embedded applications

ທົດລອງຟຣີ

VITS

ຟຣີ

VITS (Variational Inference with adversarial learning for end-to-end Text-to-Speech) is a parallel end-to-end TTS method that generates more natural sounding audio than current two-stage models. It adopts variational inference augmented with normalizing flows and an adversarial training process, achieving a significant improvement in naturalness.

ຜູ້ພັດທະນາ::
Jaehyeon Kim et al.

ໃບອະນຸຍາດ::
MIT

ຄວາມໄວ:
Fast

ຄຸນນະພາບ::

ພາສາ: en, de, es, fr, pt, nl, fi, hu, bg, uk, pl

ດີທີ່ສຸດ ສຳ ລັບ:: General-purpose text-to-speech with natural prosody

ທົດລອງຟຣີ

MeloTTS

ຟຣີ

MeloTTS by MyShell.ai is a multilingual TTS library supporting English (American, British, Indian, Australian), Spanish, French, Chinese, Japanese, and Korean. It is extremely fast, processing text at near real-time speed on CPU alone. MeloTTS is designed for production use and supports both CPU and GPU inference.

ຜູ້ພັດທະນາ::
MyShell.ai

ໃບອະນຸຍາດ::
MIT

ຄວາມໄວ:
Fast

ຄຸນນະພາບ::

ພາສາ: en, es, fr, zh, ja, ko

ດີທີ່ສຸດ ສຳ ລັບ:: Production applications needing fast, multilingual TTS

ທົດລອງຟຣີ

Kani TTS 2

ຟຣີ

Kani-TTS-2 by NineNineSix is an ultra-lightweight 400M parameter model built on a Liquid AI LFM2 backbone with NVIDIA NanoCodec. It runs in just 3GB VRAM and produces ~10 seconds of speech in ~2 seconds on an A100 (RTF 0.2). The current public release ships an English-only `kani-tts-2-en` checkpoint and does not expose the speaker-embedding hook needed for voice cloning — use Chatterbox / IndexTTS2 / F5-TTS for cloning, or Kokoro / MeloTTS for non-English.

ຜູ້ພັດທະນາ::
NineNineSix

ໃບອະນຸຍາດ::
Apache 2.0

ຄວາມໄວ:
Fast

ຄຸນນະພາບ::

ພາສາ: en

ດີທີ່ສຸດ ສຳ ລັບ:: Fast English generation on low-VRAM hardware, quick previews

ທົດລອງຟຣີ

OuteTTS

ຟຣີ

OuteTTS extends large language models with text-to-speech capabilities while preserving the original architecture. It supports multiple backends including llama.cpp (CPU/GPU), Hugging Face Transformers, ExLlamaV2, VLLM, and even browser inference via Transformers.js. Features zero-shot voice cloning through speaker profiles saved as JSON.

ຜູ້ພັດທະນາ::
OuteAI

ໃບອະນຸຍາດ::
Apache 2.0

ຄວາມໄວ:
Fast

ຄຸນນະພາບ::

ພາສາ: en

ດີທີ່ສຸດ ສຳ ລັບ:: Edge deployment, browser-based TTS, low-resource environments

ທົດລອງຟຣີ

Pocket TTS

ຟຣີ

Pocket TTS by Kyutai (creators of Moshi) is a compact 100M parameter text-to-speech model that punches well above its weight. It runs efficiently on CPU, supports zero-shot voice cloning from a single audio sample, and produces natural-sounding speech. The small model size makes it ideal for edge deployment and low-resource environments.

ຜູ້ພັດທະນາ::
Kyutai

ໃບອະນຸຍາດ::
MIT

ຄວາມໄວ:
Fast

ຄຸນນະພາບ::

ພາສາ: en, fr

ດີທີ່ສຸດ ສຳ ລັບ:: Lightweight deployment, CPU-only environments, quick voice cloning

ທົດລອງຟຣີ

Kitten TTS

ຟຣີ

ຜູ້ພັດທະນາ::
KittenML

ໃບອະນຸຍາດ::
Apache 2.0

ຄວາມໄວ:
Fast

ຄຸນນະພາບ::

ພາສາ: en

ດີທີ່ສຸດ ສຳ ລັບ:: Fast lightweight TTS, edge deployment, low-latency applications

ແບບ	ຜູ້ພັດທະນາ:	ສັດ	ຄວາມໄວ	ພາສາ	VRAM	ໃບອະນຸຍາດ:	ຄ່າໃຊ້ຈ່າຍ
Kokoro	Hexgrad	Free	Fast	8	1.5GB	Apache 2.0	ຟຣີ	ប្រើ
Piper	Rhasspy	Free	Fast	29	0 (CPU only)	MIT	ຟຣີ	ប្រើ
VITS	Jaehyeon Kim et al.	Free	Fast	11	1GB	MIT	ຟຣີ	ប្រើ
MeloTTS	MyShell.ai	Free	Fast	6	0.5GB (GPU optional)	MIT	ຟຣີ	ប្រើ
Bark	Suno	Standard	Slow	13	5GB	MIT	2	ប្រើ
Bark Small	Suno	Standard	Medium	13	2GB	MIT	2	ប្រើ
CosyVoice 2	Alibaba (Tongyi Lab)	Standard	Medium	8	4GB	Apache 2.0	2	ប្រើ
Dia TTS	Nari Labs	Standard	Medium	1	4GB	Apache 2.0	2	ប្រើ
Parler TTS	Hugging Face	Standard	Medium	1	4GB	Apache 2.0	2	ប្រើ
GLM-TTS	Zhipu AI	Standard	Medium	2	4GB	GLM-4 License	2	ប្រើ
IndexTTS-2	Index Team	Standard	Medium	2	4GB	Bilibili Model License	2	ប្រើ
Spark TTS	SparkAudio	Standard	Medium	2	4GB	CC BY-NC-SA 4.0	2	ប្រើ
GPT-SoVITS	RVC-Boss	Standard	Slow	4	6GB	MIT	2	ប្រើ
Orpheus	Canopy Labs	Standard	Medium	1	4GB	Llama 3.2 Community	2	ប្រើ
Chatterbox	Resemble AI	Premium	Medium	1	4GB	MIT	4	ប្រើ
Tortoise TTS	James Betker	Premium	Slow	1	8GB	Apache 2.0	4	ប្រើ
StyleTTS 2	Columbia University	Premium	Medium	1	4GB	MIT	4	ប្រើ
OpenVoice	MyShell.ai / MIT	Premium	Medium	6	4GB	MIT	4	ប្រើ
Qwen3 TTS	Alibaba (Qwen)	Standard	Medium	10	7GB	Apache 2.0	2	ប្រើ
Sesame CSM	Sesame	Premium	Slow	1	8GB	Apache 2.0	4	ប្រើ
Chatterbox Turbo	Resemble AI	Standard	Fast	1	2GB	MIT	2	ប្រើ
VoxCPM	OpenBMB	Standard	Fast	2	4GB	Apache 2.0	2	ប្រើ
Kani TTS 2	NineNineSix	Free	Fast	1	3GB	Apache 2.0	ຟຣີ	ប្រើ
OuteTTS	OuteAI	Free	Fast	1	2GB	Apache 2.0	ຟຣີ	ប្រើ
VibeVoice	Microsoft	Standard	Fast	2	4GB	MIT	2	ប្រើ
Pocket TTS	Kyutai	Free	Fast	2	1GB	MIT	ຟຣີ	ប្រើ
Kitten TTS	KittenML	Free	Fast	1	0GB	Apache 2.0	ຟຣີ	ប្រើ
CosyVoice3	Alibaba (FunAudioLLM)	Standard	Fast	9	4GB	Apache 2.0	2	ប្រើ
NAMAA Saudi TTS	NAMAA Space	Standard	Medium	1	6GB	MIT	2	ប្រើ
Darwin TTS	FINAL-Bench	Standard	Medium	4	7GB	Apache 2.0	2	ប្រើ
MOSS-TTSD	OpenMOSS	Standard	Medium	2	12GB	Apache 2.0	2	ប្រើ
Ming-Omni TTS	inclusionAI	Free	Medium	2	3GB	Apache 2.0	ຟຣີ	ប្រើ

ເວທີ AI ຂໍ້ຄວາມເປັນຄຳເວົ້າທີ່ກວ້າງຂວາງທີ່ສຸດ

ເຮັດຫຍັງຈິ່ງເລືອກ TTS.ai ສຳ ລັບຂໍ້ຄວາມເປັນຄຳເວົ້າ?

TTS.ai ນໍາເອົາແບບຈໍາລອງຂໍ້ຄວາມ-ເປັນ-ຄໍາເວົ້າທີ່ເປີດແຫຼ່ງທີ່ດີທີ່ສຸດໃນໂລກມາລວມກັນໃນເວທີດຽວ, ງ່າຍຕໍ່ການໃຊ້ງານ. ບໍ່ຄືກັບການບໍລິການທີ່ເປັນເຈົ້າຂອງທີ່ກັກທ່ານໄວ້ໃນເຄື່ອງຈັກສຽງດຽວ, TTS.ai ຊ່ວຍໃຫ້ທ່ານສາມາດເຂົ້າເຖິງແບບຈໍາລອງ 20+ ຈາກຫ້ອງທົດລອງຄົ້ນຄວ້າທີ່ນໍາໜ້າລວມທັງ Coqui, MyShell, Amphion, NVIDIA, Suno, HuggingFace, Tsinghua University ແລະອື່ນໆ.

ທຸກໆແບບແມ່ນ Open Source ຕາມ MIT, Apache 2.0, ຫຼື ໃບອະນຸຍາດທີ່ອະນຸຍາດໃຫ້ຄ້າຍຄືກັນ, ຮັບປະກັນວ່າທ່ານມີສິດການຄ້າເຕັມທີ່ເພື່ອໃຊ້ສຽງທີ່ຜະລິດໃນໂຄງການຂອງທ່ານ. ບໍ່ວ່າທ່ານຈະຕ້ອງການການສັງເຄາະທີ່ໄວ, ເບົາ ສຳ ລັບແອັບພລິເຄຊັນເວລາຈິງຫຼືຜົນຜະລິດທີ່ມີຄຸນນະພາບສູງ ສຳ ລັບປື້ມສຽງແລະ podcasts, TTS.ai ມີແບບທີ່ຖືກຕ້ອງ ສຳ ລັບທຸກໆກໍລະນີໃຊ້.

ແບບຟອມຟຣີ, ບໍ່ມີບັນຊີທີ່ຕ້ອງການ

ເລີ່ມຕົ້ນທັນທີກັບສາມແບບຟອມ TTS ຟຣີ: Piper (ໄວ, ນ້ໍາຫນັກເບົາ), VITS (ການສັງເຄາະລະບົບປະສາດທີ່ມີຄຸນນະພາບສູງ), ແລະ MeloTTS (ການສະຫນັບສະຫນູນຫຼາຍພາສາ). ບໍ່ມີການລົງທະບຽນ, ບໍ່ມີບັດເຄຣດິດ, ບໍ່ມີຂໍ້ຈໍາກັດກ່ຽວກັບລຸ້ນ. ແບບຟອມຟຣີສະຫນັບສະຫນູນພາສາອັງກິດແລະຫຼາຍພາສາອື່ນໆທີ່ມີຜົນຜະລິດສຽງທໍາມະຊາດທີ່ເຫມາະສົມສໍາລັບຄໍາຮ້ອງສະຫມັກສ່ວນຫຼາຍ.

ການປະມວນຜົນທີ່ໃຊ້ຄວາມໄວ GPU

ແບບ TTS ທັງໝົດແມ່ນໃຊ້ GPU NVIDIA ທີ່ມີປະສິດທິພາບສູງ ເພື່ອຜະລິດສຽງໄດ້ໄວ ແລະ ຖືກຕ້ອງ. ແບບຟອມຟຣີ ປົກກະຕິແລ້ວຈະຜະລິດສຽງໄດ້ໃນ2ວິນາທີ. ແບບຟອມມາດຕະຖານເຊັ່ນ Kokoro, CosyVoice 2, ແລະ Bark ໃຊ້ເວລາປະມານ 3-5 ວິນາທີ. ແບບຟອມທີ່ລາຄາຖືກກວ່າ ທີ່ມີຄຸນນະພາບສູງທີ່ສຸດ ເຊັ່ນ Tortoise ແລະ Chatterbox ໃຊ້ເວລາ 5-15 ວິນາທີ ຂຶ້ນກັບຄວາມຍາວຂອງຂໍ້ຄວາມ.

ສະຫນັບສະຫນູນ 30+ ພາສາ

ສ້າງການເວົ້າໃນພາສາຫຼາຍກວ່າ 30 ພາສາລວມທັງພາສາອັງກິດ, ສະເປນ, ຝຣັ່ງ, ເຢຍລະມັນ, ອີຕາລີ, ໂປຕຸເກດ, ຈີນ, ຍີ່ປຸ່ນ, ເກົາຫຼີ, ອາຣັບ, ອິນເດຍ, ຣັດເຊຍ, ແລະຫຼາຍຢ່າງ. ແບບ ຈຳ ນວນ ໜຶ່ງ ສະຫນັບສະຫນູນການເຊື່ອມໂຍງພາສາ, ຫມາຍຄວາມວ່າທ່ານສາມາດສ້າງການເວົ້າໃນພາສາທີ່ສຽງຕົ້ນສະບັບບໍ່ເຄີຍໄດ້ຮັບການຝຶກອົບຮົມ. CosyVoice 2ແລະ GPT-SoVITS ດີເລີດໃນການກັ່ນຕອງສຽງພາສາ.

ເປີດການພັດທະນາ

ລວມເອົາ TTS.ai ເຂົ້າໃນແອັບ your ຂອງທ່ານດ້ວຍ OpenAI-compatible REST API ຂອງພວກເຮົາ. ຈຸດສຸດທ້າຍ ໜຶ່ງ ສຳ ລັບທຸກໆແບບ 20 +. Python, JavaScript, cURL, ແລະ Go SDKs. ການສະຫນັບສະຫນູນການຖ່າຍທອດສົດ ສຳ ລັບແອັບພລິເຄຊັນເວລາຈິງ. ການປຸງແຕ່ງແບດເຕີລີ່ ສຳ ລັບການສ້າງເນື້ອຫາຂະ ໜາດ ໃຫຍ່. Webhooks ສຳ ລັບແຈ້ງການ async. API ເຂົ້າເຖິງລວມຢູ່ໃນແຜນທຸກຢ່າງລວມທັງຟຣີ.

ຄໍາຖາມທີ່ຖາມເລື້ອຍໆ

Text to Speech (TTS) ແມ່ນເຕັກໂນໂລຊີ AI ທີ່ປ່ຽນຂໍ້ຄວາມທີ່ຂຽນມາເປັນສຽງເວົ້າທີ່ມີສຽງທໍາມະຊາດ. ແບບຈໍາລອງ TTS ແບບດັ້ງເດີມເຊັ່ນ Kokoro, Chatterbox, ແລະ CosyVoice 2ໃຊ້ການຮຽນຮູ້ເລິກເຊິ່ງເພື່ອຜະລິດຄໍາເວົ້າທີ່ມີສຽງທີ່ໂດດເດັ່ນຂອງມະນຸດ, ດ້ວຍການເວົ້າແບບທໍາມະຊາດ, ຄວາມຮູ້ສຶກແລະຈັງຫວະ.

ມັນຂຶ້ນກັບຄວາມຕ້ອງການຂອງທ່ານ. ສຳ ລັບເບິ່ງກ່ອນໄວໆນີ້, ໃຊ້ Piper ຫຼື MeloTTS (ຟຣີ, ໄວ). ສຳ ລັບຄຸນນະພາບສູງ, ພະຍາຍາມ Kokoro ຫຼື CosyVoice 2(ມາດຕະຖານ). ສຳ ລັບການກັ່ນຕອງສຽງ, ໃຊ້ Chatterbox ຫຼື GPT-SoVITS (ປະຢັດ). ສຳ ລັບເນື້ອຫາຂອງຂໍ້ຄວາມ/ປັ໊ກກາສ, ພະຍາຍາມ Dia TTS. ແບບທຸກແບບມີຈຸດແຂງທີ່ແຕກຕ່າງກັນ - ທົດລອງເພື່ອຊອກຫາທີ່ ເໝາະ ສົມທີ່ສຸດ.

ແມ່ນແລ້ວ! TTS.ai ສະຫນອງການຟຣີຂໍ້ຄວາມ-ເພື່ອ-ການເວົ້າກັບ Kokoro, Piper, VITS, ແລະ MeloTTS ແບບ. ບໍ່ມີບັນຊີທີ່ຈໍາເປັນສໍາລັບເຖິງ 500 ຕົວອັກສອນແລະ3ລຸ້ນຕໍ່ຊົ່ວໂມງ. ລົງທະບຽນສໍາລັບບັນຊີຟຣີເພື່ອໄດ້ຮັບ 15 ສິນເຊື່ອແລະເຂົ້າເຖິງທຸກໆແບບ.

ແບບ TTS ຂອງພວກເຮົາລວມກັນສະຫນັບສະຫນູນ 30 + ພາສາລວມທັງພາສາອັງກິດ, ສະເປນ, ຝຣັ່ງ, ເຢຍລະມັນ, ຍິຕາລີ, ໂປຕຸເກດ, ຈີນ, ຍີ່ປຸ່ນ, ເກົາຫຼີ, ພາສາອາຣັບ, ລັດເຊຍ, ພາສາອິນເດຍ, ແລະຫຼາຍ. ພາສາທີ່ໃຊ້ໄດ້ແຕກຕ່າງກັນໂດຍແບບ.

ໂອ້, ສຽງທີ່ຜະລິດຜ່ານ TTS.ai ສາມາດໃຊ້ໄດ້ໃນທາງການຄ້າ. ແບບຂອງພວກເຮົາທັງ ໝົດ ໃຊ້ໃບອະນຸຍາດ Open Source (MIT, Apache 2. 0). ກວດເບິ່ງໃບອະນຸຍາດແບບແຕ່ລະອັນ ສຳ ລັບເງື່ອນໄຂສະເພາະ. ພວກເຮົາແນະ ນຳ ໃຫ້ກວດເບິ່ງໃບອະນຸຍາດຂອງແບບສະເພາະທີ່ທ່ານໃຊ້ ສຳ ລັບໂຄງການຂອງທ່ານ.

TTS.ai ສະຫນັບສະຫນູນ MP3, WAV, OGG, ແລະ FLAC ຮູບແບບຜົນອອກ. MP3 ແມ່ນປ້ອນຂໍ້ມູນແບບປ້ອນຂໍ້ມູນສໍາລັບການຫຼິ້ນເວບໄຊທ໌. WAV ແມ່ນແນະນໍາສໍາລັບການປຸງແຕ່ງສຽງເພີ່ມເຕີມ. ທ່ານສາມາດປ່ຽນລະຫວ່າງຮູບແບບໂດຍໃຊ້ເຄື່ອງມືການປ່ຽນສຽງຂອງພວກເຮົາ.

ການຖ່າຍທອດສຽງໃຊ້ AI ເພື່ອຖ່າຍທອດສຽງສະເພາະຈາກຕົວຢ່າງສຽງສັ້ນໆ (ປົກກະຕິແລ້ວ 5-30 ວິນາທີ). ອັບໂຫລດການບັນທຶກສຽງທີ່ຊັດເຈນຂອງເປົ້າ ໝາຍ ແລະ ແບບ ຈຳ ລອງເຊັ່ນ Chatterbox, GPT-SoVITS, ຫຼື OpenVoice ຈະສ້າງການເວົ້າ ໃໝ່ ໃນສຽງນັ້ນ. ຄຸນະພາບໄດ້ປັບປຸງດ້ວຍສຽງທີ່ສະອາດແລະຍາວກວ່າ.

ຜູ້ໃຊ້ຟຣີສາມາດສ້າງໄດ້ເຖິງ 500 ຕົວອັກສອນຕໍ່ຄໍາຮ້ອງຂໍ. ຜູ້ໃຊ້ທີ່ລົງທະບຽນໄດ້ຮັບເຖິງ 5,000 ຕົວອັກສອນຕໍ່ຄໍາຮ້ອງຂໍ. ສຳ ລັບຂໍ້ຄວາມທີ່ຍາວກວ່າ, ສຽງຖືກສ້າງຂຶ້ນໃນຊິ້ນແລະຕິດກັນຢ່າງອັດຕະໂນມັດ. ຜູ້ໃຊ້ API ສາມາດປະມວນຜົນໄດ້ເຖິງ 10,000 ຕົວອັກສອນຕໍ່ຄໍາຮ້ອງຂໍ.

ການສະໜັບສະໜູນ SSML (ພາສາການສັງເຄາະການເວົ້າ) ແຕກຕ່າງກັນຕາມແບບ. Piper ແລະ ແບບອື່ນໆບາງຢ່າງສະໜັບສະໜູນແທັກ SSML ພື້ນຖານສຳລັບການຢຸດ, ການເນັ້ນ, ແລະ ການຄວບຄຸມການເວົ້າ. ສຳ ລັບແບບທີ່ບໍ່ມີການສະໜັບສະໜູນ SSML ແບບຕົ້ນຕໍ, ທ່ານສາມາດໃຊ້ການວາງຕົວໜັງສືແບບທຳມະຊາດ ແລະ ການຢຸດສາຍເພື່ອສົ່ງຜົນກະທົບຕໍ່ການເວົ້າໄດ້.

ແມ່ນແລ້ວ, ຕົວແບບສ່ວນໃຫຍ່ສະຫນັບສະຫນູນການປັບຄວາມໄວຈາກ 0.5x ເຖິງ 2.0x. ຕົວແບບບາງຢ່າງເຊັ່ນ Bark ແລະ Parler ຍັງອະນຸຍາດໃຫ້ການຄວບຄຸມ pitch ແລະ style. ທ່ານສາມາດຕັ້ງຄ່າຕົວກໍານົດການຄວາມໄວໃນແຜງການຕັ້ງຄ່າລະດັບສູງຫຼືຜ່ານຕົວກໍານົດການຄວາມໄວ API.

ແມ່ນແລ້ວ, ການປະມວນຜົນຫຼາຍຄັ້ງແມ່ນສາມາດເຮັດໄດ້ຜ່ານ API ຂອງພວກເຮົາ. ທ່ານສາມາດສົ່ງຂໍ້ຄວາມຫຼາຍສ່ວນໃນການໂທ API ດຽວ ຫຼື ສະຄິບ, ແລະ ແຕ່ລະອັນຈະຖືກປະມວນຜົນ ແລະ ສົ່ງຄືນເປັນໄຟລ໌ສຽງທີ່ແຕກຕ່າງກັນ. ນີ້ແມ່ນດີເລີດສຳລັບບົດຂອງປຶ້ມສຽງ, ໂມດູນການຮຽນຮູ້ທາງອີເລັກໂຕຣນິກ, ຫຼື ສະຄິບການສົນທະນາເກມ.

ສ້າງກຸນແຈ API ຈາກ dashboard ຂອງບັນຊີຂອງທ່ານ, ຫຼັງຈາກນັ້ນສົ່ງຄໍາຮ້ອງຂໍ POST ໄປທີ່ຈຸດສຸດທ້າຍຂອງ REST API ຂອງພວກເຮົາດ້ວຍຂໍ້ຄວາມ, ແບບ ຈຳ ລອງແລະບຣາມິເຕີສຽງຂອງທ່ານ. ພວກເຮົາສະ ໜອງ ຕົວຢ່າງຂອງໂປແກຼມໃນ Python, JavaScript ແລະ cURL. API ແມ່ນເຂົ້າກັນໄດ້ກັບ OpenAI, ສະນັ້ນການປະສົມປະສານທີ່ມີຢູ່ແລ້ວເຮັດວຽກກັບການປ່ຽນແປງຢ່າງ ໜ້ອຍ.

5.0/5 (4)

ເລີ່ມຕົ້ນການປ່ຽນຂໍ້ຄວາມເປັນການເວົ້າດຽວນີ້

ເຂົ້າຮ່ວມພັນໆຜູ້ສ້າງໂດຍໃຊ້ TTS.ai. ໄດ້ຮັບ 15,000 ຕົວອັກສອນຟຣີກັບບັນຊີໃຫມ່. ແບບຟອມຟຣີມີໃຫ້ໂດຍບໍ່ມີການລົງທະບຽນ.

ລົງທະບຽນຟຣີ ເບິ່ງລາຄາ

ແປ​ຂໍ້ຄວາມ​ເປັນ​ຄຳ​ເວົ້າName

ຮັກ TTS.ai? ເວົ້າກັບເພື່ອນຂອງທ່ານ!

ລາຍລະອຽດ​ແບບ

Kitten TTS

ຂໍ້​ແນະນຳ​ສຳລັບ​ຜົນ​ທີ່​ດີ​ກວ່າ

ຄ່າ​ໃຊ້​ຈ່າຍ​ຂອງ​ສິນເຊື່ອ

ວິທີການ​ໃຊ້ AI Text to Speech

បញ្ចូល​ຂໍ້ຄວາມ​ຂອງ​ທ່ານ

ເລືອກ​ແບບ ແລະ ສຽງ

ສ້າງ ແລະ ດາວໂຫລດ

ຂໍ້ຄວາມ​ໄປ​ສູ່​ການ​ເວົ້າ

ອ່ານ​ປື້ມ​ສຽງ

ສຽງ​ວີດີໂອ

ផតខាស់

ເກມName

ການ​ຮຽນ​ຮູ້​ທາງ​ອີເລັກໂຕຣນິກ

ການ​ເຂົ້າ​ເຖິງ

ລະບົບ​ໂທລະສັບName

ສື່ສັງຄົມ

ການ​ຖ່າຍ​ທອດ

ຕະຫຼາດ

ການ​ດັດ​ແປງ​ສຽງ ແລະ ການ​ຕັ້ງ​ຕົວ​ເມືອງ

ສຸຂະອະນາໄມ

ແບບ​ແບບ​ຂໍ້ຄວາມ​ເປັນ​ການ​ເວົ້າ​ທັງ​ໝົດ

Kokoro

Piper

VITS

MeloTTS

Bark

Bark Small

CosyVoice 2

Dia TTS

Parler TTS

GLM-TTS

IndexTTS-2

Spark TTS

GPT-SoVITS

Orpheus

Chatterbox

Tortoise TTS

StyleTTS 2

OpenVoice

Qwen3 TTS

Sesame CSM

Chatterbox Turbo

VoxCPM

Kani TTS 2

OuteTTS

VibeVoice

Pocket TTS

Kitten TTS

CosyVoice3

NAMAA Saudi TTS

Darwin TTS

MOSS-TTSD

Ming-Omni TTS

Kokoro

Piper

VITS

MeloTTS

Kani TTS 2

OuteTTS

Pocket TTS

Kitten TTS

Ming-Omni TTS

Bark

Bark Small

CosyVoice 2

Dia TTS

Parler TTS

GLM-TTS

IndexTTS-2

Spark TTS

GPT-SoVITS

Orpheus

Qwen3 TTS

Chatterbox Turbo

VoxCPM

VibeVoice

CosyVoice3

ແປຂໍ້ຄວາມເປັນຄຳເວົ້າName

ລາຍລະອຽດແບບ

ຂໍ້ແນະນຳສຳລັບຜົນທີ່ດີກວ່າ

ຄ່າໃຊ້ຈ່າຍຂອງສິນເຊື່ອ

ວິທີການໃຊ້ AI Text to Speech

បញ្ចូលຂໍ້ຄວາມຂອງທ່ານ

ເລືອກແບບ ແລະ ສຽງ

ຂໍ້ຄວາມໄປສູ່ການເວົ້າ

ອ່ານປື້ມສຽງ

ສຽງວີດີໂອ

ການຮຽນຮູ້ທາງອີເລັກໂຕຣນິກ

ການເຂົ້າເຖິງ

ລະບົບໂທລະສັບName

ການຖ່າຍທອດ

ການດັດແປງສຽງ ແລະ ການຕັ້ງຕົວເມືອງ

ແບບແບບຂໍ້ຄວາມເປັນການເວົ້າທັງໝົດ

ຕາຕະລາງການປຽບທຽບແບບ

ເວທີ AI ຂໍ້ຄວາມເປັນຄຳເວົ້າທີ່ກວ້າງຂວາງທີ່ສຸດ

ເຮັດຫຍັງຈິ່ງເລືອກ TTS.ai ສຳ ລັບຂໍ້ຄວາມເປັນຄຳເວົ້າ?

ການປະມວນຜົນທີ່ໃຊ້ຄວາມໄວ GPU

ເປີດການພັດທະນາ

ເລີ່ມຕົ້ນການປ່ຽນຂໍ້ຄວາມເປັນການເວົ້າດຽວນີ້