CosyVoice 2 ສຽງເປັນຂໍ້ຄວາມ

Alibaba Tongyi Lab's streaming TTS reaching human-parity naturalness with near-zero latency and zero-shot cloning.

0/500 តួអក្សរ · ລົງທະບຽນສໍາລັບ 5,000 ຕໍ່ຄົນ →

ລົງທະບຽນ ຈໍາກັດຕົວອັກສອນໃຫ້ໄດ້ 5,000

របៀប SSML (ພາສາການສັງເຄາະການເວົ້າເພື່ອການຄວບຄຸມທີ່ດີ)

ວາງຂໍ້ຄວາມຂອງທ່ານໄວ້ໃນແທັກ SSML ເພື່ອຄວບຄຸມຢ່າງລະອຽດ:

<speak><prosody rate="slow">Slow speech</prosody></speak>

ແທັກອາລົມ/ ແບບ

ແທັກທີ່ຕົວແບບທີ່ໄດ້ເລືອກເຂົ້າໃຈ — ກົດເພື່ອປ່ອຍພວກມັນລົງໃນຂໍ້ຄວາມຂອງທ່ານບ່ອນທີ່ມັນເກີດຂຶ້ນ:

ພະຍາກອນການອອກສຽງ

ຕັ້ງຄ່າການອອກສຽງແບບສ່ວນຕົວ (ຄໍາ = ການອອກສຽງ):

ລະດັບສຽງ 0

-12 +12

ແບບ AI

ສຽງ

ພາສາ

ຮູບແບບຜົນອອກມາ

ໄວ 1.0x

0.5x 2.0x

ຟຣີກັບ Piper, VITS, MeloTTS

ສຽງທີ່ໄດ້ສ້າງຂຶ້ນຂອງທ່ານຈະປາກົດຢູ່ທີ່ນີ້. ເລືອກແບບ, ເຂົ້າເຖິງຂໍ້ຄວາມ ແລະ ຄລິກໃສ່ ສ້າງ.

ກ່ຽວກັບ CosyVoice 2

CosyVoice 2, from Alibaba's Tongyi Lab, was designed to make high-quality speech viable in real time. It uses a finite scalar quantization approach combined with flow matching to support streaming synthesis at extremely low latency, while reaching human-comparable naturalness that outperforms many commercial systems in subjective tests. Beyond quality, it offers zero-shot voice cloning from about 3 seconds of audio, cross-lingual synthesis, and fine-grained emotion control. Covering 8 languages with a 1,000-character cap, it's a strong fit for voice assistants, streaming TTS, and other real-time applications.

ດີທີ່ສຸດ ສຳ ລັບ: Real-time applications, streaming TTS, voice assistants

ຄົ້ນຫາທັງໝົດ CosyVoice 2 ສຽງ

ເບິ່ງຢ່າງໄວວາ

ຜູ້ພັດທະນາ: Alibaba (Tongyi Lab)
ໃບອະນຸຍາດ: Apache 2.0
ສັດ: standard
ໄວ: medium
ການປິດສຽງ: ແມ່ນ
ພາສາ: English, Chinese, Japanese, Korean, French, German, Italian, Spanish
ຕົວອັກສອນສູງສຸດ: 1000