ڕاپۆرتکردنی کێشە/ داواکاری تایبەتمەندی

CosyVoice 2 نووسراو بۆ بیستراو

Alibaba Tongyi Lab's streaming TTS reaching human-parity naturalness with near-zero latency and zero-shot cloning.

0/500 پیتەکان · بۆ هەر نەوەیەک ٥٠٠٠ کەس تۆمار بکەن →

تۆماربکە بۆ ٥٠٠٠ هێما

شێوازی SSML (زمانى نیشاندانى تێکەڵکردنی قسەکردن بۆ کۆنتڕۆڵی ورد)

نوسراوەکەت بگۆڕە بۆ تگەکانی SSML بۆ کۆنتڕۆڵی ڕاستەقینە:

<speak><prosody rate="slow">Slow speech</prosody></speak>

ستایل:

تگەکان کە مۆدێلی هەڵبژێردراو تێیدەگات - بکەرەوە بۆ ئەوەی یەکێکیان بخەیتە ناو دەقەکەتەوە کە تیایدا ڕوودەدات:

فەرهەنگی دەنگی

پێناسەکردنی دەنگی خۆت (وشە = دەنگی):

بەرزی 0

-12 +12

مۆدێلی AI

دەنگی

زمان

نەخشەی دەرچوون

خێرایی 1.0x

0.5x 2.0x

بەبێ پارە لەگەڵ Piper, VITS, MeloTTS

دەنگی دروستکراوت لێرەدا دەردەکەوێت. مۆدێلێک هەڵبژێرە، نوسراوێک دابنێ، پاشان کلیک بکە لەسەر دروستکردن.

دەربارەی CosyVoice 2

CosyVoice 2, from Alibaba's Tongyi Lab, was designed to make high-quality speech viable in real time. It uses a finite scalar quantization approach combined with flow matching to support streaming synthesis at extremely low latency, while reaching human-comparable naturalness that outperforms many commercial systems in subjective tests. Beyond quality, it offers zero-shot voice cloning from about 3 seconds of audio, cross-lingual synthesis, and fine-grained emotion control. Covering 8 languages with a 1,000-character cap, it's a strong fit for voice assistants, streaming TTS, and other real-time applications.

باشترین بۆ: Real-time applications, streaming TTS, voice assistants

سەردانی هەموویان بکە CosyVoice 2 دەنگی

چاوپێکەوتن

پەرەپێدەر: Alibaba (Tongyi Lab)
مۆڵەتی بەکارھێنەر: Apache 2.0
یه‌مه‌ن: standard
خێرایی: medium
دووبارە دروستکردنی دەنگی: بەڵێ
زمان: English, Chinese, Japanese, Korean, French, German, Italian, Spanish
زۆرترین پیت: 1000

CosyVoice 2 دەنگی

Chinese Female

Chinese

ستاندارد Female

Chinese Male

Chinese

ستاندارد Male

English Female

English

ستاندارد Female

English Male

English

ستاندارد Male

French Female

French

ستاندارد Female

German Female

German

ستاندارد Female

Italian Female

Italian

ستاندارد Female

Japanese Female

Japanese

ستاندارد Female

Korean Female

Korean

ستاندارد Female

Spanish Female

Spanish

ستاندارد Female

CosyVoice 2 پرسیاری زۆر کراوە

Yes. CosyVoice 2 uses finite scalar quantization for streaming synthesis at very low latency, which is what makes it suitable for voice assistants and real-time applications.

Yes. It offers zero-shot voice cloning from roughly 3 seconds of reference audio, plus cross-lingual synthesis and emotion control.

Yes. CosyVoice 2 is Apache 2.0 licensed. It supports 8 languages: English, Chinese, Japanese, Korean, French, German, Italian, and Spanish.

← هەموو دەنگەکان

CosyVoice 2 نووسراو بۆ بیستراو

خۆشت دەوێت TTS.ai؟ بە هاوڕێکانت بڵێ!

دەربارەی CosyVoice 2

چاوپێکەوتن

CosyVoice 2 دەنگی

Chinese Female

Chinese Male

English Female

English Male

French Female

German Female

Italian Female

Japanese Female

Korean Female

Spanish Female

CosyVoice 2 پرسیاری زۆر کراوە

Can CosyVoice 2 stream audio in real time?

Does CosyVoice 2 support voice cloning?

Is CosyVoice 2 free for commercial use?