گزارش اشکال / درخواست ویژگی

CosyVoice 2 TTS

Alibaba Tongyi Lab's streaming TTS reaching human-parity naturalness with near-zero latency and zero-shot cloning.

0/500 نویسه‌ها · براي 5000 نفر در هر نسل ثبت نام کنيد →

ثبت نام برای حد ۵۰۰۰ کاراکتر

حالت SSML (زبان نشانه‌گذاری ترکیب گفتار برای کنترل دقیق)

برای کنترل دقیق ، متن خود را در برچسبهای SSML بپیچید:

<speak><prosody rate="slow">Slow speech</prosody></speak>

برچسبهای احساس/ سبک

برچسبهایی که مدل برگزیده می‌فهمد — برای انداختن یکی در متن خود ، جایی که اتفاق می‌افتد ، کلیک کنید:

واژه‌نامه تلفظ

تعریف تلفظ سفارشی) کلمه = تلفظ (:

ارتفاع 0

-12 +12

مدل

صدا

زبان

قالب خروجی

سرعت 1.0x

0.5x 2.0x

آزاد با Piper, VITS, MeloTTS

صدای تولید شده شما در اینجا ظاهر خواهد شد. یک مدل را انتخاب کنید ، متن را وارد کنید ، و تولید را فشار دهید.

در مورد CosyVoice 2

CosyVoice 2, from Alibaba's Tongyi Lab, was designed to make high-quality speech viable in real time. It uses a finite scalar quantization approach combined with flow matching to support streaming synthesis at extremely low latency, while reaching human-comparable naturalness that outperforms many commercial systems in subjective tests. Beyond quality, it offers zero-shot voice cloning from about 3 seconds of audio, cross-lingual synthesis, and fine-grained emotion control. Covering 8 languages with a 1,000-character cap, it's a strong fit for voice assistants, streaming TTS, and other real-time applications.

بهترین برای: Real-time applications, streaming TTS, voice assistants

مرور همۀ CosyVoice 2 صداها

يه نگاهي بنداز

توسعه‌دهنده: Alibaba (Tongyi Lab)
مجوز: Apache 2.0
حیوان: standard
سرعت: medium
شبیه‌سازی صدا: آره
زبانها: English, Chinese, Japanese, Korean, French, German, Italian, Spanish
بیشینه نویسه‌ها: 1000

CosyVoice 2 صداها

Chinese Female

Chinese

پیش‌فرض Female

Chinese Male

Chinese

پیش‌فرض Male

English Female

English

پیش‌فرض Female

English Male

English

پیش‌فرض Male

French Female

French

پیش‌فرض Female

German Female

German

پیش‌فرض Female

Italian Female

Italian

پیش‌فرض Female

Japanese Female

Japanese

پیش‌فرض Female

Korean Female

Korean

پیش‌فرض Female

Spanish Female

Spanish

پیش‌فرض Female

CosyVoice 2 FAQ - پرسش و پاسخ

Yes. CosyVoice 2 uses finite scalar quantization for streaming synthesis at very low latency, which is what makes it suitable for voice assistants and real-time applications.

Yes. It offers zero-shot voice cloning from roughly 3 seconds of reference audio, plus cross-lingual synthesis and emotion control.

Yes. CosyVoice 2 is Apache 2.0 licensed. It supports 8 languages: English, Chinese, Japanese, Korean, French, German, Italian, and Spanish.

← همه صداها

CosyVoice 2 TTS

دوست داريد TTS.ai؟ به دوستانتون بگو!

در مورد CosyVoice 2

يه نگاهي بنداز

CosyVoice 2 صداها

Chinese Female

Chinese Male

English Female

English Male

French Female

German Female

Italian Female

Japanese Female

Korean Female

Spanish Female

CosyVoice 2 FAQ - پرسش و پاسخ

Can CosyVoice 2 stream audio in real time?

Does CosyVoice 2 support voice cloning?

Is CosyVoice 2 free for commercial use?