گزارش اشکال / درخواست ویژگی

CosyVoice3 TTS

Alibaba FunAudioLLM's latest multilingual model with ~150ms bi-streaming, instruction control, and zero-shot cloning.

0/500 نویسه‌ها · براي 5000 نفر در هر نسل ثبت نام کنيد →

ثبت نام برای حد ۵۰۰۰ کاراکتر

حالت SSML (زبان نشانه‌گذاری ترکیب گفتار برای کنترل دقیق)

برای کنترل دقیق ، متن خود را در برچسبهای SSML بپیچید:

<speak><prosody rate="slow">Slow speech</prosody></speak>

برچسبهای احساس/ سبک

برچسبهایی که مدل برگزیده می‌فهمد — برای انداختن یکی در متن خود ، جایی که اتفاق می‌افتد ، کلیک کنید:

واژه‌نامه تلفظ

تعریف تلفظ سفارشی) کلمه = تلفظ (:

ارتفاع 0

-12 +12

مدل

صدا

زبان

قالب خروجی

سرعت 1.0x

0.5x 2.0x

آزاد با Piper, VITS, MeloTTS

صدای تولید شده شما در اینجا ظاهر خواهد شد. یک مدل را انتخاب کنید ، متن را وارد کنید ، و تولید را فشار دهید.

در مورد CosyVoice3

CosyVoice3 is the newest generation from Alibaba's FunAudioLLM team and a clear step up from CosyVoice 2. It introduces bi-streaming inference with roughly 150ms latency and instruction-based control, letting you steer emotion, speed, and volume through prompts. Speaker similarity for zero-shot voice cloning is improved, and coverage spans 9 languages plus 18 Chinese dialects. An RL-tuned variant pushes prosody to a state-of-the-art level. With a 5,000-character ceiling, fast generation, and strong cloning, it's geared toward multilingual production TTS and real-time applications.

بهترین برای: Multilingual production TTS, real-time applications, voice cloning

مرور همۀ CosyVoice3 صداها

يه نگاهي بنداز

توسعه‌دهنده: Alibaba (FunAudioLLM)
مجوز: Apache 2.0
حیوان: standard
سرعت: fast
شبیه‌سازی صدا: آره
زبانها: English, Chinese, Japanese, Korean, German, Spanish, French, Italian, Russian
بیشینه نویسه‌ها: 5000

CosyVoice3 صداها

Chinese Female

Chinese

پیش‌فرض Female

Chinese Male

Chinese

پیش‌فرض Male

English Female

English

پیش‌فرض Female

English Male

English

پیش‌فرض Male

French Female

French

پیش‌فرض Female

German Female

German

پیش‌فرض Female

Italian Female

Italian

پیش‌فرض Female

Japanese Female

Japanese

پیش‌فرض Female

Korean Female

Korean

پیش‌فرض Female

Russian Female

Russian

پیش‌فرض Female

Spanish Female

Spanish

پیش‌فرض Female

CosyVoice3 FAQ - پرسش و پاسخ

CosyVoice3 adds bi-streaming inference at around 150ms latency, instruction-based control over emotion/speed/volume, improved speaker similarity for cloning, and coverage of 9 languages plus 18 Chinese dialects, with an RL-tuned variant for state-of-the-art prosody.

Yes. It supports zero-shot voice cloning from a reference clip (around 3 seconds minimum) with improved speaker similarity over the previous generation.

Yes. CosyVoice3 is licensed under Apache 2.0, permitting commercial use.

← همه صداها

CosyVoice3 TTS

دوست داريد TTS.ai؟ به دوستانتون بگو!

در مورد CosyVoice3

يه نگاهي بنداز

CosyVoice3 صداها

Chinese Female

Chinese Male

English Female

English Male

French Female

German Female

Italian Female

Japanese Female

Korean Female

Russian Female

Spanish Female

CosyVoice3 FAQ - پرسش و پاسخ

What makes CosyVoice3 different from CosyVoice 2?

Does CosyVoice3 support voice cloning?

Is CosyVoice3 free for commercial use?