Qorannoo Bu'aa / Deebii Fa'ii

CosyVoice3 TTS

Alibaba FunAudioLLM's latest multilingual model with ~150ms bi-streaming, instruction control, and zero-shot cloning.

0/500 Akkaataa · Akkasumas, 5,000 akka bara baraatti →

Jijjiirama 5,000 character limit

Modda SSML (Afaan Irreechaa)

Daangeessii kitaaba keessan keessaa tag SSML akka itti fayyadamtan:

<speak><prosody rate="slow">Slow speech</prosody></speak>

Emotion / Style Tags

Tag'oota mo'ellaa filatamee beekuu - cuqaasi akka tokkotti galchiin gara teekstaatti yoo ta'e:

Digreesii

Haalli fuula

Jijjiiramni 0

-12 +12

Mo_deelii

Dhaadata

Afaan Oromoo

Foormaatti Ijoo

Jijjiiramni 1.0x

0.5x 2.0x

Birrii fi Piper, VITS, MeloTTS

Oduu kee kan uumame yooka'u yooka'u. Suuraa moolaa, galchi kitaaba, fi bu'u Jijjiira.

Fuulaa CosyVoice3

CosyVoice3 is the newest generation from Alibaba's FunAudioLLM team and a clear step up from CosyVoice 2. It introduces bi-streaming inference with roughly 150ms latency and instruction-based control, letting you steer emotion, speed, and volume through prompts. Speaker similarity for zero-shot voice cloning is improved, and coverage spans 9 languages plus 18 Chinese dialects. An RL-tuned variant pushes prosody to a state-of-the-art level. With a 5,000-character ceiling, fast generation, and strong cloning, it's geared toward multilingual production TTS and real-time applications.

Fakkeenyaaf: Multilingual production TTS, real-time applications, voice cloning

Fuulaa CosyVoice3 Dhaamsa

Akkasumas

Deebi'aa: Alibaba (FunAudioLLM)
Lizenz: Apache 2.0
Daandiin: standard
Jijjiiramni: fast
Dhaabbilee: Ya
Afaan Oromoo: English, Chinese, Japanese, Korean, German, Spanish, French, Italian, Russian
Akkasumas: 5000

CosyVoice3 Dhaamsa

Chinese Female

Chinese

Standartaa Female

Chinese Male

Chinese

Standartaa Male

English Female

English

Standartaa Female

English Male

English

Standartaa Male

French Female

French

Standartaa Female

German Female

German

Standartaa Female

Italian Female

Italian

Standartaa Female

Japanese Female

Japanese

Standartaa Female

Korean Female

Korean

Standartaa Female

Russian Female

Russian

Standartaa Female

Spanish Female

Spanish

Standartaa Female

CosyVoice3 TTS — FAQ

CosyVoice3 adds bi-streaming inference at around 150ms latency, instruction-based control over emotion/speed/volume, improved speaker similarity for cloning, and coverage of 9 languages plus 18 Chinese dialects, with an RL-tuned variant for state-of-the-art prosody.

Yes. It supports zero-shot voice cloning from a reference clip (around 3 seconds minimum) with improved speaker similarity over the previous generation.

Yes. CosyVoice3 is licensed under Apache 2.0, permitting commercial use.

← Dhaamsawwan hundaa

CosyVoice3 TTS

TTS.ai jaallatan? Sochii keessanitti hiika!

Fuulaa CosyVoice3

Akkasumas

CosyVoice3 Dhaamsa

Chinese Female

Chinese Male

English Female

English Male

French Female

German Female

Italian Female

Japanese Female

Korean Female

Russian Female

Spanish Female

CosyVoice3 TTS — FAQ

What makes CosyVoice3 different from CosyVoice 2?

Does CosyVoice3 support voice cloning?

Is CosyVoice3 free for commercial use?