Qorannoo Bu'aa / Deebii Fa'ii

CosyVoice 2 TTS

Alibaba Tongyi Lab's streaming TTS reaching human-parity naturalness with near-zero latency and zero-shot cloning.

0/500 Akkaataa · Akkasumas, 5,000 akka bara baraatti →

Jijjiirama 5,000 character limit

Modda SSML (Afaan Irreechaa)

Daangeessii kitaaba keessan keessaa tag SSML akka itti fayyadamtan:

<speak><prosody rate="slow">Slow speech</prosody></speak>

Emotion / Style Tags

Tag'oota mo'ellaa filatamee beekuu - cuqaasi akka tokkotti galchiin gara teekstaatti yoo ta'e:

Digreesii

Haalli fuula

Jijjiiramni 0

-12 +12

Mo_deelii

Dhaadata

Afaan Oromoo

Foormaatti Ijoo

Jijjiiramni 1.0x

0.5x 2.0x

Birrii fi Piper, VITS, MeloTTS

Oduu kee kan uumame yooka'u yooka'u. Suuraa moolaa, galchi kitaaba, fi bu'u Jijjiira.

Fuulaa CosyVoice 2

CosyVoice 2, from Alibaba's Tongyi Lab, was designed to make high-quality speech viable in real time. It uses a finite scalar quantization approach combined with flow matching to support streaming synthesis at extremely low latency, while reaching human-comparable naturalness that outperforms many commercial systems in subjective tests. Beyond quality, it offers zero-shot voice cloning from about 3 seconds of audio, cross-lingual synthesis, and fine-grained emotion control. Covering 8 languages with a 1,000-character cap, it's a strong fit for voice assistants, streaming TTS, and other real-time applications.

Fakkeenyaaf: Real-time applications, streaming TTS, voice assistants

Fuulaa CosyVoice 2 Dhaamsa

Akkasumas

Deebi'aa: Alibaba (Tongyi Lab)
Lizenz: Apache 2.0
Daandiin: standard
Jijjiiramni: medium
Dhaabbilee: Ya
Afaan Oromoo: English, Chinese, Japanese, Korean, French, German, Italian, Spanish
Akkasumas: 1000

CosyVoice 2 Dhaamsa

Chinese Female

Chinese

Standartaa Female

Chinese Male

Chinese

Standartaa Male

English Female

English

Standartaa Female

English Male

English

Standartaa Male

French Female

French

Standartaa Female

German Female

German

Standartaa Female

Italian Female

Italian

Standartaa Female

Japanese Female

Japanese

Standartaa Female

Korean Female

Korean

Standartaa Female

Spanish Female

Spanish

Standartaa Female

CosyVoice 2 TTS — FAQ

Yes. CosyVoice 2 uses finite scalar quantization for streaming synthesis at very low latency, which is what makes it suitable for voice assistants and real-time applications.

Yes. It offers zero-shot voice cloning from roughly 3 seconds of reference audio, plus cross-lingual synthesis and emotion control.

Yes. CosyVoice 2 is Apache 2.0 licensed. It supports 8 languages: English, Chinese, Japanese, Korean, French, German, Italian, and Spanish.

← Dhaamsawwan hundaa

CosyVoice 2 TTS

TTS.ai jaallatan? Sochii keessanitti hiika!

Fuulaa CosyVoice 2

Akkasumas

CosyVoice 2 Dhaamsa

Chinese Female

Chinese Male

English Female

English Male

French Female

German Female

Italian Female

Japanese Female

Korean Female

Spanish Female

CosyVoice 2 TTS — FAQ

Can CosyVoice 2 stream audio in real time?

Does CosyVoice 2 support voice cloning?

Is CosyVoice 2 free for commercial use?