Rapportera fel/funktionsförfrågan

CosyVoice 2 TTS-värden

Alibaba Tongyi Lab's streaming TTS reaching human-parity naturalness with near-zero latency and zero-shot cloning.

Texten
Filer

0/500 tecken · Anmäl dig till 5000 per generation →

Registrera dig för 5 000 teckengräns

SSML- läge (Talsyntes Markup Språk för fin kontroll)

Radera din text i SSML-taggar för exakt kontroll:

<speak><prosody rate="slow">Slow speech</prosody></speak>

Känslor / stiltaggar

Taggar den valda modellen förstår — klicka för att släppa en i din text där det händer:

Uttalsordbok

Definiera egna uttal (ord = uttal):

Pitch 0

-12 +12

Förlaga till AI

Röst

Språk

Utmatningsformat

Varvtal 1.0x

0.5x 2.0x

Gratis med Piper, VITS, Melotts

Ditt genererade ljud visas här. Välj en modell, skriv in text och klicka på Generera.

Om jag inte kan CosyVoice 2

CosyVoice 2, from Alibaba's Tongyi Lab, was designed to make high-quality speech viable in real time. It uses a finite scalar quantization approach combined with flow matching to support streaming synthesis at extremely low latency, while reaching human-comparable naturalness that outperforms many commercial systems in subjective tests. Beyond quality, it offers zero-shot voice cloning from about 3 seconds of audio, cross-lingual synthesis, and fine-grained emotion control. Covering 8 languages with a 1,000-character cap, it's a strong fit for voice assistants, streaming TTS, and other real-time applications.

Bäst för: Real-time applications, streaming TTS, voice assistants

Bläddra alla CosyVoice 2 röster

Med en blick

Utvecklare: Alibaba (Tongyi Lab)
Licens: Apache 2.0
Nivå: standard
Varvtal: medium
Röstkloning: Ja, det är jag.
Språk: English, Chinese, Japanese, Korean, French, German, Italian, Spanish
Max tecken: 1000

CosyVoice 2 röster

Chinese Female

Chinese

Standardvärde Female

Chinese Male

Chinese

Standardvärde Male

English Female

English

Standardvärde Female

English Male

English

Standardvärde Male

French Female

French

Standardvärde Female

German Female

German

Standardvärde Female

Italian Female

Italian

Standardvärde Female

Japanese Female

Japanese

Standardvärde Female

Korean Female

Korean

Standardvärde Female

Spanish Female

Spanish

Standardvärde Female

CosyVoice 2 TTS – FAQ

Yes. CosyVoice 2 uses finite scalar quantization for streaming synthesis at very low latency, which is what makes it suitable for voice assistants and real-time applications.

Yes. It offers zero-shot voice cloning from roughly 3 seconds of reference audio, plus cross-lingual synthesis and emotion control.

Yes. CosyVoice 2 is Apache 2.0 licensed. It supports 8 languages: English, Chinese, Japanese, Korean, French, German, Italian, and Spanish.

← Alla röster

CosyVoice 2 TTS-värden

Berätta för dina vänner!

Om jag inte kan CosyVoice 2

Med en blick

CosyVoice 2 röster

Chinese Female

Chinese Male

English Female

English Male

French Female

German Female

Italian Female

Japanese Female

Korean Female

Spanish Female

CosyVoice 2 TTS – FAQ

Can CosyVoice 2 stream audio in real time?

Does CosyVoice 2 support voice cloning?

Is CosyVoice 2 free for commercial use?