Informa d' errors / Petició de característiques

CosyVoice 2 TTS

Alibaba Tongyi Lab's streaming TTS reaching human-parity naturalness with near-zero latency and zero-shot cloning.

Text
Fitxers

0/500 caràcters · Signa els 5.000 per generació →

Signa per 5000 caràcters límit

Mode SSML (Idioma de la marca de veu per a un bon control)

Ajusta el text a les etiquetes SSML per al control precís:

<speak><prosody rate="slow">Slow speech</prosody></speak>

Emoció / Etiquetes d' estil

Etiquetes del model seleccionat entenen el clic show clic per a deixar- ne un al text a on succeeix:

Diccionari de pronunciació

Defineix pronúncies personalitzades (word = pronunciació):

To 0

-12 +12

Model IA

Veu

Idioma

Format de sortida

Velocitat 1.0x

0.5x 2.0x

Lliure amb Pipista, VITS, MeloTTS

Aquí apareixerà el vostre àudio generat. Escolliu un model, introduïu text i cliqueu Genera.

Quant a CosyVoice 2

CosyVoice 2, from Alibaba's Tongyi Lab, was designed to make high-quality speech viable in real time. It uses a finite scalar quantization approach combined with flow matching to support streaming synthesis at extremely low latency, while reaching human-comparable naturalness that outperforms many commercial systems in subjective tests. Beyond quality, it offers zero-shot voice cloning from about 3 seconds of audio, cross-lingual synthesis, and fine-grained emotion control. Covering 8 languages with a 1,000-character cap, it's a strong fit for voice assistants, streaming TTS, and other real-time applications.

Millor per: Real-time applications, streaming TTS, voice assistants

Navega- ho tot CosyVoice 2 veus

En una mirada

Desenvolupador: Alibaba (Tongyi Lab)
Llicència: Apache 2.0
TierCity name (optional, probably does not need a translation): standard
Velocitat: medium
clonació de veu: Sí
Idiomes: English, Chinese, Japanese, Korean, French, German, Italian, Spanish
Nombre màxim de caràcters: 1000

CosyVoice 2 veus

Chinese Female

Chinese

Estàndard Female

Chinese Male

Chinese

Estàndard Male

English Female

English

Estàndard Female

English Male

English

Estàndard Male

French Female

French

Estàndard Female

German Female

German

Estàndard Female

Italian Female

Italian

Estàndard Female

Japanese Female

Japanese

Estàndard Female

Korean Female

Korean

Estàndard Female

Spanish Female

Spanish

Estàndard Female

CosyVoice 2 PMF TTS

Yes. CosyVoice 2 uses finite scalar quantization for streaming synthesis at very low latency, which is what makes it suitable for voice assistants and real-time applications.

Yes. It offers zero-shot voice cloning from roughly 3 seconds of reference audio, plus cross-lingual synthesis and emotion control.

Yes. CosyVoice 2 is Apache 2.0 licensed. It supports 8 languages: English, Chinese, Japanese, Korean, French, German, Italian, and Spanish.

← Totes les veus

CosyVoice 2 TTS

Els teus amics!

Quant a CosyVoice 2

En una mirada

CosyVoice 2 veus

Chinese Female

Chinese Male

English Female

English Male

French Female

German Female

Italian Female

Japanese Female

Korean Female

Spanish Female

CosyVoice 2 PMF TTS

Can CosyVoice 2 stream audio in real time?

Does CosyVoice 2 support voice cloning?

Is CosyVoice 2 free for commercial use?