Informar de Bug / Pedido de Feature

CosyVoice3 TTS

Alibaba FunAudioLLM's latest multilingual model with ~150ms bi-streaming, instruction control, and zero-shot cloning.

0/500 caracteres · Inscreva-se por 5.000 por geração →

Inscrever-se para o limite de 5000 caracteres

Modo SSML (Sintetização da fala Língua de marca para controle fino)

Envolva o seu texto em tags SSML para controle preciso:

<speak><prosody rate="slow">Slow speech</prosody></speak>

Etiquetas de Emoção / Estilo

Etiquetas o modelo selecionado entende — clique para soltar um para o seu texto onde acontece:

Dicionário de pronunciação

Definir pronúncias personalizadas (palavra = pronúncia):

Pitch 0

-12 +12

Modelo de IA

Voz

Língua

Formato de saída

Velocidade 1.0x

0.5x 2.0x

Grátis com Piper, VITS, MeloTTS

Seu áudio gerado aparecerá aqui. Escolha um modelo, introduza texto e clique em Gerar.

Sobre CosyVoice3

CosyVoice3 is the newest generation from Alibaba's FunAudioLLM team and a clear step up from CosyVoice 2. It introduces bi-streaming inference with roughly 150ms latency and instruction-based control, letting you steer emotion, speed, and volume through prompts. Speaker similarity for zero-shot voice cloning is improved, and coverage spans 9 languages plus 18 Chinese dialects. An RL-tuned variant pushes prosody to a state-of-the-art level. With a 5,000-character ceiling, fast generation, and strong cloning, it's geared toward multilingual production TTS and real-time applications.

Melhor para: Multilingual production TTS, real-time applications, voice cloning

Procurar todos CosyVoice3 vozes

De uma olhada

Desenvolvedor: Alibaba (FunAudioLLM)
Licença: Apache 2.0
Tier: standard
Velocidade: fast
Clonagem de voz: Sim
Línguas: English, Chinese, Japanese, Korean, German, Spanish, French, Italian, Russian
Número máximo de caracteres: 5000

CosyVoice3 vozes

Chinese Female

Chinese

Norma Female

Chinese Male

Chinese

Norma Male

English Female

English

Norma Female

English Male

English

Norma Male

French Female

French

Norma Female

German Female

German

Norma Female

Italian Female

Italian

Norma Female

Japanese Female

Japanese

Norma Female

Korean Female

Korean

Norma Female

Russian Female

Russian

Norma Female

Spanish Female

Spanish

Norma Female

CosyVoice3 TTS — FAQ

CosyVoice3 adds bi-streaming inference at around 150ms latency, instruction-based control over emotion/speed/volume, improved speaker similarity for cloning, and coverage of 9 languages plus 18 Chinese dialects, with an RL-tuned variant for state-of-the-art prosody.

Yes. It supports zero-shot voice cloning from a reference clip (around 3 seconds minimum) with improved speaker similarity over the previous generation.

Yes. CosyVoice3 is licensed under Apache 2.0, permitting commercial use.

← Todas as vozes

CosyVoice3 TTS

Gosta do TTS.ai? Conte aos seus amigos!

Sobre CosyVoice3

De uma olhada

CosyVoice3 vozes

Chinese Female

Chinese Male

English Female

English Male

French Female

German Female

Italian Female

Japanese Female

Korean Female

Russian Female

Spanish Female

CosyVoice3 TTS — FAQ

What makes CosyVoice3 different from CosyVoice 2?

Does CosyVoice3 support voice cloning?

Is CosyVoice3 free for commercial use?