Signaler la demande de bogue/caractère

CosyVoice3 TTS

Alibaba FunAudioLLM's latest multilingual model with ~150ms bi-streaming, instruction control, and zero-shot cloning.

0/500 caractères · Inscrivez-vous pour 5 000 par génération →

Inscrivez-vous pour la limite de 5 000 caractères

Mode SSML (Markup de synthèse de discours Langue pour le contrôle fin)

Enveloppez votre texte dans des balises SSML pour un contrôle précis :

<speak><prosody rate="slow">Slow speech</prosody></speak>

Émotion / Étiquettes de style

Mots clés le modèle sélectionné comprend — cliquez pour en déposer un dans votre texte où il se produit:

Dictionnaire de prononciation

Définir les prononciations personnalisées (mot = prononciation) :

Emplacement 0

-12 +12

Modèle AI

Voix

Langue

Format de sortie

Régime 1.0x

0.5x 2.0x

Gratuit avec Piper, VITS, MeloTTS

Votre audio généré apparaîtra ici. Choisissez un modèle, entrez le texte et cliquez sur Générer.

À propos CosyVoice3

CosyVoice3 is the newest generation from Alibaba's FunAudioLLM team and a clear step up from CosyVoice 2. It introduces bi-streaming inference with roughly 150ms latency and instruction-based control, letting you steer emotion, speed, and volume through prompts. Speaker similarity for zero-shot voice cloning is improved, and coverage spans 9 languages plus 18 Chinese dialects. An RL-tuned variant pushes prosody to a state-of-the-art level. With a 5,000-character ceiling, fast generation, and strong cloning, it's geared toward multilingual production TTS and real-time applications.

Meilleur pour: Multilingual production TTS, real-time applications, voice cloning

Tout voir CosyVoice3 voix

En un coup d'oeil

Développeur: Alibaba (FunAudioLLM)
Licence: Apache 2.0
Niveau: standard
Régime: fast
Closonnage de la voix: Oui
Langues: English, Chinese, Japanese, Korean, German, Spanish, French, Italian, Russian
Personnages maxi: 5000

CosyVoice3 voix

Chinese Female

Chinese

Norme Female

Chinese Male

Chinese

Norme Male

English Female

English

Norme Female

English Male

English

Norme Male

French Female

French

Norme Female

German Female

German

Norme Female

Italian Female

Italian

Norme Female

Japanese Female

Japanese

Norme Female

Korean Female

Korean

Norme Female

Russian Female

Russian

Norme Female

Spanish Female

Spanish

Norme Female

CosyVoice3 TTS — FAQ

CosyVoice3 adds bi-streaming inference at around 150ms latency, instruction-based control over emotion/speed/volume, improved speaker similarity for cloning, and coverage of 9 languages plus 18 Chinese dialects, with an RL-tuned variant for state-of-the-art prosody.

Yes. It supports zero-shot voice cloning from a reference clip (around 3 seconds minimum) with improved speaker similarity over the previous generation.

Yes. CosyVoice3 is licensed under Apache 2.0, permitting commercial use.

← Toutes les voix

CosyVoice3 TTS

Vous aimez TTS.ai ? Parlez-en à vos amis !

À propos CosyVoice3

En un coup d'oeil

CosyVoice3 voix

Chinese Female

Chinese Male

English Female

English Male

French Female

German Female

Italian Female

Japanese Female

Korean Female

Russian Female

Spanish Female

CosyVoice3 TTS — FAQ

What makes CosyVoice3 different from CosyVoice 2?

Does CosyVoice3 support voice cloning?

Is CosyVoice3 free for commercial use?