Доклад " Bugg " / " Особенности запроса "

CosyVoice3 ТТС

Alibaba FunAudioLLM's latest multilingual model with ~150ms bi-streaming, instruction control, and zero-shot cloning.

0/500 символы · Зарегистрируйтесь на 5000 человек в расчете на одно поколение →

Подписывайся. для 5 000 символов

Режим SSML (Слово Обобщение языка разметки для тонкого контроля)

Заверните текст в SSML для точного контроля:

<speak><prosody rate="slow">Slow speech</prosody></speak>

Эмоции/стильные метки

Помечает выбранную модель, которая понимает — нажмите, чтобы выкинуть одну в ваш текст, где она случается:

Словарь произношения

Определить традиционные произношения (слово = произношение):

Питч 0

-12 +12

АИ Модель

Голос

Язык

Формат вывода

Скорость 1.0x

0.5x 2.0x

Бесплатно с Пайпер, VITS, MeloTTS

Ваш генерированный звук появится здесь. Выберите модель, введите текст и нажмите на Генератор.

О том, что CosyVoice3

CosyVoice3 is the newest generation from Alibaba's FunAudioLLM team and a clear step up from CosyVoice 2. It introduces bi-streaming inference with roughly 150ms latency and instruction-based control, letting you steer emotion, speed, and volume through prompts. Speaker similarity for zero-shot voice cloning is improved, and coverage spans 9 languages plus 18 Chinese dialects. An RL-tuned variant pushes prosody to a state-of-the-art level. With a 5,000-character ceiling, fast generation, and strong cloning, it's geared toward multilingual production TTS and real-time applications.

Лучший для: Multilingual production TTS, real-time applications, voice cloning

Просмотр CosyVoice3 голоса

Взгляните.

Разработчик: Alibaba (FunAudioLLM)
Лицензия: Apache 2.0
Тяжелый: standard
Скорость: fast
Клонирование голоса: Выполнено
Знание языков: English, Chinese, Japanese, Korean, German, Spanish, French, Italian, Russian
Максимум символов: 5000

CosyVoice3 голоса

Chinese Female

Chinese

Стандартные Female

Chinese Male

Chinese

Стандартные Male

English Female

English

Стандартные Female

English Male

English

Стандартные Male

French Female

French

Стандартные Female

German Female

German

Стандартные Female

Italian Female

Italian

Стандартные Female

Japanese Female

Japanese

Стандартные Female

Korean Female

Korean

Стандартные Female

Russian Female

Russian

Стандартные Female

Spanish Female

Spanish

Стандартные Female

CosyVoice3 TTS - FAQ

CosyVoice3 adds bi-streaming inference at around 150ms latency, instruction-based control over emotion/speed/volume, improved speaker similarity for cloning, and coverage of 9 languages plus 18 Chinese dialects, with an RL-tuned variant for state-of-the-art prosody.

Yes. It supports zero-shot voice cloning from a reference clip (around 3 seconds minimum) with improved speaker similarity over the previous generation.

Yes. CosyVoice3 is licensed under Apache 2.0, permitting commercial use.

← Все голоса

CosyVoice3 ТТС

Нравится TTS.ai? Расскажите друзьям!

О том, что CosyVoice3

Взгляните.

CosyVoice3 голоса

Chinese Female

Chinese Male

English Female

English Male

French Female

German Female

Italian Female

Japanese Female

Korean Female

Russian Female

Spanish Female

CosyVoice3 TTS - FAQ

What makes CosyVoice3 different from CosyVoice 2?

Does CosyVoice3 support voice cloning?

Is CosyVoice3 free for commercial use?