Report Bug / Feature Request

Клонирование голоса в реальном времени — любой голос в секунды

Сложите любой голос только на 5 секунд эталонного аудио. 9 моделей клонирования с открытым исходным кодом, включая Chatterbox, CosyVoice 2, GPT-SOVITS и OpenVoice. Ноль клонирования без тренировок, загрузите образец и немедленно создайте речь. Все модели имеют коммерческую лицензию.

В реальном масштабе времени 5-вторые образцы 9 Клонирование моделей Открытый источник 17+ Языки Эмоциональный контроль

Возможности клиринга голоса в реальном масштабе времени

Голос клонов мгновенным с помощью современной ИИ — нет подготовки, нет наборов данных, нет ожидания

Клонирование с нулевым ударом

Ни тренировки, ни отладки, ни сбора данных. Загрузить 5 секунд звука и немедленно получить клонированный голос. АИ извлекает характеристики ораторов в режиме реального времени.

9 Клонирование моделей

Выбрать из Chatterbox, CosyVoice 2, GPT-SOVITS, OpenVoice, Spark, IndexTS-2, GLM-TTS, Qwen3-TTS и Tortoise. Каждая модель имеет различные преимущества для качества, скорости и языка.

Межлинейное клонирование

Скопируй голос на английском языке и спровоцируй речь на китайском, японском, корейском и других языках.

Эмоциональный контроль

Чаттербокс, OpenVoice и GLM-TTS поддерживают эмоционализированное поколение, генерируют один и тот же текст с различными эмоциями — счастливыми, печальными, злыми, шепчущими — при сохранении клонированного голоса.

Открытый источник

Каждая модель клонирования является открытым источником в соответствии с лицензиями MIT или Apache 2.0.

Клонирование API

REST API для программирования клонирования голоса. Загрузить справочную аудиозапись, указать текст и получить клонированную речь. SDK для Python и JavaScript. Клонирование для большого объема рабочих процессов.

Модели клонирования голоса

9 моделей с открытыми исходными кодами для каждого варианта использования клонирования

ChatterboxChatterbox

Premium

State-of-the-art zero-shot voice cloning with emotion control from Resemble AI.

Medium 5/5 Клонирование голоса

Лучший для: Наилучшее общее качество — 5-секундные пробы, эмоциональный контроль, лицензия МТИ

Попробуй Chatterbox

CosyVoice 2CosyVoice 2

Standard

Alibaba's scalable streaming TTS with human-parity naturalness and near-zero latency.

Medium 5/5 Клонирование голоса

Лучший для: Наилучшее многоязычное клонирование — сохраняет голос на китайском, английском, японском, корейском языках

Попробуй CosyVoice 2

OpenVoiceOpenVoice

Premium

Instant voice cloning with granular control over style, emotion, and accent.

Medium 4/5 Клонирование голоса

Лучший для: Быстрое преобразование цвета с эмоциями и трансформацией стиля

Попробуй OpenVoice

Spark TTSSpark TTS

Standard

Voice cloning TTS with controllable emotion and speaking style via prompts.

Medium 4/5 Клонирование голоса

Лучший для: Самая быстрая модель клонирования — это ~12 секунд

Попробуй Spark TTS

IndexTTS-2IndexTTS-2

Standard

Zero-shot TTS with fine-grained emotion control and high expressiveness.

Medium 4/5 Клонирование голоса

Лучший для: Великолепное китайско-английское клонирование с высоким сходством ораторов

Попробуй IndexTTS-2

Tortoise TTSTortoise TTS

Premium

Multi-voice text-to-speech focused on quality with autoregressive architecture.

Slow 5/5 Клонирование голоса

Лучший для: Результаты по качеству студий — лучшие для аудиокниги и премиальных рассказов

Попробуй Tortoise TTS

Как работает клонирование голоса в реальном масштабе времени

От короткого звукового образца до неограниченной клонированной речи

1

Загрузить справочный звук@ info: whatsthis

Запись или загрузка 5-30 секунд ясной речи с голоса, который вы хотите клонировать. WAV, MP3 или запись непосредственно в вашем браузере.

2

Выберите модель клонирования

Выберите модель, отвечающую вашим потребностям: « Чаттербокс » для качества, Spark для скорости, CosyVoice 2 для многоязычного языка.

3

Введите ваш текст

Введите или вставьте текст, на котором вы хотите говорить в клонированном голосе. Любой язык, поддерживаемый моделью, работает.

4

Создать & загрузку

Нажмите на кнопку и услышьте ваш клонированный голос через 10-25 секунд. Загрузите как WAV или MP3 для немедленного использования.

Как работает клонирование с нулевым голосом

Без точной настройки, без сбора наборов данных — просто загружать и клонировать

Спикер Приобретение извлечения

AI анализирует ваш справочный звук, чтобы вытащить встроенный оратор — компактное математическое представление уникальных характеристик голоса, включая стиль, тимбр, ритм речи и голосовую текстуру. Это происходит менее чем через 1 секунду.

  • Работает с 5 секунд звука
  • Захват стиля, стиля тимбр и речи
  • Не требуется никакой подготовки или доработки
  • Звук никогда не хранится на постоянной основе

Обобщение речевых речей

Модель TTS создает новую речь, обусловленную встроенным оратором.

  • Создать неограниченную речь из одного образца
  • Клонирование на разных языках (говорит на языках, где нет ссылки)
  • Эмоция и передача стиля
  • Результаты за 10-25 секунд

Сопоставление моделей Голосового клонирования

Выберите правильную модель для вашего варианта использования клонирования

Модель Мин. Ссылка Скорость Качество Знание языков Эмоции Лицензия
Chatterbox 5s ~21s Лучший EN MIT
CosyVoice 2 5s ~20s Отлично. ХН, EN, JP, KO+ Apache 2.0
GPT-SoVITS 5s ~16s Отлично. ХН, EN, JP, KO MIT
OpenVoice 5s ~15s Хорошо. EN, ХН, ES, FR+ MIT
Spark TTS 5s ~12s Хорошо. ХН, EN Apache 2.0
IndexTTS-2 5s ~18s Отлично. ХН, EN Apache 2.0
GLM-TTS 5s ~25s Отлично. ХН, EN Apache 2.0
Qwen3-TTS 5s ~16s Отлично. ХН, EN, JP, KO+ Apache 2.0
Tortoise 15s ~60s Студия EN Apache 2.0

К чему люди прибегают в режиме реального времени

От создания контента до доступности — клонирование голоса имеет бесконечные виды применения

Аудиовизуальная книга

Авторы клонируют свой собственный голос и генерируют целые аудиокниги, не тратя часы в звукозаписывающей будке. Редактировать ошибки, регенерируя одноразовые предложения вместо перезаписи.

Видеозапись

Кросс-язычные модели, такие как CosyVoice 2 и Qwen3-TTS, сохраняют право голоса на китайском, английском, японском и корейском языках.

Создание содержания

Создатели YouTube, подкастеры и TikTok клонируют свой голос для последовательного брендинга. Создавать голосовые оверы для нового контента без записи или создавать альтернативные версии существующих видео на разных языках.

Доступность

Люди, которые потеряли свой голос из-за болезни или операции, могут сохранить его путем клонирования из старых записей.

Развитие игры

Идеально для инди-игр, модов и прототипов там, где перезаписывать каждую строчку невозможно.

ИВР & телефонные системы

Прокрутите голос своего представителя для меню телефонов и автоматизированных ответов.

TTS.ai против других решений по клонированию голоса

Почему 9 моделей превзошли один проект с открытым исходным кодом

Особенности TTS.ai SV2TTS ElevenLabs Resemble AI
Клонирование моделей 9 1 1 1
Мин. Справочный звук 5 sec 5 sec 30 sec 3 min
Требуемая подготовка Нет Нет Нет Выполнено
Качество звука (2025 год) Студия Дата Отлично. Отлично.
Эмоциональный контроль
Межлинейное клонирование
Открытый источник
Требуемый GPU Облако Выполнено Облако Облако
Доступ к API
Свободный цвет 15 000 знаков Самоуправляемый Ограниченные

Голос клонирования API

Голос клонов программируется нашим REST API

Питон — клонирование голоса REST API
from tts_ai import TTSClient

client = TTSClient(api_key="sk-tts-...")

# Clone a voice from a 5-second sample
result = client.clone_voice(
    name="My Cloned Voice",
    file="reference.wav",       # 5-30 seconds of clear speech
    model="chatterbox",         # or cosyvoice2, openvoice, spark...
    text="Hello! This is my cloned voice speaking new text.",
)

# Download the cloned audio
audio = client.poll_result(result.uuid)
with open("cloned_output.wav", "wb") as f:
    f.write(audio)
КУРЛ — клонирование голоса REST API
curl -X POST https://api.tts.ai/v1/voice-clone \
  -H "Authorization: Bearer sk-tts-YOUR_KEY" \
  -F "reference=@voice_sample.wav" \
  -F "text=This is my cloned voice." \
  -F "model=chatterbox"

Советы для наилучших результатов клонирования голоса

Найти самый точный голосовой клон с этими руководящими принципами записи

Тихая среда

Запись в тихой комнате с минимальным фоновым шумом.

10-30 секунд

В то время как 5 секунд работают, 10-30 секунд дают значительно лучшие результаты.

Естественная речь

Говорите естественно, а не в монотоне. Включите различные интонации и щупальца. ИИ фиксирует ваш естественный стиль речи, включая паузы и акценты.

Один спикер

Множественные голоса сбивают с толку говорящего, встраивая и давая смешанные результаты.

Начать клонирование голосов сегодня

Загрузите 5 секунд звука и услышьте ваш клонированный голос за 30 секунд.

Клонировать голос сейчас Документация API

Часто задаваемые вопросы

Общие вопросы о клонировании голоса в режиме реального времени

Клонирование голоса в режиме реального времени — это технология АИ, которая может воспроизводить голос человека из короткого звукового образца — не более 5 секунд — без какой-либо подготовки или доработки. Вы загружаете образец, и АИ создает новую речь, которая звучит как этот человек. TTS.ai предлагает 9 различных моделей клонирования голоса, каждая из которых имеет различные преимущества для качества, скорости и языковой поддержки.

Как минимум 5 секунд работает с большинством моделей (Chatterbox, CosyVoice 2, Spark, GPT-SOVITS, OpenVoice). Для получения наилучших результатов для Tortoise требуется 15 + секунд. Для обеспечения оптимального качества всех моделей рекомендуется 10-30 секунд прозрачного однопикового звука. В этом звуке не должно быть фонового шума и музыки.

Технология клонирования голоса сама по себе законна. Однако в большинстве юрисдикций законна только клонировать голоса, которые вы можете использовать — ваш собственный голос, голоса, за которые вы прямо согласны, или голоса в публичном доступе. Использование клонирования голоса для того, чтобы выставить себя за кого-то без согласия, совершить мошенничество или создать вводящий в заблуждение контент. Условия TTS.ai требуют, чтобы вы имели права на любой голос, который вы клонируете.

Это зависит от вашего варианта использования. Chatterbox производит высококачественные английские клоны с контролем эмоций. CosyVoice 2 лучше всего подходит для многоязычного клонирования (китайский, английский, японский, корейский). Spark быстрее всего за ~12 секунд. Tortoise дает результаты качества студии, но медленнее. GPT-SOVITS преуспевает в клонировании китайского голоса. Попробуйте несколько моделей, чтобы найти лучшее совпадение для вашего голоса.

Да, это называется клонированием голоса на разных языках. " CosyVoice 2 ", " Qwen3-TTS " и " OpenVoice " поддерживают его. Например, вы можете загрузить образец английского голоса и создать речь на китайском, японском или корейском языках, сохраняя при этом голосовые характеристики оратора. Качество варьируется в зависимости от модели и языковой пары.

В проекте CorentinJ/Real-Time-Voice-Cloning GitHub (60K+ звезды) используется архитектура 2019 года. В то время как современные модели, такие, как Chatterbox, CosyVoice 2 и GPT-SoVITS, производят значительно более высокое качество звука с более высоким сходством громкоговорителей. TTS.ai прогоняет 9 самых современных моделей (vs SV2TS 1) и не требует установки GPU — просто загружать и клонировать.

Да. TTS.ai предоставляет REST API для клонирования голоса. Загрузить ссылку на аудио и текст, выбрать модель и получить клонированную речь. Доступно через Python SDK ("pip установить ttai"), JavaScript SDK (npm установить @ttsainpm/ttsai) или прямой HTTP запрос. Поддержка клонирования партии для обработки нескольких текстов одним и тем же клонированным голосом.

После клонирования сохранить голос на вашем счету и повторно использовать его в течение неограниченного поколения без перезагрузки эталонного аудио. Сохранённые голоса появляются в вашей голосовой библиотеке на странице клонирования голоса и доступны через API.

WAV, MP3, OGG, FLAC и WebM поддерживаются. Вы также можете записывать непосредственно в вашем браузере с помощью встроенного микрофона. Для наилучших результатов используйте формат WAV без потерь в 16 кГц или выше. AI автоматически обрабатывает звук (выбор проб, фильтрация шума) независимо от формата ввода.

Время поколения варьируется в зависимости от модели: Spark быстрее всего ~12 секунд, OpenVoice ~15 секунд, GPT-SOVITS ~16 секунд, CosyVoice 2 ~20 секунд, Chatterbox ~21 секунды, и Tortoise ~60 секунд. Это время для типичного текста. Более длинные тексты занимают пропорционально больше времени.

Все 9 моделей клонирования на TTS.ai используют лицензии с открытым исходным кодом (MIT или Apache 2.0), которые допускают коммерческое использование. Вы можете использовать клонированные аудио в видеороликах YouTube, подкастах, аудиокнигах, приложениях, играх, телефонных системах и любых других коммерческих приложениях при условии, что у вас есть права на голос источника.

Да. Каждая модель, которую мы используем, является открытой и доступна на GitHub/HuggingFace. Вы можете самостоятельно вести Chatterbox, CosyVoice 2, GPT-SOVITS, OpenVoice, Spark, IndexTS-2, GLM-TTS, Qwen3-TTS или Tortoise на вашем собственном сервере GPU. Большинство моделей требуют GPU NVIDIA с 4-24GB VRAM в зависимости от модели. TTS.ai обрабатывает всю инфраструктуру, так что вам не нужно.
5.0/5 (1)

Твоя обратная связь помогает нам решать проблемы.

Клонировать любой голос в секунды

9 моделей клонирования голоса с открытым исходным кодом, 5 секунд, никаких тренировок. Попробуйте бесплатно — загрузите звук и услышьте клон мгновенно.