Свободный IA Текст к речи

Параметры 82M Ультразвуковой Экспрессивные голоса Многоязычное Поддержка в ряде пунктов

Легковесная модель параметров 82M, произносящая студийную речь с быстро-звездочным выводом.

Быстрый · 1.5GB VRAM Попробуй.

Piper

Удобно для процессоров Возможность выхода в исходное положение 100 голосов 35 и более языков Поддержка SSML

Быстрый, местный нейронный текст для речевой системы оптимизирован для Raspberry Pi и встроенных устройств.

Быстрый · 0 (CPU only) VRAM Попробуй.

VITS

Конец синтеза Естественная прозодия Быстрый вывод Несколько ораторов

Условное вариативное автоенкодер с состязательным обучением для передачи текста от конца.

Быстрый · 1GB VRAM Попробуй.

MeloTTS

Оптимизация процессора Многоязычное Множественные акценты Готовый к производству Низкая запоздалость

Высококачественный многоязычный текст-пик, который работает на процессоре с минимальной задержкой.

Быстрый · 0.5GB (GPU optional) VRAM Попробуй.

Bark

Звуковые эффекты Смеяться/вздыхать Музыкальное поколение 100 и более ораторов Многоязычное

Трансформаторная текстово-аудио-модель, генерирующая реалистическую речь, музыку и звуковые эффекты.

Медленно · 5GB VRAM Попробуй.

Bark Small

Легкий вес Быстрее, чем полная кора Эмоциональная речь Многоязычное

Мягкая версия Барка с более быстрым выводом и меньшим использованием памяти.

Средний · 2GB VRAM Попробуй.

CosyVoice 2

Стремление Клонирование с нулевым коэффициентом излучения Сквозные языки Эмоциональный контроль Право на равенство между мужчинами и женщинами

Масштабный поток Alibaba TTS с присущими человеку природой и почти нулевой латентностью.

Dia TTS

Многоязычие Диалогическое поколение Естественный поворот Эмоциональное выражение 1.6B Параметры

Модель создания диалогов с участием нескольких ораторов, которая создает естественный диалог между ораторами.

Parler TTS

Описание голоса Контроль за естественным языком Гибкое создание голоса Нет необходимости в заранее сформулированных голосах

Опишите голос, который вы хотите на естественном языке, и Парлер создаёт сравнительную речь.

Indic Parler TTS

11 индийских языков Описание голоса Контроль за естественным языком Аутентичное произношение

Высококачественная речь для 8+ индийских языков с естественным речевым управлением.

Медленно · 8GB VRAM Попробуй.

KhanomTan TTS

Тайские TTS Несколько ораторов Твоя архитектура TTS Лицензия на обеспечение коммерческой безопасности

Таиландский первый текст для выступления с выбором голосов ораторов.

Быстрый · 2GB VRAM Попробуй.

IndexTTS-2

Эмоциональный контроль Ноль выстрелов Эмоциональные векторы Экспрессивная речь Тонкозерный контроль

Ноль-выстрелов TTS с тонким эмоциональным контролем и высокой экспрессивностью.

Spark TTS

Клонирование голоса Эмоциональный контроль Стильный контроль Оперативно базирующиеся 5-секундное клонирование

Клонирование голоса TTS с контролируемыми эмоциями и разговорным стилем с помощью быков.

GPT-SoVITS

5-секундное клонирование Поющий голос Небольшое обучение Высокая верность Сквозные языки

Немногие клонирующие голоса TTS, которые воспроизводят любой голос из пяти секунд звука.

Медленно · 6GB VRAM Попробуй.

Orpheus

Эмоции человеческого уровня Обучение в объеме 100 кв. часов Природный акцент Экспрессивная речь

Эмоциональная модель TTS на уровне человека была обучена 100K часов речевых данных.

Chatterbox

Клонирование с нулевым коэффициентом излучения Эмоциональный контроль Высокая верность Стиль передачи Клонирование одной пробы

Современное клонирование с нулевым голосом с эмоциональным контролем из Resemble AI.

Tortoise TTS

Самое высокое качество Множественный счет Архитектура DALL-E Клонирование голоса Авторегрессивный

Текст-пик с несколькими счетами был сосредоточен на качестве с авторегрессивной архитектурой.

Медленно · 8GB VRAM Попробуй.

StyleTTS 2

Человеческий уровень Диффузия стилей Диверсионная подготовка Естественные вариации Высокая верность

На уровне человека текстопроникновение через распространение стиля и состязательную подготовку.

OpenVoice

Мгновенное клонирование Голосовая трансформация Эмоциональный контроль Контроль прикосновения Многоязычное

Мгновенное клонирование голоса с гранулальным контролем над стилем, эмоциями и акцентом.

Qwen3 TTS

9 голосов Голосовой дизайн из текста Эмоциональный контроль 10 языков

Многоязычный TTS Алибабы с предопределёнными голосами и дизайном голоса из текста.

Средний · 7GB VRAM Попробуй.

VieNeu-TTS-v2

7 голосов (с акцентом на Север и Юг) Кодировка En-Vi Клонирование голоса (3-5s ссылка) Подкаст/многоязычная поддержка Только процессор - ГПУ не требуется

Вьетнамский + Английский шифрующий TTS с 7 предварительно установленными голосовыми голосами и нулевым клонированием голосов. Только процессор, не требуется ГПС.

Быстрый · CPU VRAM Попробуй.

Sesame CSM

Разговоры Естественные сроки Поворот Задняя трубка Параметры 1В

Модель разговорной речи, генерирующая естественный диалог с соответствующими сроками и эмоциями.

Медленно · 8GB VRAM Попробуй.

Chatterbox Turbo

Запоздалость суб200 мс Паралингвистические метки 6 в реальном времени Клонирование голоса Водяная маркировка

Быстрее чаттербокс с латентностью в 200 м и паралингвистическими метками для смеха, кашля и даже больше.

Быстрый · 2GB VRAM Попробуй.

VoxCPM

44,1 кГц аудио Без токенизатора Клонирование на различных языках Сознательный контекст Уточнение LORA

Без токенизатора TTS производит звук 44,1 кГц с контекстопонимающей последовательность параграфов.

Быстрый · 4GB VRAM Попробуй.

Kani TTS 2

3GB VRAM Ультразвуковой Легкий вес Нанокодc Свободные

Ультралегивная модель TTS 400M работает только в 3GB VRAM.

Быстрый · 3GB VRAM Попробуй.

OuteTTS

Вывод по методу CPU Вывод просмотрера Множественные запчасти Спикерские профили

TTS на основе LLM, который работает на процессоре, GPU или браузере с помощью ламы.cpp и Трансформеров.js.

Медленно · 2GB VRAM Попробуй.

VibeVoice

Многоязычие До 90 мин. Поколение подкастов Последовательность выступлений 200 мс по течению

Модель Microsoft для длинноформатного многопикового контента, как подкасты и аудиокниги.

Быстрый · 4GB VRAM Попробуй.

Pocket TTS

Параметры 100М Вывод по методу CPU Клонирование голоса Клонирование одного образца Готовая обшивка

Легковесная модель параметров 100М Кютай с клонированием голоса из одной пробы.

Быстрый · 1GB VRAM Попробуй.

Kitten TTS

Вывод только для процессора Менее 80 МВт размер модели 8 встроенных голосов Контроль скорости На базе ОННХ 24 кГц

Сверхсветлый TTS менее 80 МВт. Запускает процессор без GPU.

Быстрый · 0GB VRAM Попробуй.

CosyVoice3

Двусторонний обмен информацией Эмоциональный контроль Клонирование голоса Регулирование скорости/объема Следующая инструкция

В следующем поколении многоязыковые TTS с би-стриминговым, эмоциональным контролем и нулевым клонированием голоса.

Быстрый · 4GB VRAM Попробуй.

NAMAA Saudi TTS

Саудовский арабский диалект Современный стандарт на арабском языке Клонирование с нулевым голосом Эмоциональный контроль Провозглашение коренных народов

Первое открытие саудовско-арабского TTS, местный саудовский диалект с клонированием голоса на языке Chatterbox.

Средний · 6GB VRAM Попробуй.

Darwin TTS

Клонирование голоса Сквозные языки FFN-бюллетени 4 основных языка Qwen3 позвоночник

Межмодульный вариант Qwen3-TTS с весами FFN, смешанный с языковой моделью Qwen3-1.7B для более острого многоязыкового клонирования.

Средний · 7GB VRAM Попробуй.

MOSS-TTSD

Диалог с участием нескольких ораторов До 5 ораторов 60-мин. связный звук Клонирование голоса Подкастовая оптимизация

Модель продолжения диалога с участием многих ораторов — генерирует подкастные разговоры с пятью ораторами и 60 минутами связного звука.

Средний · 12GB VRAM Попробуй.

Ming-Omni TTS

44,1 кГц Клонирование голоса Эмоциональный контроль Борьба с диалектом Построение BGM Совпадение 0,5B

Компакт 0.5B комбинированная модель речи из InclusionAI с высокой достоверностью 44,1 кГц и нулевым клонированием голоса.

Средний · 3GB VRAM Попробуй.

MOSS-TTS Nano