Доклад " Bugg " / " Особенности запроса "

IA Текст к речи

Преобразовать текст в естественную речь с моделями АИ с открытым исходным кодом. Свободный для использования, никакого счета не требуется.

Не подписываться

0/500 символы · Зарегистрируйтесь на 5000 человек в расчете на одно поколение →

Подписывайся. для 5 000 символов

Режим SSML (Слово Обобщение языка разметки для тонкого контроля)

Заверните текст в SSML для точного контроля:

<speak><prosody rate="slow">Slow speech</prosody></speak>

Эмоции/стильные метки

Добавить эмоциональные маркеры для оказания влияния на доставку (различается поддержка модели):

Словарь произношения

Определить традиционные произношения (слово = произношение):

Питч 0

-12 +12

АИ Модель

Голос

Язык

Формат вывода

Скорость 1.0x

0.5x 2.0x

Бесплатно с Пайпер, VITS, MeloTTS

Ваш генерированный звук появится здесь. Выберите модель, введите текст и нажмите на Генератор.

Подробности модели

Kitten TTS

Free

Kitten TTS by KittenML is an ultra-lightweight text-to-speech model built on ONNX. With variants from 15M to 80M parameters (25-80 MB on disk), it delivers high-quality voice synthesis on CPU without requiring a GPU. Features 8 built-in voices, adjustable speech speed, and built-in text preprocessing for numbers, currencies, and units. Ideal for edge deployment and low-latency applications.

Разработчик:	KittenML
Лицензия:	Apache 2.0
Скорость	Fast
Качество:
языков	1 язык
VRAM	0GB
Клонирование голоса	Не поддерживается

Особенности:

CPU-only inference Under 80MB model size 8 built-in voices Speed control ONNX-based 24kHz output

Лучший для:: Fast lightweight TTS, edge deployment, low-latency applications

Советы для лучших результатов

Используйте правильную пунктуацию для естественных пауз и интонации
Разбивка чисел и сокращений для более четкого произношения
Добавить запятые, чтобы создать короткие паузы между фразами
Использовать эллипсис (...) для более продолжительных драматических паузов
Попробуйте Kokoro или CosyVoice 2 для самых естественных результатов
Использовать диа для диалога с несколькими говорящими и содержимого подкаста

Использование символа

Тяжелый	Стоимость в расчете на 1 кв. шаров
Свободные	0 кредитов (без ограничений)
Стандартные	2 кредита / 1К шаров
Премиум	4 кредита / 1К шаров

Найти больше символов

Как AI текст для речи работает

Сделать голосовую передачу профессионального качества тремя простыми шагами.

Этап 1

Введите ваш текст

Введите, вставьте или загрузите текст, который вы хотите преобразовать в речь. Поддерживает до 5 000 символов на поколение для зарегистрировавшихся пользователей. Используйте обычный текст или добавьте значки SSML для усовершенствованного контроля за произношением, паузами и акцентом.

Шаг 2

Выбрать модель & голос

Выберите из 20+ моделей АИ на трех ярусах. Выберите голос, который соответствует вашему содержанию, выберите язык цели, отрегулируйте скорость воспроизведения с 0,5x на 2,0x и выберите предпочтительный формат вывода (MP3, WAV, OGG или FLAC).

Шаг 3

Создать & загрузку

Нажмите Генерировать и ваш звук будет готов в секунды. Просмотр с встроенным игроком, скачать в выбранный формат или скопировать ссылку. Используйте API для обработки и интеграции в ваш рабочий процесс.

Текст для использования в словах

АИ-текст-спирт преобразует то, как люди создают, потребляют и взаимодействуют с аудиоконтентом в десятках отраслей.

Аудиовизуальные книги

Преобразовать целые книги в аудиокниги естественного звука со студией по качеству. Множественная поддержка с Диа для диалога персонажей.

Video Voovers

Создать профессиональные голосовые очки для YouTube, TikTok, Instagram Rels и Sorts. 100+ голосов или клонировать свой собственный.

Подкасты

Создайте эпизоды подкастов из сценариев с множеством голосов АИ. Используйте Диа для естественных двухъязычных разговоров.

Игры

Голос AI играет для инди-игр, визуальных романов и интерактивной фантастики. Диалог NCC, голоса в сериале, 30 и более языков.

Электронное обучение

Преобразование учебных материалов, лекций и учебных материалов в аудио.

Доступность

Обеспечение доступа к вебсайтам, документам и приложениям.

ИВР & телефонные системы

Мощность IVR-системы, меню телефонов и обслуживание клиентов с помощью естественных голосов АИ.

Социальные средства массовой информации

TikTok Narrations, Instagram Rels, Twitter/X комментарий, YouTube Sorts. Быстрое поколение с бесплатными моделями.

Стремление

Тревога TTS предупреждает, чат-фактура, соведущие AI и Discord Bots. Низкая опоздание, 100+ голоса, СтримЭлементы совместимы.

Маркетинг

Опровержение голосов, видео-объяснители, демо-продукции и презентации продаж.

Перекрытие и локализация

Перевод видео и видеокассет на 30+ языков с матчем звука AI. Автотрансляция и распознавание громкости.

Размышление и благожелательность

Размышление, рассказы о сне, упражнение в дыхании и заверения с спокойными, успокаивающими голосами АИ.

Просмотр всех вариантов и инструментов использования

Все тексты в модели речей

Подробные спецификации для каждой модели АИ, доступной на TTS.ai. Сравните качество, скорость, языковую поддержку и параметры, чтобы найти идеальную модель для вашего проекта.

Kokoro

Free

Кокоро — это модель из 82 миллионов параметров, которая бьет намного выше своего класса веса. Несмотря на свой маленький размер, она производит удивительно естественную и экспрессивную речь. Кокоро поддерживает множество языков, включая английский, японский, китайский и корейский, с разнообразными экспрессивными голосами. Она работает невероятно быстро, генерируя звук почти 100x быстрее, чем в реальном времени на GPU.

Разработчик::
Hexgrad

Лицензия::
Apache 2.0

Скорость:
Fast

Качество::

языков:
en, ja, zh, fr, it, pt, es, hi

VRAM:
1.5GB

Клонирование голоса:
Нет

Стоимость в расчете на 1 кв. шаров:
Свободные

Параметры 82M Ультразвуковой Экспрессивные голоса Многоязычное Поддержка в ряде пунктов

Лучший для:: Высококачественные TTS с минимальными запоздалыми, ручными приложениями

Попробуй Kokoro

Piper

Free

Piper — это легковесный текстово-пиковый двигатель, разработанный Rhasspy и использующий архитектуры VITS и гортани. Он работает полностью на процессоре, что делает его идеальным для кабельных устройств, автоматизации дома и приложений, требующих оффлайн TTS. С более чем 100 голосами на 30+ языках Piper произносит естественную речь при скорости в реальном времени даже на Raspberry Pi 4.

Разработчик::
Rhasspy

Лицензия::
MIT

Скорость:
Fast

Качество::

языков:
en, de, fr, es, it, pt, nl, pl, ru, zh, ar, cs, da, fi, el, hu, is, ka, kk, ne, no, ro, sk, sr, sv, sw, tr, uk, vi

VRAM:
0 (CPU only)

Клонирование голоса:
Нет

Стоимость в расчете на 1 кв. шаров:
Свободные

Удобно для процессоров Возможность выхода в исходное положение 100 голосов 30 и более языков Поддержка SSML

Лучший для:: Быстрые просмотры, доступность и встроенные приложения

Попробуй Piper

VITS

Free

VITS (Varional Interitional Affections with contractive education for end-to-Speech) является параллельным методом TTS, который генерирует больше натурального звукового звука, чем нынешние двухступенчатые модели. Он принимает вариативные выводы, дополненные нормализующими потоками и состязательным процессом подготовки, что позволяет значительно улучшить естественность.

Разработчик::
Jaehyeon Kim et al.

Лицензия::
MIT

Скорость:
Fast

Качество::

языков:
en, de, es, fr, pt, nl, fi, hu, bg, uk, pl

VRAM:
1GB

Клонирование голоса:
Нет

Стоимость в расчете на 1 кв. шаров:
Свободные

Конец синтеза Естественная прозодия Быстрый вывод Несколько ораторов

Лучший для:: Тексты общего назначения с натуральной прозодией

Попробуй VITS

MeloTTS

Free

MeloTTS MySell.ai — многоязычная библиотека TTS, поддерживающая английский (American, British, Indian, Australian), испанский, французский, китайский, японский и корейский языки.

Разработчик::
MyShell.ai

Лицензия::
MIT

Скорость:
Fast

Качество::

языков:
en, es, fr, zh, ja, ko

VRAM:
0.5GB (GPU optional)

Клонирование голоса:
Нет

Стоимость в расчете на 1 кв. шаров:
Свободные

Оптимизация процессора Многоязычное Множественные акценты Готовый к производству Низкая запоздалость

Лучший для:: Производственные приложения, требующие быстрых, многоязычных ТТС

Попробуй MeloTTS

Bark

Standard

Bark by Suno — это трансформаторная модель, которая может генерировать очень реалистичную, многоязычную речь, а также другие аудио, такие как музыка, фоновый шум и звуковые эффекты. Она может производить невербальные коммуникации, такие как смех, вздыхание и плачущие. Барк поддерживает более 100 речевых пресетов и 13+ языков.

Разработчик::
Suno

Лицензия::
MIT

Скорость:
Slow

Качество::

языков:
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr

VRAM:
5GB

Клонирование голоса:
Нет

Стоимость в расчете на 1 кв. шаров:
2x

Звуковые эффекты Смеяться/вздыхать Музыкальное поколение 100 и более ораторов Многоязычное

Лучший для:: Креативное аудиосодержание, аудиокниги с эмоциями, звуковые эффекты

Попробуй Bark

Bark Small

Standard

Bark Small — дистиллированная версия модели Bark, которая обменивает некоторое качество звука на значительно более быструю скорость вывода и более низкие требования к памяти.

Разработчик::
Suno

Лицензия::
MIT

Скорость:
Medium

Качество::

языков:
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr

VRAM:
2GB

Клонирование голоса:
Нет

Стоимость в расчете на 1 кв. шаров:
2x

Легкий вес Быстрее, чем полная кора Эмоциональная речь Многоязычное

Лучший для:: Быстрый креативный звук, когда полная кора слишком медленная

Попробуй Bark Small

CosyVoice 2

Standard

CosyVoice 2 от Alibaba's Tongyi Lab достигает такого же качества речи, как у человека, с очень низкой задержкой, что делает его идеальным для применения в реальном масштабе времени. Он использует конечный скалярный квантизационный подход для потокового синтеза и поддерживает клонирование с нулевым голосом, кросс-язычный синтез и тонкий эмоциональный контроль. Он превосходит многие коммерческие системы TTS в субъективных оценках.

Разработчик::
Alibaba (Tongyi Lab)

Лицензия::
Apache 2.0

Скорость:
Medium

Качество::

языков:
en, zh, ja, ko, fr, de, it, es

VRAM:
4GB

Клонирование голоса:
Выполнено

Стоимость в расчете на 1 кв. шаров:
2x

Стремление Клонирование с нулевым коэффициентом излучения Сквозные языки Эмоциональный контроль Право на равенство между мужчинами и женщинами

Лучший для:: Прикладные программы в режиме реального времени, трансляция TTS, голосовые помощники

Попробуй CosyVoice 2

Dia TTS

Standard

Dia by Nari Labs — модель 1,6B, разработанная специально для налаживания диалога с участием нескольких ораторов. Она может создавать естественный звуковой диалог между двумя ораторами с соответствующим поворотом, прозодией и эмоциональным выражением. Диа идеально подходит для создания контента в стиле подкаста, диалогов с аудиокнигами и интерактивной диалоговой AI.

Разработчик::
Nari Labs

Лицензия::
Apache 2.0

Скорость:
Medium

Качество::

языков:
en

VRAM:
4GB

Клонирование голоса:
Нет

Стоимость в расчете на 1 кв. шаров:
2x

Многоязычие Диалогическое поколение Естественный поворот Эмоциональное выражение 1.6B Параметры

Лучший для:: Подкасты, диалоги с аудиокнигами, содержание разговоров

Попробуй Dia TTS

Parler TTS

Standard

Parler TTS — это модель, использующая описание естественного языка для контроля генерируемой речи. Вместо того, чтобы выбирать из предварительно набранных голосов, вы описываете голос, который вы хотите (например, «теплый женский голос с небольшим британским акцентом, говорит медленно и ясно») и Парлер создает речь, соответствующую этому описанию. Это делает его уникальным гибким для творческих приложений.

Разработчик::
Hugging Face

Лицензия::
Apache 2.0

Скорость:
Medium

Качество::

языков:
en

VRAM:
4GB

Клонирование голоса:
Нет

Стоимость в расчете на 1 кв. шаров:
2x

Описание голоса Контроль за естественным языком Гибкое создание голоса Нет необходимости в заранее сформулированных голосах

Лучший для:: Креативные приложения, в которых вам нужны характеристики звука

Попробуй Parler TTS

GLM-TTS

Standard

GLM-TTS от Zhipu AI — это система, построенная на архитектуре Llama с совпадением потоков. Она достигает наименьшей вероятности ошибки персонажей из моделей TTS с открытым исходным кодом, что означает, что она производит наиболее точное произношение. GLM-TTS поддерживает английский и китайский с помощью клонирования голоса из 3-10 секундных звуковых образцов.

Разработчик::
Zhipu AI

Лицензия::
GLM-4 License

Скорость:
Medium

Качество::

языков:
en, zh

VRAM:
4GB

Клонирование голоса:
Выполнено

Стоимость в расчете на 1 кв. шаров:
2x

Самый низкий коэффициент погрешности Клонирование голоса Совпадение потоков Естественная прозодия

Лучший для:: Заявки, требующие максимальной точности произношения

Попробуй GLM-TTS

IndexTTS-2

Standard

IndexTTS-2 — это усовершенствованная система текстово-пикового синтеза, которая превосходит нулевой голосовой синтез с тонкозернистым эмоциональным контролем. Она может генерировать речь с конкретными эмоциональными тонами, такими как счастливые, печальные, злые или испуганные, не требуя эмоциональных данных. Модель использует эмоциональные векторы для точного контроля эмоционального выражения генерируемой речи.

Разработчик::
Index Team

Лицензия::
Bilibili Model License

Скорость:
Medium

Качество::

языков:
en, zh

VRAM:
4GB

Клонирование голоса:
Выполнено

Стоимость в расчете на 1 кв. шаров:
2x

Эмоциональный контроль Ноль выстрелов Эмоциональные векторы Экспрессивная речь Тонкозерный контроль

Лучший для:: Эмоционально экспрессивное содержание, аудиокниги, виртуальные помощники

Попробуй IndexTTS-2

Spark TTS

Standard

Spark TTS от SparkAudio — модель, сочетающая клонирование голоса с контролируемыми эмоциями и стилем речи. Используя только 5 секунд эталонного звука, он может клонировать голос и затем генерировать речь с различными эмоциями, скоростью и стилями при сохранении клонированной голосовой идентичности. Spark TTS использует быструю систему управления.

Разработчик::
SparkAudio

Лицензия::
CC BY-NC-SA 4.0

Скорость:
Medium

Качество::

языков:
en, zh

VRAM:
4GB

Клонирование голоса:
Выполнено

Стоимость в расчете на 1 кв. шаров:
2x

Клонирование голоса Эмоциональный контроль Стильный контроль Оперативно базирующиеся 5-секундное клонирование

Лучший для:: Создание содержания с клонированными голосами и эмоциональным контролем

Попробуй Spark TTS

GPT-SoVITS

Standard

GPT-SOVITS сочетает в себе модель языка в стиле GPT с SOVITS ( < < Поющий голос > > через < < Перевод > > и < < Обобщение > > ) для мощного клонирования малоразмерного голоса. С помощью пяти секунд эталонного звука он может точно клонировать голос и генерировать новую речь, сохраняя уникальные характеристики оратора. Он преуспевает в синтезе как речи, так и голоса.

Разработчик::
RVC-Boss

Лицензия::
MIT

Скорость:
Slow

Качество::

языков:
en, zh, ja, ko

VRAM:
6GB

Клонирование голоса:
Выполнено

Стоимость в расчете на 1 кв. шаров:
2x

5-секундное клонирование Поющий голос Небольшое обучение Высокая верность Сквозные языки

Лучший для:: Клонирование голоса, синтез песни, репликация голоса создателя контента

Попробуй GPT-SoVITS

Orpheus

Standard

Орфей представляет собой крупномасштабную модель, позволяющую получать эмоциональное выражение на уровне человека. Он обучен более чем 100 000 часов разнообразных речевых данных, он преуспевает в создании речи с естественными эмоциями, акцентом и стилем речи. Орфей может производить речи, которые практически неотличимы от человеческих записей.

Разработчик::
Canopy Labs

Лицензия::
Llama 3.2 Community

Скорость:
Medium

Качество::

языков:
en

VRAM:
4GB

Клонирование голоса:
Нет

Стоимость в расчете на 1 кв. шаров:
2x

Эмоции человеческого уровня Обучение в объеме 100 кв. часов Природный акцент Экспрессивная речь

Лучший для:: Высококачественная эмоциональная речь, аудиокниги, голосовое выступление

Попробуй Orpheus

Chatterbox

Premium

Chatterbox Resemble AI — это передовая модель клонирования голоса с нулевым снимком. Она может с удивительной точностью воспроизводить любой голос из одного звукового образца, улавливая не только стиль речи, но и эмоциональный стиль и эмоциональные нюансы. Chatterbox также содержит тонкий эмоциональный контроль, позволяющий скорректировать эмоциональный тон генерируемой речи независимо от голосовой идентичности.

Разработчик::
Resemble AI

Лицензия::
MIT

Скорость:
Medium

Качество::

языков:
en

VRAM:
4GB

Клонирование голоса:
Выполнено

Стоимость в расчете на 1 кв. шаров:
4x

Клонирование с нулевым коэффициентом излучения Эмоциональный контроль Высокая верность Стиль передачи Клонирование одной пробы

Лучший для:: Профессиональное клонирование голоса с эмоциональным контролем, создание контента

Попробуй Chatterbox

Tortoise TTS

Premium

TTS — это авторегрессивная система текстовых сообщений, которая определяет качество звука над скоростью. Она использует архитектуру DALL-E, чтобы генерировать очень естественную речь с превосходным прозодиозом и сходством громкоговорителей. Хотя и медленнее, чем многие альтернативы, Tortoise производит некоторые из наиболее реалистичных синтетических речей, имеющихся в экосистеме с открытым исходным кодом.

Разработчик::
James Betker

Лицензия::
Apache 2.0

Скорость:
Slow

Качество::

языков:
en

VRAM:
8GB

Клонирование голоса:
Выполнено

Стоимость в расчете на 1 кв. шаров:
4x

Самое высокое качество Множественный счет Архитектура DALL-E Клонирование голоса Авторегрессивный

Лучший для:: Аудиовизуальные книги, премиальное содержание, первые прикладные программы по качеству

Попробуй Tortoise TTS

StyleTTS 2

Premium

StyleTTS 2 достигает синтеза TTS на уровне человека, сочетая распространение стиля с состязательным обучением с использованием моделей большого языка речи. Он генерирует самую естественную звукозвуковую речь среди однопиковых моделей, соперничая с человеческими записями. StyleTS 2 использует модель стиля распространения для охвата всего диапазона вариаций речи человека.

Разработчик::
Columbia University

Лицензия::
MIT

Скорость:
Medium

Качество::

языков:
en

VRAM:
4GB

Клонирование голоса:
Нет

Стоимость в расчете на 1 кв. шаров:
4x

Человеческий уровень Диффузия стилей Диверсионная подготовка Естественные вариации Высокая верность

Лучший для:: Синтез одноязычных студийного качества, профессиональная повествование

Попробуй StyleTTS 2

OpenVoice

Premium

OpenVoice y MySheell.ai позволяет мгновенно клонировать голос с гранулярным контролем над стилем голоса, эмоциями, акцентом, ритмом, паузами и интонацией. Он может клонировать голос из короткого аудиоклипа и генерировать речь на нескольких языках, сохраняя при этом личность оратора. OpenVoice также функционирует как голосовой преобразователь, что позволяет в реальном времени трансформировать голос.

Разработчик::
MyShell.ai / MIT

Лицензия::
MIT

Скорость:
Medium

Качество::

языков:
en, zh, ja, ko, fr, es

VRAM:
4GB

Клонирование голоса:
Выполнено

Стоимость в расчете на 1 кв. шаров:
4x

Мгновенное клонирование Голосовая трансформация Эмоциональный контроль Контроль прикосновения Многоязычное

Лучший для:: Клонирование голоса с тонким стилем управления, преобразование голоса

Попробуй OpenVoice

Qwen3 TTS

Standard

Qwen3-TTS представляет собой модель 1,7 миллиарда параметров, разработанную командой Alibaba's Qwen. Она поддерживает три режима: предопределённые голоса с эмоциональным контролем (9 ораторов), клонирование голоса от 3 секунд звука и уникальный режим голосового дизайна, в котором вы описываете голос, который вы хотите в естественном языке. Она охватывает 10 языков с высокой экспрессивностью и естественной прозодией.

Разработчик::
Alibaba (Qwen)

Лицензия::
Apache 2.0

Скорость:
Medium

Качество::

языков:
en, zh, ja, ko, de, fr, ru, pt, es, it

VRAM:
7GB

Клонирование голоса:
Выполнено

Стоимость в расчете на 1 кв. шаров:
2x

Клонирование голоса 9 голосов Голосовой дизайн из текста Эмоциональный контроль 10 языков

Лучший для:: Многоязычное содержание с клонированием голоса или заказным дизайном голоса

Попробуй Qwen3 TTS

Sesame CSM

Premium

Sesame CSM (Conversational Response Model) — модель 1 миллиарда параметров, разработанная специально для создания разговорной речи. Она моделирует естественный образ человеческого разговора, включая время поворотов, ответные реакции, эмоциональные реакции и разговорный поток. CSM генерирует звук, который звучит как естественный человеческий разговор, а не как синтетическая речь.

Разработчик::
Sesame

Лицензия::
Apache 2.0

Скорость:
Slow

Качество::

языков:
en

VRAM:
8GB

Клонирование голоса:
Нет

Стоимость в расчете на 1 кв. шаров:
4x

Разговоры Естественные сроки Поворот Задняя трубка Параметры 1В

Лучший для:: Ассистенты ИИ, болтовни, разговорные приложения ИИ

Попробуй Sesame CSM

Chatterbox Turbo

Standard

Chatterbox Turbo Resemble AI - это 350M усовершенствование параметра до Chatterbox, доставляя до 6x в режиме реального времени с латентностью до 200 м. Он поддерживает паралингуистические метки, такие как [смех], [кашель] и [хуки] прямо в тексте. Включая Perth Water маркирование на всех генерируемых аудио для отслеживания происхождения.

Разработчик::
Resemble AI

Лицензия::
MIT

Скорость:
Fast

Качество::

языков:
en

VRAM:
2GB

Клонирование голоса:
Выполнено

Стоимость в расчете на 1 кв. шаров:
2x

Запоздалость суб200 мс Паралингвистические метки 6 в реальном времени Клонирование голоса Водяная маркировка

Лучший для:: Речевые агенты в режиме реального времени, выразительная речь с естественными звуками

Попробуй Chatterbox Turbo

VoxCPM

Standard

VoxCPM 1.5 от OpenBMB — новая модель без символики TTS, которая работает в непрерывном пространстве, а не в дискретных символах. Она производит высокодостоверное аудио 44,1kHz, поддерживает клонирование с нулевым голосом с 3 до 10 секунд и поддерживает последовательность между пунктами. Клонирование на разных языках позволяет применять английский голос к китайской речи и наоборот.

Разработчик::
OpenBMB

Лицензия::
Apache 2.0

Скорость:
Fast

Качество::

языков:
en, zh

VRAM:
4GB

Клонирование голоса:
Выполнено

Стоимость в расчете на 1 кв. шаров:
2x

44,1 кГц аудио Без токенизатора Клонирование на различных языках Сознательный контекст Уточнение LORA

Лучший для:: Высокодостоверные аудио-, аудиокниги, содержание длинноформы с устойчивостью голоса

Попробуй VoxCPM

Kani TTS 2

Free

Kani-TTS-2, NineNineSix () — модель параметров, построенная на хребте Жидкого AI LFM2 с NVIDIA Nanocodec. Он работает всего в 3GB VRAM и выпускает ~10 секунд речи за 2 секунды на A100 (RTF 0.2). В настоящее время публика выпускает только на английском языке контрольно-пропускной пункт "kani-tts-2-en" и не разоблачает крючок, необходимый для клонирования голоса, используя Thatterbox / IndexTS2 / F5-TTS для клонирования, или Kokoro / MeloTTS для неанглийских.

Разработчик::
NineNineSix

Лицензия::
Apache 2.0

Скорость:
Fast

Качество::

языков:
en

VRAM:
3GB

Клонирование голоса:
Нет

Стоимость в расчете на 1 кв. шаров:
Свободные

3GB VRAM Ультразвуковой Легкий вес Нанокодc Свободные

Лучший для:: Быстрое английское поколение на аппаратных средствах с низким VRAM, быстрые просмотры

Попробуй Kani TTS 2

OuteTTS

Free

OuteTTS расширяет большие языковые модели с текстово-развивающимися возможностями при сохранении оригинальной архитектуры. Он поддерживает несколько подсказок, включая ламу.cpp (CPU/GPU), Hagging Face Transformers, ExLamaV2, VLM, и даже браузеры с помощью transformers.js.

Разработчик::
OuteAI

Лицензия::
Apache 2.0

Скорость:
Fast

Качество::

языков:
en

VRAM:
2GB

Клонирование голоса:
Выполнено

Стоимость в расчете на 1 кв. шаров:
Свободные

Вывод по методу CPU Вывод просмотрера Клонирование голоса Множественные запчасти Спикерские профили

Лучший для:: Развертывание наконечника, ТТС на базе браузера, низкоресурсная среда

Попробуй OuteTTS

VibeVoice

Standard

VibeVoice Microsoft состоит из двух вариантов: модели 1,5B для длинноформатного контента (до 90 минут, 4 оратора) и модели в реальном времени 0,5B для ретрансляции с ~200 мс первой звуковой латентностью. Вариант 1.5B превосходит подкасты и аудиокниги с последовательности громкоговорителей на длинных отрывках. Примечание: Microsoft удалил код TTS из хранилища и создал звук, включающий звуковые диски AI.

Разработчик::
Microsoft

Лицензия::
MIT

Скорость:
Fast

Качество::

языков:
en, zh

VRAM:
4GB

Клонирование голоса:
Нет

Стоимость в расчете на 1 кв. шаров:
2x

Многоязычие До 90 мин. Поколение подкастов Последовательность выступлений 200 мс по течению

Лучший для:: Подкасты, аудиокниги, многоязыковое содержание длинной формы

Попробуй VibeVoice

Pocket TTS

Free

Pocket TTS Kyutai (создатель Moshi) — компактная модель параметров 100M, которая значительно превышает свой вес. Она эффективно работает на процессоре, поддерживает клонирование с нулевым голосом из одного звукового образца и производит естественную звуковую речь. Малый размер модели делает ее идеальной для креативного развертывания и малой ресурсной среды.

Разработчик::
Kyutai

Лицензия::
MIT

Скорость:
Fast

Качество::

языков:
en, fr

VRAM:
1GB

Клонирование голоса:
Выполнено

Стоимость в расчете на 1 кв. шаров:
Свободные

Параметры 100М Вывод по методу CPU Клонирование голоса Клонирование одного образца Готовая обшивка

Лучший для:: Легкое развертывание, среда только для процессора, быстрое клонирование голоса

Попробуй Pocket TTS

Kitten TTS

Free

Kitten TTS KittenML — это сверхлегкая модель, построенная на ONNX. С вариантами от 15M до 80M параметров (25-80 MB на диске), она обеспечивает высококачественное голосовое синтезирование на процессоре, не требуя GPU. Особенности 8 встроенных голосов, корректируемая скорость речи и встроенная предварительная обработка текстов для чисел, валют и единиц. Идеалы для креативного развертывания и прикладных программ с низкой устойчивостью.

Разработчик::
KittenML

Лицензия::
Apache 2.0

Скорость:
Fast

Качество::

языков:
en

VRAM:
0GB

Клонирование голоса:
Нет

Стоимость в расчете на 1 кв. шаров:
Свободные

Вывод только для процессора Менее 80 МВт размер модели 8 встроенных голосов Контроль скорости На базе ОННХ 24 кГц

Лучший для:: Быстродействующий легковесный TTS, развертывание по краям, применение низколатных технологий

Попробуй Kitten TTS

CosyVoice3

Standard

CosyVoice3 — последняя эволюция команды Alibaba FunAudioLM. В ней содержится двусторонний вывод с ~150 мс латентности, контроль на основе обучения для эмоций/скорости/объема, и улучшенное сходство громкоговорителей для нулевого клонирования. Поддерживает 9 языков плюс 18 китайских диалектов. Вариант RL с корректировкой обеспечивает современную прозодию.

Разработчик::
Alibaba (FunAudioLLM)

Лицензия::
Apache 2.0

Скорость:
Fast

Качество::

языков:
en, zh, ja, ko, de, es, fr, it, ru

VRAM:
4GB

Клонирование голоса:
Выполнено

Стоимость в расчете на 1 кв. шаров:
2x

Двусторонний обмен информацией Эмоциональный контроль Клонирование голоса Регулирование скорости/объема Следующая инструкция

Лучший для:: Многоязычное производство TTS, прикладные программы в режиме реального времени, клонирование голоса

Попробуй CosyVoice3

NAMAA Saudi TTS

Standard

NAMAA Saudi TTS is a Saudi Arabic fine-tune of Resemble AI's ChatterboxMultilingual. Trained by NAMAA Space on authentic Saudi-dialect speech, it produces natural Modern Standard Arabic and Saudi colloquial pronunciation that generic multilingual models cannot match. Inherits Chatterbox's zero-shot voice cloning and emotion control via reference audio prompts. The first open-weights Arabic TTS deployed on TTS.ai.

Разработчик::
NAMAA Space

Лицензия::
MIT

Скорость:
Medium

Качество::

языков:
ar

VRAM:
6GB

Клонирование голоса:
Выполнено

Стоимость в расчете на 1 кв. шаров:
2x

Саудовский арабский диалект Современный стандарт на арабском языке Клонирование с нулевым голосом Эмоциональный контроль Провозглашение коренных народов

Лучший для:: Арабский контент для саудовских аудиторий, повествование о СУО, речевые агенты < < Халеиджи-диалект > >, арабские аудиокниги

Попробуй NAMAA Saudi TTS

Darwin TTS

Standard

Darin-TTS-1.7B-Cross by FINAL-Bench — исследовательский вариант Qwen3-TTS-1.7B, в котором 84 разговорника-FN tensors (8,6 %) смешиваются с α=3 % с совпадающими наконечниками Qwen3-1.7B-Base. Смесь построена без переподготовки и производит заметное поперечное клонирование голоса на корейском, английском, японском и китайском языках.

Разработчик::
FINAL-Bench

Лицензия::
Apache 2.0

Скорость:
Medium

Качество::

языков:
en, ko, ja, zh

VRAM:
7GB

Клонирование голоса:
Выполнено

Стоимость в расчете на 1 кв. шаров:
2x

Клонирование голоса Сквозные языки FFN-бюллетени 4 основных языка Qwen3 позвоночник

Лучший для:: Клонирование голоса на разных языках между английским/корейским/японским/китайским языком с единым справочным голосом

Попробуй Darwin TTS

MOSS-TTSD

Standard

MOSS-TTSD v1.0 от OpenMOSS представляет собой 7B-диаграммную модель диалога, которая продолжает вести переговоры с короткой звуковой скоростью. Поддержка до пяти одновременных ораторов через [S1]/[S2] метки, ноль голосовое клонирование с 3-10-х справочных звуков и до 60 минут последовательного многооборотного диалога на 20 языках. Отличимое от MOSS-TTS — TTSD специализируется на подкастах/аудиодневниках/перехватах.

Разработчик::
OpenMOSS

Лицензия::
Apache 2.0

Скорость:
Medium

Качество::

языков:
en, zh

VRAM:
12GB

Клонирование голоса:
Выполнено

Стоимость в расчете на 1 кв. шаров:
2x

Диалог с участием нескольких ораторов До 5 ораторов 60-мин. связный звук Клонирование голоса Подкастовая оптимизация

Лучший для:: Подкасты, аудиокниги, названный диалог, содержание разговора с несколькими голосами

Попробуй MOSS-TTSD

Ming-Omni TTS

Free

Ming-omni-tts-0,5B путем включения AI представляет собой компактную омодальную модель речи, построенную на плотном позвоночнике BailingMM с звуковым декодером, позволяющим сравнивать звуки. Выпуск 44,1kHz (ближе к качеству компакт-диска), поддерживает клонирование с нулевым голосом из 3+ второй ссылки и включает встроенный эмоциональный/диалектический/БГМ контроль через инструкции JSON. Отличная стабильность — 0,83% WER по китайским контрольным параметрам.

Разработчик::
inclusionAI

Лицензия::
Apache 2.0

Скорость:
Medium

Качество::

языков:
en, zh

VRAM:
3GB

Клонирование голоса:
Выполнено

Стоимость в расчете на 1 кв. шаров:
Свободные

44,1 кГц Клонирование голоса Эмоциональный контроль Борьба с диалектом Построение BGM Совпадение 0,5B

Лучший для:: Двуязычная повествование на высоком уровне, речевое выступление под контролем эмоций, содержимое китайской аудиокниги

Попробуй Ming-Omni TTS

Kokoro

Свободные

Kokoro is an 82 million parameter text-to-speech model that punches well above its weight class. Despite its tiny size, it produces remarkably natural and expressive speech. Kokoro supports multiple languages including English, Japanese, Chinese, and Korean with a variety of expressive voices. It runs incredibly fast — generating audio nearly 100x faster than real-time on a GPU.

Разработчик::
Hexgrad

Лицензия::
Apache 2.0

Скорость:
Fast

Качество::

языков: en, ja, zh, fr, it, pt, es, hi

Лучший для:: High-quality TTS with minimal latency, streaming applications

Попробуй освободиться

Piper

Свободные

Piper is a lightweight text-to-speech engine developed by Rhasspy that uses VITS and larynx architectures. It runs entirely on CPU, making it ideal for edge devices, home automation, and applications requiring offline TTS. With over 100 voices across 30+ languages, Piper delivers natural-sounding speech at real-time speeds even on a Raspberry Pi 4.

Разработчик::
Rhasspy

Лицензия::
MIT

Скорость:
Fast

Качество::

языков: en, de, fr, es, it, pt, nl, pl, ru, zh, ar, cs, da, fi, el, hu, is, ka, kk, ne, no, ro, sk, sr, sv, sw, tr, uk, vi

Лучший для:: Quick previews, accessibility, and embedded applications

Попробуй освободиться

VITS

Свободные

VITS (Variational Inference with adversarial learning for end-to-end Text-to-Speech) is a parallel end-to-end TTS method that generates more natural sounding audio than current two-stage models. It adopts variational inference augmented with normalizing flows and an adversarial training process, achieving a significant improvement in naturalness.

Разработчик::
Jaehyeon Kim et al.

Лицензия::
MIT

Скорость:
Fast

Качество::

языков: en, de, es, fr, pt, nl, fi, hu, bg, uk, pl

Лучший для:: General-purpose text-to-speech with natural prosody

Попробуй освободиться

MeloTTS

Свободные

MeloTTS by MyShell.ai is a multilingual TTS library supporting English (American, British, Indian, Australian), Spanish, French, Chinese, Japanese, and Korean. It is extremely fast, processing text at near real-time speed on CPU alone. MeloTTS is designed for production use and supports both CPU and GPU inference.

Разработчик::
MyShell.ai

Лицензия::
MIT

Скорость:
Fast

Качество::

языков: en, es, fr, zh, ja, ko

Лучший для:: Production applications needing fast, multilingual TTS

Попробуй освободиться

Kani TTS 2

Свободные

Kani-TTS-2 by NineNineSix is an ultra-lightweight 400M parameter model built on a Liquid AI LFM2 backbone with NVIDIA NanoCodec. It runs in just 3GB VRAM and produces ~10 seconds of speech in ~2 seconds on an A100 (RTF 0.2). The current public release ships an English-only `kani-tts-2-en` checkpoint and does not expose the speaker-embedding hook needed for voice cloning — use Chatterbox / IndexTTS2 / F5-TTS for cloning, or Kokoro / MeloTTS for non-English.

Разработчик::
NineNineSix

Лицензия::
Apache 2.0

Скорость:
Fast

Качество::

языков: en

Лучший для:: Fast English generation on low-VRAM hardware, quick previews

Попробуй освободиться

OuteTTS

Свободные

OuteTTS extends large language models with text-to-speech capabilities while preserving the original architecture. It supports multiple backends including llama.cpp (CPU/GPU), Hugging Face Transformers, ExLlamaV2, VLLM, and even browser inference via Transformers.js. Features zero-shot voice cloning through speaker profiles saved as JSON.

Разработчик::
OuteAI

Лицензия::
Apache 2.0

Скорость:
Fast

Качество::

языков: en

Лучший для:: Edge deployment, browser-based TTS, low-resource environments

Попробуй освободиться

Pocket TTS

Свободные

Pocket TTS by Kyutai (creators of Moshi) is a compact 100M parameter text-to-speech model that punches well above its weight. It runs efficiently on CPU, supports zero-shot voice cloning from a single audio sample, and produces natural-sounding speech. The small model size makes it ideal for edge deployment and low-resource environments.

Разработчик::
Kyutai

Лицензия::
MIT

Скорость:
Fast

Качество::

языков: en, fr

Лучший для:: Lightweight deployment, CPU-only environments, quick voice cloning

Попробуй освободиться

Kitten TTS

Свободные

Разработчик::
KittenML

Лицензия::
Apache 2.0

Скорость:
Fast

Качество::

языков: en

Лучший для:: Fast lightweight TTS, edge deployment, low-latency applications

Стандартные

Разработчик::
NAMAA Space

Лицензия::
MIT

Скорость:
Medium

Качество::

языков:
ar

Клонирование голоса:
Выполнено

Saudi Arabic dialectModern Standard ArabicZero-shot voice cloningEmotion controlNative pronunciation

Лучший для:: Arabic content for Saudi audiences, MSA narration, Khaleeji-dialect voice agents, Arabic audiobooks

Попробуй NAMAA Saudi TTS

Darwin TTS

Стандартные

Darwin-TTS-1.7B-Cross by FINAL-Bench is a research variant of Qwen3-TTS-1.7B where 84 talker-FFN tensors (8.6%) are blended at α=3% with the matching tensors from Qwen3-1.7B-Base. The blend is built without retraining and produces noticeably crisper cross-lingual voice cloning across Korean, English, Japanese, and Chinese. Operates in zero-shot voice-clone mode (3 seconds reference audio).

Разработчик::
FINAL-Bench

Лицензия::
Apache 2.0

Скорость:
Medium

Качество::

языков:
en, ko, ja, zh

Клонирование голоса:
Выполнено

Voice cloningCross-lingualFFN-blended4 core languagesQwen3 backbone

Лучший для:: Cross-lingual voice cloning between English / Korean / Japanese / Chinese with a single reference voice

Модель	Разработчик:	Тяжелый	Скорость	языков	VRAM	Лицензия:	зачтенные суммы
Kokoro	Hexgrad	Free	Fast	8	1.5GB	Apache 2.0	Свободные	Использование
Piper	Rhasspy	Free	Fast	29	0 (CPU only)	MIT	Свободные	Использование
VITS	Jaehyeon Kim et al.	Free	Fast	11	1GB	MIT	Свободные	Использование
MeloTTS	MyShell.ai	Free	Fast	6	0.5GB (GPU optional)	MIT	Свободные	Использование
Bark	Suno	Standard	Slow	13	5GB	MIT	2	Использование
Bark Small	Suno	Standard	Medium	13	2GB	MIT	2	Использование
CosyVoice 2	Alibaba (Tongyi Lab)	Standard	Medium	8	4GB	Apache 2.0	2	Использование
Dia TTS	Nari Labs	Standard	Medium	1	4GB	Apache 2.0	2	Использование
Parler TTS	Hugging Face	Standard	Medium	1	4GB	Apache 2.0	2	Использование
GLM-TTS	Zhipu AI	Standard	Medium	2	4GB	GLM-4 License	2	Использование
IndexTTS-2	Index Team	Standard	Medium	2	4GB	Bilibili Model License	2	Использование
Spark TTS	SparkAudio	Standard	Medium	2	4GB	CC BY-NC-SA 4.0	2	Использование
GPT-SoVITS	RVC-Boss	Standard	Slow	4	6GB	MIT	2	Использование
Orpheus	Canopy Labs	Standard	Medium	1	4GB	Llama 3.2 Community	2	Использование
Chatterbox	Resemble AI	Premium	Medium	1	4GB	MIT	4	Использование
Tortoise TTS	James Betker	Premium	Slow	1	8GB	Apache 2.0	4	Использование
StyleTTS 2	Columbia University	Premium	Medium	1	4GB	MIT	4	Использование
OpenVoice	MyShell.ai / MIT	Premium	Medium	6	4GB	MIT	4	Использование
Qwen3 TTS	Alibaba (Qwen)	Standard	Medium	10	7GB	Apache 2.0	2	Использование
Sesame CSM	Sesame	Premium	Slow	1	8GB	Apache 2.0	4	Использование
Chatterbox Turbo	Resemble AI	Standard	Fast	1	2GB	MIT	2	Использование
VoxCPM	OpenBMB	Standard	Fast	2	4GB	Apache 2.0	2	Использование
Kani TTS 2	NineNineSix	Free	Fast	1	3GB	Apache 2.0	Свободные	Использование
OuteTTS	OuteAI	Free	Fast	1	2GB	Apache 2.0	Свободные	Использование
VibeVoice	Microsoft	Standard	Fast	2	4GB	MIT	2	Использование
Pocket TTS	Kyutai	Free	Fast	2	1GB	MIT	Свободные	Использование
Kitten TTS	KittenML	Free	Fast	1	0GB	Apache 2.0	Свободные	Использование
CosyVoice3	Alibaba (FunAudioLLM)	Standard	Fast	9	4GB	Apache 2.0	2	Использование
NAMAA Saudi TTS	NAMAA Space	Standard	Medium	1	6GB	MIT	2	Использование
Darwin TTS	FINAL-Bench	Standard	Medium	4	7GB	Apache 2.0	2	Использование
MOSS-TTSD	OpenMOSS	Standard	Medium	2	12GB	Apache 2.0	2	Использование
Ming-Omni TTS	inclusionAI	Free	Medium	2	3GB	Apache 2.0	Свободные	Использование

Самый всеобъемлющий текст ИИ для платформы речей

Зачем выбирать TTS.ai для текста речи?

TTS.ai объединяет лучшие в мире модели с открытым исходным кодом в одной, легко используемой платформе. В отличие от патентных услуг, которые запирают вас в один голосовой двигатель, TTS.ai дает вам доступ к 20+ моделям ведущих исследовательских лабораторий, включая Коки, Мишелл, Амфион, NVIDIA, Suno, HuggingFace, Tsinghua University и т.д.

Каждая модель является открытым источником в рамках MIT, Apache 2.0 или аналогичных разрешительных лицензий, что обеспечивает вам полные коммерческие права на использование генерируемого аудио в ваших проектах. Если вам нужен быстрый, легкий синтез для приложений в режиме реального времени или премиальное качество студии для аудиокниги и подкастов, TTS.ai имеет правильную модель для каждого варианта использования.

Свободные модели, счета не требуются

Начните немедленно с трех бесплатных моделей TTS: Piper (ultra-fast, лёгкий вес), VITS (высококачественный нейронный синтез) и MeloTTS (многоязычная поддержка). Нет регистрации, нет кредитной карты, нет ограничений на поколения. Свободные модели поддерживают английский и многие другие языки с натуральным звуковым материалом, пригодным для большинства приложений.

Ускоренная обработка ГПУ

Все модели TTS работают на специальных NVIDIA GPU для быстрого и последовательного поколения. Свободные модели обычно генерируют аудио менее чем за 2 секунды. Стандартные модели, такие как Kokoro, CosyVoice 2 и Bark в среднем 3-5 секунд. Премиевые модели с наивысшим качеством, такие как Tortoise и Chatterbox, обрабатываются за 5-15 секунд в зависимости от длины текста.

30+ Поддерживаемые языки

Сформулировать речь на более чем 30 языках, включая английский, испанский, французский, немецкий, итальянский, португальский, китайский, японский, корейский, арабский, хинди, русский и многие другие. Несколько моделей поддерживают межязыковый синтез, что означает, что вы можете генерировать речь на языке, на котором оригинальный голос так и не был обучен. CosyVoice 2 и GPT-SOVITS преуспевают в клонировании на кросс-язычном языке.

Разработчик-готовый API

Включите TTS.ai в ваши приложения с нашим OpenAI-совместимым REST API. Один конечный пункт для всех 20+ моделей. Питон, JavaScript, CURL и Go SDKs. Стреминг поддержки для приложений в режиме реального времени. Обработка партии для крупномасштабного производства контента. Webhooks для асинковых уведомлений. Доступ API был включен в каждый план, включая бесплатный.

Часто задаваемые вопросы

Текст к речи (TTS) — технология АИ, преобразующая письменный текст в звуковой звук. Современные нейронные модели TTS, такие как Kokoro, Chatterbox и CosyVoice 2, используют глубокое обучение для создания речи, которая звучит удивительно человечно, с естественной прозодией, эмоциями и ритмом.

Это зависит от ваших потребностей. Для быстрого просмотра используйте Piper или MeloTTS (бесплатно, быстро). Для высокого качества попробуйте Kokoro или CosyVoice 2 (стандартный уровень). Для клонирования голоса используйте Chatterbox или GPT-SOVITS (премиум). Для диалога/подкастового контента попробуйте Dia TTS. Каждая модель имеет различные сильные стороны — эксперимент, чтобы найти наиболее подходящую.

Да! TTS.ai предлагает бесплатный текст-пик с моделями Kokooro, Piper, VITS и MeloTS. Никаких счетов не требуется до 500 персонажей и 3 поколения в час. Зарегистрируйтесь на бесплатный счет для получения 15 кредитов и доступа ко всем моделям.

Наши модели TTS коллективно поддерживают 30+ языков, включая английский, испанский, французский, немецкий, итальянский, португальский, китайский, японский, корейский, арабский, русский, хинди и многие другие.

Да, аудио, полученное через TTS.ai, может использоваться на коммерческой основе. Все наши модели используют лицензии с открытыми исходными кодами (MIT, Apache 2.0). Проверьте индивидуальные лицензии на конкретные термины. Мы рекомендуем пересмотреть лицензию конкретной модели, которую вы используете для вашего проекта.

TTS.ai поддерживает форматы MP3, WAV, OGG и FLAC. MP3 является по умолчанию для веб-плейбэка. WAV рекомендуется для дальнейшей аудиообработки. Вы можете преобразовывать между форматами с помощью нашего инструмента Audio преобразователя.

Клонирование голоса использует AI для воспроизведения конкретного голоса из короткого звукового образца (обычно 5-30 секунд). Загрузить четкую запись голоса цели, и модели, такие как Chatterbox, GPT-SOVITS или OpenVoice, создадут новую речь в этом голосе. Качество улучшается с помощью более чистого, более длинного эталонного звука.

Свободные пользователи могут генерировать до 500 символов на запрос. Зарегистрированные пользователи получают до 5 000 символов на запрос. Для более длинных текстов аудио генерируется в кусках и сшивается автоматически. Пользователи API могут обрабатывать до 10 000 символов на запрос.

Поддержка SSML (Speech Syning Riskup Language) варьируется в зависимости от модели. Piper и некоторые другие модели поддерживают базовые значки SSML для паузов, акцентов и управления произношением. Для моделей без поддержки SSML вы можете использовать естественную пунктуацию и разрывы линий для воздействия на прозоди.

Да, большинство моделей поддерживают корректировку скорости от 0,5x до 2,0x. Некоторые модели, такие как Барк и Парлер, также допускают контроль стиля и стиля. Вы можете установить параметры скорости в усовершенствованной панели настройок или через параметр скорости API.

Да, обработка пакетов доступна через API. Вы можете представить несколько текстовых сегментов в одном вызове или скрипте API, и каждый из них будет обработан и возвращен в виде отдельных аудиофайлов. Это идеально подходит для глав аудиокниги, модулей электронного обучения или сценариев диалога игр.

Создайте ключ API из вашего аккаунта, затем отправьте запросы POST в наш REST API с вашим текстом, моделью и параметрами голоса. Мы приведем примеры кода в Python, JavaScript и CURL. API совместима с OpenAI, так что существующие интеграции работают с минимальными изменениями.

5.0/5 (4)

Начать конвертировать текст в речь сейчас

Присоединяйтесь к тысячам создателей, используя TTS.ai. Найдите 15 000 бесплатных персонажей с новым аккаунтом. Свободные модели доступны без регистрации.

Не подписываться Вид Ценообразование

IA Текст к речи

Нравится TTS.ai? Расскажите друзьям!

Подробности модели

Kitten TTS

Советы для лучших результатов

Использование символа

Как AI текст для речи работает

Введите ваш текст

Выбрать модель & голос

Создать & загрузку

Текст для использования в словах

Аудиовизуальные книги

Video Voovers

Подкасты

Игры

Электронное обучение

Доступность

ИВР & телефонные системы

Социальные средства массовой информации

Стремление

Маркетинг

Перекрытие и локализация

Размышление и благожелательность

Все тексты в модели речей

Kokoro

Piper

VITS

MeloTTS

Bark

Bark Small

CosyVoice 2

Dia TTS

Parler TTS

GLM-TTS

IndexTTS-2

Spark TTS

GPT-SoVITS

Orpheus

Chatterbox

Tortoise TTS

StyleTTS 2

OpenVoice

Qwen3 TTS

Sesame CSM

Chatterbox Turbo

VoxCPM

Kani TTS 2

OuteTTS

VibeVoice

Pocket TTS

Kitten TTS

CosyVoice3

NAMAA Saudi TTS

Darwin TTS

MOSS-TTSD

Ming-Omni TTS

Kokoro

Piper

VITS

MeloTTS

Kani TTS 2

OuteTTS

Pocket TTS

Kitten TTS

Ming-Omni TTS

Bark

Bark Small

CosyVoice 2

Dia TTS

Parler TTS

GLM-TTS

IndexTTS-2

Spark TTS

GPT-SoVITS

Orpheus

Qwen3 TTS

Chatterbox Turbo

VoxCPM

VibeVoice

CosyVoice3