Свободный IA Текст к речи

33+ модели с открытыми исходными кодами, 273+ голоса, 33+ Не требуется никаких счетов.

17K+
создатели
70K+
поколения
33+
Модели АИ
273+
голоса
Нравится TTS.ai? Расскажите друзьям!

Все, что вам нужно для Голоса AI

30+ инструменты, приводимые в действие моделями АИ с открытыми исходными кодами

33+ Модели голоса AI

Наиболее полный набор моделей ТТС с открытыми исходными кодами на одной платформе

KokoroKokoro Свободные

Кокоро — это модель из 82 миллионов параметров, которая бьет намного выше своего класса веса. Несмотря на свой маленький размер, она производит удивительно естественную и экспрессивную речь. Кокоро поддерживает множество языков, включая английский, японский, китайский и корейский, с разнообразными экспрессивными голосами. Она работает невероятно быстро, генерируя звук почти 100x быстрее, чем в реальном времени на GPU.

Лучший для: Высококачественные TTS с минимальными запоздалыми, ручными приложениями

Попробуй освободиться

PiperPiper Свободные

Piper — это легковесный текстово-пиковый двигатель, разработанный Rhasspy и использующий архитектуры VITS и гортани. Он работает полностью на процессоре, что делает его идеальным для кабельных устройств, автоматизации дома и приложений, требующих оффлайн TTS. С более чем 100 голосами на 30+ языках Piper произносит естественную речь при скорости в реальном времени даже на Raspberry Pi 4.

Лучший для: Быстрые просмотры, доступность и встроенные приложения

Попробуй освободиться

VITSVITS Свободные

VITS (Varional Interitional Affections with contractive education for end-to-Speech) является параллельным методом TTS, который генерирует больше натурального звукового звука, чем нынешние двухступенчатые модели. Он принимает вариативные выводы, дополненные нормализующими потоками и состязательным процессом подготовки, что позволяет значительно улучшить естественность.

Лучший для: Тексты общего назначения с натуральной прозодией

Попробуй освободиться

MeloTTSMeloTTS Свободные

MeloTTS MySell.ai — многоязычная библиотека TTS, поддерживающая английский (American, British, Indian, Australian), испанский, французский, китайский, японский и корейский языки.

Лучший для: Производственные приложения, требующие быстрых, многоязычных ТТС

Попробуй освободиться

Kani TTS 2Kani TTS 2 Свободные

Kani-TTS-2, NineNineSix () — модель параметров, построенная на хребте Жидкого AI LFM2 с NVIDIA Nanocodec. Он работает всего в 3GB VRAM и выпускает ~10 секунд речи за 2 секунды на A100 (RTF 0.2). В настоящее время публика выпускает только на английском языке контрольно-пропускной пункт "kani-tts-2-en" и не разоблачает крючок, необходимый для клонирования голоса, используя Thatterbox / IndexTS2 / F5-TTS для клонирования, или Kokoro / MeloTTS для неанглийских.

Лучший для: Быстрое английское поколение на аппаратных средствах с низким VRAM, быстрые просмотры

Попробуй освободиться

OuteTTSOuteTTS Свободные

OuteTTS расширяет большие языковые модели с текстово-развивающимися возможностями при сохранении оригинальной архитектуры. Он поддерживает несколько подсказок, включая ламу.cpp (CPU/GPU), Hagging Face Transformers, ExLamaV2, VLM, и даже браузеры с помощью transformers.js.

Лучший для: Развертывание наконечника, ТТС на базе браузера, низкоресурсная среда

Попробуй освободиться

Pocket TTSPocket TTS Свободные

Pocket TTS Kyutai (создатель Moshi) — компактная модель параметров 100M, которая значительно превышает свой вес. Она эффективно работает на процессоре, поддерживает клонирование с нулевым голосом из одного звукового образца и производит естественную звуковую речь. Малый размер модели делает ее идеальной для креативного развертывания и малой ресурсной среды.

Лучший для: Легкое развертывание, среда только для процессора, быстрое клонирование голоса

Попробуй освободиться

Kitten TTSKitten TTS Свободные

Kitten TTS KittenML — это сверхлегкая модель, построенная на ONNX. С вариантами от 15M до 80M параметров (25-80 MB на диске), она обеспечивает высококачественное голосовое синтезирование на процессоре, не требуя GPU. Особенности 8 встроенных голосов, корректируемая скорость речи и встроенная предварительная обработка текстов для чисел, валют и единиц. Идеалы для креативного развертывания и прикладных программ с низкой устойчивостью.

Лучший для: Быстродействующий легковесный TTS, развертывание по краям, применение низколатных технологий

Попробуй освободиться

Ming-Omni TTSMing-Omni TTS Свободные

Ming-omni-tts-0,5B путем включения AI представляет собой компактную омодальную модель речи, построенную на плотном позвоночнике BailingMM с звуковым декодером, позволяющим сравнивать звуки. Выпуск 44,1kHz (ближе к качеству компакт-диска), поддерживает клонирование с нулевым голосом из 3+ второй ссылки и включает встроенный эмоциональный/диалектический/БГМ контроль через инструкции JSON. Отличная стабильность — 0,83% WER по китайским контрольным параметрам.

Лучший для: Двуязычная повествование на высоком уровне, речевое выступление под контролем эмоций, содержимое китайской аудиокниги

Попробуй освободиться

MOSS-TTS NanoMOSS-TTS Nano Свободные

MOSS-TTS-Nano-100M представляет собой компактный 100-м-параметрный вариант семейства MOSS-TTS, в котором используется архитектура отсрочивающего трансформатора. Променяет пиковое качество модели 8B на ~80x меньшего веса и значительно меньше на запрос VRAM, что делает его пригодным для свободного и высокопроизводительного развертывания. Тот же 20-язычный охват.

Лучший для: Свободноуровневый ТТС, производство большого объема, интерактивное использование низкой широты

Попробуй освободиться

BarkBark Стандартные

Трансформаторная текстово-аудио-модель, генерирующая реалистическую речь, музыку и звуковые эффекты.

Разработчик: Suno · Лицензия: MIT

Попробуй.

Bark SmallBark Small Стандартные

Мягкая версия Барка с более быстрым выводом и меньшим использованием памяти.

Разработчик: Suno · Лицензия: MIT

Попробуй.

CosyVoice 2CosyVoice 2 Стандартные

Масштабный поток Alibaba TTS с присущими человеку природой и почти нулевой латентностью.

Разработчик: Alibaba (Tongyi Lab) · Лицензия: Apache 2.0

Попробуй.

Dia TTSDia TTS Стандартные

Модель создания диалогов с участием нескольких ораторов, которая создает естественный диалог между ораторами.

Разработчик: Nari Labs · Лицензия: Apache 2.0

Попробуй.

Parler TTSParler TTS Стандартные

Опишите голос, который вы хотите на естественном языке, и Парлер создаёт сравнительную речь.

Разработчик: Hugging Face · Лицензия: Apache 2.0

Попробуй.

IndexTTS-2IndexTTS-2 Стандартные

Ноль-выстрелов TTS с тонким эмоциональным контролем и высокой экспрессивностью.

Разработчик: Index Team · Лицензия: Bilibili Model License

Попробуй.

Spark TTSSpark TTS Стандартные

Клонирование голоса TTS с контролируемыми эмоциями и разговорным стилем с помощью быков.

Разработчик: SparkAudio · Лицензия: CC BY-NC-SA 4.0

Попробуй.

GPT-SoVITSGPT-SoVITS Стандартные

Немногие клонирующие голоса TTS, которые воспроизводят любой голос из пяти секунд звука.

Разработчик: RVC-Boss · Лицензия: MIT

Попробуй.

OrpheusOrpheus Стандартные

Эмоциональная модель TTS на уровне человека была обучена 100K часов речевых данных.

Разработчик: Canopy Labs · Лицензия: Llama 3.2 Community

Попробуй.

Qwen3 TTSQwen3 TTS Стандартные

Многоязычный TTS Алибабы с предопределёнными голосами и дизайном голоса из текста.

Разработчик: Alibaba (Qwen) · Лицензия: Apache 2.0

Попробуй.

VieNeu-TTS-v2VieNeu-TTS-v2 Стандартные

Вьетнамский + Английский шифрующий TTS с 7 предварительно установленными голосовыми голосами и нулевым клонированием голосов. Только процессор, не требуется ГПС.

Разработчик: Phạm Nguyễn Ngọc Bảo · Лицензия: Apache 2.0

Попробуй.

Chatterbox TurboChatterbox Turbo Стандартные

Быстрее чаттербокс с латентностью в 200 м и паралингвистическими метками для смеха, кашля и даже больше.

Разработчик: Resemble AI · Лицензия: MIT

Попробуй.

VoxCPMVoxCPM Стандартные

Без токенизатора TTS производит звук 44,1 кГц с контекстопонимающей последовательность параграфов.

Разработчик: OpenBMB · Лицензия: Apache 2.0

Попробуй.

VibeVoiceVibeVoice Стандартные

Модель Microsoft для длинноформатного многопикового контента, как подкасты и аудиокниги.

Разработчик: Microsoft · Лицензия: MIT

Попробуй.

CosyVoice3CosyVoice3 Стандартные

В следующем поколении многоязыковые TTS с би-стриминговым, эмоциональным контролем и нулевым клонированием голоса.

Разработчик: Alibaba (FunAudioLLM) · Лицензия: Apache 2.0

Попробуй.

NAMAA Saudi TTSNAMAA Saudi TTS Стандартные

Первое открытие саудовско-арабского TTS, местный саудовский диалект с клонированием голоса на языке Chatterbox.

Разработчик: NAMAA Space · Лицензия: MIT

Попробуй.

Darwin TTSDarwin TTS Стандартные

Межмодульный вариант Qwen3-TTS с весами FFN, смешанный с языковой моделью Qwen3-1.7B для более острого многоязыкового клонирования.

Разработчик: FINAL-Bench · Лицензия: Apache 2.0

Попробуй.

MOSS-TTSDMOSS-TTSD Стандартные

Модель продолжения диалога с участием многих ораторов — генерирует подкастные разговоры с пятью ораторами и 60 минутами связного звука.

Разработчик: OpenMOSS · Лицензия: Apache 2.0

Попробуй.

ChatterboxChatterbox Премиум

Современное клонирование с нулевым голосом с эмоциональным контролем из Resemble AI.

Качество:

Попробуй.

Tortoise TTSTortoise TTS Премиум

Текст-пик с несколькими счетами был сосредоточен на качестве с авторегрессивной архитектурой.

Качество:

Попробуй.

StyleTTS 2StyleTTS 2 Премиум

На уровне человека текстопроникновение через распространение стиля и состязательную подготовку.

Качество:

Попробуй.

OpenVoiceOpenVoice Премиум

Мгновенное клонирование голоса с гранулальным контролем над стилем, эмоциями и акцентом.

Качество:

Попробуй.

Sesame CSMSesame CSM Премиум

Модель разговорной речи, генерирующая естественный диалог с соответствующими сроками и эмоциями.

Качество:

Попробуй.

CosyVoice 2CosyVoice 2

Масштабный поток Alibaba TTS с присущими человеку природой и почти нулевой латентностью.

Языки: en, zh, ja, ko, fr, de, it, es

Голос клонов

IndexTTS-2IndexTTS-2

Ноль-выстрелов TTS с тонким эмоциональным контролем и высокой экспрессивностью.

Языки: en, zh

Голос клонов

Spark TTSSpark TTS

Клонирование голоса TTS с контролируемыми эмоциями и разговорным стилем с помощью быков.

Языки: en, zh

Голос клонов

GPT-SoVITSGPT-SoVITS

Немногие клонирующие голоса TTS, которые воспроизводят любой голос из пяти секунд звука.

Языки: en, zh, ja, ko

Голос клонов

ChatterboxChatterbox

Современное клонирование с нулевым голосом с эмоциональным контролем из Resemble AI.

Языки: en

Голос клонов

Tortoise TTSTortoise TTS

Текст-пик с несколькими счетами был сосредоточен на качестве с авторегрессивной архитектурой.

Языки: en

Голос клонов

OpenVoiceOpenVoice

Мгновенное клонирование голоса с гранулальным контролем над стилем, эмоциями и акцентом.

Языки: en, zh, ja, ko, fr, es

Голос клонов

VieNeu-TTS-v2VieNeu-TTS-v2

Вьетнамский + Английский шифрующий TTS с 7 предварительно установленными голосовыми голосами и нулевым клонированием голосов. Только процессор, не требуется ГПС.

Языки: vi, en

Голос клонов

Chatterbox TurboChatterbox Turbo

Быстрее чаттербокс с латентностью в 200 м и паралингвистическими метками для смеха, кашля и даже больше.

Языки: en

Голос клонов

VoxCPMVoxCPM

Без токенизатора TTS производит звук 44,1 кГц с контекстопонимающей последовательность параграфов.

Языки: en, zh

Голос клонов

OuteTTSOuteTTS

TTS на основе LLM, который работает на процессоре, GPU или браузере с помощью ламы.cpp и Трансформеров.js.

Языки: en

Голос клонов

Pocket TTSPocket TTS

Легковесная модель параметров 100М Кютай с клонированием голоса из одной пробы.

Языки: en, fr

Голос клонов

CosyVoice3CosyVoice3

В следующем поколении многоязыковые TTS с би-стриминговым, эмоциональным контролем и нулевым клонированием голоса.

Языки: en, zh, ja, ko, de, es, fr, it, ru

Голос клонов

NAMAA Saudi TTSNAMAA Saudi TTS

Первое открытие саудовско-арабского TTS, местный саудовский диалект с клонированием голоса на языке Chatterbox.

Языки: ar

Голос клонов

Darwin TTSDarwin TTS

Межмодульный вариант Qwen3-TTS с весами FFN, смешанный с языковой моделью Qwen3-1.7B для более острого многоязыкового клонирования.

Языки: en, ko, ja, zh

Голос клонов

MOSS-TTSDMOSS-TTSD

Модель продолжения диалога с участием многих ораторов — генерирует подкастные разговоры с пятью ораторами и 60 минутами связного звука.

Языки: en, zh

Голос клонов

Ming-Omni TTSMing-Omni TTS

Компакт 0.5B комбинированная модель речи из InclusionAI с высокой достоверностью 44,1 кГц и нулевым клонированием голоса.

Языки: en, zh

Голос клонов

MOSS-TTS NanoMOSS-TTS Nano

Маленький вариант MOSS-TTS — та же архитектура, 80х меньше, свободная латентность.

Языки: en, zh, de, es, fr, ja, it, ko, ru, ar, pt

Голос клонов

Разработчик - первый API

OpenAI-совместимый REST API. Одна конечная точка, 22+ модели. Стремительная поддержка для приложений в режиме реального времени.

  • OpenAI-совместимый формат
  • Скачок TTS для приложений в режиме реального времени
  • Обработка партии для выполнения крупных работ
  • Уведомления в сети < < Уэбхук > >
Вид Docs API
pip install ttsai npm install @ttsainpm/ttsai
Python
from tts_ai import TTSClient

client = TTSClient(api_key="sk-tts-xxx")
audio = client.generate(
    text="Hello from TTS.ai!",
    model="kokoro",
    voice="af_bella",
)
client.save(audio, "output.mp3")

Простое, прозрачное ценообразование

Начинай свободно, по мере роста.

Свободные

$0

15 000 знаков + 5000 в день

  • 7 бесплатных моделей, включая Кокоро
  • 5 000 шаров в расчете на одно поколение
  • Включен доступ к API
Не подписываться

Запуск

$9/м.

500 кредитов в месяц

  • Все 22+ модели
  • 100 000 шаров в расчете на одно поколение
  • Клонирование голоса
Начните
Самые популярные

Про

$29/м.

2000 кредитов в месяц

  • Всё в стартере
  • Доступ к API
  • Приоритетная обработка
Найти про

Бизнес

$99/м.

10 000 кредитов в месяц

  • Всё в про
  • Налив API
  • Приоритетная очередь
Займись бизнесом

Просмотреть все планы, включая наборы персонажей →

Часто задаваемые вопросы

TTS.ai является самой всеобъемлющей платформой АИ, предлагающей 22+ модели, клонирование голоса, речевые речи к тексту и аудиоинструменты. Все модели являются открытыми и не имеют доступа к поставщикам.

Да! TTS.ai предлагает бесплатный текст для просмотра с моделями Kokoro, Piper, VITS и MeloTS. Никаких счетов не требуется. Подпишитесь, чтобы получить 15 000 бесплатных персонажей и доступ ко всем моделям. Выплаченные планы начинаются с 9 долларов в месяц.

Для скорости используйте Kokoro или Piper. Для целей качества попробуйте KosyVoice 2 или StyleTTS 2. Для клонирования к голосу используйте Chatterbox или GPT-SOVITS. Для диалога используйте Dia TTS. Попробуйте несколько моделей на одном и том же тексте для сравнения.

Да. OpenAI-совместимый REST API для TTS, STT, клонирования голоса и аудиоинструментов. Включен в каждый план, включая бесплатный, с ограничением ставок по уровням (Free: 10 req/min, Lite: 20, Starter: 30, Pro: 60, Business: 300).

Качество голоса варьируется в зависимости от модели. Такие премиальные модели, как CosyVoice 2, StyleTTS 2 и Chatterbox, производят почти человеческую речь с естественным интонацией и эмоциями. Свободные модели, такие как Kokoro, предлагают прекрасное качество для большинства случаев использования.

TTS.ai поддерживает 30+ языков в своей образцовой библиотеке. Английский имеет самую широкую модельную поддержку, но модели, такие как CosyVoice 2, охватывают китайский, японский и корейский языки; GPT-SOVITS занимается китайским, японским, корейским и английским языками; и MeloTTS поддерживает английский, испанский, французский, китайский, японский и корейский языки.

Да. Вся обработка происходит на наших специально предназначенных серверах GPU. Мы не храним ваш текст или генерируем звук после доставки. Загруженные пробы голоса для клонирования используются только для текущей сессии и не сохраняются. Мы никогда не делимся вашими данными с третьими сторонами или используем их для обучения моделей.

Да. Все аудио, генерируемые на TTS.ai, являются вашими для коммерческого использования, в том числе для видео на YouTube, подкастов, аудиокниги, приложения, рекламы и продуктов. Наши модели являются открытыми исходными в рамках разрешительных лицензий (MIT, Apache 2.0). Никаких роялти или атрибуций не требуется.

TTS.ai генерирует звук в формате WAV по умолчанию для максимального качества. Вы можете преобразовываться в MP3, FLAC, OGG или M4A с помощью нашего свободного инструмента Audio преобразователя. API поддерживает указание выбранного формата вывода непосредственно в запросе.

Загрузить короткий аудио-образец (как минимум 5 секунд) голоса, который вы хотите клонировать, затем напечатать любой текст для создания речи в этом голосе. Модели, такие как Chatterbox, GPT-SoVITS и CosyVoice 2, поддерживают клонирование голоса. Клонированный голос захватывает тон, акцент и стиль речи.

Бесплатные модели (Kokoro, Piper, VITS, MeloTTS) не требуют никаких счетов и нулевых затрат. Стандартные модели (2 000 символов/1K вводятся) включают Bark, CosyVoice 2, F5-TTS и Dia. Премиальные модели (4 000 символов/1K вводятся) включают OpenVoice, Chatterbox, StyleTS 2 и Tortoise. Оплаченные модели, как правило, предлагают более высокое качество, больше голосов и дополнительные функции, такие как клонирование голоса.

API поддерживает процесс пакетной обработки для преобразования большого количества текстов в речь. Подает многочисленные запросы и получает результаты асинхронно с использованием UDUID. Бизнес-план (99/Mo) и выше включает приоритетный доступ для ускоренной обработки пакетов. Идеал для производства аудиокниги, содержания курсов и крупномасштабных проектов голосовой огласки.
4.1/5 (42)

Твоя обратная связь помогает нам решать проблемы.

Начните использовать AI Voice сегодня

Присоединяйтесь к создателям, разработчикам и предприятиям, использующим TTS.ai