Свободный IA Текст к речи

31+ модели с открытыми исходными кодами, 231+ голоса, 34+ Не требуется никаких счетов.

8K+
создатели
30K+
поколения
31+
Модели АИ
231+
голоса
0/500 символы · Sign up for 5,000 per generation → Свободные
Нравится TTS.ai? Расскажите друзьям!

Все, что вам нужно для Голоса AI

30+ инструменты, приводимые в действие моделями АИ с открытыми исходными кодами

31+ Модели голоса AI

Наиболее полный набор моделей ТТС с открытыми исходными кодами на одной платформе

KokoroKokoro Free

Кокоро — это модель из 82 миллионов параметров, которая бьет намного выше своего класса веса. Несмотря на свой маленький размер, она производит удивительно естественную и экспрессивную речь. Кокоро поддерживает множество языков, включая английский, японский, китайский и корейский, с разнообразными экспрессивными голосами. Она работает невероятно быстро, генерируя звук почти 100x быстрее, чем в реальном времени на GPU.

Лучший для: Высококачественные TTS с минимальными запоздалыми, ручными приложениями

Попробуй освободиться

PiperPiper Free

Piper — это легковесный текстово-пиковый двигатель, разработанный Rhasspy и использующий архитектуры VITS и гортани. Он работает полностью на процессоре, что делает его идеальным для кабельных устройств, автоматизации дома и приложений, требующих оффлайн TTS. С более чем 100 голосами на 30+ языках Piper произносит естественную речь при скорости в реальном времени даже на Raspberry Pi 4.

Лучший для: Быстрые просмотры, доступность и встроенные приложения

Попробуй освободиться

VITSVITS Free

VITS (Varional Interitional Affections with contractive education for end-to-Speech) является параллельным методом TTS, который генерирует больше натурального звукового звука, чем нынешние двухступенчатые модели. Он принимает вариативные выводы, дополненные нормализующими потоками и состязательным процессом подготовки, что позволяет значительно улучшить естественность.

Лучший для: Тексты общего назначения с натуральной прозодией

Попробуй освободиться

MeloTTSMeloTTS Free

MeloTTS MySell.ai — многоязычная библиотека TTS, поддерживающая английский (American, British, Indian, Australian), испанский, французский, китайский, японский и корейский языки.

Лучший для: Производственные приложения, требующие быстрых, многоязычных ТТС

Попробуй освободиться

OuteTTSOuteTTS Free

OuteTTS расширяет большие языковые модели с текстово-развивающимися возможностями при сохранении оригинальной архитектуры. Он поддерживает несколько подсказок, включая ламу.cpp (CPU/GPU), Hagging Face Transformers, ExLamaV2, VLM, и даже браузеры с помощью transformers.js.

Лучший для: Развертывание наконечника, ТТС на базе браузера, низкоресурсная среда

Попробуй освободиться

Pocket TTSPocket TTS Free

Pocket TTS Kyutai (создатель Moshi) — компактная модель параметров 100M, которая значительно превышает свой вес. Она эффективно работает на процессоре, поддерживает клонирование с нулевым голосом из одного звукового образца и производит естественную звуковую речь. Малый размер модели делает ее идеальной для креативного развертывания и малой ресурсной среды.

Лучший для: Легкое развертывание, среда только для процессора, быстрое клонирование голоса

Попробуй освободиться

Kitten TTSKitten TTS Free

Kitten TTS by KittenML is an ultra-lightweight text-to-speech model built on ONNX. With variants from 15M to 80M parameters (25-80 MB on disk), it delivers high-quality voice synthesis on CPU without requiring a GPU. Features 8 built-in voices, adjustable speech speed, and built-in text preprocessing for numbers, currencies, and units. Ideal for edge deployment and low-latency applications.

Лучший для: Fast lightweight TTS, edge deployment, low-latency applications

Попробуй освободиться

BarkBark Standard

Трансформаторная текстово-аудио-модель, генерирующая реалистическую речь, музыку и звуковые эффекты.

Разработчик: Suno · Лицензия: MIT

Попробуй.

Bark SmallBark Small Standard

Мягкая версия Барка с более быстрым выводом и меньшим использованием памяти.

Разработчик: Suno · Лицензия: MIT

Попробуй.

CosyVoice 2CosyVoice 2 Standard

Масштабный поток Alibaba TTS с присущими человеку природой и почти нулевой латентностью.

Разработчик: Alibaba (Tongyi Lab) · Лицензия: Apache 2.0

Попробуй.

Dia TTSDia TTS Standard

Модель создания диалогов с участием нескольких ораторов, которая создает естественный диалог между ораторами.

Разработчик: Nari Labs · Лицензия: Apache 2.0

Попробуй.

Parler TTSParler TTS Standard

Опишите голос, который вы хотите на естественном языке, и Парлер создаёт сравнительную речь.

Разработчик: Hugging Face · Лицензия: Apache 2.0

Попробуй.

GLM-TTSGLM-TTS Standard

Обеспечивает наименьший коэффициент ошибок в характеристиках моделей ТТС с открытыми исходными кодами.

Разработчик: Zhipu AI · Лицензия: GLM-4 License

Попробуй.

IndexTTS-2IndexTTS-2 Standard

Ноль-выстрелов TTS с тонким эмоциональным контролем и высокой экспрессивностью.

Разработчик: Index Team · Лицензия: Bilibili Model License

Попробуй.

Spark TTSSpark TTS Standard

Клонирование голоса TTS с контролируемыми эмоциями и разговорным стилем с помощью быков.

Разработчик: SparkAudio · Лицензия: CC BY-NC-SA 4.0

Попробуй.

GPT-SoVITSGPT-SoVITS Standard

Немногие клонирующие голоса TTS, которые воспроизводят любой голос из пяти секунд звука.

Разработчик: RVC-Boss · Лицензия: MIT

Попробуй.

OrpheusOrpheus Standard

Эмоциональная модель TTS на уровне человека была обучена 100K часов речевых данных.

Разработчик: Canopy Labs · Лицензия: Llama 3.2 Community

Попробуй.

Qwen3 TTSQwen3 TTS Standard

Многоязычный TTS Алибабы с клонированием голоса, предопределением голосов и дизайном голоса из текста.

Разработчик: Alibaba (Qwen) · Лицензия: Apache 2.0

Попробуй.

Chatterbox TurboChatterbox Turbo Standard

Быстрее чаттербокс с латентностью в 200 м и паралингвистическими метками для смеха, кашля и даже больше.

Разработчик: Resemble AI · Лицензия: MIT

Попробуй.

Dia 2Dia 2 Standard

Первый разговорный TTS с диалогом на нескольких языках и паралингуистическими сигналами.

Разработчик: Nari Labs · Лицензия: Apache 2.0

Попробуй.

VoxCPMVoxCPM Standard

Без токенизатора TTS производит звук 44,1 кГц с контекстопонимающей последовательность параграфов.

Разработчик: OpenBMB · Лицензия: Apache 2.0

Попробуй.

TADATADA Standard

Ноль галлюцинаций TTS с текстово-акустической двойной корректировкой, 5x быстрее, чем сопоставимые TTS LLM.

Разработчик: Hume AI · Лицензия: MIT

Попробуй.

VibeVoiceVibeVoice Standard

Модель Microsoft для длинноформатного многопикового контента, как подкасты и аудиокниги.

Разработчик: Microsoft · Лицензия: MIT

Попробуй.

CosyVoice3CosyVoice3 Standard

Next-generation multilingual TTS with bi-streaming, emotion control, and zero-shot voice cloning.

Разработчик: Alibaba (FunAudioLLM) · Лицензия: Apache 2.0

Попробуй.

ChatterboxChatterbox Premium

Современное клонирование с нулевым голосом с эмоциональным контролем из Resemble AI.

Качество:

Попробуй.

Tortoise TTSTortoise TTS Premium

Текст-пик с несколькими счетами был сосредоточен на качестве с авторегрессивной архитектурой.

Качество:

Попробуй.

StyleTTS 2StyleTTS 2 Premium

На уровне человека текстопроникновение через распространение стиля и состязательную подготовку.

Качество:

Попробуй.

OpenVoiceOpenVoice Premium

Мгновенное клонирование голоса с гранулальным контролем над стилем, эмоциями и акцентом.

Качество:

Попробуй.

Sesame CSMSesame CSM Premium

Модель разговорной речи, генерирующая естественный диалог с соответствующими сроками и эмоциями.

Качество:

Попробуй.

MOSS-TTSMOSS-TTS Premium

Ultra-long 20-language TTS supporting up to 1 hour of continuous generation with phoneme-level control.

Качество:

Попробуй.

MegaTTS3MegaTTS3 Premium

ByteDance's sparse alignment TTS with adjustable intelligibility vs. speaker similarity.

Качество:

Попробуй.

CosyVoice 2CosyVoice 2

Масштабный поток Alibaba TTS с присущими человеку природой и почти нулевой латентностью.

Языки: en, zh, ja, ko, fr, de, it, es

Голос клонов

GLM-TTSGLM-TTS

Обеспечивает наименьший коэффициент ошибок в характеристиках моделей ТТС с открытыми исходными кодами.

Языки: en, zh

Голос клонов

IndexTTS-2IndexTTS-2

Ноль-выстрелов TTS с тонким эмоциональным контролем и высокой экспрессивностью.

Языки: en, zh

Голос клонов

Spark TTSSpark TTS

Клонирование голоса TTS с контролируемыми эмоциями и разговорным стилем с помощью быков.

Языки: en, zh

Голос клонов

GPT-SoVITSGPT-SoVITS

Немногие клонирующие голоса TTS, которые воспроизводят любой голос из пяти секунд звука.

Языки: en, zh, ja, ko

Голос клонов

ChatterboxChatterbox

Современное клонирование с нулевым голосом с эмоциональным контролем из Resemble AI.

Языки: en

Голос клонов

Tortoise TTSTortoise TTS

Текст-пик с несколькими счетами был сосредоточен на качестве с авторегрессивной архитектурой.

Языки: en

Голос клонов

OpenVoiceOpenVoice

Мгновенное клонирование голоса с гранулальным контролем над стилем, эмоциями и акцентом.

Языки: en, zh, ja, ko, fr, de, es, it

Голос клонов

Qwen3 TTSQwen3 TTS

Многоязычный TTS Алибабы с клонированием голоса, предопределением голосов и дизайном голоса из текста.

Языки: en, zh, ja, ko, de, fr, ru, pt, es, it

Голос клонов

Chatterbox TurboChatterbox Turbo

Быстрее чаттербокс с латентностью в 200 м и паралингвистическими метками для смеха, кашля и даже больше.

Языки: en

Голос клонов

VoxCPMVoxCPM

Без токенизатора TTS производит звук 44,1 кГц с контекстопонимающей последовательность параграфов.

Языки: en, zh

Голос клонов

OuteTTSOuteTTS

TTS на основе LLM, который работает на процессоре, GPU или браузере с помощью ламы.cpp и Трансформеров.js.

Языки: en

Голос клонов

Pocket TTSPocket TTS

Легковесная модель параметров 100М Кютай с клонированием голоса из одной пробы.

Языки: en, fr

Голос клонов

CosyVoice3CosyVoice3

Next-generation multilingual TTS with bi-streaming, emotion control, and zero-shot voice cloning.

Языки: en, zh, ja, ko, de, es, fr, it, ru

Голос клонов

MOSS-TTSMOSS-TTS

Ultra-long 20-language TTS supporting up to 1 hour of continuous generation with phoneme-level control.

Языки: en, zh, de, es, fr, ja, it, hu, ko, ru, fa, ar, pl, pt, cs, da, sv, el, tr

Голос клонов

MegaTTS3MegaTTS3

ByteDance's sparse alignment TTS with adjustable intelligibility vs. speaker similarity.

Языки: en, zh

Голос клонов

Разработчик - первый API

OpenAI-совместимый REST API. Одна конечная точка, 22+ модели. Стремительная поддержка для приложений в режиме реального времени.

  • OpenAI-совместимый формат
  • Скачок TTS для приложений в режиме реального времени
  • Обработка партии для выполнения крупных работ
  • Уведомления в сети < < Уэбхук > >
Вид Docs API
pip install ttsai npm install @ttsainpm/ttsai
Python
from tts_ai import TTSClient

client = TTSClient(api_key="sk-tts-xxx")
audio = client.generate(
    text="Hello from TTS.ai!",
    model="kokoro",
    voice="af_bella",
)
client.save(audio, "output.mp3")

Простое, прозрачное ценообразование

Начинай свободно, по мере роста.

Свободные

$0

15 кредитов

  • Kokoro, Piper, VITS, MeloTTS
  • Предел в 500 знаков
  • 3 г/час (без учета)
Не подписываться

Запуск

$9/м.

500 кредитов в месяц

  • Все 22+ модели
  • 100 000 шаров в расчете на одно поколение
  • Клонирование голоса
Начните
Самые популярные

Про

$29/м.

2000 кредитов в месяц

  • Всё в стартере
  • Доступ к API
  • Приоритетная обработка
Найти про

Бизнес

$99/м.

10 000 кредитов в месяц

  • Всё в про
  • Налив API
  • Приоритетная очередь
Займись бизнесом

Просмотреть все планы, включая наборы персонажей →

Часто задаваемые вопросы

TTS.ai является самой всеобъемлющей платформой АИ, предлагающей 22+ модели, клонирование голоса, речевые речи к тексту и аудиоинструменты. Все модели являются открытыми и не имеют доступа к поставщикам.

Да! TTS.ai предлагает бесплатный текст для просмотра с моделями Kokoro, Piper, VITS и MeloTS. Никаких счетов не требуется. Подпишитесь, чтобы получить 15 000 бесплатных персонажей и доступ ко всем моделям. Выплаченные планы начинаются с 9 долларов в месяц.

Для скорости используйте Kokoro или Piper. Для целей качества попробуйте KosyVoice 2 или StyleTTS 2. Для клонирования к голосу используйте Chatterbox или GPT-SOVITS. Для диалога используйте Dia TTS. Попробуйте несколько моделей на одном и том же тексте для сравнения.

Да. OpenAI-совместимый REST API для TTS, STT, клонирования голоса и аудиоинструментов. Имеется на Pro (29/mo) и Enterprise (99/mo). Просмотр документации на tts.ai/api/.

Качество голоса варьируется в зависимости от модели. Такие премиальные модели, как CosyVoice 2, StyleTTS 2 и Chatterbox, производят почти человеческую речь с естественным интонацией и эмоциями. Свободные модели, такие как Kokoro, предлагают прекрасное качество для большинства случаев использования.

TTS.ai поддерживает 30+ языков в своей образцовой библиотеке. Английский имеет самую широкую модельную поддержку, но модели, такие как CosyVoice 2, охватывают китайский, японский и корейский языки; GPT-SOVITS занимается китайским, японским, корейским и английским языками; и MeloTTS поддерживает английский, испанский, французский, китайский, японский и корейский языки.

Да. Вся обработка происходит на наших специально предназначенных серверах GPU. Мы не храним ваш текст или генерируем звук после доставки. Загруженные пробы голоса для клонирования используются только для текущей сессии и не сохраняются. Мы никогда не делимся вашими данными с третьими сторонами или используем их для обучения моделей.

Да. Все аудио, генерируемые на TTS.ai, являются вашими для коммерческого использования, в том числе для видео на YouTube, подкастов, аудиокниги, приложения, рекламы и продуктов. Наши модели являются открытыми исходными в рамках разрешительных лицензий (MIT, Apache 2.0). Никаких роялти или атрибуций не требуется.

TTS.ai генерирует звук в формате WAV по умолчанию для максимального качества. Вы можете преобразовываться в MP3, FLAC, OGG или M4A с помощью нашего свободного инструмента Audio преобразователя. API поддерживает указание выбранного формата вывода непосредственно в запросе.

Загрузить короткий аудио-образец (как минимум 5 секунд) голоса, который вы хотите клонировать, затем напечатать любой текст для создания речи в этом голосе. Модели, такие как Chatterbox, GPT-SoVITS и CosyVoice 2, поддерживают клонирование голоса. Клонированный голос захватывает тон, акцент и стиль речи.

Бесплатные модели (Kokoro, Piper, VITS, MeloTTS) не требуют никаких счетов и нулевых затрат. Стандартные модели (2 000 символов/1K вводятся) включают Bark, CosyVoice 2, F5-TTS и Dia. Премиальные модели (4 000 символов/1K вводятся) включают OpenVoice, Chatterbox, StyleTS 2 и Tortoise. Оплаченные модели, как правило, предлагают более высокое качество, больше голосов и дополнительные функции, такие как клонирование голоса.

API поддерживает процесс пакетной обработки для преобразования больших объемов текстов в речь. Подача многочисленных запросов и получение результатов асинхронно с использованием UDUID. Планы предприятий (99/Mo) предусматривают приоритетный доступ для ускоренной обработки партий. Идеал для производства аудиокниги, содержания курсов и крупномасштабных проектов голосовой огласки.
4.1/5 (21)

Твоя обратная связь помогает нам решать проблемы.

Начните использовать AI Voice сегодня

Присоединяйтесь к создателям, разработчикам и предприятиям, использующим TTS.ai