Открытый исходный текст для моделей речей

Каждая модель TTS на нашей платформе является открытым источником с коммерчески удобными лицензиями. MIT, Apache 2.0 — нет патентов, никаких ограничений на использование, нет неожиданных лицензионных сборов. Используйте их через наш хозяйственный API, или самоуправляйтесь на своей собственной инфраструктуре с полным контролем.

Открытый источник Лицензия МТИ Апач 2.0 Самонаходящееся Гитхуб

Попробуй сейчас.

Бесплатно с Кокоро, Пайпер, VITS, MeloTTS
Твой спродюсированный звук появится здесь.
Генерированные
Загрузка
Нравится TTS.ai? Расскажите друзьям!

Преимущества TTS с открытым исходным кодом

Почему модели с открытым исходным кодом важны для ваших проектов

Все открытые источники лицензированы

Каждая модель на TTS.ai использует разрешительную лицензию с открытым исходным кодом.

MIT/Apache 2.0

Модели лицензируются в соответствии с MIT или Apache 2.0, наиболее допустимыми лицензиями с открытыми исходными кодами.

Самонаходящееся

Загрузите любую модель и запустите её на ваше собственное оборудование. Полный контроль за вашими данными, латентностью и инфраструктурой. Не требуется облачной зависимости.

Оптимизация GPU

Модели оптимизированы для NVIDIA GPU при поддержке CUDA. Piper работает только на процессоре. Большинство моделей нуждаются в 2-8GB VRAM для эффективного вывода.

Обслуживание общин

Активные сообщества с открытыми исходными кодами поддерживают и совершенствуют эти модели.

Коммерческое использование OK

Все модели допускают коммерческое использование в соответствии с их лицензиями.

Каталог нашей модели с открытым исходным кодом

Каждая модель, ее лицензия и то, что она делает лучше всего

KokoroKokoro

Free

Lightweight 82M parameter model delivering studio-quality speech with blazing-fast inference.

Fast 5/5

Лучший для: Apache 2.0 — лучшая бесплатная модель, 82M парамс, легкая для себя

Попробуй Kokoro

PiperPiper

Free

A fast, local neural text to speech system optimized for Raspberry Pi and embedded devices.

Fast 3/5

Лучший для: МТИ — только процессор, идеальный для кабельных устройств и встроенного самозавода

Попробуй Piper

VITSVITS

Free

Conditional variational autoencoder with adversarial learning for end-to-end text-to-speech.

Fast 3/5

Лучший для: MIT — базовая архитектура, используемая многими моделями ниже по течению

Попробуй VITS

BarkBark

Standard

Transformer-based text-to-audio model that generates realistic speech, music, and sound effects.

Slow 4/5

Лучший для: MIT — уникальные возможности для производства аудиоаппаратуры, выходящие за рамки стандартных TTS

Попробуй Bark

Tortoise TTSTortoise TTS

Premium

Multi-voice text-to-speech focused on quality with autoregressive architecture.

Slow 5/5 Клонирование голоса

Лучший для: Apache 2.0 — максимальное качество, широко изученное использование справочных материалов

Попробуй Tortoise TTS

OpenVoiceOpenVoice

Premium

Instant voice cloning with granular control over style, emotion, and accent.

Medium 4/5 Клонирование голоса

Лучший для: MIT — клонирование с открытым исходным кодом с гранулальным стилем

Попробуй OpenVoice

Как использовать ТТС с открытым исходным кодом

Используйте наши API или сами запускайте модели.

1

Изучение моделей с открытыми исходными кодами

Просмотр каталога моделей TTS с открытым исходным кодом 20+. Каждая страница модели показывает права, архитектуру, возможности и требования к самостоятельной приемке.

2

Попробуй в "Взгляни"

Проверьте любую модель непосредственно на TTS.ai, не устанавливая ничего. Наши серверы GPU работают над обработкой, чтобы вы могли оценить качество перед тем, как взять на себя обязательство вести себя самостоятельно.

3

Сами по себе или используйте нашу ИПЦ

Клоновая модель репродукции из GitHub и работает на местном уровне, или использует для производства наш принимающий API. Самоуправляемость дает полный контроль; наш API обеспечивает управляемую инфраструктуру.

4

Построить свое применение

Инкорпорировать TTS в свой продукт с использованием самоуправляемых моделей или REST API. Все модели используются на коммерческой основе без лицензионных сборов или роялти.

Лицензионное сопоставление

Для всех моделей на TTS.ai используются лицензии с открытыми исходными кодами, удобные для использования в коммерческих целях

Модель Лицензия Коммерческое использование Изменение Самопоселение Присвоение
Kokoro Apache 2.0 Требуемо
Piper MIT Факультативная
VITS MIT Факультативная
MeloTTS MIT Факультативная
Chatterbox MIT Факультативная
Tortoise TTS Apache 2.0 Требуемо
StyleTTS 2 MIT Факультативная
OpenVoice MIT Факультативная
Sesame CSM Apache 2.0 Требуемо
Orpheus Llama 3.2 "Built with Llama"

Самосохранение против хост-компьютерного API

Запустите модели сами или позволь нам управлять инфраструктурой.

Самоуправляемость в вашем аппарате

Каждая модель на TTS.ai доступна в качестве проекта с открытым исходным кодом на GitHub или Hugging Face. Загрузить весы, установить зависимости и сделать вывод на собственных GPU. Вы имеете полный контроль над латентностью, конфиденциальностью и масштабированием.

  • Полная конфиденциальность данных — звук никогда не покидает ваш сервер
  • Отсутствие расходов по каждому запросу после первоначальной установки
  • Упорядочение ваших собственных данных
  • Требует аппаратного обеспечения GPU (рекомендуется NVIDIA)
  • Вы управляете обновлением, масштабированием и зависимостью

Использовать TTS.ai приемных API

Получите мгновенный доступ ко всем моделям 20+ с помощью единого REST API. Мы занимаемся обеспечением GPU, обновлением моделей, управлением очереди и масштабированием. Один ключ API дает вам доступ к каждой модели — нет необходимости управлять отдельными развертываниями.

  • Нет необходимости в аппаратных средствах GPU
  • Все модели 20+ через одну API
  • Автоматическое обновление и совершенствование моделей
  • 99,9% рабочего времени с избыточной инфраструктурой
  • Заплатите только за то, что вы используете

Быстрый запуск: API или самозадание

Воспользуйся нашим ведущим API или установи Кокоро на месте в минутах.

Вариант 1: TTS.ai Принимающий API Легче всего
import requests

response = requests.post("https://api.tts.ai/v1/tts", json={
    "text": "Open source TTS with a simple API.",
    "model": "kokoro",
    "voice": "af_heart",
    "format": "wav"
}, headers={"Authorization": "Bearer YOUR_API_KEY"})

with open("output.wav", "wb") as f:
    f.write(response.content)
Вариант 2: Самопостройство с пупом Полный контроль
# Install Kokoro locally
pip install kokoro

# Generate speech on your own GPU
import kokoro

pipeline = kokoro.KPipeline(lang_code="a")
generator = pipeline("Hello from your own server!", voice="af_heart")
for i, (gs, ps, audio) in enumerate(generator):
    kokoro.save(audio, f"output_{i}.wav")

Открытый источник, доступный ценообразование

Наша компания API делает доступ к ТТС с открытым исходным кодом без управления GPU.

Свободный цвет

$0

15 кредитов при регистрации

  • 4 модели с открытым исходным кодом
  • Записи для основного использования отсутствуют
  • Допускается коммерческое использование

Запуск

$9

500 000 знаков в месяц

  • Все модели с открытым исходным кодом " 20+ "
  • Клонирование голоса
  • Доступ к API

Про

$29

2 000 000 знаков в месяц

  • Обработка приоритетных ГПСП
  • Все модели премиальных выплат
  • Общеорганизационная поддержка
Вид Полная ценообразование

Часто задаваемые вопросы

Общие вопросы, касающиеся текста с открытым исходным кодом для речи

Да. Каждая модель на TTS.ai использует разрешительную лицензию с открытым исходным кодом — MIT или Apache 2.0. Мы конкретно исключаем модели с ограничительными лицензиями (например, Koqui's CPML или некоммерческая CC-BY-NC). Вы можете проверить лицензию каждой модели на ее хранилище GitHub.

И то, и другое допускает выдачу лицензий с открытыми исходными кодами, допускающих коммерческое использование, модификацию и перераспределение. Apache 2.0 добавляет прямые патентные гранты и требует внесения изменений, если вы модифицируете код. MIT проще при меньшем количестве требований. Оба являются удобными для бизнеса.

Да. Каждая модель может быть самоинструктивной. Клонировать хранилище модели из GitHub, установить зависимости, загрузить вес модели и сделать вывод. Мы предоставляем документацию для требований каждой модели к самозаводу, включая GPU, RAM и Python версию.

Требования различаются в зависимости от модели. Пайпер не нуждается в ГПУ (только ЦПУ). Кокоро и МелоТТС нуждаются в 1-2GB VRAM. Большинство стандартных моделей нуждаются в 4GB VRAM. Tortoise и Sesame CSM нуждаются в 8GB. NVIDIA RTX 3060 (12GB) может работать наиболее удобно.

Да. Лицензии с открытыми исходными кодами позволяют модифицировать, в том числе откорректировать. Модели, такие как GPT-SOVITS и Bark, обеспечивают тонкие сценарии. Вы можете обучать модели на своих собственных голосовых данных для создания заказных голосов или улучшения работы для конкретных языков.

Главные модели с открытыми исходными кодами (Kokoro, StyleTTS 2, Chatterbox) в настоящее время соответствуют или превышают коммерческие услуги, такие, как 11Labs и Google TTS, в контрольных показателях качества.

Мы уже исключили их. Все XTTS/XTTS-v2 (Coqui's CPML — некоммерческая), F5-TTS (CC-BY-NC — некоммерческая) и Higgs-v2 (Lication Boson — ограничительная) были удалены. Каждая модель на TTS.ai проверяется в безопасности для коммерческого использования.

Да. Большинство моделей принимают вклад сообщества через GitHub. Вы можете представлять отчеты об ошибках, голосовые записи для новых языков, усовершенствование кодов и документацию. Проверьте хранилище GitHub каждой модели для руководства по вкладу и активных вопросов.

Загрузить модели по требованию и разгрузить при холостом загрузке для обмена памятью GPU. Наш сервер GPU работает 20+ на 4x Tesla P40 (96GB общее значение VRAM) с помощью динамической загрузки. Для самозавода один 24GB GPU может одновременно обслуживать 3-5 моделей.

Многие модели предоставляют официальные изображения Докера или Dockerfiles. Для работы с несколькими моделями вы можете создать заказную схему Docker вместе с NVIDIA Контейнерный Набор инструментов для доступа к GPU. Наша архитектура сервера API может служить референцной программой.

Большинство моделей требуют Python 3.10-3.12. Коки TTS (VITS) конкретно нуждаются в Python 3.11. Мы рекомендуем Python 3.12 для большинства моделей. Проверьте требования каждой модели.txt для точной совместимости.

Да. Лицензии MIT и Apache 2.0 прямо допускают коммерческое использование. Вы можете создавать SaaS продукты, мобильные приложения, игры и услуги, используя эти модели без лицензионных сборов, роялти или требований атрибуции (хотя атрибуция ценится).
5.0/5 (1)

Твоя обратная связь помогает нам решать проблемы.

Попробуйте TTS с открытым исходным кодом

20+ модели с открытым исходным кодом, все коммерческие лицензии. Используйте наш API или самоуправляемый — выбор за вами.