Доклад " Bugg " / " Особенности запроса "

Открытый исходный текст для моделей речей

Каждая модель TTS на нашей платформе является открытым источником с коммерчески удобными лицензиями. MIT, Apache 2.0 — нет патентов, никаких ограничений на использование, нет неожиданных лицензионных сборов. Используйте их через наш хозяйственный API, или самоуправляйтесь на своей собственной инфраструктуре с полным контролем.

Открытый источник Лицензия МТИ Апач 2.0 Самонаходящееся Гитхуб

Полный редактор TTS Доктора API

Попробуй сейчас.

0/500

Бесплатно с Кокоро, Пайпер, VITS, MeloTTS

Твой спродюсированный звук появится здесь.

Откройте полный редактор TTS

Преимущества TTS с открытым исходным кодом

Почему модели с открытым исходным кодом важны для ваших проектов

Все открытые источники лицензированы

Каждая модель на TTS.ai использует разрешительную лицензию с открытым исходным кодом.

MIT/Apache 2.0

Модели лицензируются в соответствии с MIT или Apache 2.0, наиболее допустимыми лицензиями с открытыми исходными кодами.

Самонаходящееся

Загрузите любую модель и запустите её на ваше собственное оборудование. Полный контроль за вашими данными, латентностью и инфраструктурой. Не требуется облачной зависимости.

Оптимизация GPU

Модели оптимизированы для NVIDIA GPU при поддержке CUDA. Piper работает только на процессоре. Большинство моделей нуждаются в 2-8GB VRAM для эффективного вывода.

Обслуживание общин

Активные сообщества с открытыми исходными кодами поддерживают и совершенствуют эти модели.

Коммерческое использование OK

Все модели допускают коммерческое использование в соответствии с их лицензиями.

Каталог нашей модели с открытым исходным кодом

Каждая модель, ее лицензия и то, что она делает лучше всего

Kokoro

Free

Lightweight 82M parameter model delivering studio-quality speech with blazing-fast inference.

Fast 5/5

Лучший для: Apache 2.0 — лучшая бесплатная модель, 82M парамс, легкая для себя

Попробуй Kokoro

Piper

Free

A fast, local neural text to speech system optimized for Raspberry Pi and embedded devices.

Fast 3/5

Лучший для: МТИ — только процессор, идеальный для кабельных устройств и встроенного самозавода

Попробуй Piper

VITS

Free

Conditional variational autoencoder with adversarial learning for end-to-end text-to-speech.

Fast 3/5

Лучший для: MIT — базовая архитектура, используемая многими моделями ниже по течению

Попробуй VITS

Bark

Standard

Transformer-based text-to-audio model that generates realistic speech, music, and sound effects.

Slow 4/5

Лучший для: MIT — уникальные возможности для производства аудиоаппаратуры, выходящие за рамки стандартных TTS

Попробуй Bark

Tortoise TTS

Premium

Multi-voice text-to-speech focused on quality with autoregressive architecture.

Slow 5/5 Клонирование голоса

Лучший для: Apache 2.0 — максимальное качество, широко изученное использование справочных материалов

Попробуй Tortoise TTS

OpenVoice

Premium

Instant voice cloning with granular control over style, emotion, and accent.

Medium 4/5 Клонирование голоса

Лучший для: MIT — клонирование с открытым исходным кодом с гранулальным стилем

Попробуй OpenVoice

Как использовать ТТС с открытым исходным кодом

Используйте наши API или сами запускайте модели.

Изучение моделей с открытыми исходными кодами

Просмотр каталога моделей TTS с открытым исходным кодом 20+. Каждая страница модели показывает права, архитектуру, возможности и требования к самостоятельной приемке.

Попробуй в "Взгляни"

Проверьте любую модель непосредственно на TTS.ai, не устанавливая ничего. Наши серверы GPU работают над обработкой, чтобы вы могли оценить качество перед тем, как взять на себя обязательство вести себя самостоятельно.

Сами по себе или используйте нашу ИПЦ

Клоновая модель репродукции из GitHub и работает на местном уровне, или использует для производства наш принимающий API. Самоуправляемость дает полный контроль; наш API обеспечивает управляемую инфраструктуру.

Построить свое применение

Инкорпорировать TTS в свой продукт с использованием самоуправляемых моделей или REST API. Все модели используются на коммерческой основе без лицензионных сборов или роялти.

Лицензионное сопоставление

Для всех моделей на TTS.ai используются лицензии с открытыми исходными кодами, удобные для использования в коммерческих целях

Модель	Лицензия	Присвоение
Kokoro	Apache 2.0	Требуемо
Piper	MIT	Факультативная
VITS	MIT	Факультативная
MeloTTS	MIT	Факультативная
Chatterbox	MIT	Факультативная
Tortoise TTS	Apache 2.0	Требуемо
StyleTTS 2	MIT	Факультативная
OpenVoice	MIT	Факультативная
Sesame CSM	Apache 2.0	Требуемо
Orpheus	Llama 3.2	"Built with Llama"

Попробуйте эти модели свободно

Самосохранение против хост-компьютерного API

Запустите модели сами или позволь нам управлять инфраструктурой.

Самоуправляемость в вашем аппарате

Каждая модель на TTS.ai доступна в качестве проекта с открытым исходным кодом на GitHub или Hugging Face. Загрузить весы, установить зависимости и сделать вывод на собственных GPU. Вы имеете полный контроль над латентностью, конфиденциальностью и масштабированием.

Полная конфиденциальность данных — звук никогда не покидает ваш сервер
Отсутствие расходов по каждому запросу после первоначальной установки
Упорядочение ваших собственных данных
Требует аппаратного обеспечения GPU (рекомендуется NVIDIA)
Вы управляете обновлением, масштабированием и зависимостью

Использовать TTS.ai приемных API

Получите мгновенный доступ ко всем моделям 20+ с помощью единого REST API. Мы занимаемся обеспечением GPU, обновлением моделей, управлением очереди и масштабированием. Один ключ API дает вам доступ к каждой модели — нет необходимости управлять отдельными развертываниями.

Нет необходимости в аппаратных средствах GPU
Все модели 20+ через одну API
Автоматическое обновление и совершенствование моделей
99,9% рабочего времени с избыточной инфраструктурой
Заплатите только за то, что вы используете

Вместо этого использовать API в хост-компьютере

Быстрый запуск: API или самозадание

Воспользуйся нашим ведущим API или установи Кокоро на месте в минутах.

Вариант 1: TTS.ai Принимающий API Легче всего

import requests

response = requests.post("https://api.tts.ai/v1/tts", json={
    "text": "Open source TTS with a simple API.",
    "model": "kokoro",
    "voice": "af_heart",
    "format": "wav"
}, headers={"Authorization": "Bearer YOUR_API_KEY"})

with open("output.wav", "wb") as f:
    f.write(response.content)

Вариант 2: Самопостройство с пупом Полный контроль

# Install Kokoro locally
pip install kokoro

# Generate speech on your own GPU
import kokoro

pipeline = kokoro.KPipeline(lang_code="a")
generator = pipeline("Hello from your own server!", voice="af_heart")
for i, (gs, ps, audio) in enumerate(generator):
    kokoro.save(audio, f"output_{i}.wav")

Просмотреть документирование API

Открытый источник, доступный ценообразование

Наша компания API делает доступ к ТТС с открытым исходным кодом без управления GPU.

Свободный цвет

15 кредитов при регистрации

4 модели с открытым исходным кодом
Записи для основного использования отсутствуют
Допускается коммерческое использование

Запуск

500 000 знаков в месяц

Все модели с открытым исходным кодом " 20+ "
Клонирование голоса
Доступ к API

Про

$29

2 000 000 знаков в месяц

Обработка приоритетных ГПСП
Все модели премиальных выплат
Общеорганизационная поддержка

Вид Полная ценообразование

Часто задаваемые вопросы

Общие вопросы, касающиеся текста с открытым исходным кодом для речи

Да. Каждая модель на TTS.ai использует разрешительную лицензию с открытым исходным кодом — MIT или Apache 2.0. Мы конкретно исключаем модели с ограничительными лицензиями (например, Koqui's CPML или некоммерческая CC-BY-NC). Вы можете проверить лицензию каждой модели на ее хранилище GitHub.

И то, и другое допускает выдачу лицензий с открытыми исходными кодами, допускающих коммерческое использование, модификацию и перераспределение. Apache 2.0 добавляет прямые патентные гранты и требует внесения изменений, если вы модифицируете код. MIT проще при меньшем количестве требований. Оба являются удобными для бизнеса.

Да. Каждая модель может быть самоинструктивной. Клонировать хранилище модели из GitHub, установить зависимости, загрузить вес модели и сделать вывод. Мы предоставляем документацию для требований каждой модели к самозаводу, включая GPU, RAM и Python версию.

Требования различаются в зависимости от модели. Пайпер не нуждается в ГПУ (только ЦПУ). Кокоро и МелоТТС нуждаются в 1-2GB VRAM. Большинство стандартных моделей нуждаются в 4GB VRAM. Tortoise и Sesame CSM нуждаются в 8GB. NVIDIA RTX 3060 (12GB) может работать наиболее удобно.

Да. Лицензии с открытыми исходными кодами позволяют модифицировать, в том числе откорректировать. Модели, такие как GPT-SOVITS и Bark, обеспечивают тонкие сценарии. Вы можете обучать модели на своих собственных голосовых данных для создания заказных голосов или улучшения работы для конкретных языков.

Главные модели с открытыми исходными кодами (Kokoro, StyleTTS 2, Chatterbox) в настоящее время соответствуют или превышают коммерческие услуги, такие, как 11Labs и Google TTS, в контрольных показателях качества.

Мы уже исключили их. Все XTTS/XTTS-v2 (Coqui's CPML — некоммерческая), F5-TTS (CC-BY-NC — некоммерческая) и Higgs-v2 (Lication Boson — ограничительная) были удалены. Каждая модель на TTS.ai проверяется в безопасности для коммерческого использования.

Да. Большинство моделей принимают вклад сообщества через GitHub. Вы можете представлять отчеты об ошибках, голосовые записи для новых языков, усовершенствование кодов и документацию. Проверьте хранилище GitHub каждой модели для руководства по вкладу и активных вопросов.

Загрузить модели по требованию и разгрузить при холостом загрузке для обмена памятью GPU. Наш сервер GPU работает 20+ на 4x Tesla P40 (96GB общее значение VRAM) с помощью динамической загрузки. Для самозавода один 24GB GPU может одновременно обслуживать 3-5 моделей.

Многие модели предоставляют официальные изображения Докера или Dockerfiles. Для работы с несколькими моделями вы можете создать заказную схему Docker вместе с NVIDIA Контейнерный Набор инструментов для доступа к GPU. Наша архитектура сервера API может служить референцной программой.

Большинство моделей требуют Python 3.10-3.12. Коки TTS (VITS) конкретно нуждаются в Python 3.11. Мы рекомендуем Python 3.12 для большинства моделей. Проверьте требования каждой модели.txt для точной совместимости.

Да. Лицензии MIT и Apache 2.0 прямо допускают коммерческое использование. Вы можете создавать SaaS продукты, мобильные приложения, игры и услуги, используя эти модели без лицензионных сборов, роялти или требований атрибуции (хотя атрибуция ценится).

5.0/5 (1)

Попробуйте TTS с открытым исходным кодом

20+ модели с открытым исходным кодом, все коммерческие лицензии. Используйте наш API или самоуправляемый — выбор за вами.

Не подписываться Вид Ценообразование

Открытый исходный текст для моделей речей

Попробуй сейчас.

Нравится TTS.ai? Расскажите друзьям!

Преимущества TTS с открытым исходным кодом

Все открытые источники лицензированы

MIT/Apache 2.0

Самонаходящееся

Оптимизация GPU

Обслуживание общин

Коммерческое использование OK

Каталог нашей модели с открытым исходным кодом

Kokoro

Piper

VITS

Bark

Tortoise TTS

OpenVoice

Как использовать ТТС с открытым исходным кодом

Изучение моделей с открытыми исходными кодами

Попробуй в "Взгляни"

Сами по себе или используйте нашу ИПЦ

Построить свое применение

Лицензионное сопоставление

Самосохранение против хост-компьютерного API

Самоуправляемость в вашем аппарате

Использовать TTS.ai приемных API

Быстрый запуск: API или самозадание

Открытый источник, доступный ценообразование

Свободный цвет

Запуск

Про

Часто задаваемые вопросы

Все ли модели TTS.ai действительно открыты?

Какая разница между лицензиями MIT и Apache 2.0?

Можно я сам заведую этими моделями на своем сервере?

Какой GPU мне нужен для самоведущих моделей TTS?

Можно я отремонтирую модели ТТС с открытыми исходными кодами?

Каким образом модели ТТС с открытыми исходными кодами сравниваются с коммерческими услугами?

Есть ли какие-нибудь модели с ограничительными лицензиями, которых мне следует избегать?

Могу я внести свой вклад в эти модели с открытым исходным кодом?

Как мне запустить несколько моделей на одном сервере GPU?

Есть ли образ Докера для самосохранения?

Какая версия Python нужна мне для самосохранения?

Могу я построить коммерческий продукт с помощью этих моделей?

Попробуйте TTS с открытым исходным кодом