Модели на отворен код за реч

Всеки модел на TTS на нашата платформа е отворен източник с търговски лицензи. MIT, Apache 2.0 – без собствено заключване, без ограничения за използване, без изненадващи лицензиране такси. Използвайте ги чрез нашия домакин API, или самостоятелно ги домакин на собствената си инфраструктура с пълен контрол.

Отворен източник Лиценз MIT Апачи 2.0 Самостабилност ГитХуб

Опитай сега.

Безплатно с Кокоро, Пайпър, ВИТС, МелоТТС
Твоето генерирано аудио ще се появи тук
Създаден
Изтегляне
Обичай ТТСай, кажи на приятелите си!

Отворен код TTS ползи

Защо отворени модели има значение за вашите проекти

Всички лицензирани с отворен източник

Всеки модел на TTS.ai използва допустим лиценз за отворен източник. Без собствени черни кутии, без заключване на продавача, без неочаквани лицензии такси.

МИТ / Апачи 2.0

Моделите са лицензирани под MIT или Apache 2.0, най-попустимите лицензи за отворен източник. Използвайте търговско, модифициране, преразпределяне — без ограничения.

Самостабилност

Изтеглете всеки модел и го пуснете на собствен хардуер. Пълен контрол върху вашите данни, латенция и инфраструктура. Не се изисква зависимост от облак.

Оптимизиран GPU

Моделите са оптимизирани за NVIDIA GPUs с CUDA подкрепа. Piper работи само на CPU. Повечето модели се нуждаят от 2-8GB VRAM за ефективно изчисляване.

Поддържана общност

Активни общности с отворени източници поддържат и подобряват тези модели. Вносът е добре дошъл — представяне на грешки, подобрения и нови гласове на GitHub.

Търговска употреба е ОК.

Всички модели позволяват търговска употреба по техните лицензи. Изграждане на продукти, продаване на услуги и създаване на търговско съдържание без авторски права или такси за ползване.

Каталог на нашия Open Source Model

Всеки модел, лиценза и това, което прави най-добре

KokoroKokoro

Free

Lightweight 82M parameter model delivering studio-quality speech with blazing-fast inference.

Fast 5/5

Най-добро за: Apache 2.0 — най-добър безкачествеен модел, 82M парами, лесен за самоу домакин

Опитай. Kokoro

PiperPiper

Free

A fast, local neural text to speech system optimized for Raspberry Pi and embedded devices.

Fast 3/5

Най-добро за: MIT — само за процесор, перфектен за ръбови устройства и вграден самодомакин

Опитай. Piper

VITSVITS

Free

Conditional variational autoencoder with adversarial learning for end-to-end text-to-speech.

Fast 3/5

Най-добро за: MIT — основателна архитектура, използвана от много модели надолу по веригата

Опитай. VITS

BarkBark

Standard

Transformer-based text-to-audio model that generates realistic speech, music, and sound effects.

Slow 4/5

Най-добро за: MIT — уникални възможности за аудио генериране извън стандартните TTS

Опитай. Bark

Tortoise TTSTortoise TTS

Premium

Multi-voice text-to-speech focused on quality with autoregressive architecture.

Slow 5/5 Гласово клониране

Най-добро за: Apache 2.0 — максимално качество, широко проучено референтно изпълнение

Опитай. Tortoise TTS

OpenVoiceOpenVoice

Premium

Instant voice cloning with granular control over style, emotion, and accent.

Medium 4/5 Гласово клониране

Най-добро за: MIT — клониране на глас с гранулиран стил

Опитай. OpenVoice

Как да използвате отворен код TTS

Използвайте нашия домакин API или управлявайте модели сами

1

Разгледайте модели с отворен източник

Преглед на каталога ни от 20+ модели с отворен източник TTS. Всяка модел страница показва лиценза, архитектура, възможности и самостоятелни изисквания.

2

Опитайте в браузъра си

Тествайте всеки модел директно на TTS.ai без инсталиране на нищо. Нашите GPU сървъри се справят с обработката, така че можете да оцените качеството, преди да се ангажирате с самостоятелно домакинство.

3

Самостоятелност или използване на нашите API

Klone model repos от GitHub и да работи на местно място, или да използваме нашия домакин API за производство. Самоустройството дава пълен контрол; нашият API осигурява управлявана инфраструктура.

4

Изграждане на вашата програма

Интегрирайте TTS във Вашия продукт с помощта на самостоятелни модели или нашия REST API. Всички модели са търговски използвани без лицензиране такси или авторски права.

Сравнение на лицензите

Всички модели на TTS.ai използват търговски лицензи за отворен източник

Модел Лиценз Търговско използване Промяна Самостоятелно обслужване Присвояване
Kokoro Apache 2.0 Задължително
Piper MIT Задължително
VITS MIT Задължително
MeloTTS MIT Задължително
Chatterbox MIT Задължително
Tortoise TTS Apache 2.0 Задължително
StyleTTS 2 MIT Задължително
OpenVoice MIT Задължително
Sesame CSM Apache 2.0 Задължително
Orpheus Llama 3.2 "Built with Llama"

Самопосещение срещу хостед API

Пуснете модели сами или ни оставите да се справим с инфраструктурата

Самоустройство на хардвъра си

Всеки модел на TTS.ai е на разположение като отворен източник проект на GitHub или Hugging Face. Изтеглете тежестите, инсталиране на зависимостита и изтичане на преценка на собствените си GPU. Имате пълен контрол върху латентност, поверителност и скалиране.

  • Пълен поверителност на данните — звукът никога не напуска вашия сървър
  • Без разходи по искане след първоначалната конфигурация
  • Потребителско фино настройване на собствените си данни
  • Изисква GPU хардуер (препоръчително NVIDIA)
  • Вие управлявате актуализации, скалиране и зависимости

Използване TTS.ai Hosted API

Осигурете незабавен достъп до всички 20+ модели чрез един REST API. Ние се справяме с GPU предоставяне, обновяване на модела, управление на редица и скалиране. Един API ключ ви дава достъп до всеки модел - няма нужда да управлявате отделни разгръщания.

  • Няма нужда от GPU хардуер
  • Всички 20+ модели чрез един API
  • Автоматични актуализации и подобрения на модела
  • 99,9% преустановяване с излишна инфраструктура
  • Плащай само за това, което използваш.

Бързо стартиране: API или самоустройство

Използвайте нашия домакин API, или инсталирайте Kokoro локално в минути

Вариант 1: TTS.ai Hosted API Най-лесни
import requests

response = requests.post("https://api.tts.ai/v1/tts", json={
    "text": "Open source TTS with a simple API.",
    "model": "kokoro",
    "voice": "af_heart",
    "format": "wav"
}, headers={"Authorization": "Bearer YOUR_API_KEY"})

with open("output.wav", "wb") as f:
    f.write(response.content)
Вариант 2: Самоустройство с пип Пълен контрол
# Install Kokoro locally
pip install kokoro

# Generate speech on your own GPU
import kokoro

pipeline = kokoro.KPipeline(lang_code="a")
generator = pipeline("Hello from your own server!", voice="af_heart")
for i, (gs, ps, audio) in enumerate(generator):
    kokoro.save(audio, f"output_{i}.wav")

Отворен източник, достъпно ценообразуване

Нашият домакин API прави отворен източник TTS достъпен без управление на GPUs.

Свободен ред

$0

15 000 символа на регистрацията

  • 4 отворени модели безплатно
  • Няма регистрация за основна употреба
  • Дозволено търговско използване

Стартиране

$9

500 кредита/месечни кредити

  • Всички 20+ модели с отворен източник
  • Гласово клониране
  • API достъп

Професионален

$29

2 000 000 символа на месец

  • Приоритетна обработка на GPU
  • Всички премиумни модели
  • Подпомагане на предприятията
Преглед на пълното ценообразуване

Често задавани въпроси

Общи въпроси за текст от отворен източник към реч

Да. Всеки модел на TTS.ai използва допустим лиценз за отворен източник — или MIT или Apache 2.0. Ние изключваме изрично модели с ограничителни лицензи (като Coqui's CPML или некоммерчески CC-BY-NC). Можете да проверите лиценза на всеки модел в репозиторията на GitHub.

И двете са допустими лицензи за отворен източник, позволяващи търговска употреба, модификация и преразпределение. Apache 2.0 добавя изрично патентни безвъзмездия и изисква отбелязване на промени, ако промените на кода. MIT е по-просто с по-малко изисквания. И двете са бизнес-приятни.

Да. Всеки модел може да бъде самостоятелен. Клониране на репозитория на модела от GitHub, инсталиране на зависимости, изтегляне на теглото на модела и изтегляне на преценка. Ние предоставяме документация за изискванията на всеки модел за самохостинг, включително GPU, RAM и Python версия.

Изисквания варират по модел. Piper се нуждае от GPU (само CPU). Kokoro и MeloTTS се нуждаят от 1-2GB VRAM. Повечето стандартни модели се нуждаят от 4GB VRAM. Tortoise и Sesame CSM се нуждаят от 8GB. NVIDIA RTX 3060 (12GB) могат да изпълняват повечето модели удобно.

Да. Отворените лицензи позволяват промяна, включително фино регулиране. Модели като GPT-SoviTS и Bark осигуряват фино регулиране на скриптове. Можете да тренирате модели по собствените си гласови данни, за да създадете собствени гласове или подобряване на перформансите за специфични езици.

Най-добрите отворени модели (Kokoro, StyleTTS 2, Chatterbox) сега съвпадат или надхвърлят търговските услуги като 11Labs и Google TTS в качествени бенчмаркове. Основното предимство на търговските услуги е управление на инфраструктура и подкрепа, а не аудио качество.

Ние вече ги изключихме. XTTS/XTS-v2 (Coqui's CPML – некоммерчески), F5-TTS (CC-BY-NC – некоммерчески) и Higgs-v2 (Boson License — ограничителни) бяха премахнати. Всеки модел на TTS.ai е проверен за търговска употреба безопасно.

Да. Повечето модели приемат приноси на общността чрез GitHub. Можете да изпратите доклади за грешки, гласови записи за нови езици, подобрения на кода и документация. Проверете всеки модел GitHub репозитор за насоки за принос и активни въпроси.

Натоварване на модели при поискване и разтоварване при празен режим за споделяне на GPU паметта. Нашият GPU сървър работи 20+ модели на 4x Tesla P40 (96GB общо VRAM) с помощта на динамично зареждане. За самоу домакинство, един 24GB GPU може да обслужва едновременно 3-5 модели.

Много модели предоставят официални Docker изображения или Dockerfiles. За работа на няколко модели, можете да изградите Custom Docker настройка с NVIDIA Container Toolkit за достъп до GPU. Нашата API сървърна архитектура може да служи като референтна имплементация.

Повечето модели изискват Python 3.10-3.12. Coqui TTS (VITS) специално се нуждае от Python 3.11. Ние препоръчваме Python 3.12 за повечето модели. Проверете изискванията на всеки модел.txt за точна съвместимост на версията.

Да. лицензите на MIT и Apache 2.0 изрично позволяват търговска употреба. Можете да изградите SaaS продукти, мобилни приложения, игри и услуги, използвайки тези модели без лицензиране такси, авторски права или изисквания за атрибуция (ако се оценява атрибуцията).
5.0/5 (1)

Какво можем да подобрим? Твоята обратна връзка ни помага да решим проблемите.

Опитайте Open Source TTS днес

20+ отворени модели, всички търговски лицензирани. Използвайте нашия API или самостоятелен домакин – изборът е ваш.