Модели на отворен изворен текст за говор

Секој TTS модел на нашата платформа е отворен извор со комерцијално пријатни лиценца. MIT, Apache 2.0 — без сопственички ограничувања, без изненадувачки дозволи.

Отворен извор Лиценца на MIT Апачи 2. 0 Самопожелно ГитХубworld. kgm

Обиди се сега

Слободен со Кокоро, Пајпер, ВИТС, Мелотс
Вашата генерирана аудио снимка ќе се појави тука
Генерирано
Симнување
Кажи им на пријателите!

Користи од отворениот извор на TTS

Зошто отворените модели се важни за вашите проекти

Лицензација на сите отворени извори

Секој модел на TTS.ai користи попустлива лиценца со отворен извор.

МИТ / Апачи 2.0

Моделите се лиценцани под МИТ или Апачи 2.0, најпопустливите лиценца со отворен извор.

Самопожелно

Симни било кој модел и пушти го на свој хардвер. Целосна контрола над вашите податоци, латенција и инфраструктура. Не е потребна зависност од облак.

Оптимизиран GPU

Моделите се оптимизирани за NVIDIA GPUs со поддршка на CCUDA. Piper работи само на процесор. Повеќето модели имаат потреба од 2-8GB VRAM за ефикасно заклучување.

Заедницата е задржана

Активните заедници со отворен извор ги одржуваат и подобруваат овие модели. Прилозите добредојдени — поднесуваат бубачки, подобрувања и нови гласови на GitHub.

Комерцијална употреба е во ред

Сите модели дозволуваат комерцијална употреба под нивните дозволи. Изградба на производи, продажба на услуги и создавање на комерцијална содржина без трошоци или трошоци за користење.

Каталогот на нашиот отворен модел

Секој модел, неговата дозвола, и она што го прави најдобро

KokoroKokoro

Free

Lightweight 82M parameter model delivering studio-quality speech with blazing-fast inference.

Fast 5/5

Најдобро за: Апачи 2.0 — најдобар безквалитетен модел, 82М парами, лесен за самодомаќин

Обиди се Kokoro

PiperPiper

Free

A fast, local neural text to speech system optimized for Raspberry Pi and embedded devices.

Fast 3/5

Најдобро за: MIT — само за процесор, совршен за работни уреди и вграден само-домаќин

Обиди се Piper

VITSVITS

Free

Conditional variational autoencoder with adversarial learning for end-to-end text-to-speech.

Fast 3/5

Најдобро за: МИТ — основната архитектура што ја користеле многу модели низводно

Обиди се VITS

BarkBark

Standard

Transformer-based text-to-audio model that generates realistic speech, music, and sound effects.

Slow 4/5

Најдобро за: MIT — единствени можности за генерација на звук над стандардните TTS

Обиди се Bark

Tortoise TTSTortoise TTS

Premium

Multi-voice text-to-speech focused on quality with autoregressive architecture.

Slow 5/5 Гласовно клонирање

Најдобро за: Апачи 2.0 — максимален квалитет, широко испитана референтна имплементација

Обиди се Tortoise TTS

OpenVoiceOpenVoice

Premium

Instant voice cloning with granular control over style, emotion, and accent.

Medium 4/5 Гласовно клонирање

Најдобро за: MIT — клонирање на гласот со гранулиран стил

Обиди се OpenVoice

Како да се користи ТТС со отворен извор

Користете го нашиот домаќин на API или самиот извршете модели

1

Разгледај ги моделите со отворен извор

Прегледајте го нашиот каталог на 20+ отворени модели на TTS. Секоја модел страница ги прикажува условите на лиценцата, архитектурата, способностите и самодомаќинските барања.

2

Пробај во твојот прелистувач

Тестирај го секој модел директно на TTS.ai без инсталирање на ништо. Нашите GPU сервери раководат со обработката за да можете да го процените квалитетот пред да се посветите на самодомаќинство.

3

Самостојност или користење на нашиот API

Репозицијата на моделот на клонови од GitHub и трчање локално, или користење на нашиот домаќин на API за производство.

4

Изградете ја вашата апликација

Интегрирајте го ТТС во вашиот производ користејќи самостојни модели или нашиот REST API. Сите модели се комерцијално употребливи без лиценца или хонорари.

Споредување на лиценцата

Сите модели на TTS.ai користат комерцијално пријатни лиценца со отворен извор

Модел Лиценца Комерцијална употреба Измена Самостојност Атрибуција
Kokoro Apache 2.0 Неопходно
Piper MIT Опционо
VITS MIT Опционо
MeloTTS MIT Опционо
Chatterbox MIT Опционо
Tortoise TTS Apache 2.0 Неопходно
StyleTTS 2 MIT Опционо
OpenVoice MIT Опционо
Sesame CSM Apache 2.0 Неопходно
Orpheus Llama 3.2 "Built with Llama"

Самостојна против домаќинската API

Изврши го моделот самиот или дозволи ни да се справиме со инфраструктурата.

Самостојност на хардверот

Секој модел на TTS.ai е достапен како отворен проект за GitHub или Hugging Face. Превземете ги теговите, инсталирајте ги зависностите и извршувајте заклучоци на сопствените GPU. Имате целосна контрола над латенцијата, приватноста и скалирањето.

  • Целосна приватност на податоците — звукот никогаш не го напушта серверот
  • Без трошоци по барање по иницијалното поставување
  • Сопствено нагласување на Вашите податоци
  • Бара GPU хардвер (препорачана NVIDIA)
  • Менаџирате ажурирања, скалирање и зависности

Користи TTS.ai компјутерски API

Добивате моментален пристап до сите 20+ модели преку еден REST API. Ние се справиме со GPU обезбедувањето, ажурирањето на моделот, менаџментот на редица и скалирањето. Еден API клуч ви дава пристап до секој модел — нема потреба да управувате со одделни распоредувања.

  • Не е потребен GPU хардвер
  • Сите 20+ модели преку еден API
  • Автоматски ажурирања и подобрувања на моделот
  • 99,9 отсто повеќе време со излишна инфраструктура
  • Плати само за тоа што го користиш.

Брз почеток: API или самостојност

Користете го нашиот домаќин на API, или инсталирајте го Kokoro локално во минути

Опција 1: TTS.ai Hosted API Најлесно
import requests

response = requests.post("https://api.tts.ai/v1/tts", json={
    "text": "Open source TTS with a simple API.",
    "model": "kokoro",
    "voice": "af_heart",
    "format": "wav"
}, headers={"Authorization": "Bearer YOUR_API_KEY"})

with open("output.wav", "wb") as f:
    f.write(response.content)
Опција 2: Самостојност со пип Целосна контрола
# Install Kokoro locally
pip install kokoro

# Generate speech on your own GPU
import kokoro

pipeline = kokoro.KPipeline(lang_code="a")
generator = pipeline("Hello from your own server!", voice="af_heart")
for i, (gs, ps, audio) in enumerate(generator):
    kokoro.save(audio, f"output_{i}.wav")

Отворен извор, достоен за цени

Нашиот домаќин на АПИ го прави отворениот извор на ТТС пристапен без управување со ГПУ.

Слободен ред

$0

15 кредити за пријавување

  • 4 слободни модели со отворен извор
  • Нема пријава за основна употреба
  • Дозволена комерцијална употреба

Стартер

$9

500.000 знаци месечно

  • Сите 20+ модели со отворен извор
  • Гласовно клонирање
  • API пристап

Проф.

$29

2. 000. 000 знаци на месец

  • Приоритетна обработка на GPU
  • Сите премиум модели
  • Поддршка за претпријатието
Прикажи целосни цени

Често поставувани прашања

Вообичаени прашања во врска со текстот од отворен извор за говор

Секој модел на TTS.ai користи дозвола за отворен извор — MIT или Apache 2.0. Конкретно исклучуваме модели со рестриктивни дозволи (како CPML на Coqui или некомерцијално CC-BY-NC).

И двете се попустливи лиценца со отворен извор, кои дозволуваат комерцијална употреба, модификација и прераспределба. Апачи 2.0 додава експлицитни патентни додатоци и бара да се наведат промени ако го измените кодот. МИТ е поедноставен со помалку барања.

Да. Секој модел може да биде самодомаќен. Клонирајте го ризницата на моделот од GitHub, инсталирајте ги зависностите, симнете тегови од моделот и извршувајте заклучоци. Ние обезбедуваме документација за барањата за самодомење на секој модел, вклучувајќи ги GPU, RAM и Python верзијата.

Забарувањата варираат според моделот. На Piper не им треба само GPU (само на CPU). Kokoro и Melotts им требаат 1-2GB VRAM. Најмногу стандардни модели им требаат 4GB VRAM. Tortoise и Sesame CSM потребни 8GB. NVIDIA RTX 3060 (12GB) може да извршат повеќето модели удобно.

Да. Лиценцата за отворен извор овозможуваат модификација вклучувајќи фино регулирање. Модели како GPT- SoVITS и Bark обезбедуваат скрипти за фино регулирање. Може да тренирате модели на сопствените гласови за создавање на сопствени гласови или подобрување на перформансите за специфични јазици.

Најдобрите модели на отворен извор (Кокоро, StyleTTS 2, Chatterbox) сега се совпаѓаат или надминуваат комерцијалните услуги како 11Labs и Google TTS во квалитетни стандарди. Главната предност на комерцијалните сервиси е управување со инфраструктурата и поддршката, а не аудио квалитетот.

We have already excluded them. XTTS/XTTS-v2 (Coqui's CPML — non-commercial), F5-TTS (CC-BY-NC — non-commercial), and Higgs-v2 (Boson License — restrictive) were all removed. Every model on TTS.ai is verified commercial-use safe.

Да. Повеќето модели прифаќаат придонеси на заедницата преку GitHub. Можете да испратите извештаи за бубачки, гласови за нови јазици, подобрување на кодот и документација. Проверете го складиштето на GitHub на секој модел за упатства и активни прашања.

Вчитај модели на барање и истоварај кога не работи за споделување на GPU меморија. Нашиот GPU- сервер користи 20+ модели на 4x Tesla P40 (96GB вкупно VRAM) со динамично оптоварување. За самостоење, еден 24GB GPU може истовремено да служи 3-5 модели.

Многу модели обезбедуваат официјални слики за Docker или Dockerfiles. За извршување на повеќе модели, можете да изградите сопствена настройка за Docker со NVIDIA Container Toolkit за пристап на GPU. Нашата API- серверска архитектура може да служи како референтна имплементација.

Повеќето модели бараат Python 3.10-3.12. Coqui TTS (VITS) посебно на Python 3.11. Ние препорачуваме Python 3.12 за повеќето модели. Проверете ги барањата на секој модел.txt за точна верзија компатибилност.

Лиценцата на MIT и Apache 2.0 јасно овозможуваат комерцијална употреба. Можете да изградите SaaS производи, мобилни апликации, игри и услуги користејќи ги овие модели без лиценца, хонорари или барања за припишување (иако се цени припишувањето).
5.0/5 (1)

Твоите повратни информации ни помагаат да ги решиме проблемите.

Обиди се со отворен код TTS денес

20+ модели со отворен извор, сите комерцијално лицензирани. Користете го нашиот API или само-домаќин — изборот е ваш.