Модулі пераўтварэньня тэксту ў мову з адкрытым зыходным кодам

Усе мадэлі TTS на нашай платформе маюць адкрыты зыходны код з камэрцыйнымі ліцэнзіямі. MIT, Apache 2. 0 — без уласніцкіх абмежаванняў, без абмежаванняў выкарыстання, без сюрпрызных ліцэнзійных плацяжоў. Выкарыстоўвайце іх праз наш хоставаны API або самастойна ўсталюйце іх на вашай уласнай інфраструктуры з поўным кантролем.

Адкрыты код Ліцэнзія MIT Apache 2.0 Самастойны GitHubGenericName

Паспрабуйце зараз

0/500
Свабодны з Kokoro, Piper, VITS, MeloTTS
Your generated audio will appear here
Створана
0:00 0:00
Сцягнуць
Як TTS.ai? Раскажыце сваім сябрам!

Перавагі TTS з адкрытым кодам

Чаму мадэлі з адкрытым зыходным кодам важныя для вашых праектаў

Усе адкрытыя ліцэнзіі

Кожная мадэль на TTS.ai выкарыстоўвае дазволеную ліцэнзію адкрытага зыходнага коду. Няма ўласных чорных скрыняў, няма замыкання на вытворцы, няма нечаканых ліцэнзійных плат.

Apache 2. 0

Мадэлі ліцэнзаваныя па ліцэнзіях MIT або Apache 2. 0, самых дазволеных ліцэнзіях адкрытага коду. Выкарыстоўвайце ў камерцыйных мэтах, змяняйце, распаўсюджвайце — без абмежаванняў.

Самастойны

Спампаваць любую мадэль і запусціць яе на сваім апаратным забеспячэнні. Поўны кантроль над вашымі дадзенымі, латэнцыяй і інфраструктурай. Не патрабуецца залежнасць ад хмарачоса.

Аптымізавана для GPU

Мадэлі аптымалізаваныя для графічных працэсараў NVIDIA з падтрымкай CUDA. Piper працуе толькі на працэсарах. Большасць мадэляў патрабуюць 2- 8 ГБ VRAM для эфектыўнага вываду.

Падтрымка супольнасці

Актыўныя супольнасці з адкрытым зыходным кодам падтрымліваюць і ўдасканальваюць гэтыя мадэлі. Запрашаем да ўдзелу — паведамляйце пра памылкі, паляпшэнні і новыя галасы на GitHub.

Камерцыйнае выкарыстанне

Усе мадэлі дазваляюць камэрцыйнае выкарыстанне ў адпаведнасці з іх ліцэнзіямі. Збудоўвайце прадукты, прадайце паслугі і стварайце камерцыйны змест без роялці або платы за выкарыстанне.

Наш каталог мадэляў з адкрытым зыходным кодам

Кожная мадэль, яе ліцэнзія і тое, што яна робіць найлепш

KokoroKokoro

Free

Lightweight 82M parameter model delivering studio-quality speech with blazing-fast inference.

Fast 5/5

Лепшы для: Apache 2. 0 — найлепшая якасная свабодная мадэль, 82М параметраў, лёгкае самаабслугоўванне

Спроба Kokoro

PiperPiper

Free

A fast, local neural text to speech system optimized for Raspberry Pi and embedded devices.

Fast 3/5

Лепшы для: MIT — толькі CPU, ідэальна падыходзіць для краевых прылад і ўбудаванага самаабслугоўвання

Спроба Piper

VITSVITS

Free

Conditional variational autoencoder with adversarial learning for end-to-end text-to-speech.

Fast 3/5

Лепшы для: MIT — асноўная архітэктура, якая выкарыстоўваецца многімі мадэлямі

Спроба VITS

BarkBark

Standard

Transformer-based text-to-audio model that generates realistic speech, music, and sound effects.

Slow 4/5

Лепшы для: MIT — унікальныя магчымасці генерацыі аўдыё за межамі стандартнага TTS

Спроба Bark

Tortoise TTSTortoise TTS

Premium

Multi-voice text-to-speech focused on quality with autoregressive architecture.

Slow 5/5 Клонаванне голасу

Лепшы для: Apache 2. 0 - максімальна якасная, шырока вывучаная рэалізацыя

Спроба Tortoise TTS

OpenVoiceOpenVoice

Premium

Instant voice cloning with granular control over style, emotion, and accent.

Medium 4/5 Клонаванне голасу

Лепшы для: MIT — клянаваньне голасу з адкрытым зыходным кодам з дробным кіраваньнем стылямі

Спроба OpenVoice

Як карыстацца адкрытым кодам TTS

Выкарыстоўвайце наш хоставаны API або запусьціце мадэлі самастойна

1

Дасьледаваньне мадэляў з адкрытым зыходным кодам

Праглядзіце наш каталог з больш чым 20 мадэлямі TTS з адкрытым зыходным кодам. Кожная старонка мадэлі паказвае ліцэнзію, архітэктуру, магчымасці і патрабаванні да самога хостынгу.

2

Паспрабуйце ў вашым браўзэры

Праверце любую мадэль прама на TTS.ai, не ўсталёўваючы нічога. Нашы серверы GPU займаюцца апрацоўкай, таму вы можаце ацаніць якасць перад тым, як прыступіць да самастойнага хостынгу.

3

Выкарыстоўвайце наш API

Клонаваць рэпазіторыі мадэляў з GitHub і запускаць лакальна, або выкарыстоўваць наш хоставаны API для вытворчасці. Само-хостынг дае поўны кантроль; наш API забяспечвае кіраваную інфраструктуру.

4

Збудаваць праграмуName

Убудоўвайце TTS у свой прадукт, выкарыстоўваючы мадэлі з уласным хостынгам або наш REST API. Усе мадэлі даступныя для выкарыстання ў камерцыйных мэтах без ліцэнзійных плацяжоў або роялці.

Параўнанне ліцэнзій

Усе мадэлі на TTS.ai выкарыстоўваюць камерцыйныя ліцэнзіі з адкрытым зыходным кодам

Модуль Ліцэнзія Камерцыйнае выкарыстанне Змяненне Сам- вузел Прызванне
Kokoro Apache 2.0 Неабходны
Piper MIT Неабавязковы
VITS MIT Неабавязковы
MeloTTS MIT Неабавязковы
Chatterbox MIT Неабавязковы
Tortoise TTS Apache 2.0 Неабходны
StyleTTS 2 MIT Неабавязковы
OpenVoice MIT Неабавязковы
Sesame CSM Apache 2.0 Неабходны
Orpheus Llama 3.2 "Built with Llama"

Самастойны хостынг супраць хоставанага API

Выканаць мадэлі самастойна або дазволіць нам кіраваць інфраструктурай

Самастойны вузел на вашым абсталяванні

Кожная мадэль на TTS.ai даступная як праект з адкрытым зыходным кодам на GitHub або Hugging Face. Сцягніце вагу, усталюйце залежнасці і запусціце вывад на вашых уласных GPU. Вы маеце поўны кантроль над латэнцыяй, прыватнасцю і масштабаваннем.

  • Поўная прыватнасьць дадзеных — гук ніколі не пакідае ваш сервер
  • Няма выдаткаў на запыт пасля першапачатковага настаўлення
  • Нестандартная дакладная наладка на вашых уласных дадзеных
  • Неабходны графічны працэсар (рэкамендуецца NVIDIA)
  • Вы кіруеце абнаўленнямі, масштабаваньнем і залежнасьцямі

Выкарыстоўваць хоставаны API TTS.ai

Атрымайце неадкладны доступ да ўсіх 24+ мадэляў праз адзін REST API. Мы займаемся прапарцыянаваннем GPU, абнаўленнямі мадэляў, кіраваннем чаргамі і масштабаваннем. Адзін ключ API дае вам доступ да кожнай мадэлі - няма неабходнасці кіраваць асобнымі разгортваннямі.

  • Аперацыйная сістэма не патрабуецца
  • Усе 24+ мадэлі праз адзін API
  • Аўтаматычнае абнаўленне і паляпшэнне мадэляў
  • 99. 9% час працы з рэзервовай інфраструктурай
  • Плаціце толькі за тое, чым карыстаецеся

Хуткае запуску: API або Self- Host

Выкарыстоўвайце наш хоставаны API або ўсталюйце Kokoro лакальна за некалькі хвілін

Варыянт 1: TTS.ai хоставаны API Самы лёгкі
import requests

response = requests.post("https://api.tts.ai/v1/tts", json={
    "text": "Open source TTS with a simple API.",
    "model": "kokoro",
    "voice": "af_heart",
    "format": "wav"
}, headers={"Authorization": "Bearer YOUR_API_KEY"})

with open("output.wav", "wb") as f:
    f.write(response.content)
Варыянт 2: самастойны вузел з pip Поўнае кіраванне
# Install Kokoro locally
pip install kokoro

# Generate speech on your own GPU
import kokoro

pipeline = kokoro.KPipeline(lang_code="a")
generator = pipeline("Hello from your own server!", voice="af_heart")
for i, (gs, ps, audio) in enumerate(generator):
    kokoro.save(audio, f"output_{i}.wav")

Адкрыты код, даступная цана

Нашы хоставаныя API робяць TTS з адкрытым зыходным кодам даступным без кіравання GPU.

Вольны пласт

$0

50 крэдытных пры рэгістрацыі

  • 4 свабодныя мадэлі з адкрытым зыходным кодам
  • Няма рэгістрацыі для простага выкарыстання
  • Камерцыйнае выкарыстанне дазволена

Старт

$9

500 кредитов/ месяц

  • Усе 24+ мадэлі з адкрытым кодам
  • Клонаванне голасу
  • Даступ да API

Прафесійны

$29

2000 кредитов/ месяц

  • Прыярытэтная апрацоўка GPU
  • Усе прэміум мадэлі
  • Падтрымка кампаніі
Паказаць поўную цану

Частыя пытанні

Частыя пытаньні пра адкрыты тэкставы працэсар

Так. Кожная мадэль на TTS.ai выкарыстоўвае дазволеную ліцэнзію адкрытага кода — альбо MIT, альбо Apache 2.0. Мы выключаем мадэлі з абмежаванымі ліцэнзіямі (напрыклад, CPML Coqui або некамэрцыйная CC-BY-NC). Вы можаце праверыць ліцэнзію кожнай мадэлі ў яе сховішчы GitHub.

Абедзве ліцэнзіі адкрытага кода дазваляюць камерцыйнае выкарыстанне, змены і распаўсюджванне. Apache 2. 0 дадае выразныя патэнты і патрабуе паведамляць аб зменах, калі вы змяняеце код. MIT прасцей з меншымі патрабаваннямі. Абедзве зручныя для бізнесу.

Так. Кожная мадэль можа быць самастойнай. Клонаваць сховішча мадэлі з GitHub, усталяваць залежнасці, загрузіць вагі мадэлі і выканаць вывад. Мы прадастаўляем дакументацыю для патрабаванняў кожнай мадэлі да самастойнага хостынгу, уключаючы GPU, RAM і версію Python.

Неабходныя патрабаванні адрозніваюцца ў залежнасці ад мадэлі. Piper не патрабуе графічнага працэсара (толькі працэсар). Kokoro і MeloTTS патрабуюць 1-2 ГБ VRAM. Большасць стандартных мадэляў патрабуюць 4 ГБ VRAM. Tortoise і Sesame CSM патрабуюць 8 ГБ. NVIDIA RTX 3060 (12 ГБ) можа камфортна працаваць з большасцю мадэляў.

Так. Ліцэнзіі з адкрытым зыходным кодам дазваляюць змены, уключаючы дакладную наладку. Мадэлі, такія як GPT- SoVITS і Bark, даюць сцэнары дакладнай наладкі. Вы можаце трэніраваць мадэлі на вашых уласных галасавых дадзеных, каб стварыць уласныя галасы або палепшыць прадукцыйнасць для пэўных моў.

Лепшыя мадэлі з адкрытым зыходным кодам (Kokoro, StyleTTS 2, Chatterbox) цяпер адпавядаюць або пераўзыходзяць камерцыйныя сэрвісы, такія як ElevenLabs і Google TTS, па якасных паказчыках. Галоўнай перавагай камерцыйных сэрвісаў з'яўляецца кіруемая інфраструктура і падтрымка, а не якасць гуку.

Мы ўжо іх выключылі. XTTS/XTTS-v2 (Coqui's CPML — некамэрцыйны), F5-TTS (CC-BY-NC — некамэрцыйны) і Higgs-v2 (Босанская ліцэнзія — абмежаваная) былі выдаленыя. Кожная мадэль на TTS.ai праверана як бяспечная для выкарыстання ў камерцыйных мэтах.

Так. Большасць мадэляў прымаюць дапамогу супольнасці праз GitHub. Вы можаце дасылаць паведамленні аб памылках, гукавыя запісы для новых моў, паляпшэнні коду і дакументацыю. Праверце рэпазітары GitHub кожнай мадэлі для правілаў удзелу і актыўных праблем.

Загрузіць мадэлі па патрабаванні і разгрузіць, калі яны не выкарыстоўваюцца, каб падзяліцца памяццю GPU. Наш сервер GPU запускае 20+ мадэляў на 4x Tesla P40 (96GB агульнай VRAM) з дынамічнай загрузкай. Для самаабслугоўвання адзін 24GB GPU можа абслугоўваць 3-5 мадэляў адначасова.

Многія мадэлі прадастаўляюць афіцыйныя Docker-образы або Dockerfiles. Для запуску некалькіх мадэляў вы можаце стварыць уласную наладу Docker з NVIDIA Container Toolkit для доступу да GPU. Наша архітэктура сервера API можа служыць рэферэнцыйнай рэалізацыяй.

Большасць мадэляў патрабуюць Python 3.10-3.12. Coqui TTS (VITS) патрабуе Python 3.11. Мы рэкамендуем Python 3.12 для большасці мадэляў. Праверце requirements.txt кожнай мадэлі для дакладнай сумяшчальнасці версій.

Так. Ліцэнзіі MIT і Apache 2.0 выразна дазваляюць камерцыйнае выкарыстанне. Вы можаце ствараць прадукты SaaS, мабільныя праграмы, гульні і сэрвісы, выкарыстоўваючы гэтыя мадэлі без ліцэнзійных збораў, роялці або патрабаванняў да прыпісання (хоць прыпісанне вельмі паважана).
5.0/5 (1)

Паспрабуйце Open Source TTS сёньня

24+ мадэлі з адкрытым зыходным кодам, усе з камерцыйнай ліцэнзіяй. Выкарыстоўвайце наш API або самастойны хост - выбар за вамі.