Modele otwartego tekstu źródłowego do mowy

Każdy model TTS na naszej platformie jest otwarty z licencjami przyjaznymi komercyjnymi. MIT, Apache 2.0 – bez zastrzeżonych ograniczeń użytkowania, bez opłat za niespodziankę licencjonowania. Użyj ich za pośrednictwem naszego hostowanego API, lub samorząduj je na własnej infrastrukturze z pełną kontrolą.

Otwarte źródło Licencja MIT Apache 2.0 Właściwość GitHub

Spróbuj teraz

Darmowe z Kokoro, Piper, VITS, Melotts
Wygenerowany dźwięk pojawi się tutaj
Zbudowany
Pobierz
Powiedz znajomym!

Korzyści z otwartego źródła TTS

Dlaczego modele open-source mają znaczenie dla twoich projektów

Wszystkie otwarte źródła licencjonowane

Każdy model na TTS.ai wykorzystuje licencję otwartego źródła. Brak zastrzeżonych czarnych pudełek, bez zamykania sprzedawcy, bez nieoczekiwanych opłat licencyjnych.

MIT / Apache 2.0

Modele są licencjonowane na MIT lub Apache 2.0, najpopustniejsze licencje otwartego źródła. Komercyjnie, modyfikować, redystrybuować – bez ograniczeń.

Właściwość

Pobierz dowolny model i uruchomić go na własny sprzęt. Pełna kontrola nad danymi, latencją i infrastrukturą. Nie wymaga się chmury zależności.

Zoptymalizowany GPU

Modele są zoptymalizowane dla GPU NVIDIA z obsługą CUDA. Piper działa tylko na procesorze. Większość modeli wymaga 2-8GB VRAM do efektywnych wyników.

Wspólnota utrzymywana

Aktywne społeczności otwarte utrzymują i ulepszają te modele. Wkłady powitane — przekazywanie błędów, ulepszenia i nowych głosów na GitHub.

Komercyjne użytkowanie OK

Wszystkie modele umożliwiają użytkowanie handlowe w ramach ich licencji. Budowanie produktów, sprzedaż usług i tworzenie treści komercyjnych bez opłat licencyjnych lub opłat za użytkowanie.

Nasz katalog modelu Open Source

Każdy model, jego licencja, i to, co robi najlepiej

KokoroKokoro

Free

Lightweight 82M parameter model delivering studio-quality speech with blazing-fast inference.

Fast 5/5

Najlepsze dla: Apache 2.0 – najlepszy model bez jakości, 82M params, łatwy do samoporządkowania

Spróbuj. Kokoro

PiperPiper

Free

A fast, local neural text to speech system optimized for Raspberry Pi and embedded devices.

Fast 3/5

Najlepsze dla: MIT – tylko procesor, idealny dla urządzeń krawędziowych i wbudowanych samoprzyrządów

Spróbuj. Piper

VITSVITS

Free

Conditional variational autoencoder with adversarial learning for end-to-end text-to-speech.

Fast 3/5

Najlepsze dla: MIT – architektura fundamentalna używana przez wiele modeli poniżej

Spróbuj. VITS

BarkBark

Standard

Transformer-based text-to-audio model that generates realistic speech, music, and sound effects.

Slow 4/5

Najlepsze dla: MIT – niepowtarzalne możliwości wytwarzania dźwięku poza standardową TTS

Spróbuj. Bark

Tortoise TTSTortoise TTS

Premium

Multi-voice text-to-speech focused on quality with autoregressive architecture.

Slow 5/5 Klonowanie głosu

Najlepsze dla: Apache 2.0 – maksymalna jakość, szeroko badane wdrażanie odniesienia

Spróbuj. Tortoise TTS

OpenVoiceOpenVoice

Premium

Instant voice cloning with granular control over style, emotion, and accent.

Medium 4/5 Klonowanie głosu

Najlepsze dla: MIT – klonowanie głosu z otwartym źródłem z granularną kontrolą stylu

Spróbuj. OpenVoice

Jak korzystać z otwartego źródła TTS

Użyj naszych hosted API lub uruchomi modele samodzielnie

1

Poznaj modele otwartego źródła

Przeglądaj nasz katalog modeli 20+ otwartego źródła TTS. Każda strona modelowa przedstawia licencję, architekturę, możliwości i wymagania samodzielnego hostingu.

2

Spróbuj w swojej przeglądarce

Testuj dowolny model bezpośrednio na TTS.ai bez instalacji nic. Nasze serwery GPU obsługują przetwarzanie, aby można ocenić jakość przed zaangażowaniem się w samo-hosting.

3

Właściwość lub korzystanie z naszego API

Repos modelu klonowego z GitHub i uruchomić lokalnie, lub użyć naszego hostowanego API do produkcji. Samodomowca daje pełną kontrolę; nasz API zapewnia zarządzaną infrastrukturę.

4

Zbuduj aplikację

Integruj TTS do swojego produktu przy użyciu modeli samorządzonych lub naszych REST API. Wszystkie modele są użyte komercyjne bez opłat licencyjnych lub licencji.

Porównanie licencji

Wszystkie modele na TTS.ai używać komercjonalnie przyjazne licencje open-source

Wzór Licencja Stosowanie handlowe Zmiana Właściwość Attribucja
Kokoro Apache 2.0 Wymagane
Piper MIT Opcjonalnie
VITS MIT Opcjonalnie
MeloTTS MIT Opcjonalnie
Chatterbox MIT Opcjonalnie
Tortoise TTS Apache 2.0 Wymagane
StyleTTS 2 MIT Opcjonalnie
OpenVoice MIT Opcjonalnie
Sesame CSM Apache 2.0 Wymagane
Orpheus Llama 3.2 "Built with Llama"

Samoprzygotowanie ws hosted API

Uruchom modele sami lub pozwól nam zarządzać infrastrukturą

Właściwość na Twoim sprzętie

Każdy model na TTS.ai jest dostępny jako projekt open-source na GitHub lub Hugging Face. Pobierz wagi, zainstaluj zależności i uruchomij inferencję na własnych GPU. Masz pełną kontrolę nad latencją, prywatnością i skalowaniem.

  • Pełna prywatność danych — audio nigdy nie opuszcza serwera
  • Brak kosztów na żądanie po początkowym ustawieniu
  • Właściwe dostosowywanie do własnych danych
  • Wymaga sprzętu GPU (zalecana NVIDIA)
  • Zarządzasz aktualizacjami, skalowaniem i zależnościami

Użyj TTS.ai hosted API

Otrzymamy natychmiastowy dostęp do wszystkich modeli 20+ poprzez pojedynczy REST API. Zajmujemy się dostarczaniem GPU, aktualizacjami modeli, zarządzaniem kolejką i skalowaniem. Jeden klucz API daje dostęp do każdego modelu – nie ma potrzeby do zarządzania oddzielnym rozmieszczeniem.

  • Brak sprzętu GPU
  • Wszystkie modele 20+ przez jeden API
  • Automatyczne aktualizacje i ulepszenia modeli
  • 99,9% przerwy na zbędną infrastrukturę
  • Zapłać tylko za to, co użyjesz

Szybki rozpoczątek: API lub samoprzybycie

Użyj naszego hosted API, lub zainstaluj Kokoro lokalnie w minutach

Wariant 1: TTS.ai Hosted API Najłatwiejsze
import requests

response = requests.post("https://api.tts.ai/v1/tts", json={
    "text": "Open source TTS with a simple API.",
    "model": "kokoro",
    "voice": "af_heart",
    "format": "wav"
}, headers={"Authorization": "Bearer YOUR_API_KEY"})

with open("output.wav", "wb") as f:
    f.write(response.content)
Wariant 2: Samodzielność z pip Pełna kontrola
# Install Kokoro locally
pip install kokoro

# Generate speech on your own GPU
import kokoro

pipeline = kokoro.KPipeline(lang_code="a")
generator = pipeline("Hello from your own server!", voice="af_heart")
for i, (gs, ps, audio) in enumerate(generator):
    kokoro.save(audio, f"output_{i}.wav")

Otwarte źródło, dostępne ceny

Nasz hosted API sprawia, że otwarte źródło TTS jest dostępne bez zarządzania GPU.

Wolny poziom

$0

15 kredytów na zarejestrowanie

  • 4 modele open-source za darmo
  • Brak rejestracji dla podstawowego użytku
  • Dozwolone użytkowanie handlowe

Rozpoczynacz

$9

500 000 znaków/miesiąc

  • Wszystkie modele 20+ open-source
  • Klonowanie głosu
  • Dostęp API

Prof.

$29

2 000 000 znaków/miesiąc

  • Priorytet przetwarzania GPU
  • Wszystkie modele premium
  • Wsparcie dla przedsiębiorstw
Wyświetl pełne ceny

Często zadawane pytania

Wspólne pytania dotyczące tekstu otwartego źródła do wypowiedzi

Tak. Każdy model na TTS.ai wykorzystuje licencję otwartego źródła — MIT lub Apache 2.0. Wykluczamy specjalnie modele z licencjami ograniczającymi (np. Coqui's CPML lub niekomercyjny CC-BY-NC). Można sprawdzić każdą licencję modelu w repozytorium GitHub.

Obydwa są licencjami otwartego źródła pozwalającymi na użytkowanie handlowe, modyfikację i redystrybucję. Apache 2.0 dodaje wyraźne dotacje patentowe i wymaga określenia zmian w przypadku modyfikacji kodu. MIT jest prostsza z mniej wymagań. Obie są przyjazne dla biznesu.

Tak. Każdy model może być samodomówiony. Klonuj repozytorium modelu z GitHub, zainstaluj zależności, pobierz wagi modelu i uruchomij wynik. Zapewniamy dokumentację dla wymagań samodomowców każdego modelu, w tym wersji GPU, RAM i Python.

Wymagania różnią się w zależności od modelu. Piper nie potrzebuje tylko GPU (tylko CPU). Kokoro i Melotts potrzebują 1-2GB VRAM. Większość standardowych modeli wymaga 4GB VRAM. Tortoise i Sesame CSM potrzebują 8GB. NVIDIA RTX 3060 (12GB) może uruchomić większość modeli komfortowo.

Tak. Licencje otwartego źródła pozwalają na modyfikację, włącznie z dostosowywaniem. Modele takie jak GPT-SoviTS i Bark zapewniają skrypty. Można trenować modele na własnych danych głosowych, aby utworzyć własne głosy lub poprawić wydajność dla konkretnych języków.

Najlepsze modele open-source (Kokoro, StyleTTS 2, Chatterbox) teraz pasują lub przekraczają usługi komercyjne takie jak 11Labs i Google TTS w odniesieniu do jakości. Główną zaletą usług komercyjnych jest zarządzanie infrastrukturą i wsparciem, a nie jakość dźwięku.

Już je wykluczyliśmy. Usunięto XTTS/XTS-v2 (Coqui’s CPML – non-commercial), F5-TTS (CC-BY-NC – non-commercial) i Higgs-v2 (Licence Boson – restrikcyjne). Każdy model na TTS.ai jest zweryfikowany w zakresie użytkowania komercyjnego.

Tak. Większość modeli akceptuje składki społeczności za pośrednictwem GitHub. Możesz przekazywać raporty o błędach, nagrania głosowe dla nowych języków, poprawy kodu i dokumentację. Sprawdź repozytorium GitHub każdego modelu w celu uzyskania wytycznych dotyczących wkładów i aktywnych problemów.

Wczytaj modele na żądanie i wyładuj przy dzieleniu się pamięcią GPU. Nasz serwer GPU obsługuje modele 20+ na 4x Tesla P40 (96GB totalny VRAM) przy użyciu dynamicznego załadunku. Dla samo-hostingu, jeden 24GB GPU może jednocześnie obsługiwać modele 3-5.

Wiele modeli zapewnia oficjalne obrazy Docker lub Dockerfiles. Dla uruchomienia wielu modeli, można zbudować własny konfiguracja Docker z NVIDIA Container Toolkit dla dostępu do GPU. Nasza architektura serwera API może służyć jako implementacja referencyjna.

Większość modeli wymaga Python 3.10-3.12. Coqui TTS (VITS) wymaga specjalnie Python 3.11. Zalecamy Python 3.12 dla większości modeli. Sprawdź wymagania każdego modelu.txt o dokładną kompatybilność wersji.

Tak. Licencje MIT i Apache 2.0 wyraźnie pozwalają na użytkowanie handlowe. Można zbudować produkty SaaS, aplikacje mobilne, gry i usługi przy użyciu tych modeli bez opłat licencyjnych, licencji lub wymagań przypisywania (choć przypisanie jest doceniane).
5.0/5 (1)

Co moglibyśmy ulepszyć? Twoje zwroty zwrotne pomagają nam rozwiązać problemy.

Spróbuj Open Source TTS Dzisiaj

20+ modele open-source, wszystkie licencjonowane komercyjne. Użyj naszego API lub sam-host – wybór jest twój.