Zgłosić błąd / żądanie funkcji

Modele otwartego tekstu źródłowego do mowy

Każdy model TTS na naszej platformie jest otwarty z licencjami przyjaznymi komercyjnymi. MIT, Apache 2.0 – bez zastrzeżonych ograniczeń użytkowania, bez opłat za niespodziankę licencjonowania. Użyj ich za pośrednictwem naszego hostowanego API, lub samorząduj je na własnej infrastrukturze z pełną kontrolą.

Otwarte źródło Licencja MIT Apache 2.0 Właściwość GitHub

Pełny edytor TTS API Docs

Spróbuj teraz

Tekst
Pliki

0/500

Darmowe z Kokoro, Piper, VITS, Melotts

Wygenerowany dźwięk pojawi się tutaj

Otwórz pełny edytor TTS

Korzyści z otwartego źródła TTS

Dlaczego modele open-source mają znaczenie dla twoich projektów

Wszystkie otwarte źródła licencjonowane

Każdy model na TTS.ai wykorzystuje licencję otwartego źródła. Brak zastrzeżonych czarnych pudełek, bez zamykania sprzedawcy, bez nieoczekiwanych opłat licencyjnych.

MIT / Apache 2.0

Modele są licencjonowane na MIT lub Apache 2.0, najpopustniejsze licencje otwartego źródła. Komercyjnie, modyfikować, redystrybuować – bez ograniczeń.

Właściwość

Pobierz dowolny model i uruchomić go na własny sprzęt. Pełna kontrola nad danymi, latencją i infrastrukturą. Nie wymaga się chmury zależności.

Zoptymalizowany GPU

Modele są zoptymalizowane dla GPU NVIDIA z obsługą CUDA. Piper działa tylko na procesorze. Większość modeli wymaga 2-8GB VRAM do efektywnych wyników.

Wspólnota utrzymywana

Aktywne społeczności otwarte utrzymują i ulepszają te modele. Wkłady powitane — przekazywanie błędów, ulepszenia i nowych głosów na GitHub.

Komercyjne użytkowanie OK

Wszystkie modele umożliwiają użytkowanie handlowe w ramach ich licencji. Budowanie produktów, sprzedaż usług i tworzenie treści komercyjnych bez opłat licencyjnych lub opłat za użytkowanie.

Nasz katalog modelu Open Source

Każdy model, jego licencja, i to, co robi najlepiej

Kokoro

Free

Lightweight 82M parameter model delivering studio-quality speech with blazing-fast inference.

Fast 5/5

Najlepsze dla: Apache 2.0 – najlepszy model bez jakości, 82M params, łatwy do samoporządkowania

Spróbuj. Kokoro

Piper

Free

A fast, local neural text to speech system optimized for Raspberry Pi and embedded devices.

Fast 3/5

Najlepsze dla: MIT – tylko procesor, idealny dla urządzeń krawędziowych i wbudowanych samoprzyrządów

Spróbuj. Piper

VITS

Free

Conditional variational autoencoder with adversarial learning for end-to-end text-to-speech.

Fast 3/5

Najlepsze dla: MIT – architektura fundamentalna używana przez wiele modeli poniżej

Spróbuj. VITS

Bark

Standard

Transformer-based text-to-audio model that generates realistic speech, music, and sound effects.

Slow 4/5

Najlepsze dla: MIT – niepowtarzalne możliwości wytwarzania dźwięku poza standardową TTS

Spróbuj. Bark

Tortoise TTS

Premium

Multi-voice text-to-speech focused on quality with autoregressive architecture.

Slow 5/5 Klonowanie głosu

Najlepsze dla: Apache 2.0 – maksymalna jakość, szeroko badane wdrażanie odniesienia

Spróbuj. Tortoise TTS

OpenVoice

Premium

Instant voice cloning with granular control over style, emotion, and accent.

Medium 4/5 Klonowanie głosu

Najlepsze dla: MIT – klonowanie głosu z otwartym źródłem z granularną kontrolą stylu

Spróbuj. OpenVoice

Jak korzystać z otwartego źródła TTS

Użyj naszych hosted API lub uruchomi modele samodzielnie

Poznaj modele otwartego źródła

Przeglądaj nasz katalog modeli 20+ otwartego źródła TTS. Każda strona modelowa przedstawia licencję, architekturę, możliwości i wymagania samodzielnego hostingu.

Spróbuj w swojej przeglądarce

Testuj dowolny model bezpośrednio na TTS.ai bez instalacji nic. Nasze serwery GPU obsługują przetwarzanie, aby można ocenić jakość przed zaangażowaniem się w samo-hosting.

Właściwość lub korzystanie z naszego API

Repos modelu klonowego z GitHub i uruchomić lokalnie, lub użyć naszego hostowanego API do produkcji. Samodomowca daje pełną kontrolę; nasz API zapewnia zarządzaną infrastrukturę.

Zbuduj aplikację

Integruj TTS do swojego produktu przy użyciu modeli samorządzonych lub naszych REST API. Wszystkie modele są użyte komercyjne bez opłat licencyjnych lub licencji.

Porównanie licencji

Wszystkie modele na TTS.ai używać komercjonalnie przyjazne licencje open-source

Wzór	Licencja	Attribucja
Kokoro	Apache 2.0	Wymagane
Piper	MIT	Opcjonalnie
VITS	MIT	Opcjonalnie
MeloTTS	MIT	Opcjonalnie
Chatterbox	MIT	Opcjonalnie
Tortoise TTS	Apache 2.0	Wymagane
StyleTTS 2	MIT	Opcjonalnie
OpenVoice	MIT	Opcjonalnie
Sesame CSM	Apache 2.0	Wymagane
Orpheus	Llama 3.2	"Built with Llama"

Spróbuj te modele za darmo

Samoprzygotowanie ws hosted API

Uruchom modele sami lub pozwól nam zarządzać infrastrukturą

Właściwość na Twoim sprzętie

Każdy model na TTS.ai jest dostępny jako projekt open-source na GitHub lub Hugging Face. Pobierz wagi, zainstaluj zależności i uruchomij inferencję na własnych GPU. Masz pełną kontrolę nad latencją, prywatnością i skalowaniem.

Pełna prywatność danych — audio nigdy nie opuszcza serwera
Brak kosztów na żądanie po początkowym ustawieniu
Właściwe dostosowywanie do własnych danych
Wymaga sprzętu GPU (zalecana NVIDIA)
Zarządzasz aktualizacjami, skalowaniem i zależnościami

Użyj TTS.ai hosted API

Otrzymamy natychmiastowy dostęp do wszystkich modeli 20+ poprzez pojedynczy REST API. Zajmujemy się dostarczaniem GPU, aktualizacjami modeli, zarządzaniem kolejką i skalowaniem. Jeden klucz API daje dostęp do każdego modelu – nie ma potrzeby do zarządzania oddzielnym rozmieszczeniem.

Brak sprzętu GPU
Wszystkie modele 20+ przez jeden API
Automatyczne aktualizacje i ulepszenia modeli
99,9% przerwy na zbędną infrastrukturę
Zapłać tylko za to, co użyjesz

Użyj hosted API zamiast

Szybki rozpoczątek: API lub samoprzybycie

Użyj naszego hosted API, lub zainstaluj Kokoro lokalnie w minutach

Wariant 1: TTS.ai Hosted API Najłatwiejsze

import requests

response = requests.post("https://api.tts.ai/v1/tts", json={
    "text": "Open source TTS with a simple API.",
    "model": "kokoro",
    "voice": "af_heart",
    "format": "wav"
}, headers={"Authorization": "Bearer YOUR_API_KEY"})

with open("output.wav", "wb") as f:
    f.write(response.content)

Wariant 2: Samodzielność z pip Pełna kontrola

# Install Kokoro locally
pip install kokoro

# Generate speech on your own GPU
import kokoro

pipeline = kokoro.KPipeline(lang_code="a")
generator = pipeline("Hello from your own server!", voice="af_heart")
for i, (gs, ps, audio) in enumerate(generator):
    kokoro.save(audio, f"output_{i}.wav")

Zobacz dokumentację API

Otwarte źródło, dostępne ceny

Nasz hosted API sprawia, że otwarte źródło TTS jest dostępne bez zarządzania GPU.

Wolny poziom

15 kredytów na zarejestrowanie

4 modele open-source za darmo
Brak rejestracji dla podstawowego użytku
Dozwolone użytkowanie handlowe

Rozpoczynacz

500 000 znaków/miesiąc

Wszystkie modele 20+ open-source
Klonowanie głosu
Dostęp API

Prof.

$29

2 000 000 znaków/miesiąc

Priorytet przetwarzania GPU
Wszystkie modele premium
Wsparcie dla przedsiębiorstw

Wyświetl pełne ceny

Często zadawane pytania

Wspólne pytania dotyczące tekstu otwartego źródła do wypowiedzi

Tak. Każdy model na TTS.ai wykorzystuje licencję otwartego źródła — MIT lub Apache 2.0. Wykluczamy specjalnie modele z licencjami ograniczającymi (np. Coqui's CPML lub niekomercyjny CC-BY-NC). Można sprawdzić każdą licencję modelu w repozytorium GitHub.

Obydwa są licencjami otwartego źródła pozwalającymi na użytkowanie handlowe, modyfikację i redystrybucję. Apache 2.0 dodaje wyraźne dotacje patentowe i wymaga określenia zmian w przypadku modyfikacji kodu. MIT jest prostsza z mniej wymagań. Obie są przyjazne dla biznesu.

Tak. Każdy model może być samodomówiony. Klonuj repozytorium modelu z GitHub, zainstaluj zależności, pobierz wagi modelu i uruchomij wynik. Zapewniamy dokumentację dla wymagań samodomowców każdego modelu, w tym wersji GPU, RAM i Python.

Wymagania różnią się w zależności od modelu. Piper nie potrzebuje tylko GPU (tylko CPU). Kokoro i Melotts potrzebują 1-2GB VRAM. Większość standardowych modeli wymaga 4GB VRAM. Tortoise i Sesame CSM potrzebują 8GB. NVIDIA RTX 3060 (12GB) może uruchomić większość modeli komfortowo.

Tak. Licencje otwartego źródła pozwalają na modyfikację, włącznie z dostosowywaniem. Modele takie jak GPT-SoviTS i Bark zapewniają skrypty. Można trenować modele na własnych danych głosowych, aby utworzyć własne głosy lub poprawić wydajność dla konkretnych języków.

Najlepsze modele open-source (Kokoro, StyleTTS 2, Chatterbox) teraz pasują lub przekraczają usługi komercyjne takie jak 11Labs i Google TTS w odniesieniu do jakości. Główną zaletą usług komercyjnych jest zarządzanie infrastrukturą i wsparciem, a nie jakość dźwięku.

Już je wykluczyliśmy. Usunięto XTTS/XTS-v2 (Coqui’s CPML – non-commercial), F5-TTS (CC-BY-NC – non-commercial) i Higgs-v2 (Licence Boson – restrikcyjne). Każdy model na TTS.ai jest zweryfikowany w zakresie użytkowania komercyjnego.

Tak. Większość modeli akceptuje składki społeczności za pośrednictwem GitHub. Możesz przekazywać raporty o błędach, nagrania głosowe dla nowych języków, poprawy kodu i dokumentację. Sprawdź repozytorium GitHub każdego modelu w celu uzyskania wytycznych dotyczących wkładów i aktywnych problemów.

Wczytaj modele na żądanie i wyładuj przy dzieleniu się pamięcią GPU. Nasz serwer GPU obsługuje modele 20+ na 4x Tesla P40 (96GB totalny VRAM) przy użyciu dynamicznego załadunku. Dla samo-hostingu, jeden 24GB GPU może jednocześnie obsługiwać modele 3-5.

Wiele modeli zapewnia oficjalne obrazy Docker lub Dockerfiles. Dla uruchomienia wielu modeli, można zbudować własny konfiguracja Docker z NVIDIA Container Toolkit dla dostępu do GPU. Nasza architektura serwera API może służyć jako implementacja referencyjna.

Większość modeli wymaga Python 3.10-3.12. Coqui TTS (VITS) wymaga specjalnie Python 3.11. Zalecamy Python 3.12 dla większości modeli. Sprawdź wymagania każdego modelu.txt o dokładną kompatybilność wersji.

Tak. Licencje MIT i Apache 2.0 wyraźnie pozwalają na użytkowanie handlowe. Można zbudować produkty SaaS, aplikacje mobilne, gry i usługi przy użyciu tych modeli bez opłat licencyjnych, licencji lub wymagań przypisywania (choć przypisanie jest doceniane).

5.0/5 (1)

Spróbuj Open Source TTS Dzisiaj

20+ modele open-source, wszystkie licencjonowane komercyjne. Użyj naszego API lub sam-host – wybór jest twój.

Zarejestruj się za darmo Widok Cennik

Modele otwartego tekstu źródłowego do mowy

Spróbuj teraz

Powiedz znajomym!

Korzyści z otwartego źródła TTS

Wszystkie otwarte źródła licencjonowane

MIT / Apache 2.0

Właściwość

Zoptymalizowany GPU

Wspólnota utrzymywana

Komercyjne użytkowanie OK

Nasz katalog modelu Open Source

Kokoro

Piper

VITS

Bark

Tortoise TTS

OpenVoice

Jak korzystać z otwartego źródła TTS

Poznaj modele otwartego źródła

Spróbuj w swojej przeglądarce

Właściwość lub korzystanie z naszego API

Zbuduj aplikację

Porównanie licencji

Samoprzygotowanie ws hosted API

Właściwość na Twoim sprzętie

Użyj TTS.ai hosted API

Szybki rozpoczątek: API lub samoprzybycie

Otwarte źródło, dostępne ceny

Wolny poziom

Rozpoczynacz

Prof.

Często zadawane pytania

Czy wszystkie TTS.ai modeli są naprawdę otwarte?

Jaka jest różnica między licencjami MIT i Apache 2.0?

Czy mogę urządzić te modele na własnym serwerze?

Jaki GPU potrzebuję do samorządzania modeli TTS?

Czy mogę dostosowywać modele TTS otwartego źródła?

Jak modele TTS otwartego źródła porównywane są z usługami komercyjnymi?

Czy są jakieś modele z restrykcyjnymi licencjami, których powinienem uniknąć?

Czy mogę wnieść wkład w te modele otwartego źródła?

Jak uruchomić wiele modeli na jednym serwerze GPU?

Czy jest wizerunek Dockera do samodomówienia?

Jakiej wersji Pythona potrzebuję do samodomowania?

Czy mogę zbudować produkt komercyjny używając tych modeli?

Spróbuj Open Source TTS Dzisiaj