Öppna källkodstext till talmodeller

Varje TTS-modell på vår plattform är öppen källkod med kommersiellt-vänliga licenser. MIT, Apache 2.0 – ingen egenutvecklad inlåsning, inga användningsbegränsningar, inga överrasknings licensavgifter. Använd dem genom vårt värd API, eller själv-värd dem på din egen infrastruktur med full kontroll.

Öppna källkod MIT- licens Apache 2.0 Ordförande Självupptagen GitHub Ordförande

Försök nu

Gratis med Kokoro, Piper, VITS, Melotts
Ditt genererade ljud visas här
Genererad
Ladda ner
Berätta för dina vänner!

Fördelar med öppen källkod för TTS

Varför öppna källkodsmodeller är viktiga för dina projekt

Alla licenserade från öppen källkod

Varje modell på TTS.ai använder en tillåtande öppen källkod licens. Inga egenutvecklade svarta lådor, ingen leverantör lås, inga oväntade licensavgifter.

MIT / Apache 2,0

Modeller är licensierade under MIT eller Apache 2.0, de mest efterlåtna open-source licenser. Använd kommersiellt, ändra, omfördela – inga begränsningar.

Självupptagen

Ladda ner vilken modell som helst och kör den på din egen hårdvara. Full kontroll över dina data, latens och infrastruktur. Inget molnberoende krävs.

GPU optimerad

Modeller är optimerade för NVIDIA GPUs med CUDA-stöd. Piper körs endast på CPU. De flesta modeller behöver 2-8GB VRAM för effektiv inferens.

Upprätthållen gemenskap

Aktiva öppen källkodsgemenskaper underhåller och förbättrar dessa modeller. Bidrag välkomnar – skicka in buggar, förbättringar och nya röster på GitHub.

Kommersiell användning OK

Alla modeller tillåter kommersiell användning under sina licenser. Bygga produkter, sälja tjänster och skapa kommersiellt innehåll utan royaltyer eller användaravgifter.

Vår katalog med öppen källkod

Varje modell, dess licens, och vad den gör bäst

KokoroKokoro

Free

Lightweight 82M parameter model delivering studio-quality speech with blazing-fast inference.

Fast 5/5

Bäst för: Apache 2.0 — bästa kvalitet fri modell, 82M params, lätt att själv värd

Försök Kokoro

PiperPiper

Free

A fast, local neural text to speech system optimized for Raspberry Pi and embedded devices.

Fast 3/5

Bäst för: MIT – Endast processor, perfekt för kantenheter och inbyggda självvärdande

Försök Piper

VITSVITS

Free

Conditional variational autoencoder with adversarial learning for end-to-end text-to-speech.

Fast 3/5

Bäst för: MIT – grundläggande arkitektur som används av många nedströmsmodeller

Försök VITS

BarkBark

Standard

Transformer-based text-to-audio model that generates realistic speech, music, and sound effects.

Slow 4/5

Bäst för: MIT – unika funktioner för ljudgenerering utöver standard TTS

Försök Bark

Tortoise TTSTortoise TTS

Premium

Multi-voice text-to-speech focused on quality with autoregressive architecture.

Slow 5/5 Röstförslutning

Bäst för: Apache 2.0 – maximal kvalitet, allmänt studerade referensimplementering

Försök Tortoise TTS

OpenVoiceOpenVoice

Premium

Instant voice cloning with granular control over style, emotion, and accent.

Medium 4/5 Röstförslutning

Bäst för: MIT – röstkloning med öppen källkod med granulär stilkontroll

Försök OpenVoice

Hur man använder öppen källkod TTS

Använd vår värd API eller kör modeller själv

1

Utforska öppna källkodsmodeller

Bläddra i vår katalog över 20 TTS-modeller med öppen källkod. Varje modellsida visar licens-, arkitektur-, kapacitets- och självvärdighetskrav.

2

Försök i din webbläsare

Testa vilken modell som helst direkt på [TTS.ai] utan att installera något. Våra GPU-servrar hanterar bearbetning så att du kan utvärdera kvalitet innan du åtar dig att självvärd.

3

Självupptagen eller använd vårt API

Clone modell repo från GitHub och köra lokalt, eller använda vår värd API för produktion. Själv-hosting ger full kontroll; vårt API ger hanterad infrastruktur.

4

Bygg upp din applikation

Integrera TTS i din produkt med hjälp av egna modeller eller vårt REST API. Alla modeller är kommersiellt användbara utan licensavgifter eller royalties.

Licensjämförelse

Alla modeller på TTS.ai använder kommersiellt användarvänliga licenser med öppen källkod

Förlaga Licens Kommersiell användning Ändring Självupptagen Attribut
Kokoro Apache 2.0 Krävs
Piper MIT Valfri
VITS MIT Valfri
MeloTTS MIT Valfri
Chatterbox MIT Valfri
Tortoise TTS Apache 2.0 Krävs
StyleTTS 2 MIT Valfri
OpenVoice MIT Valfri
Sesame CSM Apache 2.0 Krävs
Orpheus Llama 3.2 "Built with Llama"

Självhosting vs Hosted API

Kör modeller själv eller låt oss hantera infrastrukturen

Självupptagen på din hårdvara

Varje modell på TTS.ai är tillgänglig som ett open-source-projekt på GitHub eller Hugging Face. Ladda ner vikterna, installera beroendena och dra slutsatser på dina egna GPU:er. Du har full kontroll över latens, integritet och skalning.

  • Fullständig dataintegritet — ljud lämnar aldrig din server
  • Inga kostnader per begäran efter inledande installation
  • Anpassad finjustering av dina egna data
  • Kräver GPU-hårdvara (NVIDIA rekommenderas)
  • Du hanterar uppdateringar, skalning och beroenden

Använd TTS.ai Hosted API

Få omedelbar tillgång till alla 20+ modeller genom ett enda REST API. Vi hanterar GPU-försörjning, modelluppdateringar, köhantering och skalning. En API-nyckel ger dig tillgång till varje modell – du behöver inte hantera separata distributioner.

  • Ingen GPU-hårdvara behövs
  • Alla 20+ modeller genom ett API
  • Automatiska modelluppdateringar och förbättringar
  • 99,9 % drifttid med redundant infrastruktur
  • Betala bara för det du använder

Snabbstart: API eller självupptagen

Använd vårt värd API, eller installera Kokoro lokalt på några minuter

Alternativ 1: TTS.ai Värdat API Lättaste
import requests

response = requests.post("https://api.tts.ai/v1/tts", json={
    "text": "Open source TTS with a simple API.",
    "model": "kokoro",
    "voice": "af_heart",
    "format": "wav"
}, headers={"Authorization": "Bearer YOUR_API_KEY"})

with open("output.wav", "wb") as f:
    f.write(response.content)
Alternativ 2: Självupptagen med pip Fullständig kontroll
# Install Kokoro locally
pip install kokoro

# Generate speech on your own GPU
import kokoro

pipeline = kokoro.KPipeline(lang_code="a")
generator = pipeline("Hello from your own server!", voice="af_heart")
for i, (gs, ps, audio) in enumerate(generator):
    kokoro.save(audio, f"output_{i}.wav")

Öppna källkod, prisvärd prissättning

Vårt värd API gör öppen källkod TTS tillgänglig utan att hantera GPU:er.

Fri nivå

$0

15 hp vid anmälan

  • 4 open-source-modeller gratis
  • Ingen registrering för grundläggande användning
  • Tillåtet kommersiellt bruk

Uppstart

$9

500.000 tecken/månad

  • Alla 20+ open-source-modeller
  • Röstkloning
  • API-åtkomst

För

$29

2 000 000 tecken/månad

  • Prioriterad bearbetning av GPU
  • Alla premiummodeller
  • Stöd till företag
Visa full prissättning

Vanliga frågor

Vanliga frågor om öppen källkodstext till tal

Ja. Varje modell på TTS.ai använder en tillåtande öppen källkodslicens – antingen MIT eller Apache 2.0. Vi utesluter specifikt modeller med restriktiva licenser (som Coquis CPML eller icke-kommersiell CC-BY-NC). Du kan verifiera varje modells licens på dess GitHub arkiv.

Båda är efterlåtna open-source-licenser som tillåter kommersiell användning, modifiering och omfördelning. Apache 2.0 lägger till explicita patentbidrag och kräver att du anger ändringar om du ändrar koden. MIT är enklare med färre krav. Båda är affärsvänliga.

Ja. Varje modell kan vara självvärd. Clone modellen arkiv från GitHub, installera beroenden, ladda ner modell vikter, och köra slutsatsen. Vi tillhandahåller dokumentation för varje modells självvärdighet krav inklusive GPU, RAM, och Python version.

Kraven varierar beroende på modell. Piper behöver ingen GPU (endast CPU). Kokoro och MeloTTS behöver 1-2 GB VRAM. De flesta standardmodeller behöver 4GB VRAM. Tortoise och Sesam CSM behöver 8GB. En NVIDIA RTX 3060 (12GB) kan köra de flesta modeller bekvämt.

Ja. Licenser med öppen källkod tillåter modifiering, inklusive finjustering. Modeller som GPT-Sovits och Bark tillhandahåller finjusterande skript. Du kan träna modeller på dina egna röstdata för att skapa anpassade röster eller förbättra prestanda för specifika språk.

De bästa open-source modellerna (Kokoro, StyleTTS 2, Chatterbox) matchar nu eller överträffar kommersiella tjänster som ElevenLabs och Google TTS i kvalitetsriktmärken. Den största fördelen med kommersiella tjänster är förvaltning av infrastruktur och support, inte ljudkvalitet.

Vi har redan uteslutit dem. XTTS/XTTS-v2 (Coquis CPML – icke-kommersiell), F5-TTS (CC-BY-NC – icke-kommersiell) och Higgs-v2 (Bosonlicens – restriktiv) togs bort. Varje modell på TTS.ai är verifierad kommersiell användning säker.

Ja. De flesta modeller accepterar gemenskapsbidrag via GitHub. Du kan skicka in felrapporter, röstinspelningar för nya språk, kodförbättringar och dokumentation. Kontrollera varje modells GitHub- arkiv för bidragsriktlinjer och aktiva problem.

Ladda modeller på begäran och avlasta när du är ledig för att dela GPU-minne. Vår GPU-server kör 20+ modeller på 4x Tesla P40 (96GB total VRAM) med dynamisk laddning. För självvärdande kan en enda 24GB GPU tjäna 3-5 modeller samtidigt.

Många modeller ger officiella Docker-avbildningar eller Dockerfiler. För att köra flera modeller kan du bygga en anpassad Docker-inställning med NVIDIA Container Toolkit för GPU-åtkomst. Vår API-serverarkitektur kan fungera som en referensimplementation.

De flesta modeller kräver Python 3.10-31.12 Coqui TTS (VITS) specifikt behöver Python 3.11. Vi rekommenderar Python 3.12 för de flesta modeller. Kontrollera varje modells krav.txt för exakt version kompatibilitet.

Ja. MIT- och Apache 2.0-licenser tillåter uttryckligen kommersiell användning. Du kan bygga SaaS-produkter, mobilappar, spel och tjänster med hjälp av dessa modeller utan licensavgifter, royalties eller tilldelningskrav (även om tilldelning uppskattas).
5.0/5 (1)

Vad kan vi förbättra? Din feedback hjälper oss att lösa problem.

Försök med öppen källkod TTS idag

20+ open-source-modeller, alla kommersiellt licensierade. Använd vårt API eller självvärd – valet är ditt.