Segnala bug / richiesta di funzionalità

Open Source Text to Speech Modelli

Ogni modello di TTS sulla nostra piattaforma è open source con licenze commerciali. MIT, Apache 2.0 non ha alcun blocco proprietario, nessuna restrizione d'uso, nessuna tassa di licenza a sorpresa. Usali attraverso la nostra API ospitata, o self-host sulla propria infrastruttura con pieno controllo.

Open Source Licenza MIT Apache 2.0 Self-hostable GitHubCity name (optional, probably does not need a translation)

Editor TTS completo Documenti API

Provalo ora.

Testo
File

0/500

Gratis con Kokoro, Piper, VITS, MeloTTS

L'audio generato apparirà qui

Apri l'editor TTS completo

Vantaggi TTS Open Source

Perché i modelli open-source contano per i vostri progetti

Tutti Open-Source con licenza

Ogni modello su TTS.ai utilizza una licenza open-source permissiva. Nessuna scatola nera proprietaria, nessun blocco del fornitore, nessuna tassa di licenza inaspettata.

MIT / Apache 2.0

I modelli sono concessi in licenza sotto MIT o Apache 2.0, le licenze open-source più permisive. Utilizzare commercialmente, modificare, ridistribuire nessuna restrizione.

Self-hostable

Scarica qualsiasi modello ed eseguilo sul tuo hardware. Controllo completo dei dati, della latenza e dell'infrastruttura. Non è richiesta alcuna dipendenza dal cloud.

GPU ottimizzata

I modelli sono ottimizzati per le GPU NVIDIA con supporto CUDA. Piper funziona solo su CPU. La maggior parte dei modelli hanno bisogno di VRAM 2-8GB per un'inferenza efficiente.

Comunità Mantenuta

Le comunità attive open-source mantengono e migliorano questi modelli. I contributi sono benvenuti, i bug, i miglioramenti e le nuove voci su GitHub.

Uso commerciale OK

Tutti i modelli consentono l'uso commerciale sotto le loro licenze. Costruire prodotti, vendere servizi, e creare contenuti commerciali senza diritti o tasse di utilizzo.

Il nostro catalogo di modelli Open Source

Ogni modello, la sua licenza, e quello che fa meglio

Kokoro

Free

Lightweight 82M parameter model delivering studio-quality speech with blazing-fast inference.

Fast 5/5

Meglio per: Apache 2.0 modello gratuito di migliore qualità, 82M parami, facile da auto-ospitare

Prova Kokoro

Piper

Free

A fast, local neural text to speech system optimized for Raspberry Pi and embedded devices.

Fast 3/5

Meglio per: MIT CPU-Solo, perfetto per i dispositivi di bordo e self-hosting incorporato

Prova Piper

VITS

Free

Conditional variational autoencoder with adversarial learning for end-to-end text-to-speech.

Fast 3/5

Meglio per: Architettura fondamentale del MIT Hoppenstedt utilizzata da molti modelli a valle

Prova VITS

Bark

Standard

Transformer-based text-to-audio model that generates realistic speech, music, and sound effects.

Slow 4/5

Meglio per: Capacità uniche di generazione audio MIT oltre lo standard TTS

Prova Bark

Tortoise TTS

Premium

Multi-voice text-to-speech focused on quality with autoregressive architecture.

Slow 5/5 Clonazione vocale

Meglio per: Apache 2.0 Massima qualità, implementazione di riferimento ampiamente studiata

Prova Tortoise TTS

OpenVoice

Premium

Instant voice cloning with granular control over style, emotion, and accent.

Medium 4/5 Clonazione vocale

Meglio per: Clonazione vocale open source MIT con controllo in stile granulare

Prova OpenVoice

Come usare Open Source TTS

Utilizzare la nostra API ospitata o eseguire i modelli da soli

Esplora modelli Open-Source

Sfoglia il nostro catalogo di 20+ modelli TTS open-source. Ogni pagina dei modelli mostra i requisiti di licenza, architettura, funzionalità e auto-ospitalità.

Prova nel tuo browser

Testare qualsiasi modello direttamente su TTS.ai senza installare nulla. I nostri server GPU gestiscono l'elaborazione in modo da poter valutare la qualità prima di impegnarsi a self-hosting.

Self-Host o utilizzare la nostra API

Il modello Clone repos da GitHub ed esegui localmente, o usa la nostra API ospitata per la produzione. L'auto-hosting dà il pieno controllo; la nostra API fornisce l'infrastruttura gestita.

Costruisci la tua applicazione

Integrare TTS nel tuo prodotto utilizzando modelli auto-hosted o la nostra API REST. Tutti i modelli sono commercialmente utilizzabili senza tasse di licenza o royalties.

Confronto delle licenze

Tutti i modelli su TTS.ai utilizzano licenze open-source commerciali

Modello	Licenza	Attribuzione
Kokoro	Apache 2.0	Richiesto
Piper	MIT	Facoltativo
VITS	MIT	Facoltativo
MeloTTS	MIT	Facoltativo
Chatterbox	MIT	Facoltativo
Tortoise TTS	Apache 2.0	Richiesto
StyleTTS 2	MIT	Facoltativo
OpenVoice	MIT	Facoltativo
Sesame CSM	Apache 2.0	Richiesto
Orpheus	Llama 3.2	"Built with Llama"

Prova questi modelli gratis

Self-Hosting vs API ospitate

Eseguire modelli da soli o lasciarci gestire l'infrastruttura

Self-Host sul vostro hardware

Ogni modello su TTS.ai è disponibile come progetto open-source su GitHub o Hugging Face. Scarica i pesi, installa le dipendenze ed esegui l'inferenza sulle tue GPU. Hai il pieno controllo su latenza, privacy e scala.

Privacy completa dei dati L'audio non lascia mai il tuo server
Nessun costo per richiesta dopo la configurazione iniziale
Messa a punto personalizzata dei propri dati
Richiede hardware GPU (NVIDIA raccomandato)
Gestisci gli aggiornamenti, la scalatura e le dipendenze

Usa TTS.ai API ospitate

Ottieni l'accesso immediato a tutti i 20+ modelli tramite una singola API REST. Gestiamo il provisioning della GPU, gli aggiornamenti dei modelli, la gestione delle code e la scalatura. Una chiave API ti dà accesso a ogni modello non c'è bisogno di gestire implementazioni separate.

Nessun hardware GPU necessario
Tutti i 20+ modelli tramite una API
Aggiornamenti e miglioramenti automatici dei modelli
99,9% uptime con infrastruttura ridondante
Paga solo per quello che usi

Usa invece API ospitata

Quick Start: API o Self-Host

Utilizzare la nostra API ospitata, o installare Kokoro localmente in pochi minuti

Opzione 1: API ospitate TTS.ai Più facile

import requests

response = requests.post("https://api.tts.ai/v1/tts", json={
    "text": "Open source TTS with a simple API.",
    "model": "kokoro",
    "voice": "af_heart",
    "format": "wav"
}, headers={"Authorization": "Bearer YOUR_API_KEY"})

with open("output.wav", "wb") as f:
    f.write(response.content)

Opzione 2: Self-Host con pip Controllo completo

# Install Kokoro locally
pip install kokoro

# Generate speech on your own GPU
import kokoro

pipeline = kokoro.KPipeline(lang_code="a")
generator = pipeline("Hello from your own server!", voice="af_heart")
for i, (gs, ps, audio) in enumerate(generator):
    kokoro.save(audio, f"output_{i}.wav")

Visualizza documentazione API

Open Source, prezzi accessibili

La nostra API ospitata rende TTS open-source accessibile senza gestire le GPU.

Livello libero

15.000 caratteri al momento dell'iscrizione

4 modelli open-source gratuiti
Nessuna registrazione per l'uso di base
Uso commerciale consentito

Avviatore

500.000 caratteri/mese

Tutti i 20+ modelli open-source
Clonazione vocale
Accesso API

Pro

$29

2.000.000 di caratteri/mese

Elaborazione GPU prioritaria
Tutti i modelli premium
Sostegno alle imprese

Visualizza prezzi completi

Domande frequenti

Domande comuni sul testo open source al discorso

Sì. Ogni modello su TTS.ai utilizza una licenza open-source permissiva MIT o Apache 2.0. Esclude specificamente i modelli con licenze restrittive (come la CPML di Coqui o la CC-BY-NC non commerciale). È possibile verificare la licenza di ogni modello sul suo repository GitHub.

Entrambi sono licenze open-source permissive che consentono l'uso commerciale, la modifica e la ridistribuzione. Apache 2.0 aggiunge esplicitamente le sovvenzioni di brevetto e richiede l'indicazione di modifiche se si modifica il codice. MIT è più semplice con meno requisiti. Entrambi sono business-friendly.

Sì. Ogni modello può essere auto-hosting. Clonare il repository del modello da GitHub, installare dipendenze, scaricare i pesi del modello ed eseguire l'inferenza. Forniamo la documentazione per i requisiti auto-hosting di ogni modello tra cui la versione GPU, RAM e Python.

I requisiti variano a seconda del modello. Piper non ha bisogno di GPU (solo CPU). Kokoro e MeloTTS hanno bisogno di VRAM da 1-2GB. La maggior parte dei modelli standard hanno bisogno di VRAM da 4GB. Tortoise e CSM da 8GB. Un NVIDIA RTX 3060 (12GB) può eseguire la maggior parte dei modelli comodamente.

Sì. Le licenze open-source consentono modifiche tra cui la fine-tuning. Modelli come GPT-SoVITS e Bark forniscono script di fine-tuning. È possibile addestrare i modelli sui propri dati vocali per creare voci personalizzate o migliorare le prestazioni per specifiche lingue.

I migliori modelli open-source (Kokoro, StyleTTS 2, Chatterbox) ora corrispondono o superano i servizi commerciali come ElevenLabs e Google TTS nei benchmark di qualità. Il vantaggio principale dei servizi commerciali è l'infrastruttura e il supporto gestiti, non la qualità audio.

Li abbiamo già esclusi. Sono stati rimossi XTTS/XTTS-v2 (CPML CPML non-commerciale di Coqui), F5-TTS (CC-BY-NC Hoppenstedt non-commerciale), e Higgs-v2 (Licenza Boson Hoppenstedt restrittiva). Ogni modello su TTS.ai viene verificato in modo sicuro per uso commerciale.

Sì. La maggior parte dei modelli accetta contributi comunitari tramite GitHub. È possibile inviare segnalazioni di bug, registrazioni vocali per nuove lingue, miglioramenti del codice e documentazione. Controllare il repository GitHub di ogni modello per le linee guida sui contributi e problemi attivi.

Carica i modelli on-demand e scarica quando sono inattivi per condividere la memoria GPU. Il nostro server GPU esegue 20+ modelli su 4x Tesla P40 (VRAM totale 96GB) utilizzando il caricamento dinamico. Per self-hosting, una singola GPU da 24GB può servire contemporaneamente 3-5 modelli.

Molti modelli forniscono immagini Docker ufficiali o Dockerfiles. Per l'esecuzione di più modelli, è possibile creare una configurazione Docker personalizzata con NVIDIA Container Toolkit per l'accesso GPU. La nostra architettura server API può servire come implementazione di riferimento.

La maggior parte dei modelli richiede Python 3.10.12. Coqui TTS (VITS) ha specificamente bisogno di Python 3.11. Raccomandiamo Python 3.12 per la maggior parte dei modelli.

Sì. Le licenze MIT e Apache 2.0 consentono esplicitamente l'uso commerciale. È possibile costruire prodotti SaaS, applicazioni mobili, giochi e servizi utilizzando questi modelli senza diritti di licenza, diritti o requisiti di attribuzione (anche se l'attribuzione è apprezzata).

5.0/5 (1)

Prova Open Source TTS oggi

20+ modelli open-source, tutti in licenza commerciale. Utilizzare la nostra API o auto-host la scelta è vostra.

Iscriviti gratis Visualizza prezzi

Open Source Text to Speech Modelli

Provalo ora.

Ti piace TTS.ai? Dillo ai tuoi amici!

Vantaggi TTS Open Source

Tutti Open-Source con licenza

MIT / Apache 2.0

Self-hostable

GPU ottimizzata

Comunità Mantenuta

Uso commerciale OK

Il nostro catalogo di modelli Open Source

Kokoro

Piper

VITS

Bark

Tortoise TTS

OpenVoice

Come usare Open Source TTS

Esplora modelli Open-Source

Prova nel tuo browser

Self-Host o utilizzare la nostra API

Costruisci la tua applicazione

Confronto delle licenze

Self-Hosting vs API ospitate

Self-Host sul vostro hardware

Usa TTS.ai API ospitate

Quick Start: API o Self-Host

Open Source, prezzi accessibili

Livello libero

Avviatore

Pro

Domande frequenti

Tutti i modelli TTS.ai sono davvero open source?

Qual è la differenza tra le licenze MIT e Apache 2.0?

Posso ospitare questi modelli sul mio server?

Di quale GPU ho bisogno per ospitare i modelli TTS?

Posso perfezionare i modelli TTS open-source?

Come si confrontano i modelli TTS open-source con i servizi commerciali?

Ci sono modelli con licenze restrittive che dovrei evitare?

Posso contribuire a questi modelli open-source?

Come faccio ad eseguire più modelli su un server GPU?

C'è un'immagine Docker per self-hosting?

Quale versione di Python mi serve per essere auto-ospitata?

Posso costruire un prodotto commerciale utilizzando questi modelli?

Prova Open Source TTS oggi