IA gratuita Testo al discorso

20+ modelli open source, 107+ voci, 32+ lingue. Nessun account richiesto.

1K+
creatori
2K+
generazioni
20+
Modelli AI
107+
voci
0/500 caratteri Libero
Come TTS.ai? Dillo ai tuoi amici!

20+ Modelli di voce AI

La collezione più completa di modelli TTS open-source in un'unica piattaforma

KokoroKokoro Free

Kokoro è un modello da 82 milioni di parametri testuale a bocca che punge ben al di sopra della sua classe di peso. Nonostante le sue piccole dimensioni, produce un discorso estremamente naturale ed espressivo. Kokoro supporta più lingue tra cui inglese, giapponese, cinese e coreano con una varietà di voci espressive. Corre incredibilmente veloce generando audio quasi 100x più velocemente che in tempo reale su una GPU.

Meglio per: TTS di alta qualità con latenza minima, applicazioni di streaming

Prova gratis

PiperPiper Free

Piper è un motore leggero da testo a bocca sviluppato da Rhasspy che utilizza architetture VITS e laringe. Funziona interamente su CPU, rendendolo ideale per dispositivi di bordo, domotica e applicazioni che richiedono TTS offline. Con oltre 100 voci in più di 30 lingue, Piper offre un discorso naturale a velocità in tempo reale anche su un Raspberry Pi 4.

Meglio per: Anteprime rapide, accessibilità e applicazioni integrate

Prova gratis

VITSVITS Free

VITS (Variational Inference with adversarial learning for end-to-end Text-to-Speech) è un metodo TTS parallelo end-to-end che genera un suono più naturale rispetto agli attuali modelli a due stadi. Adotta un'inferenza variante aumentata con flussi di normalizzazione e un processo di formazione adversarial, ottenendo un miglioramento significativo della naturalità.

Meglio per: Testo generale alla bocca con prosodia naturale

Prova gratis

MeloTTSMeloTTS Free

MeloTTS by MyShell.ai è una libreria TTS multilingue che supporta l'inglese (americano, britannico, indiano, australiano), spagnolo, francese, cinese, giapponese e coreano. È estremamente veloce, l'elaborazione del testo a quasi velocità in tempo reale sulla CPU da sola. MeloTTS è progettato per l'uso di produzione e supporta sia CPU e GPU inferenza.

Meglio per: Applicazioni di produzione che necessitano di TTS veloce e multilingue

Prova gratis

BarkBark Standard

Modello testuale-audio basato sul trasformatore che genera parole, musica e effetti sonori realistici.

Sviluppatore: Suno · Licenza: MIT

Provaci.

Bark SmallBark Small Standard

Versione più leggera di Bark con inferenza più veloce e utilizzo della memoria inferiore.

Sviluppatore: Suno · Licenza: MIT

Provaci.

CosyVoice 2CosyVoice 2 Standard

TTS scalabile in streaming di Alibaba con naturalezza umana-parità e latenza presso-zero.

Sviluppatore: Alibaba (Tongyi Lab) · Licenza: Apache 2.0

Provaci.

Dia TTSDia TTS Standard

Modello di generazione di finestre di dialogo multialtoparlanti che crea conversazioni naturali tra altoparlanti.

Sviluppatore: Nari Labs · Licenza: Apache 2.0

Provaci.

Parler TTSParler TTS Standard

Descrivi la voce che vuoi nel linguaggio naturale e Parler genera un discorso corrispondente.

Sviluppatore: Hugging Face · Licenza: Apache 2.0

Provaci.

GLM-TTSGLM-TTS Standard

Ottiene il tasso di errore di carattere più basso tra i modelli TTS open-source.

Sviluppatore: Zhipu AI · Licenza: GLM-4 License

Provaci.

IndexTTS-2IndexTTS-2 Standard

Zero-shot TTS con controllo delle emozioni a grana fine e alta espressività.

Sviluppatore: Index Team · Licenza: Bilibili Model License

Provaci.

Spark TTSSpark TTS Standard

Clonazione vocale TTS con emozione controllabile e stile parlante tramite prompt.

Sviluppatore: SparkAudio · Licenza: CC BY-NC-SA 4.0

Provaci.

GPT-SoVITSGPT-SoVITS Standard

Pochi colpi di clonazione vocale TTS che replica qualsiasi voce da soli 5 secondi di audio.

Sviluppatore: RVC-Boss · Licenza: MIT

Provaci.

OrpheusOrpheus Standard

Modello TTS emotivo a livello umano addestrato su 100K ore di dati vocali.

Sviluppatore: Canopy Labs · Licenza: Llama 3.2 Community

Provaci.

Qwen3 TTSQwen3 TTS Standard

TTS multilingue di Alibaba con clonazione vocale, voci preimpostate, e progettazione vocale da testo.

Sviluppatore: Alibaba (Qwen) · Licenza: Apache 2.0

Provaci.

ChatterboxChatterbox Premium

Clonazione vocale all'avanguardia con controllo delle emozioni da parte di Resemble AI.

Qualità:

Provaci.

Tortoise TTSTortoise TTS Premium

Text-to-speech multivoce focalizzato sulla qualità con architettura autoregressiva.

Qualità:

Provaci.

StyleTTS 2StyleTTS 2 Premium

Testo-a-parlare a livello umano attraverso la diffusione dello stile e la formazione avversaria.

Qualità:

Provaci.

OpenVoiceOpenVoice Premium

Clonazione vocale istantanea con controllo granulare su stile, emozione e accento.

Qualità:

Provaci.

Sesame CSMSesame CSM Premium

Modello di discorso conversazionale che genera dialogo naturale con tempismo ed emozione appropriati.

Qualità:

Provaci.

CosyVoice 2CosyVoice 2

TTS scalabile in streaming di Alibaba con naturalezza umana-parità e latenza presso-zero.

Lingue: en, zh, ja, ko, fr, de, it, es

Voce clona

GLM-TTSGLM-TTS

Ottiene il tasso di errore di carattere più basso tra i modelli TTS open-source.

Lingue: en, zh

Voce clona

IndexTTS-2IndexTTS-2

Zero-shot TTS con controllo delle emozioni a grana fine e alta espressività.

Lingue: en, zh

Voce clona

Spark TTSSpark TTS

Clonazione vocale TTS con emozione controllabile e stile parlante tramite prompt.

Lingue: en, zh

Voce clona

GPT-SoVITSGPT-SoVITS

Pochi colpi di clonazione vocale TTS che replica qualsiasi voce da soli 5 secondi di audio.

Lingue: en, zh, ja, ko

Voce clona

ChatterboxChatterbox

Clonazione vocale all'avanguardia con controllo delle emozioni da parte di Resemble AI.

Lingue: en

Voce clona

Tortoise TTSTortoise TTS

Text-to-speech multivoce focalizzato sulla qualità con architettura autoregressiva.

Lingue: en

Voce clona

OpenVoiceOpenVoice

Clonazione vocale istantanea con controllo granulare su stile, emozione e accento.

Lingue: en, zh, ja, ko, fr, de, es, it

Voce clona

Qwen3 TTSQwen3 TTS

TTS multilingue di Alibaba con clonazione vocale, voci preimpostate, e progettazione vocale da testo.

Lingue: en, zh, ja, ko, de, fr, ru, pt, es, it

Voce clona

Sviluppatore-Prima API

API OpenAI-compatibile REST. Un endpoint, 22+ modelli. Supporto di streaming per applicazioni in tempo reale.

  • Formato compatibile con OpenAI
  • Streaming TTS per applicazioni in tempo reale
  • Elaborazione di lotti per lavori di grandi dimensioni
  • Notificazioni Webhook
Visualizza documenti API
pip install ttsai npm install @ttsainpm/ttsai
Python
from tts_ai import TTSClient

client = TTSClient(api_key="sk-tts-xxx")
audio = client.generate(
    text="Hello from TTS.ai!",
    model="kokoro",
    voice="af_bella",
)
client.save(audio, "output.mp3")

Prezzi semplici e trasparenti

Inizia libero. Scala come si cresce.

Libero

$0

15,000 characters

  • Kokoro, Piper, VITS, MeloTTS
  • Limite di 500 caratteri
  • 3 gen/ora (nessun conto)
Iscriviti gratis

Avviatore

$9/mo

500,000 characters/month

  • Tutti i modelli 22+
  • 100,000 chars per generation
  • Clonazione vocale
Inizia
Più popolare

Pro

$29/mo

2,000,000 characters/month

  • Tutto in Starter
  • Accesso API
  • Trattamento prioritario
Get Pro

Affari

$99/mo

10,000,000 characters/month

  • Tutto in Pro
  • API di massa
  • Coda prioritaria
Ottenere affari

Visualizza tutti i piani inclusi i pacchetti di caratteri →

Domande frequenti

TTS.ai è la piattaforma vocale AI più completa, che offre oltre 22 modelli da testo a parola, clonatura vocale, speech-to-text e strumenti audio. Tutti i modelli sono open source senza lock-in fornitore.

Sì! TTS.ai offre gratuitamente testo a parola con Kokoro, Piper, VITS e modelli MeloTTS. Nessun account richiesto. Iscriviti per ottenere 15.000 caratteri gratuiti e accedere a tutti i modelli. I piani a pagamento iniziano a $9/mese.

Per la velocità, utilizzare Kokoro o Piper. Per la qualità, provare CosyVoice 2 o StyleTTS 2. Per la clonazione vocale, utilizzare Chatterbox o GPT-SoVITS. Per la finestra di dialogo, utilizzare Dia TTS. Provare più modelli sullo stesso testo per confrontare.

Sì. API OpenAI-compatibile REST per TTS, STT, cloning vocale, e strumenti audio. Disponibile su piani Pro ($29/mo) e Enterprise ($99/mo). Visualizza la documentazione su tts.ai/api/.

La qualità della voce varia a seconda del modello. Modelli premium come CosyVoice 2, StyleTTS 2, e Chatterbox producono discorsi di qualità quasi umana con intonazione naturale ed emozione. Modelli gratuiti come Kokoro offrono qualità eccellente per la maggior parte dei casi di utilizzo.

TTS.ai supporta 30+ lingue in tutta la sua libreria modello. Inglese ha il più ampio supporto modello, ma modelli come CosyVoice 2 copertura cinese, giapponese e coreano; GPT-SoVITS gestisce cinese, giapponese, coreano e inglese; e MeloTTS supporta inglese, spagnolo, francese, cinese, giapponese e coreano.

Sì. Tutte le elaborazioni avvengono sui nostri server GPU dedicati. Non memorizziamo il tuo input di testo o l'audio generato dopo la consegna. I campioni vocali caricati per la clonazione vengono utilizzati solo per la sessione corrente e non vengono mantenuti. Non condividiamo mai i tuoi dati con terze parti o li usiamo per addestrare i modelli.

Sì. Tutto l'audio generato su TTS.ai è tuo da usare commercialmente, inclusi video su YouTube, podcast, audiolibri, app, pubblicità e prodotti. I nostri modelli sono open source sotto licenze permissive (MIT, Apache 2.0). Non sono richieste royalties o attribuzioni.

TTS.ai genera audio in formato WAV per impostazione predefinita per la massima qualità. È possibile convertire in MP3, FLAC, OGG o M4A utilizzando il nostro strumento gratuito Audio Converter. L'API supporta specificare il formato di output preferito direttamente nella richiesta.

Caricare un breve campione audio (fino a 5 secondi) della voce che si desidera clonare, quindi digitare qualsiasi testo per generare discorso in quella voce. Modelli come Chatterbox, GPT-SoVITS e CosyVoice 2 supportano la clonazione vocale. La voce clonata cattura tono, accento e stile parlante.

I modelli gratuiti (Kokoro, Piper, VITS, MeloTTS) non richiedono alcun account e costo zero caratteri. I modelli standard (2.000 caratteri in ingresso/1K) includono Bark, CosyVoice 2, F5-TTS e Dia. I modelli Premium (4.000 caratteri in ingresso/1K) includono OpenVoice, Chatterbox, StyleTTS 2, e Tortoise. I modelli a pagamento offrono generalmente una qualità superiore, più voci e funzionalità aggiuntive come la clonazione vocale.

Sì. L'API supporta l'elaborazione in batch per convertire grandi volumi di testo in discorso. Inviare più richieste e recuperare i risultati in modo asincrono utilizzando job UUID. I piani aziendali ($99/mo) includono l'accesso prioritario alla coda per l'elaborazione in batch più veloce. Ideale per la produzione di audiolibro, contenuti del corso e grandi progetti di voiceover su larga scala.
4.0/5 (8)

Inizia ad usare AI Voice oggi

Unisciti a creatori, sviluppatori e imprese che utilizzano TTS.ai