IA gratuita Testo al discorso

31+ modelli open source, 231+ voci, 34+ lingue. Nessun account richiesto.

8K+
creatori
30K+
generazioni
31+
Modelli AI
231+
voci
0/500 caratteri · Sign up for 5,000 per generation → Libero
Ti piace TTS.ai? Dillo ai tuoi amici!

Tutto ciò di cui hai bisogno per la voce AI

30+ strumenti alimentati da modelli AI open-source

31+ Modelli di voce AI

La collezione più completa di modelli TTS open-source in un'unica piattaforma

KokoroKokoro Libero

Kokoro è un modello da 82 milioni di parametri testuale a bocca che punge ben al di sopra della sua classe di peso. Nonostante le sue piccole dimensioni, produce un discorso estremamente naturale ed espressivo. Kokoro supporta più lingue tra cui inglese, giapponese, cinese e coreano con una varietà di voci espressive. Corre incredibilmente veloce generando audio quasi 100x più velocemente che in tempo reale su una GPU.

Meglio per: TTS di alta qualità con latenza minima, applicazioni di streaming

Prova gratis

PiperPiper Libero

Piper è un motore leggero da testo a bocca sviluppato da Rhasspy che utilizza architetture VITS e laringe. Funziona interamente su CPU, rendendolo ideale per dispositivi di bordo, domotica e applicazioni che richiedono TTS offline. Con oltre 100 voci in più di 30 lingue, Piper offre un discorso naturale a velocità in tempo reale anche su un Raspberry Pi 4.

Meglio per: Anteprime rapide, accessibilità e applicazioni integrate

Prova gratis

VITSVITS Libero

VITS (Variational Inference with adversarial learning for end-to-end Text-to-Speech) è un metodo TTS parallelo end-to-end che genera un suono più naturale rispetto agli attuali modelli a due stadi. Adotta un'inferenza variante aumentata con flussi di normalizzazione e un processo di formazione adversarial, ottenendo un miglioramento significativo della naturalità.

Meglio per: Testo generale alla bocca con prosodia naturale

Prova gratis

MeloTTSMeloTTS Libero

MeloTTS by MyShell.ai è una libreria TTS multilingue che supporta l'inglese (americano, britannico, indiano, australiano), spagnolo, francese, cinese, giapponese e coreano. È estremamente veloce, l'elaborazione del testo a quasi velocità in tempo reale sulla CPU da sola. MeloTTS è progettato per l'uso di produzione e supporta sia CPU e GPU inferenza.

Meglio per: Applicazioni di produzione che necessitano di TTS veloce e multilingue

Prova gratis

OuteTTSOuteTTS Libero

OuteTTS estende grandi modelli di lingua con funzionalità testuale a bocca pur preservando l'architettura originale. Supporta più backend tra cui lama.cpp (CPU/GPU), Hugging Face Transformers, ExLlamaV2, VLLM, e anche inferenza del browser tramite Transformers.js. Caratteristiche cloning voce a zero colpi attraverso profili di altoparlanti salvati come JSON.

Meglio per: Implementazione dei bordi, TTS basato su browser, ambienti a bassa risorsa

Prova gratis

Pocket TTSPocket TTS Libero

Il TTS tascabile di Kyutai (creatori di Moshi) è un compatto modello testuale da 100M che batte ben al di sopra del suo peso. Funziona in modo efficiente sulla CPU, supporta la clonazione vocale a zero colpi da un singolo campione audio e produce un suono naturale. Le piccole dimensioni del modello lo rendono ideale per la distribuzione dei bordi e ambienti a bassa risorsa.

Meglio per: Dispiegamento leggero, ambienti CPU-Solo, rapida clonazione vocale

Prova gratis

Kitten TTSKitten TTS Libero

Kitten TTS di KittenML è un modello ultraleggero test-to-speech costruito su ONNX. Con varianti da 15M a 80M parametri (25-80 MB su disco), offre una sintesi vocale di alta qualità sulla CPU senza richiedere una GPU. Caratteristiche 8 voci integrate, velocità di parola regolabile, e built-in preelaborazione del testo per numeri, valute e unità. Ideale per l'implementazione di bordo e applicazioni a bassa latenza.

Meglio per: Veloce TTS leggero, deployment bordo, applicazioni a bassa latenza

Prova gratis

BarkBark Standard

Modello testuale-audio basato sul trasformatore che genera parole, musica e effetti sonori realistici.

Sviluppatore: Suno · Licenza: MIT

Provaci.

Bark SmallBark Small Standard

Versione più leggera di Bark con inferenza più veloce e utilizzo della memoria inferiore.

Sviluppatore: Suno · Licenza: MIT

Provaci.

CosyVoice 2CosyVoice 2 Standard

TTS scalabile in streaming di Alibaba con naturalezza umana-parità e latenza presso-zero.

Sviluppatore: Alibaba (Tongyi Lab) · Licenza: Apache 2.0

Provaci.

Dia TTSDia TTS Standard

Modello di generazione di finestre di dialogo multialtoparlanti che crea conversazioni naturali tra altoparlanti.

Sviluppatore: Nari Labs · Licenza: Apache 2.0

Provaci.

Parler TTSParler TTS Standard

Descrivi la voce che vuoi nel linguaggio naturale e Parler genera un discorso corrispondente.

Sviluppatore: Hugging Face · Licenza: Apache 2.0

Provaci.

GLM-TTSGLM-TTS Standard

Ottiene il tasso di errore di carattere più basso tra i modelli TTS open-source.

Sviluppatore: Zhipu AI · Licenza: GLM-4 License

Provaci.

IndexTTS-2IndexTTS-2 Standard

Zero-shot TTS con controllo delle emozioni a grana fine e alta espressività.

Sviluppatore: Index Team · Licenza: Bilibili Model License

Provaci.

Spark TTSSpark TTS Standard

Clonazione vocale TTS con emozione controllabile e stile parlante tramite prompt.

Sviluppatore: SparkAudio · Licenza: CC BY-NC-SA 4.0

Provaci.

GPT-SoVITSGPT-SoVITS Standard

Pochi colpi di clonazione vocale TTS che replica qualsiasi voce da soli 5 secondi di audio.

Sviluppatore: RVC-Boss · Licenza: MIT

Provaci.

OrpheusOrpheus Standard

Modello TTS emotivo a livello umano addestrato su 100K ore di dati vocali.

Sviluppatore: Canopy Labs · Licenza: Llama 3.2 Community

Provaci.

Qwen3 TTSQwen3 TTS Standard

TTS multilingue di Alibaba con clonazione vocale, voci preimpostate, e progettazione vocale da testo.

Sviluppatore: Alibaba (Qwen) · Licenza: Apache 2.0

Provaci.

Chatterbox TurboChatterbox Turbo Standard

Più veloce Chatterbox con latenza sub-200m e tag paralinguistici per risate, tosse, e altro ancora.

Sviluppatore: Resemble AI · Licenza: MIT

Provaci.

Dia 2Dia 2 Standard

Streaming-first conversational TTS con dialogo multi-altoparlante e paralinguistica.

Sviluppatore: Nari Labs · Licenza: Apache 2.0

Provaci.

VoxCPMVoxCPM Standard

TTS senza tokenizer che produce audio 44.1kHz con coerenza del paragrafo context-aware.

Sviluppatore: OpenBMB · Licenza: Apache 2.0

Provaci.

TADATADA Standard

Zero-allucinazione TTS con doppio allineamento testo-acustico, 5x più veloce di LLM TTS comparabile.

Sviluppatore: Hume AI · Licenza: MIT

Provaci.

VibeVoiceVibeVoice Standard

Modello Microsoft per contenuti multi-altoparlanti a lunga forma come podcast e audiolibri.

Sviluppatore: Microsoft · Licenza: MIT

Provaci.

CosyVoice3CosyVoice3 Standard

Next-generation multilingual TTS with bi-streaming, emotion control, and zero-shot voice cloning.

Sviluppatore: Alibaba (FunAudioLLM) · Licenza: Apache 2.0

Provaci.

ChatterboxChatterbox Premio

Clonazione vocale all'avanguardia con controllo delle emozioni da parte di Resemble AI.

Qualità:

Provaci.

Tortoise TTSTortoise TTS Premio

Text-to-speech multivoce focalizzato sulla qualità con architettura autoregressiva.

Qualità:

Provaci.

StyleTTS 2StyleTTS 2 Premio

Testo-a-parlare a livello umano attraverso la diffusione dello stile e la formazione avversaria.

Qualità:

Provaci.

OpenVoiceOpenVoice Premio

Clonazione vocale istantanea con controllo granulare su stile, emozione e accento.

Qualità:

Provaci.

Sesame CSMSesame CSM Premio

Modello di discorso conversazionale che genera dialogo naturale con tempismo ed emozione appropriati.

Qualità:

Provaci.

MOSS-TTSMOSS-TTS Premio

Ultra-long 20-language TTS supporting up to 1 hour of continuous generation with phoneme-level control.

Qualità:

Provaci.

MegaTTS3MegaTTS3 Premio

ByteDance's sparse alignment TTS with adjustable intelligibility vs. speaker similarity.

Qualità:

Provaci.

CosyVoice 2CosyVoice 2

TTS scalabile in streaming di Alibaba con naturalezza umana-parità e latenza presso-zero.

Lingue: en, zh, ja, ko, fr, de, it, es

Voce clona

GLM-TTSGLM-TTS

Ottiene il tasso di errore di carattere più basso tra i modelli TTS open-source.

Lingue: en, zh

Voce clona

IndexTTS-2IndexTTS-2

Zero-shot TTS con controllo delle emozioni a grana fine e alta espressività.

Lingue: en, zh

Voce clona

Spark TTSSpark TTS

Clonazione vocale TTS con emozione controllabile e stile parlante tramite prompt.

Lingue: en, zh

Voce clona

GPT-SoVITSGPT-SoVITS

Pochi colpi di clonazione vocale TTS che replica qualsiasi voce da soli 5 secondi di audio.

Lingue: en, zh, ja, ko

Voce clona

ChatterboxChatterbox

Clonazione vocale all'avanguardia con controllo delle emozioni da parte di Resemble AI.

Lingue: en

Voce clona

Tortoise TTSTortoise TTS

Text-to-speech multivoce focalizzato sulla qualità con architettura autoregressiva.

Lingue: en

Voce clona

OpenVoiceOpenVoice

Clonazione vocale istantanea con controllo granulare su stile, emozione e accento.

Lingue: en, zh, ja, ko, fr, de, es, it

Voce clona

Qwen3 TTSQwen3 TTS

TTS multilingue di Alibaba con clonazione vocale, voci preimpostate, e progettazione vocale da testo.

Lingue: en, zh, ja, ko, de, fr, ru, pt, es, it

Voce clona

Chatterbox TurboChatterbox Turbo

Più veloce Chatterbox con latenza sub-200m e tag paralinguistici per risate, tosse, e altro ancora.

Lingue: en

Voce clona

VoxCPMVoxCPM

TTS senza tokenizer che produce audio 44.1kHz con coerenza del paragrafo context-aware.

Lingue: en, zh

Voce clona

OuteTTSOuteTTS

TTS basato su LLM che viene eseguito su CPU, GPU o browser tramite lama.cpp e Transformers.js.

Lingue: en

Voce clona

Pocket TTSPocket TTS

Modello leggero di parametro 100M di Kyutai con clonazione vocale da un singolo campione.

Lingue: en, fr

Voce clona

CosyVoice3CosyVoice3

Next-generation multilingual TTS with bi-streaming, emotion control, and zero-shot voice cloning.

Lingue: en, zh, ja, ko, de, es, fr, it, ru

Voce clona

MOSS-TTSMOSS-TTS

Ultra-long 20-language TTS supporting up to 1 hour of continuous generation with phoneme-level control.

Lingue: en, zh, de, es, fr, ja, it, hu, ko, ru, fa, ar, pl, pt, cs, da, sv, el, tr

Voce clona

MegaTTS3MegaTTS3

ByteDance's sparse alignment TTS with adjustable intelligibility vs. speaker similarity.

Lingue: en, zh

Voce clona

Sviluppatore-Prima API

API OpenAI-compatibile REST. Un endpoint, 22+ modelli. Supporto di streaming per applicazioni in tempo reale.

  • Formato compatibile con OpenAI
  • Streaming TTS per applicazioni in tempo reale
  • Elaborazione di lotti per lavori di grandi dimensioni
  • Notificazioni Webhook
Visualizza documenti API
pip install ttsai npm install @ttsainpm/ttsai
Python
from tts_ai import TTSClient

client = TTSClient(api_key="sk-tts-xxx")
audio = client.generate(
    text="Hello from TTS.ai!",
    model="kokoro",
    voice="af_bella",
)
client.save(audio, "output.mp3")

Prezzi semplici e trasparenti

Inizia libero. Scala come si cresce.

Libero

$0

15.000 caratteri

  • Kokoro, Piper, VITS, MeloTTS
  • Limite di 500 caratteri
  • 3 gen/ora (nessun conto)
Iscriviti gratis

Avviatore

$9/mo

500.000 caratteri/mese

  • Tutti i modelli 22+
  • 100.000 char per generazione
  • Clonazione vocale
Inizia
Più popolare

Pro

$29/mo

2.000.000 di caratteri/mese

  • Tutto in Starter
  • Accesso API
  • Trattamento prioritario
Get Pro

Affari

$99/mo

10.000.000 caratteri/mese

  • Tutto in Pro
  • API di massa
  • Coda prioritaria
Ottenere affari

Visualizza tutti i piani inclusi i pacchetti di caratteri →

Domande frequenti

TTS.ai è la piattaforma vocale AI più completa, che offre oltre 22 modelli da testo a parola, cloning vocale, speech-to-text e strumenti audio. Tutti i modelli sono open source senza lock-in fornitore.

Sì! TTS.ai offre gratuitamente testo a parola con Kokoro, Piper, VITS e modelli MeloTTS. Nessun account richiesto. Iscriviti per ottenere 15.000 caratteri gratuiti e accedere a tutti i modelli. I piani a pagamento iniziano a $9/mese.

Per la velocità, utilizzare Kokoro o Piper. Per la qualità, provare CosyVoice 2 o StyleTTS 2. Per la clonazione vocale, utilizzare Chatterbox o GPT-SoVITS. Per la finestra di dialogo, utilizzare Dia TTS. Provare più modelli sullo stesso testo per confrontare.

Sì. API OpenAI-compatibile REST per TTS, STT, cloning vocale, e strumenti audio. Disponibile su piani Pro ($29/mo) e Enterprise ($99/mo). Visualizza la documentazione su tts.ai/api/.

La qualità della voce varia a seconda del modello. Modelli premium come CosyVoice 2, StyleTTS 2, e Chatterbox producono discorsi di qualità quasi umana con intonazione naturale ed emozione. Modelli gratuiti come Kokoro offrono qualità eccellente per la maggior parte dei casi di utilizzo.

TTS.ai supporta 30+ lingue in tutta la sua libreria modello. Inglese ha il più ampio supporto modello, ma modelli come CosyVoice 2 copertura cinese, giapponese e coreano; GPT-SoVITS gestisce cinese, giapponese, coreano e inglese; e MeloTTS supporta inglese, spagnolo, francese, cinese, giapponese e coreano.

Sì. Tutte le elaborazioni avvengono sui nostri server GPU dedicati. Non memorizziamo il tuo input di testo o l'audio generato dopo la consegna. I campioni vocali caricati per la clonazione vengono utilizzati solo per la sessione corrente e non vengono mantenuti. Non condividiamo mai i tuoi dati con terze parti o li usiamo per addestrare i modelli.

Sì. Tutto l'audio generato su TTS.ai è tuo da usare commercialmente, inclusi video su YouTube, podcast, audiolibri, app, pubblicità e prodotti. I nostri modelli sono open source sotto licenze permissive (MIT, Apache 2.0). Non sono richieste royalties o attribuzioni.

TTS.ai genera audio in formato WAV di default per la massima qualità. È possibile convertire in MP3, FLAC, OGG, o M4A utilizzando il nostro strumento gratuito Audio Converter. L'API supporta specificare il formato di output preferito direttamente nella richiesta.

Caricare un breve campione audio (fino a 5 secondi) della voce che si desidera clonare, quindi digitare qualsiasi testo per generare discorso in quella voce. Modelli come Chatterbox, GPT-SoVITS e CosyVoice 2 supportano la clonazione vocale. La voce clonata cattura tono, accento e stile parlante.

I modelli gratuiti (Kokoro, Piper, VITS, MeloTTS) non richiedono alcun account e costo zero caratteri. I modelli standard (2.000 caratteri in ingresso/1K) includono Bark, CosyVoice 2, F5-TTS e Dia. I modelli Premium (4.000 caratteri in ingresso/1K) includono OpenVoice, Chatterbox, StyleTTS 2, e Tortoise. I modelli a pagamento offrono generalmente una qualità superiore, più voci e funzionalità aggiuntive come la clonazione vocale.

Sì. L'API supporta l'elaborazione in batch per convertire grandi volumi di testo in discorso. Inviare più richieste e recuperare i risultati in modo asincrono utilizzando job UUID. I piani aziendali ($99/mo) includono l'accesso prioritario alla coda per l'elaborazione in batch più veloce. Ideale per la produzione di audiolibro, contenuti del corso e grandi progetti di voiceover su larga scala.
4.1/5 (21)

Cosa potremmo migliorare? Il tuo feedback ci aiuta a risolvere i problemi.

Inizia ad usare AI Voice oggi

Unisciti a creatori, sviluppatori e imprese che utilizzano TTS.ai