IA gratuita Testo al discorso
33+ modelli open source, 273+ voci, 33+ lingue. Nessun account richiesto.
Tutto ciò di cui hai bisogno per la voce AI
30+ strumenti alimentati da modelli AI open-source
33+ Modelli di voce AI
La collezione più completa di modelli TTS open-source in un'unica piattaforma
Kokoro Libero
Kokoro è un modello da 82 milioni di parametri testuale a bocca che punge ben al di sopra della sua classe di peso. Nonostante le sue piccole dimensioni, produce un discorso estremamente naturale ed espressivo. Kokoro supporta più lingue tra cui inglese, giapponese, cinese e coreano con una varietà di voci espressive. Corre incredibilmente veloce generando audio quasi 100x più velocemente che in tempo reale su una GPU.
Meglio per: TTS di alta qualità con latenza minima, applicazioni di streaming
Prova gratis
Piper Libero
Piper è un motore leggero da testo a bocca sviluppato da Rhasspy che utilizza architetture VITS e laringe. Funziona interamente su CPU, rendendolo ideale per dispositivi di bordo, domotica e applicazioni che richiedono TTS offline. Con oltre 100 voci in più di 30 lingue, Piper offre un discorso naturale a velocità in tempo reale anche su un Raspberry Pi 4.
Meglio per: Anteprime rapide, accessibilità e applicazioni integrate
Prova gratis
VITS Libero
VITS (Variational Inference with adversarial learning for end-to-end Text-to-Speech) è un metodo TTS parallelo end-to-end che genera un suono più naturale rispetto agli attuali modelli a due stadi. Adotta un'inferenza variante aumentata con flussi di normalizzazione e un processo di formazione adversarial, ottenendo un miglioramento significativo della naturalità.
Meglio per: Testo generale alla bocca con prosodia naturale
Prova gratis
MeloTTS Libero
MeloTTS by MyShell.ai è una libreria TTS multilingue che supporta l'inglese (americano, britannico, indiano, australiano), spagnolo, francese, cinese, giapponese e coreano. È estremamente veloce, l'elaborazione del testo a quasi velocità in tempo reale sulla CPU da sola. MeloTTS è progettato per l'uso di produzione e supporta sia CPU e GPU inferenza.
Meglio per: Applicazioni di produzione che necessitano di TTS veloce e multilingue
Prova gratis
Kani TTS 2 Libero
Kani-TTS-2 di NineNineSix è un modello di parametro 400M ultra-leggero costruito su una spina dorsale Liquid AI LFM2 con NVIDIA NanoCodec. Funziona in VRAM da soli 3GB e produce ~10 secondi di parola in ~2 secondi su un A100 (RTF 0.2). L'attuale rilascio pubblico offre un checkpoint di solo Inglese e non espone il gancio per l'inserimento di altoparlanti necessario per la clonazione vocale. L'utilizzo di Chatterbox / IndexTTS2 / F5-TTS per la clonazione, o Kokoro / MeloTTS per i non inglesi.
Meglio per: Generazione inglese veloce su hardware a bassa VRAM, anteprime rapide
Prova gratis
OuteTTS Libero
OuteTTS estende grandi modelli di lingua con funzionalità testuale a bocca pur preservando l'architettura originale. Supporta più backend tra cui lama.cpp (CPU/GPU), Hugging Face Transformers, ExLlamaV2, VLLM, e anche inferenza del browser tramite Transformers.js. Caratteristiche cloning voce a zero colpi attraverso profili di altoparlanti salvati come JSON.
Meglio per: Implementazione dei bordi, TTS basato su browser, ambienti a bassa risorsa
Prova gratis
Pocket TTS Libero
Il TTS tascabile di Kyutai (creatori di Moshi) è un compatto modello testuale da 100M che batte ben al di sopra del suo peso. Funziona in modo efficiente sulla CPU, supporta la clonazione vocale a zero colpi da un singolo campione audio e produce un suono naturale. Le piccole dimensioni del modello lo rendono ideale per la distribuzione dei bordi e ambienti a bassa risorsa.
Meglio per: Dispiegamento leggero, ambienti CPU-Solo, rapida clonazione vocale
Prova gratis
Kitten TTS Libero
Kitten TTS di KittenML è un modello ultraleggero test-to-speech costruito su ONNX. Con varianti da 15M a 80M parametri (25-80 MB su disco), offre una sintesi vocale di alta qualità sulla CPU senza richiedere una GPU. Caratteristiche 8 voci integrate, velocità di parola regolabile, e built-in preelaborazione del testo per numeri, valute e unità. Ideale per l'implementazione di bordo e applicazioni a bassa latenza.
Meglio per: Veloce TTS leggero, deployment bordo, applicazioni a bassa latenza
Prova gratis
Ming-Omni TTS Libero
Ming-omni-tts-0.5B di inclusioneAI è un compatto modello di linguaggio omni-modale costruito sulla spina dorsale densa BailingMM con un decoder audio Patch-by-Patch che abbina il flusso. Fornisce un'uscita 44.1kHz (vicino alla qualità CD), supporta la clonazione vocale a zero colpi da un 3+ secondo riferimento, e include il controllo integrato emozione / dialetto / BGM tramite istruzioni JSON. Eccellente stabilità 0,83% WER sui benchmark cinesi.
Meglio per: Narrazione bilingue ad alta fedeltà, recitazione vocale controllata dalle emozioni, contenuti audiolibri cinesi
Prova gratis
MOSS-TTS Nano Libero
MOSS-TTS-Nano-100M è la variante compatta 100M-parametro di OpenMOSS della famiglia MOSS-TTS, condividendo l'architettura del transformer del ritardo. Trasforma la qualità di picco del modello 8B per ~80x pesi più piccoli e drasticamente inferiore per-richiesta VRAM, rendendolo adatto per implementazioni free-tier e high-throughput. Stessa portata in 20 lingue.
Meglio per: TTS free-tier, produzione ad alto volume, utilizzo interattivo a bassa latenza
Prova gratis
Bark Standard
Modello testuale-audio basato sul trasformatore che genera parole, musica e effetti sonori realistici.
Sviluppatore: Suno · Licenza: MIT
Provaci.
Bark Small Standard
Versione più leggera di Bark con inferenza più veloce e utilizzo della memoria inferiore.
Sviluppatore: Suno · Licenza: MIT
Provaci.
CosyVoice 2 Standard
TTS scalabile in streaming di Alibaba con naturalezza umana-parità e latenza presso-zero.
Sviluppatore: Alibaba (Tongyi Lab) · Licenza: Apache 2.0
Provaci.
Dia TTS Standard
Modello di generazione di finestre di dialogo multialtoparlanti che crea conversazioni naturali tra altoparlanti.
Sviluppatore: Nari Labs · Licenza: Apache 2.0
Provaci.
Parler TTS Standard
Descrivi la voce che vuoi nel linguaggio naturale e Parler genera un discorso corrispondente.
Sviluppatore: Hugging Face · Licenza: Apache 2.0
Provaci.
IndexTTS-2 Standard
Zero-shot TTS con controllo delle emozioni a grana fine e alta espressività.
Sviluppatore: Index Team · Licenza: Bilibili Model License
Provaci.
Spark TTS Standard
Clonazione vocale TTS con emozione controllabile e stile parlante tramite prompt.
Sviluppatore: SparkAudio · Licenza: CC BY-NC-SA 4.0
Provaci.
GPT-SoVITS Standard
Pochi colpi di clonazione vocale TTS che replica qualsiasi voce da soli 5 secondi di audio.
Sviluppatore: RVC-Boss · Licenza: MIT
Provaci.
Orpheus Standard
Modello TTS emotivo a livello umano addestrato su 100K ore di dati vocali.
Sviluppatore: Canopy Labs · Licenza: Llama 3.2 Community
Provaci.
Qwen3 TTS Standard
TTS multilingue di Alibaba con voci preimpostate e design vocale da testo.
Sviluppatore: Alibaba (Qwen) · Licenza: Apache 2.0
Provaci.
VieNeu-TTS-v2 Standard
Switching TTS Vietnamita + Inglese con 7 voci preimpostate e clonazione vocale a zero colpi. Solo CPU, nessuna GPU richiesta.
Sviluppatore: Phạm Nguyễn Ngọc Bảo · Licenza: Apache 2.0
Provaci.
Chatterbox Turbo Standard
Più veloce Chatterbox con latenza sub-200m e tag paralinguistici per risate, tosse, e altro ancora.
Sviluppatore: Resemble AI · Licenza: MIT
Provaci.
VoxCPM Standard
TTS senza tokenizer che produce audio 44.1kHz con coerenza del paragrafo context-aware.
Sviluppatore: OpenBMB · Licenza: Apache 2.0
Provaci.
VibeVoice Standard
Modello Microsoft per contenuti multi-altoparlanti a lunga forma come podcast e audiolibri.
Sviluppatore: Microsoft · Licenza: MIT
Provaci.
CosyVoice3 Standard
TTS multilingue di nuova generazione con doppio streaming, controllo emotivo e clonazione vocale a zero colpi.
Sviluppatore: Alibaba (FunAudioLLM) · Licenza: Apache 2.0
Provaci.
NAMAA Saudi TTS Standard
Primo TTS saudita-arabo aperto. Nativo dialetto saudita con la clonazione vocale di qualità Chatterbox.
Sviluppatore: NAMAA Space · Licenza: MIT
Provaci.
Darwin TTS Standard
Variante cross-modal Qwen3-TTS con pesi FFN miscelati dal modello di linguaggio Qwen3-1.7B per la clonazione multilingue più nitida.
Sviluppatore: FINAL-Bench · Licenza: Apache 2.0
Provaci.
MOSS-TTSD Standard
Il modello di dialogo multi-altoparlante continua a generare conversazioni in stile podcast con fino a 5 altoparlanti e 60 minuti di audio coerente.
Sviluppatore: OpenMOSS · Licenza: Apache 2.0
Provaci.
CosyVoice 2
TTS scalabile in streaming di Alibaba con naturalezza umana-parità e latenza presso-zero.
Lingue: en, zh, ja, ko, fr, de, it, es
Voce clona
IndexTTS-2
Zero-shot TTS con controllo delle emozioni a grana fine e alta espressività.
Lingue: en, zh
Voce clona
Spark TTS
Clonazione vocale TTS con emozione controllabile e stile parlante tramite prompt.
Lingue: en, zh
Voce clona
GPT-SoVITS
Pochi colpi di clonazione vocale TTS che replica qualsiasi voce da soli 5 secondi di audio.
Lingue: en, zh, ja, ko
Voce clona
Chatterbox
Clonazione vocale all'avanguardia con controllo delle emozioni da parte di Resemble AI.
Lingue: en
Voce clona
Tortoise TTS
Text-to-speech multivoce focalizzato sulla qualità con architettura autoregressiva.
Lingue: en
Voce clona
OpenVoice
Clonazione vocale istantanea con controllo granulare su stile, emozione e accento.
Lingue: en, zh, ja, ko, fr, es
Voce clona
VieNeu-TTS-v2
Switching TTS Vietnamita + Inglese con 7 voci preimpostate e clonazione vocale a zero colpi. Solo CPU, nessuna GPU richiesta.
Lingue: vi, en
Voce clona
Chatterbox Turbo
Più veloce Chatterbox con latenza sub-200m e tag paralinguistici per risate, tosse, e altro ancora.
Lingue: en
Voce clona
VoxCPM
TTS senza tokenizer che produce audio 44.1kHz con coerenza del paragrafo context-aware.
Lingue: en, zh
Voce clona
OuteTTS
TTS basato su LLM che viene eseguito su CPU, GPU o browser tramite lama.cpp e Transformers.js.
Lingue: en
Voce clona
Pocket TTS
Modello leggero di parametro 100M di Kyutai con clonazione vocale da un singolo campione.
Lingue: en, fr
Voce clona
CosyVoice3
TTS multilingue di nuova generazione con doppio streaming, controllo emotivo e clonazione vocale a zero colpi.
Lingue: en, zh, ja, ko, de, es, fr, it, ru
Voce clona
NAMAA Saudi TTS
Primo TTS saudita-arabo aperto. Nativo dialetto saudita con la clonazione vocale di qualità Chatterbox.
Lingue: ar
Voce clona
Darwin TTS
Variante cross-modal Qwen3-TTS con pesi FFN miscelati dal modello di linguaggio Qwen3-1.7B per la clonazione multilingue più nitida.
Lingue: en, ko, ja, zh
Voce clona
MOSS-TTSD
Il modello di dialogo multi-altoparlante continua a generare conversazioni in stile podcast con fino a 5 altoparlanti e 60 minuti di audio coerente.
Lingue: en, zh
Voce clona
Ming-Omni TTS
Modello di linguaggio compatto 0.5B omni-modal da inclusioneAI con uscita 44.1kHz ad alta fedeltà e clonazione vocale a zero colpi.
Lingue: en, zh
Voce clona
MOSS-TTS Nano
Piccola variante MOSS-TTS 100M Stessa architettura, 80x più piccola, latenza a livello libero.
Lingue: en, zh, de, es, fr, ja, it, ko, ru, ar, pt
Voce clonaSviluppatore-Prima API
API OpenAI-compatibile REST. Un endpoint, 22+ modelli. Supporto di streaming per applicazioni in tempo reale.
- Formato compatibile con OpenAI
- Streaming TTS per applicazioni in tempo reale
- Elaborazione di lotti per lavori di grandi dimensioni
- Notificazioni Webhook
pip install ttsai
npm install @ttsainpm/ttsai
from tts_ai import TTSClient
client = TTSClient(api_key="sk-tts-xxx")
audio = client.generate(
text="Hello from TTS.ai!",
model="kokoro",
voice="af_bella",
)
client.save(audio, "output.mp3")
Prezzi semplici e trasparenti
Inizia libero. Scala come si cresce.
Libero
15.000 caratteri + 5.000/giorno
- 7 modelli gratuiti tra cui Kokoro
- 5.000 caratteri per generazione
- Accesso API incluso
Avviatore
500.000 caratteri/mese
- Tutti i modelli 22+
- 100.000 char per generazione
- Clonazione vocale
Pro
2.000.000 di caratteri/mese
- Tutto in Starter
- Accesso API
- Trattamento prioritario
Domande frequenti
Cosa potremmo migliorare? Il tuo feedback ci aiuta a risolvere i problemi.
Inizia ad usare AI Voice oggi
Unisciti a creatori, sviluppatori e imprese che utilizzano TTS.ai