IA gratuita Testo al discorso
31+ modelli open source, 231+ voci, 34+ lingue. Nessun account richiesto.
Tutto ciò di cui hai bisogno per la voce AI
30+ strumenti alimentati da modelli AI open-source
31+ Modelli di voce AI
La collezione più completa di modelli TTS open-source in un'unica piattaforma
Kokoro Libero
Kokoro è un modello da 82 milioni di parametri testuale a bocca che punge ben al di sopra della sua classe di peso. Nonostante le sue piccole dimensioni, produce un discorso estremamente naturale ed espressivo. Kokoro supporta più lingue tra cui inglese, giapponese, cinese e coreano con una varietà di voci espressive. Corre incredibilmente veloce generando audio quasi 100x più velocemente che in tempo reale su una GPU.
Meglio per: TTS di alta qualità con latenza minima, applicazioni di streaming
Prova gratis
Piper Libero
Piper è un motore leggero da testo a bocca sviluppato da Rhasspy che utilizza architetture VITS e laringe. Funziona interamente su CPU, rendendolo ideale per dispositivi di bordo, domotica e applicazioni che richiedono TTS offline. Con oltre 100 voci in più di 30 lingue, Piper offre un discorso naturale a velocità in tempo reale anche su un Raspberry Pi 4.
Meglio per: Anteprime rapide, accessibilità e applicazioni integrate
Prova gratis
VITS Libero
VITS (Variational Inference with adversarial learning for end-to-end Text-to-Speech) è un metodo TTS parallelo end-to-end che genera un suono più naturale rispetto agli attuali modelli a due stadi. Adotta un'inferenza variante aumentata con flussi di normalizzazione e un processo di formazione adversarial, ottenendo un miglioramento significativo della naturalità.
Meglio per: Testo generale alla bocca con prosodia naturale
Prova gratis
MeloTTS Libero
MeloTTS by MyShell.ai è una libreria TTS multilingue che supporta l'inglese (americano, britannico, indiano, australiano), spagnolo, francese, cinese, giapponese e coreano. È estremamente veloce, l'elaborazione del testo a quasi velocità in tempo reale sulla CPU da sola. MeloTTS è progettato per l'uso di produzione e supporta sia CPU e GPU inferenza.
Meglio per: Applicazioni di produzione che necessitano di TTS veloce e multilingue
Prova gratis
OuteTTS Libero
OuteTTS estende grandi modelli di lingua con funzionalità testuale a bocca pur preservando l'architettura originale. Supporta più backend tra cui lama.cpp (CPU/GPU), Hugging Face Transformers, ExLlamaV2, VLLM, e anche inferenza del browser tramite Transformers.js. Caratteristiche cloning voce a zero colpi attraverso profili di altoparlanti salvati come JSON.
Meglio per: Implementazione dei bordi, TTS basato su browser, ambienti a bassa risorsa
Prova gratis
Pocket TTS Libero
Il TTS tascabile di Kyutai (creatori di Moshi) è un compatto modello testuale da 100M che batte ben al di sopra del suo peso. Funziona in modo efficiente sulla CPU, supporta la clonazione vocale a zero colpi da un singolo campione audio e produce un suono naturale. Le piccole dimensioni del modello lo rendono ideale per la distribuzione dei bordi e ambienti a bassa risorsa.
Meglio per: Dispiegamento leggero, ambienti CPU-Solo, rapida clonazione vocale
Prova gratis
Kitten TTS Libero
Kitten TTS di KittenML è un modello ultraleggero test-to-speech costruito su ONNX. Con varianti da 15M a 80M parametri (25-80 MB su disco), offre una sintesi vocale di alta qualità sulla CPU senza richiedere una GPU. Caratteristiche 8 voci integrate, velocità di parola regolabile, e built-in preelaborazione del testo per numeri, valute e unità. Ideale per l'implementazione di bordo e applicazioni a bassa latenza.
Meglio per: Veloce TTS leggero, deployment bordo, applicazioni a bassa latenza
Prova gratis
Bark Standard
Modello testuale-audio basato sul trasformatore che genera parole, musica e effetti sonori realistici.
Sviluppatore: Suno · Licenza: MIT
Provaci.
Bark Small Standard
Versione più leggera di Bark con inferenza più veloce e utilizzo della memoria inferiore.
Sviluppatore: Suno · Licenza: MIT
Provaci.
CosyVoice 2 Standard
TTS scalabile in streaming di Alibaba con naturalezza umana-parità e latenza presso-zero.
Sviluppatore: Alibaba (Tongyi Lab) · Licenza: Apache 2.0
Provaci.
Dia TTS Standard
Modello di generazione di finestre di dialogo multialtoparlanti che crea conversazioni naturali tra altoparlanti.
Sviluppatore: Nari Labs · Licenza: Apache 2.0
Provaci.
Parler TTS Standard
Descrivi la voce che vuoi nel linguaggio naturale e Parler genera un discorso corrispondente.
Sviluppatore: Hugging Face · Licenza: Apache 2.0
Provaci.
GLM-TTS Standard
Ottiene il tasso di errore di carattere più basso tra i modelli TTS open-source.
Sviluppatore: Zhipu AI · Licenza: GLM-4 License
Provaci.
IndexTTS-2 Standard
Zero-shot TTS con controllo delle emozioni a grana fine e alta espressività.
Sviluppatore: Index Team · Licenza: Bilibili Model License
Provaci.
Spark TTS Standard
Clonazione vocale TTS con emozione controllabile e stile parlante tramite prompt.
Sviluppatore: SparkAudio · Licenza: CC BY-NC-SA 4.0
Provaci.
GPT-SoVITS Standard
Pochi colpi di clonazione vocale TTS che replica qualsiasi voce da soli 5 secondi di audio.
Sviluppatore: RVC-Boss · Licenza: MIT
Provaci.
Orpheus Standard
Modello TTS emotivo a livello umano addestrato su 100K ore di dati vocali.
Sviluppatore: Canopy Labs · Licenza: Llama 3.2 Community
Provaci.
Qwen3 TTS Standard
TTS multilingue di Alibaba con clonazione vocale, voci preimpostate, e progettazione vocale da testo.
Sviluppatore: Alibaba (Qwen) · Licenza: Apache 2.0
Provaci.
Chatterbox Turbo Standard
Più veloce Chatterbox con latenza sub-200m e tag paralinguistici per risate, tosse, e altro ancora.
Sviluppatore: Resemble AI · Licenza: MIT
Provaci.
Dia 2 Standard
Streaming-first conversational TTS con dialogo multi-altoparlante e paralinguistica.
Sviluppatore: Nari Labs · Licenza: Apache 2.0
Provaci.
VoxCPM Standard
TTS senza tokenizer che produce audio 44.1kHz con coerenza del paragrafo context-aware.
Sviluppatore: OpenBMB · Licenza: Apache 2.0
Provaci.
TADA Standard
Zero-allucinazione TTS con doppio allineamento testo-acustico, 5x più veloce di LLM TTS comparabile.
Sviluppatore: Hume AI · Licenza: MIT
Provaci.
VibeVoice Standard
Modello Microsoft per contenuti multi-altoparlanti a lunga forma come podcast e audiolibri.
Sviluppatore: Microsoft · Licenza: MIT
Provaci.
CosyVoice3 Standard
Next-generation multilingual TTS with bi-streaming, emotion control, and zero-shot voice cloning.
Sviluppatore: Alibaba (FunAudioLLM) · Licenza: Apache 2.0
Provaci.
CosyVoice 2
TTS scalabile in streaming di Alibaba con naturalezza umana-parità e latenza presso-zero.
Lingue: en, zh, ja, ko, fr, de, it, es
Voce clona
GLM-TTS
Ottiene il tasso di errore di carattere più basso tra i modelli TTS open-source.
Lingue: en, zh
Voce clona
IndexTTS-2
Zero-shot TTS con controllo delle emozioni a grana fine e alta espressività.
Lingue: en, zh
Voce clona
Spark TTS
Clonazione vocale TTS con emozione controllabile e stile parlante tramite prompt.
Lingue: en, zh
Voce clona
GPT-SoVITS
Pochi colpi di clonazione vocale TTS che replica qualsiasi voce da soli 5 secondi di audio.
Lingue: en, zh, ja, ko
Voce clona
Chatterbox
Clonazione vocale all'avanguardia con controllo delle emozioni da parte di Resemble AI.
Lingue: en
Voce clona
Tortoise TTS
Text-to-speech multivoce focalizzato sulla qualità con architettura autoregressiva.
Lingue: en
Voce clona
OpenVoice
Clonazione vocale istantanea con controllo granulare su stile, emozione e accento.
Lingue: en, zh, ja, ko, fr, de, es, it
Voce clona
Qwen3 TTS
TTS multilingue di Alibaba con clonazione vocale, voci preimpostate, e progettazione vocale da testo.
Lingue: en, zh, ja, ko, de, fr, ru, pt, es, it
Voce clona
Chatterbox Turbo
Più veloce Chatterbox con latenza sub-200m e tag paralinguistici per risate, tosse, e altro ancora.
Lingue: en
Voce clona
VoxCPM
TTS senza tokenizer che produce audio 44.1kHz con coerenza del paragrafo context-aware.
Lingue: en, zh
Voce clona
OuteTTS
TTS basato su LLM che viene eseguito su CPU, GPU o browser tramite lama.cpp e Transformers.js.
Lingue: en
Voce clona
Pocket TTS
Modello leggero di parametro 100M di Kyutai con clonazione vocale da un singolo campione.
Lingue: en, fr
Voce clona
CosyVoice3
Next-generation multilingual TTS with bi-streaming, emotion control, and zero-shot voice cloning.
Lingue: en, zh, ja, ko, de, es, fr, it, ru
Voce clona
MOSS-TTS
Ultra-long 20-language TTS supporting up to 1 hour of continuous generation with phoneme-level control.
Lingue: en, zh, de, es, fr, ja, it, hu, ko, ru, fa, ar, pl, pt, cs, da, sv, el, tr
Voce clona
MegaTTS3
ByteDance's sparse alignment TTS with adjustable intelligibility vs. speaker similarity.
Lingue: en, zh
Voce clonaSviluppatore-Prima API
API OpenAI-compatibile REST. Un endpoint, 22+ modelli. Supporto di streaming per applicazioni in tempo reale.
- Formato compatibile con OpenAI
- Streaming TTS per applicazioni in tempo reale
- Elaborazione di lotti per lavori di grandi dimensioni
- Notificazioni Webhook
pip install ttsai
npm install @ttsainpm/ttsai
from tts_ai import TTSClient
client = TTSClient(api_key="sk-tts-xxx")
audio = client.generate(
text="Hello from TTS.ai!",
model="kokoro",
voice="af_bella",
)
client.save(audio, "output.mp3")
Prezzi semplici e trasparenti
Inizia libero. Scala come si cresce.
Libero
15.000 caratteri
- Kokoro, Piper, VITS, MeloTTS
- Limite di 500 caratteri
- 3 gen/ora (nessun conto)
Avviatore
500.000 caratteri/mese
- Tutti i modelli 22+
- 100.000 char per generazione
- Clonazione vocale
Pro
2.000.000 di caratteri/mese
- Tutto in Starter
- Accesso API
- Trattamento prioritario
Domande frequenti
Cosa potremmo migliorare? Il tuo feedback ci aiuta a risolvere i problemi.
Inizia ad usare AI Voice oggi
Unisciti a creatori, sviluppatori e imprese che utilizzano TTS.ai