IA gratuita Testo al discorso

Parametri 82M Ultraveloce Voci espressive Multilingue Supporto per lo streaming

Modello leggero di parametro 82M che fornisce un discorso di qualità da studio con un'inferenza veloce e sfolgorante.

Veloce · 1.5GB VRAM Provaci.

Piper

CPU-friendly Non in linea in grado 100+ voci 35+ lingue Sostegno SSML

Un veloce, locale testo neurale al sistema vocale ottimizzato per Raspberry Pi e dispositivi incorporati.

Veloce · 0 (CPU only) VRAM Provaci.

VITS

Sintesi end-to-end Prosodia naturale Inferenza rapida Altoparlanti multipli

Autoencoder variantele condizionale con apprendimento adversarial per il testo end-to-end-to-speech.

Veloce · 1GB VRAM Provaci.

MeloTTS

CPU ottimizzata Multilingue accenti multipli Pronti per la produzione Bassa latenza

Testo multilingue di alta qualità che gira su CPU con latenza minima.

Veloce · 0.5GB (GPU optional) VRAM Provaci.

Bark

Effetti sonori Ridere/sospirare Generazione musicale 100+ altoparlanti Multilingue

Modello testuale-audio basato sul trasformatore che genera parole, musica e effetti sonori realistici.

Lento · 5GB VRAM Provaci.

Bark Small

Leggero Più veloce della Corteccia completa Discorso emotivo Multilingue

Versione più leggera di Bark con inferenza più veloce e utilizzo della memoria inferiore.

Media · 2GB VRAM Provaci.

CosyVoice 2

StreamingCity name (optional, probably does not need a translation) Clonazione a zero colpi Cross-lingue Controllo dell'emozione Parità umana

TTS scalabile in streaming di Alibaba con naturalezza umana-parità e latenza presso-zero.

Dia TTS

Multialtoparlante Generazione finestre di dialogo Turn-taking naturale Espressione emotiva Parametri 1.6B

Modello di generazione di finestre di dialogo multialtoparlanti che crea conversazioni naturali tra altoparlanti.

Parler TTS

Descrizione vocale Controllo del linguaggio naturale Creazione flessibile della voce Nessuna voce preimpostata necessaria

Descrivi la voce che vuoi nel linguaggio naturale e Parler genera un discorso corrispondente.

Indic Parler TTS

11 lingue indiane Descrizione vocale Controllo del linguaggio naturale Pronuncia autentica indica

Discorso di alta qualità per 8+ lingue indiane con controllo vocale in lingua naturale.

Lento · 8GB VRAM Provaci.

KhanomTan TTS

TTS tailandese Altoparlanti multipli Architettura YourTTS Licenza di sicurezza commerciale

Tailandese-primo testo a-parlare con una scelta di voci di altoparlanti.

Veloce · 2GB VRAM Provaci.

IndexTTS-2

Controllo dell'emozione Zero-shot Vettori di emozione Discorso espressivo Controllo a grana fine

Zero-shot TTS con controllo delle emozioni a grana fine e alta espressività.

Spark TTS

Clonazione vocale Controllo dell'emozione Controllo stile Basato su un prompt Clonazione di 5 secondi

Clonazione vocale TTS con emozione controllabile e stile parlante tramite prompt.

GPT-SoVITS

Clonazione di 5 secondi Cantare voce Apprendimento in pochi punti Alta fedeltà Cross-lingue

Pochi colpi di clonazione vocale TTS che replica qualsiasi voce da soli 5 secondi di audio.

Lento · 6GB VRAM Provaci.

Orpheus

Emozione a livello umano Allenamento di 100K ore Enfasi naturale Discorso espressivo

Modello TTS emotivo a livello umano addestrato su 100K ore di dati vocali.

Chatterbox

Clonazione a zero colpi Controllo dell'emozione Alta fedeltà Trasferimento stile Clonazione a campione singolo

Clonazione vocale all'avanguardia con controllo delle emozioni da parte di Resemble AI.

Tortoise TTS

Massima qualità Multivoce Architettura Dall-E Clonazione vocale Autoregressivo

Text-to-speech multivoce focalizzato sulla qualità con architettura autoregressiva.

Lento · 8GB VRAM Provaci.

StyleTTS 2

Livello umano Diffusione dello stile Formazione adversale Variazione naturale Alta fedeltà

Testo-a-parlare a livello umano attraverso la diffusione dello stile e la formazione avversaria.

OpenVoice

Clonazione istantanea Conversione vocale Controllo dell'emozione Controllo dell'accento Multilingue

Clonazione vocale istantanea con controllo granulare su stile, emozione e accento.

Qwen3 TTS

9 voci preimpostate Progettazione vocale da testo Controllo dell'emozione 10 lingue

TTS multilingue di Alibaba con voci preimpostate e design vocale da testo.

Media · 7GB VRAM Provaci.

VieNeu-TTS-v2

7 voci preimpostate (accento nord + sud) Interruttore di codice En-Vi Clonazione vocale (riferimento di 3-5s) Supporto podcast / multi-altoparlante Solo CPU non è richiesta alcuna GPU

Switching TTS Vietnamita + Inglese con 7 voci preimpostate e clonazione vocale a zero colpi. Solo CPU, nessuna GPU richiesta.

Veloce · CPU VRAM Provaci.

Sesame CSM

Conversazionale Tempismo naturale Turn-taking BackchannelCity name (optional, probably does not need a translation) Parametri 1B

Modello di discorso conversazionale che genera dialogo naturale con tempismo ed emozione appropriati.

Lento · 8GB VRAM Provaci.

Chatterbox Turbo

Latenza sub-200m Etichette paralinguistiche 6x in tempo reale Clonazione vocale Filigrana

Più veloce Chatterbox con latenza sub-200m e tag paralinguistici per risate, tosse, e altro ancora.

Veloce · 2GB VRAM Provaci.

VoxCPM

Audio 44.1kHz Senza tokenizer Clonazione interlinguistica Consapevole del contesto LORA fine-tuning

TTS senza tokenizer che produce audio 44.1kHz con coerenza del paragrafo context-aware.

Veloce · 4GB VRAM Provaci.

Kani TTS 2

VRAM da 3GB Ultraveloce Leggero NanoCodec Libero

Modello TTS inglese da 400M ultraleggero in soli 3GB di VRAM.

Veloce · 3GB VRAM Provaci.

OuteTTS

Inferenza della CPU Inferenza del browser Backend multipli Profili di altoparlanti

TTS basato su LLM che viene eseguito su CPU, GPU o browser tramite lama.cpp e Transformers.js.

Lento · 2GB VRAM Provaci.

VibeVoice

Multialtoparlante Fino a 90 min Generazione di podcast Coerenza dei diffusori 200m di streaming

Modello Microsoft per contenuti multi-altoparlanti a lunga forma come podcast e audiolibri.

Veloce · 4GB VRAM Provaci.

Pocket TTS

Parametri 100M Inferenza della CPU Clonazione vocale Clonazione a campione singolo Pronti per il bordo

Modello leggero di parametro 100M di Kyutai con clonazione vocale da un singolo campione.

Veloce · 1GB VRAM Provaci.

Kitten TTS

Inferenza solo CPU Meno di 80MB di dimensione del modello 8 voci integrate Controllo della velocità ONNX-based Uscita 24kHz

TTS ultraleggero sotto gli 80MB. Funziona sulla CPU senza GPU.

Veloce · 0GB VRAM Provaci.

CosyVoice3

Bi-streaming Controllo dell'emozione Clonazione vocale Controllo velocità/volume Istruzione successiva

TTS multilingue di nuova generazione con doppio streaming, controllo emotivo e clonazione vocale a zero colpi.

Veloce · 4GB VRAM Provaci.

NAMAA Saudi TTS

Dialetto arabo saudita Moderno Arabo Standard Clonazione vocale a zero colpi Controllo dell'emozione Pronunciazione nativa

Primo TTS saudita-arabo aperto. Nativo dialetto saudita con la clonazione vocale di qualità Chatterbox.

Media · 6GB VRAM Provaci.

Darwin TTS

Clonazione vocale Cross-lingue FFN-blended 4 lingue principali Spina dorsale Qwen3

Variante cross-modal Qwen3-TTS con pesi FFN miscelati dal modello di linguaggio Qwen3-1.7B per la clonazione multilingue più nitida.

Media · 7GB VRAM Provaci.

MOSS-TTSD

Dialogo multi-altoparlanti Fino a 5 altoparlanti Audio coerente 60min Clonazione vocale Podcast ottimizzato

Il modello di dialogo multi-altoparlante continua a generare conversazioni in stile podcast con fino a 5 altoparlanti e 60 minuti di audio coerente.

Media · 12GB VRAM Provaci.

Ming-Omni TTS

Uscita 44.1kHz Clonazione vocale Controllo dell'emozione Controllo dialetto Generazione BGM Compatto 0.5B

Modello di linguaggio compatto 0.5B omni-modal da inclusioneAI con uscita 44.1kHz ad alta fedeltà e clonazione vocale a zero colpi.

Media · 3GB VRAM Provaci.

MOSS-TTS Nano