IA libre Texto a vozComment

Parámetros de 82M Ultrarrápido Voces expresivas Multilingüe Soporte de transmisión

Modelo de parámetro lixeiro de 82M que ofrece voz de calidade de estudio con inferencia ultrarrápida.

Rápido · 1.5GB VRAM Inténtao

Piper

Amigable coa CPU Capaz de traballar sen conexión Máis de 100 voces 30+ linguas Soporte de SSML

Un rápido sistema neural local de síntese de voz optimizado para Raspberry Pi e dispositivos incorporados.

Rápido · 0 (CPU only) VRAM Inténtao

VITS

Síntese completa Prosodia natural Inferencia rápida Múltiplos altofalantes

Codificador automático de variación condicional con aprendizaxe competitiva para a síntese de voz de principio a fin.

Rápido · 1GB VRAM Inténtao

MeloTTS

Optimizado para a CPU Multilingüe Múltiples acentos Listo para a produción Baixa latencia

Texto a voz multilingüe de alta calidade que se executa na CPU cunha latencia mínima.

Rápido · 0.5GB (GPU optional) VRAM Inténtao

Bark

Efectos de son Rir/Suspirar Xeración de música 100+ altofalantes Multilingüe

Modelo de transformación de texto en son baseado en transformadores que xera fala, música e efectos sonoros realistas.

Lento · 5GB VRAM Inténtao

Bark Small

Lixeiro Máis rápido que a corteza completa Fala emocional Multilingüe

Versión máis lixeira de Bark con inferencias máis rápidas e menor uso de memoria.

Medio · 2GB VRAM Inténtao

CosyVoice 2

Retransmisión Clonaxe de disparo cero Multilingüe Control de emocións Paridade humana

TTS de transmisión escalable de Alibaba con naturalidade de paridade humana e latencia case cero.

Dia TTS

Altofalante múltiple Xeración de diálogos Toma de turnos naturais Expresión emocional Parámetros de 1. 6B

Modelo de xeración de diálogos multifalante que crea conversas naturais entre falantes.

Parler TTS

Descrición da voz Control da linguaxe natural Creación de voz flexible Non se precisan voces predefinidas

Describa a voz que queira en linguaxe natural e Parler xerará a voz correspondente.

Indic Parler TTS

Linguas indoeuropeas Descrición da voz Control da linguaxe natural Pronuncia auténtica india

Fala de alta calidade para máis de 8 linguas indias con control de voz en linguaxe natural.

Lento · 8GB VRAM Inténtao

KhanomTan TTS

Tailandés TTS Múltiples altofalantes Arquitectura YourTTS Licenza comercial segura

Texto-para-fala en tailandés con opción de voz.

Rápido · 2GB VRAM Inténtao

IndexTTS-2

Control de emocións Zero-shot Vectores de emocións Fala expresiva Control de gran fino

TTS de tiro cero con control de emocións de gran fino e alta expresividade.

Spark TTS

Clonaxe de voz Control de emocións Control de estilo Baseado en preguntas Clonaxe de 5 segundos

Clonaxe de voz TTS con emocións controlábeis e estilo de fala mediante mensaxes.

GPT-SoVITS

Clonaxe de 5 segundos Voz cantando Aprendizaxe de poucas tomas Alta fidelidade Multilingüe

Clonaxe de voz TTS de poucas tomas que replica calquera voz a partir de só 5 segundos de son.

Lento · 6GB VRAM Inténtao

Orpheus

Emoción a nivel humano 100K horas de adestramento Accento natural Fala expresiva

Modelo TTS emocional a nivel humano adestrado con 100K horas de datos de fala.

Chatterbox

Clonaxe de disparo cero Control de emocións Alta fidelidade Transferencia de estilo Clonaxe dunha soa mostra

Clonaxe de voz de última xeración con control de emocións de Resemble AI.

Tortoise TTS

Calidade máxima Multi- voz Arquitectura DALL- E Clonaxe de voz Auto- regresivo

Texto-a-fala multi-voz centrado na calidade cunha arquitectura autoregressiva.

Lento · 8GB VRAM Inténtao

StyleTTS 2

Nivel humano Difusión de estilo Adestramento competitivo Varianza natural Alta fidelidade

Texto-a-fala a nivel humano a través da difusión de estilos e adestramento contraditorio.

OpenVoice

Clonaxe instantánea Conversión de voz Control de emocións Control do acento Multilingüe

Clonaxe instantánea de voz con control granular sobre estilo, emoción e acento.

Qwen3 TTS

Clonaxe de voz 9 voces predefinidas Deseño de voz a partir de texto Control de emocións

O TTS multilingüe de Alibaba con clonación de voz, voces predefinidas e deseño de voz a partir de texto.

Medio · 7GB VRAM Inténtao

VieNeu-TTS-v2

7 voces predefinidas (acentos norte + sur) Conmutación de código En-Vi Clonaxe de voz (referencia de 3- 5s) Soporte de podcasts / altofalantes múltiplos Só CPU, non se precisa GPU

TTS con conmutación de código vietnamita + inglés con 7 voces predefinidas e clonación de voz sen disparos. Só CPU, non se require GPU. Name

Rápido · CPU VRAM Inténtao

Sesame CSM

Conversacional Temporización natural Tomando a quenda Canle traseira Parámetros 1B

Modelo de fala conversacional que xera diálogo natural con tempo e emoción axeitados.

Lento · 8GB VRAM Inténtao

Chatterbox Turbo

Latencia inferior a 200 ms Etiquetas paralingüísticas 6x en tempo real Clonaxe de voz Marca de auga

Chatterbox máis rápido con latencia inferior a 200 ms e etiquetas paralingüísticas para risas, toses e máis.

Rápido · 2GB VRAM Inténtao

VoxCPM

Son de 44, 1 kHz Sen tokenizador Clonaxe multilingüe Sensible ao contexto Afinación fina de LoRA

TTS sen tokenizador que produce son a 44,1 kHz con consistencia de parágrafos consciente do contexto.

Rápido · 4GB VRAM Inténtao

Kani TTS 2

3GB VRAM Ultrarrápido Clonaxe de voz Lixeiro NanoCodec

Modelo ultraligeiro de 400M executándose en só 3GB de VRAM con soporte de clonación de voz.

Rápido · 3GB VRAM Inténtao

OuteTTS

Inferencia da CPU Inferencia do navegador Múltiples infraestruturas Perfís dos altofalantes

TTS baseado en LLM que se executa en CPU, GPU ou navegador mediante llama. cpp e Transformers. js.

Lento · 2GB VRAM Inténtao

VibeVoice

Altofalante múltiple Ata 90 min Xeración de podcasts Consistencia do falante Transmisión de 200ms

Modelo de Microsoft para contidos multifalante de forma longa como podcasts e audiolibros.

Rápido · 4GB VRAM Inténtao

Pocket TTS

Parámetros 100M Inferencia da CPU Clonaxe de voz Clonaxe de mostra única Preparado para bordos

Modelo de parámetros lixeiro de 100M por Kyutai con clonación de voz a partir dunha soa mostra. Name

Rápido · 1GB VRAM Inténtao

Kitten TTS

Inferencia só da CPU Tamaño do modelo inferior a 80MB 8 voces incorporadas Control de velocidade Baseado en ONNX Saída a 24 kHz

TTS ultraligeiro con menos de 80MB. Execútase en CPU sen GPU.

Rápido · 0GB VRAM Inténtao

CosyVoice3

Bi- fluxo Control de emocións Clonaxe de voz Control de velocidade/volume Seguimento da instrución

TTS multilingüe de próxima xeración con bi-streaming, control de emocións e clonación de voz sen disparos.

Rápido · 4GB VRAM Inténtao

NAMAA Saudi TTS

Árabe saudita Árabe estándar moderno Clonaxe de voz sen disparos Control de emocións Pronuncia nativa

O primeiro TTS aberto en árabe saudita. Dialecto saudita nativo con clonación de voz de calidade Chatterbox.

Medio · 6GB VRAM Inténtao

Darwin TTS

Clonaxe de voz Interlingüe FFN- mesturado 4 linguaxes principais Dorsal de Qwen3

Variante cross- modal de Qwen3- TTS con pesos FFN mesturados do modelo de linguaxe Qwen3- 1. 7B para unha clonación multilingüe máis nítida.

Medio · 7GB VRAM Inténtao

MOSS-TTSD

Diálogo de varios oradores Ata 5 altofalantes Son coherente de 60 minutos Clonaxe de voz Optimizacións de podcast

Modelo de continuidade de diálogo multifalante — xera conversas ao estilo de podcast con ata 5 falantes e 60 minutos de son coherente.

Medio · 12GB VRAM Inténtao

Ming-Omni TTS

Saída de 44, 1 kHz Clonaxe de voz Control de emocións Control de dialecto Xeración de BGM Compact 0. 5B

Modelo de voz omnimodal compacto de 0,5B de inclusionAI con saída de alta fidelidade de 44,1 kHz e clonación de voz sen disparos.

Medio · 3GB VRAM Inténtao

MOSS-TTS Nano