IA libre Texto a hablar

Parámetros 82M Ultra rápido Voces expresivas Multilingüe Apoyo a la transmisión

Modelo de parámetro ligero 82M que ofrece un discurso de calidad de estudio con una rápida inferencia.

Rápido · 1.5GB VRAM Pruébalo.

Piper

Fácil de usar en la CPU Desconectado capaz Más de 100 voces Más de 35 idiomas Soporte SSML

Un sistema de texto neuronal a voz rápido y local optimizado para Raspberry Pi y dispositivos integrados.

Rápido · 0 (CPU only) VRAM Pruébalo.

VITS

Síntesis de extremo a extremo Prosodia natural Inferencia rápida Múltiples oradores

Autoencoder condicional con aprendizaje contradictorio para texto a voz de extremo a extremo.

Rápido · 1GB VRAM Pruébalo.

MeloTTS

Optimizado por CPU Multilingüe Múltiples acentos Preparados para la producción Baja latencia

Texto a voz multilingüe de alta calidad que se ejecuta en la CPU con una latencia mínima.

Rápido · 0.5GB (GPU optional) VRAM Pruébalo.

Bark

Efectos de sonido Riendo/suspirando Generación de música Más de 100 altavoces Multilingüe

Modelo de texto a audio basado en transformadores que genera efectos de voz, música y sonido realistas.

Lenta · 5GB VRAM Pruébalo.

Bark Small

Peso ligero Más rápido que la corteza completa Hablar emocionalmente Multilingüe

Versión más ligera de Bark con una inferencia más rápida y un menor uso de memoria.

Medio · 2GB VRAM Pruébalo.

CosyVoice 2

Streaming Clonación con cero tiros Interlingüe Control de emociones Paridad humana

La escalable transmisión TTS de Alibaba con naturalidad de paridad humana y latencia casi cero.

Dia TTS

Multiparlante Generación de diálogos Toma de decisiones natural Expresión emocional Parámetros 1.6B

Modelo de generación de diálogos multi-parlantes que crea conversaciones naturales entre altavoces.

Parler TTS

Descripción de la voz Control del lenguaje natural Creación de voz flexible No se necesitan voces preestablecidas

Describa la voz que desea en lenguaje natural y Parler genera el discurso correspondiente.

Indic Parler TTS

11 idiomas indios Descripción de la voz Control del lenguaje natural Pronunciación índica auténtica

Habla de alta calidad para más de 8 idiomas indios con control de voz en lenguaje natural.

Lenta · 8GB VRAM Pruébalo.

KhanomTan TTS

Tailandés TTS Múltiples oradores Arquitectura YourTTS Licencia comercial segura

Tailandia-primer texto-a-habla con una elección de las voces del altavoz.

Rápido · 2GB VRAM Pruébalo.

IndexTTS-2

Control de emociones Cero tiros Vectores emocionales Discurso expresivo Control de grano fino

TTS de tiro cero con control emocional de grano fino y alta expresividad.

Spark TTS

Clonación de voz Control de emociones Control de estilo Basado en el anuncio de inicio Clonación de 5 segundos

Clonación de voz TTS con emoción controlable y estilo de habla a través de avisos.

GPT-SoVITS

Clonación de 5 segundos Cantar voz Aprendizaje de pocas tomas Alta fidelidad Interlingüe

Pocas imágenes de clonación de voz TTS que replica cualquier voz de sólo 5 segundos de audio.

Lenta · 6GB VRAM Pruébalo.

Orpheus

Emoción a nivel humano Capacitación de 100K horas Énfasis natural Discurso expresivo

Modelo de TTS emocional a nivel humano entrenado en datos de 100K horas de habla.

Chatterbox

Clonación con cero tiros Control de emociones Alta fidelidad Transferencia de estilo Clonación de una sola muestra

La clonación de voz de última generación con cero disparos con control de emociones de Resemble AI.

Tortoise TTS

Calidad más alta Multivoz Arquitectura DALL-E Clonación de voz Autorregresivo

Texto a voz multi-voz centrado en la calidad con arquitectura autorregresiva.

Lenta · 8GB VRAM Pruébalo.

StyleTTS 2

Nivel humano Difusión de estilos Capacitación en materia de contradicción Variación natural Alta fidelidad

Texto a voz a nivel humano a través de la difusión de estilos y la formación contradictoria.

OpenVoice

Clonación instantánea Conversión de voz Control de emociones Control de los acentos Multilingüe

Clonación instantánea de voz con control granular sobre el estilo, la emoción y el acento.

Qwen3 TTS

9 voces preestablecidas Diseño de voz a partir de texto Control de emociones 10 idiomas

TTS multilingüe de Alibaba con voces preestablecidas y diseño de voz a partir de texto.

Medio · 7GB VRAM Pruébalo.

VieNeu-TTS-v2

7 voces preestablecidas (Acentos Norte + Sur) Conmutación de código en-Vi Clonación de voz (3-5s reference) Soporte Podcast / multi-parlante Sólo CPU: no se requiere GPU

Vietnamita + Inglés conmutador de código TTS con 7 voces preestablecidas y clonación de voz de cero disparos. Sólo CPU, no se requiere GPU.

Rápido · CPU VRAM Pruébalo.

Sesame CSM

Conversacional Calendario natural Toma de decisiones Retrocanal Parámetros 1B

Modelo de habla conversacional que genera diálogo natural con el momento y la emoción adecuados.

Lenta · 8GB VRAM Pruébalo.

Chatterbox Turbo

Sub-200ms de latencia Etiquetas paralingüísticas 6 veces en tiempo real Clonación de voz Marcado de agua

Chatterbox más rápido con latencia sub-200ms y etiquetas paralingüísticas para risas, tos y más.

Rápido · 2GB VRAM Pruébalo.

VoxCPM

Audio de 44,1 kHz Sin tokenizador Clonación multilingüe Context-aware Afinación de LoRA

TTS sin tokenizador que produce audio de 44.1kHz con consistencia de párrafo consciente del contexto.

Rápido · 4GB VRAM Pruébalo.

Kani TTS 2

3GB VRAM Ultra rápido Peso ligero NanoCodec Libre

Ultra ligero 400M modelo TTS Inglés que se ejecuta en sólo 3 GB VRAM.

Rápido · 3GB VRAM Pruébalo.

OuteTTS

Inferencia de CPU Inferencia del navegador Motores múltiples Perfiles del altavoz

TTS basado en LLM que se ejecuta en CPU, GPU o navegador a través de llama.cpp y Transformers.js.

Lenta · 2GB VRAM Pruébalo.

VibeVoice

Multiparlante Hasta 90 min Generación de podcast Coherencia del altavoz streaming de 200 ms

Modelo de Microsoft para contenido multi-parlante de forma larga como podcasts y audiolibros.

Rápido · 4GB VRAM Pruébalo.

Pocket TTS

Parámetros 100M Inferencia de CPU Clonación de voz Clonación de una muestra Listos para el borde

Modelo de parámetro ligero 100M de Kyutai con clonación de voz de una sola muestra.

Rápido · 1GB VRAM Pruébalo.

Kitten TTS

Inferencia exclusiva de CPU Tamaño del modelo de menos de 80 MB 8 voces incorporadas Control de velocidad Basado en ONNX Salida 24kHz

TTS ultraligero por debajo de 80MB. Se ejecuta en la CPU sin GPU.

Rápido · 0GB VRAM Pruébalo.

CosyVoice3

Bi-streaming Control de emociones Clonación de voz Control de velocidad/volumen Instrucción siguiente

TTS multilingüe de próxima generación con bi-streaming, control de emociones y clonación de voz de tiro cero.

Rápido · 4GB VRAM Pruébalo.

NAMAA Saudi TTS

dialecto árabe saudí Árabe estándar moderno Clonación de voz de tiro cero Control de emociones Pronunciación nativa

Primer TTS abierto saudí-árabe. Dialéctico nativo saudí con clonación de voz de calidad Chatterbox.

Medio · 6GB VRAM Pruébalo.

Darwin TTS

Clonación de voz Interlingüe Agrupado por el FFN 4 idiomas básicos Qwen3 columna vertebral

Variante transmodal Qwen3-TTS con pesos FFN mezclados con el modelo de lenguaje Qwen3-1.7B para una clonación multilingüe más aguda.

Medio · 7GB VRAM Pruébalo.

MOSS-TTSD

Diálogo entre múltiples oradores Hasta 5 altavoces Audio coherente de 60min Clonación de voz Podcast optimizado

Modelo de continuación del diálogo multi-parlante: generar conversaciones al estilo de podcast con hasta 5 altavoces y 60 minutos de audio coherente.

Medio · 12GB VRAM Pruébalo.

Ming-Omni TTS

Salida de 44.1kHz Clonación de voz Control de emociones Control de dialectos Generación de BGM Compacto 0,5B

Modelo compacto de habla omnimodal 0.5B de inclusionAI con salida de 44.1kHz de alta fidelidad y clonación de voz de cero disparos.

Medio · 3GB VRAM Pruébalo.

MOSS-TTS Nano