IA-kuéra ha'evéva Ñe'ẽnguéra.:

Parámetro 82M Yvate pya'e Ñe'ẽ expresiva Multilenguaje Streaming apopyrã

Modelo parámetro 82M ipya'éva ome'ẽva ñe'ẽnguéra peteĩteĩ estudio-pegua calidad ha inferencia ipya'éva.

Fijo · 1.5GB VRAM Ojehecha

Piper

CPU-pe g̃uarã Oñemumo'ãva'ekue 100+ ñe'ẽ 35+ ñe'ẽ SSML apopyrã

Peteĩ sistema neural rápido, ñe'ẽ ñeikumbyrã oñemoporãvehápe Raspberry Pi ha umi dispositivo integrado-pe g̃uarã.

Fijo · 0 (CPU only) VRAM Ojehecha

VITS

Síntesis punto-ha-punto Procedimiento natural Inferencia pya'e Heta ñe'ẽnguéra

Codificador automático variación condicional rehegua oguerekóva aprendizaje adverso ñe'ẽjoaju ñe'ẽjoaju-gui ñe'ẽjoaju-pe g̃uarã.

Fijo · 1GB VRAM Ojehecha

MeloTTS

CPU-rã oñemoporãvéva Multilenguaje Acentos múltiple Oñemohenda producción-rã Latencia sa'i

Ñe'ẽnguéra ñemoambue ñe'ẽte guive ñe'ẽnguéra peve, ha'éva calidad-ypy ha oikovéva CPU-pe, sa'ive latencia-pe.

Fijo · 0.5GB (GPU optional) VRAM Ojehecha

Bark

Efectos de sonido Ojevy/ojepy'apy Música ñemoheñói 100+ ñe'ẽnguéra Multilenguaje

Peteĩ modelo texto-gui-ñe'ẽ-pe oñemopyendáva transformador-pe omoheñóihápe ñe'ẽ, purahéi ha efecto sonoro realista.

Oñepy'ỹijo · 5GB VRAM Ojehecha

Bark Small

Ligero Ipya'eveve corteza tuichakue rovake Ñe'ẽ emocional Multilenguaje

Peteĩ versión ipya'evéva Bark-gui, inferencia pya'eve ha memoria jeiporu sa'ive.

Medio · 2GB VRAM Ojehecha

CosyVoice 2

Streaming Clonación cero disparo Interlenguaje Emoción rehegua control Paridad humana

TTS escalable Alibaba rehegua, naturalidad yvypóra rehegua paridad ha latencia aimete cero.

Dia TTS

Oñe'ẽ'ỹva Diálogo ñemoheñói Ojejapo jey natural Expresión emocional Parámetro

Peteĩ modelo ñe'ẽjovake generación-rã heta ñe'ẽha apytépe, omoheñóihápe ñe'ẽjovake natural ñe'ẽhakuéra apytépe.

Parler TTS

Ñe'ẽ rehegua descripción Lenguaje natural ñemohenda Ñe'ẽ ñemoheñói flexible Ndojeporui ñe'ẽ oñemohendapyréva

Oñe'ẽ ñe'ẽ oipotáva rehe lenguaje natural-pe ha Parler omoheñói ñe'ẽjoaju ojojoguáva.

Indic Parler TTS

Umi ñe'ẽ india Ñe'ẽ rehegua descripción Lenguaje natural ñemohenda Pronunciación india auténtica

Ñe'ẽnguéra oguerekóva calidad ijyvatevéva 8+ lengua indígena-pe g̃uarã lenguaje natural ñemono'õ rupive.

Oñepy'ỹijo · 8GB VRAM Ojehecha

KhanomTan TTS

Tai TTS Heta ñe'ẽnguéra YourTTS arquitectura Licencia comercial-segura

Tailandés-pe, ñe'ẽjoaju ñe'ẽ'arõgui ñe'ẽ'arõ gotyo, oguerekóva ñe'ẽjoaju ñe'ẽjoaju.

Fijo · 2GB VRAM Ojehecha

IndexTTS-2

Emoción rehegua control Cero-shot Emoción rehegua vector Ñe'ẽ expresiva Control de grano fino

TTS cero-disparo rehegua oguerekóva control emocional ha expresividad ijyvatevéva.

Spark TTS

Clonación ñe'ẽnguéra rehe Emoción rehegua control Estilo control Ojehechapyre Clonación 5 segundo-pe

Clonación de voz TTS emoción ha lenguaje controlable rupive, prompts rupive.

GPT-SoVITS

Clonación 5 segundo-pe Ñe'ẽ ñehendu'ỹva Tekombo'e sa'i disparo rehe Alta fidelidad Interlenguaje

Clonación ñe'ẽnguéra rehe TTS sa'i toma-pe, ombohekohápe oimeraẽ ñe'ẽ 5 segundo-guive ñehendurã.

Oñepy'ỹijo · 6GB VRAM Ojehecha

Orpheus

Emoción yvypóra nivel-pe 100K arapokõindy ñemoarandu Enfasis natural Ñe'ẽ expresiva

Modelo TTS emocional yvypóra nivel rehegua oñemoarandu 100.000 hora ñe'ẽnguéra rehe.

Chatterbox

Clonación cero disparo Emoción rehegua control Alta fidelidad Estilo transferencia Clonación peteĩ muestra-pe

Clonación de voz cero disparo rehegua moderno control emocional rupive IA Resemble rupive.

Tortoise TTS

Calidad ijyvatevéva Ñe'ẽteĩ Arquitectura DALL-E Clonación ñe'ẽnguéra rehe Regresión automática

Umi ñe'ẽjoaju ñe'ẽ'ỹmegua ñe'ẽ'ỹmegua oñemopyenda calidad-pe arquitectura autorregresiva rupive.

Oñepy'ỹijo · 8GB VRAM Ojehecha

StyleTTS 2

Nivel humano Estilo difusión Ñembo'e ñembohovake Variación natural Alta fidelidad

Ñe'ẽnguéra ñemoambue ñe'ẽnguéra rehe ñembohasa ha ñembokatupyry rupive.

OpenVoice

Clonación instantánea Conversión de voz Emoción rehegua control Control de acento Multilenguaje

Clonación instantánea ñe'ẽnguéra rehe, oguerekóva control granular estilo, emoción ha acento rehegua.

Qwen3 TTS

9 ñe'ẽ oñemohendapyréva Ñe'ẽ diseño ñe'ẽtegui Emoción rehegua control Ñe'ẽ

TTS multilingüe Alibaba mba'éva, oguerekóva ñe'ẽnguéra oñemohendapyréva ha ñe'ẽnguéra diseño ojejapóva jehaipy guive.

Medio · 7GB VRAM Ojehecha

VieNeu-TTS-v2

7 ñe'ẽ oñemohendapyréva (acento norte ha sur) Conmutación de código En-Vi Clonación ñe'ẽ (referencia 3-5s) Podcast/mbyteteĩ ñehendurã ñemoneĩ CPU añónte - ndaipóri GPU oñeikotevẽva

Vietnam + inglés TTS código-remueve 7 ñe'ẽ oñemohendapyréva ha ñe'ẽ clonación cero-shot. CPU añónte, GPU ndoikotevẽiva'ekue.

Fijo · CPU VRAM Ojehecha

Sesame CSM

Conversación Tiempo natural Ojejapo jey Canal ñembohasa Parámetro 1B

Peteĩ modelo ñe'ẽñe'ẽ rehegua omoheñóiva peteĩ ñe'ẽjovake natural tiempo ha emoción oguerekóva.

Oñepy'ỹijo · 8GB VRAM Ojehecha

Chatterbox Turbo

Latencia sa'ivéva 200ms-gui Etiquetas paralingüísticas 6x tiempo real Clonación ñe'ẽnguéra rehe Marca de agua

Chatterbox ipya'evéva oguerekóva peteĩ latencia sa'ive 200 ms ha etiquetas paralingüísticas ñe'ẽjoaju, ñe'ẽjoaju ha ambue.

Fijo · 2GB VRAM Ojehecha

VoxCPM

Audio Tokenizer-free Clonación ñe'ẽjoaju rehegua Context-sensitive Ajuste fino LoRA

TTS tokenizador-ỹva omoheñói peteĩ sonido 44.1kHz oguerekóva peteĩ párrafo coherente contexto-pe g̃uarã.

Fijo · 4GB VRAM Ojehecha

Kani TTS 2

3GB VRAM Yvate pya'e Ligero NanoCodec Libre

Modelo TTS inglés 400M ultraligero, oikohápe 3GB VRAM añónte.

Fijo · 3GB VRAM Ojehecha

OuteTTS

CPU inferencia Navegador inferencia Heta backend Ñemoñe'ẽha perfil

TTS oñemopyendáva LLM-pe oikohápe CPU, GPU térã navegador rupive llama.cpp ha Transformers.js rupive.

Oñepy'ỹijo · 2GB VRAM Ojehecha

VibeVoice

Oñe'ẽ'ỹva Forma puku (90 min) Podcast ñemoheñói Diálogo Latencia sa'i

TTS de forma ipukúva ha heta ñe'ẽnguéra Microsoft mba'éva omoheñói 90 minuto peve irundy ñe'ẽnguéra rupive.

Fijo · 4GB VRAM Ojehecha

Pocket TTS

Parámetro 100M CPU inferencia Clonación ñe'ẽnguéra rehe Clonación peteĩ muestra-pe Oñemohenda

Modelo parámetro 100M ipya'éva Kyutai mba'éva, clonación de voz reheguápe peteĩ muestra añónte guive.

Fijo · 1GB VRAM Ojehecha

Kitten TTS

Inferencia CPU añónte Tamaño modelo michĩvéva 80MB 8 ñe'ẽ oñemohendáva Control de velocidad Oñemopyenda ONNX-pe 24kHz salida

TTS ultraligero 80MB guýpe. Ojeporu CPU-pe GPU'ỹre.

Fijo · 0GB VRAM Ojehecha

CosyVoice3

Bi-streaming Emoción rehegua control Clonación ñe'ẽnguéra rehe Velocidad/volume control Instrucción ohasáva

TTS multilingüe generación oúvape bi-streaming, control de emoción ha clonación de voz cero disparo reheve.

Fijo · 4GB VRAM Ojehecha

NAMAA Saudi TTS

Árabe saudita dialecto Árabe estándar moderno Clonación ñe'ẽ cero-shot Emoción rehegua control Pronunciación nativa

TTS arapy saudita-pegua ypy, dialécto saudita nativo clonación ñe'ẽnguéra rehe ñeñangarekorã.

Medio · 6GB VRAM Ojehecha

Darwin TTS

Clonación ñe'ẽnguéra rehe Interlenguaje FFN- ojoaju 4 ñe'ẽ ypy Qwen3 backbone

Variante cross-modal Qwen3-TTS oguerekóva peso FFN ojoaju modelo de lenguaje Qwen3-1.7B rehe, ojejapóva clonación multilingüe pya'eve hag̃ua.

Medio · 7GB VRAM Ojehecha

MOSS-TTSD

Ñemoñe'ẽnguéra ñemohenda 5 ñehenduvéva peve Audio coherente 60' Clonación ñe'ẽnguéra rehe Podcast ñembohape

Modelo de diálogo continuado heta ñe'ẽhaguéicha: omoheñói peteĩ ñe'ẽjovake podcast-ramo, oguerekóva po ñe'ẽhaguéicha ha 60 minuto ñe'ẽjoaju coherente.

Medio · 12GB VRAM Ojehecha

Ming-Omni TTS

44.1kHz salida Clonación ñe'ẽnguéra rehe Emoción rehegua control Dialecto control BGM generación Compact 0.5B

Modelo de lenguaje omnimodal compacto 0.5B inclusionAI mba'éva, oguerekóva peteĩ salida 44.1kHz alta fidelidad ha peteĩ clonación de voz cero disparo rehegua.

Medio · 3GB VRAM Ojehecha

MOSS-TTS Nano