IA ñe'ẽasa ñehendurã

Oñemoambue jehaipy ñe'ẽte he'íva natural-pe modelo IA fuente abierto rupive. Ojeporuve'ỹre, ndaha'éi oñeikotevẽva peteĩ cuenta.

Ndoguerekói gueteri ñe'ẽ TTS nde ñe'ẽme. Yvy'akuaa ñamoĩnge umi nde'éregua! Oñemu ñe'ẽ
Ojejapo 5000 caracter rehegua límite

Ojehaijey ñe'ẽnguéra etiquetas SSML-pe peteĩ control hekopete g̃uarã:

<speak><prosody rate="slow">Slow speech</prosody></speak>

Omoĩnge umi marcador de emoción ombyai hag̃ua entrega (modelo apo iñambue):

Oñemohenda ñe'ẽnguéra ojehechapyréva (tembiapo = ñe'ẽnguéra):

-12 +12
0.5x 2.0x
Libre Piper, VITS, MeloTTS ndive
Audio-kuéra oguenohẽva ojekuaauka ko'ápe. Oñeporavo peteĩ modelo, omoĩnge ñe'ẽ ha ohesa'ỹijo Generar.
Audio oñemoheñói porã
0:00
Oñeguenohẽ marandu myambue guive Oñeguenohẽ.srt Ko enlace hi'are 24 h rire
Ehayhuetéva TTS.ai? He'i umi iñangirũpe!

Modelo detalle-kuéra

Kokoro

Kokoro

Free

Kokoro is an 82 million parameter text-to-speech model that punches well above its weight class. Despite its tiny size, it produces remarkably natural and expressive speech. Kokoro supports multiple languages including English, Japanese, Chinese, and Korean with a variety of expressive voices. It runs incredibly fast — generating audio nearly 100x faster than real-time on a GPU.

Desarrollador: Hexgrad
Licencia: Apache 2.0
Velocidad Fast
Calidad:
Ñe'ẽ 8 Ñe'ẽ
VRAM 1.5GB
Clonación ñe'ẽnguéra rehe No admitido
Característica:
82M parameters Ultra-fast Expressive voices Multilingual Streaming support
Oñeikotevẽ:: High-quality TTS with minimal latency, streaming applications

Ñemomarandu ojehupyty hag̃ua peteĩ mba'e porãve

  • Oiporu puntuación oĩporãva pausa ha entonación natural-pe g̃uarã.
  • Oñe'ẽ papapy ha abreviatura-kuéra ñe'ẽporãve hag̃ua
  • Omoĩngeve comillas omoheñói hag̃ua pausa michĩva ñe'ẽjoaju apytépe
  • Oiporu punto de suspensión (...) pausa dramática pukukue
  • Oñeha'ã Kokoro térã CosyVoice 2 ojehupyty hag̃ua resultado natural
  • Oiporu Dia diálogo-pe heta ñehendurã ha podcast-kuéra rehegua contenido

Caracter jeporu

Ta'ãnga Presupuesto peteĩteĩ 1K carácter-pe g̃uarã
Libre 1:1 (tembiapo)
Estándar Caracteres 2x
Premium 4x caractere

Mba'éichapa IA rembiapo ñe'ẽjoaju rehegua

Oñemoheñói ñe'ẽnguéra peteĩteĩ mbohapy paso ndahasýiva rupive. Nahániri conocimiento técnico.

Paso 1

Oike'ỹre ñe'ẽ

Ehai, ape'a térã oguerahauka jey ñe'ẽ ojehe'a hag̃ua ñe'ẽ'apo. Omoneĩ 5000 caractere peve peteĩ generación-pe g̃uarã umi cuenta libre-pe g̃uarã, térã 100000 umi plan ojejapyhyhápe. Oiporu texto ndaha'éiva térã omoĩnge etiquetas SSML control avanzado ñe'ẽ'apo, pausa ha enfasis rehegua.

Paso 2

Oñeporavo modelo ha ñe'ẽ

Oñeporavo 20+ modelo IA apytépe mbohapy nivel-pe. Oñeporavo peteĩ ñe'ẽ ojokupytýva nde contenido ndive, oporavo ñe'ẽ ojehupytyséva, omohenda reproducción rehegua velocidad 0.5x guive 2.0x peve ha oporavo formato de salida ojehecharamovéva (MP3, WAV, OGG térã FLAC).

Paso 3

Generar y descargar

Ohesa'ỹijo peteĩ enlace compartible. Oiporu API proceso por lotes ha ñemoĩnge hag̃ua tembiapo jehaipy ryepýpe.

Ojeporukuaáva ñe'ẽjoaju ñeikumbyrã

IA rupive ojehaíva ñe'ẽngue-pe omoambue mba'éichapa yvypóra omoheñói, oiporu ha ojokupyty umi contenido sonoro heta industria-pe.

Opaite modelo ñe'ẽ'apo rehegua

Especificación detallada peteĩteĩ modelo IA oĩva TTS.ai-pe. Oñembojoja calidad, velocidad, ñe'ẽjoaju ha característica-kuéra ojejuhu hag̃ua modelo iporãvéva nde proyecto-pe g̃uarã.

KokoroKokoro

Free

Kokoro hína peteĩ modelo texto-gui-ñe'ẽ-pe g̃uarã oguerekóva 82 millón parámetro, ha'éva tuichaiterei mba'e ijyvatevéva clase de peso-gui. Jepéramo michĩeterei, ome'ẽ ñe'ẽnguéra peteĩteĩ natural ha expresiva. Kokoro oykeko heta ñe'ẽnguérape, oikehápe inglés, japonés, chino ha coreano heta ñe'ẽnguéra expresiva-kuéra. Ojeporu pya'eterei, omoheñói ñe'ẽnguéra 100-guive pya'eve peteĩ GPU tiempo real-pe.

Desarrollador::
Hexgrad
Licencia::
Apache 2.0
Velocidad:
Fast
Calidad::
Ñe'ẽ:
en, ja, zh, fr, it, pt, es, hi
VRAM:
1.5GB
Clonación ñe'ẽnguéra rehe:
No
Presupuesto peteĩteĩ 1K carácter-pe g̃uarã:
Libre
Parámetro 82M Yvate pya'e Ñe'ẽ expresiva Multilenguaje Streaming apopyrã
Oñeikotevẽ:: TTS calidad ijyvatevéva, latencia michĩvéva, aplicación-kuéra transmisión rehegua

PiperPiper

Free

Piper hína peteĩ motor de texto-gui-ñe'ẽ-pe pyahu, omoheñóiva Rhasspy oiporúvo VITS ha larynx arquitectura. Ojeporuporã CPU-pe, ha upéva ombohekoporãve umi dispositivo periférico-pe, automatización hogapypegua ha aplicación oikotevẽva TTS fuera de línea. Oguerekóvo hetave 100 ñe'ẽ 30 ñe'ẽgui, Piper ome'ẽ ñe'ẽ ñeikumby natural tiempo real-pe, avei Raspberry Pi 4-pe.

Desarrollador::
Rhasspy
Licencia::
MIT
Velocidad:
Fast
Calidad::
Ñe'ẽ:
en, de, fr, es, it, pt, nl, pl, ru, zh, ar, cs, da, fi, el, hu, is, ka, kk, ne, no, ro, sk, sr, sv, sw, tr, uk, vi, ca, cy, fa, lv, sl, lb
VRAM:
0 (CPU only)
Clonación ñe'ẽnguéra rehe:
No
Presupuesto peteĩteĩ 1K carácter-pe g̃uarã:
Libre
CPU-pe g̃uarã Oñemumo'ãva'ekue 100+ ñe'ẽ 35+ ñe'ẽ SSML apopyrã
Oñeikotevẽ:: Previsualización pya'evéva, jeike pya'e ha aplicación-kuéra incrustada

VITSVITS

Free

VITS (inferencia variacional aprendizaje adversario rupive ñe'ẽ'aravo ñe'ẽ'aravo ñe'ẽ'aravo-gui ñe'ẽ'aravo-pe g̃uarã) ha'e peteĩ método TTS paralelo, oguerekóva peteĩ ñe'ẽ'aravo natural umi modelo ko'agãgua mokõi etapa-guive, oipuru inferencia variacional oñembohetavehápe flujo normalización ha peteĩ proceso de aprendizaje adversario, ha upéicha ojehupyty peteĩ naturalidad oñemoporãvehápe.

Desarrollador::
Jaehyeon Kim et al.
Licencia::
MIT
Velocidad:
Fast
Calidad::
Ñe'ẽ:
en, de, es, fr, pt, nl, fi, hu, bg, ja, pl
VRAM:
1GB
Clonación ñe'ẽnguéra rehe:
No
Presupuesto peteĩteĩ 1K carácter-pe g̃uarã:
Libre
Síntesis punto-ha-punto Procedimiento natural Inferencia pya'e Heta ñe'ẽnguéra
Oñeikotevẽ:: Ñe'ẽjoaju ñe'ẽ'ỹmegua propósito general-pe g̃uarã prosodi natural reheve.

MeloTTSMeloTTS

Free

MeloTTS MyShell.ai mba'éva hína peteĩ biblioteca TTS multilenguaje rehegua oykekóva inglés (americano, británico, indio, australiano), español, francés, chino, japonés ha coreano. Ipya'eeterei, omboheko umi jehaipy pya'eterei rupi CPU añónte. MeloTTS oñemohenda ojeporu hag̃ua producción-pe ha oykeko CPU ha GPU inferencia.

Desarrollador::
MyShell.ai
Licencia::
MIT
Velocidad:
Fast
Calidad::
Ñe'ẽ:
en, es, fr, zh, ja, ko
VRAM:
0.5GB (GPU optional)
Clonación ñe'ẽnguéra rehe:
No
Presupuesto peteĩteĩ 1K carácter-pe g̃uarã:
Libre
CPU-rã oñemoporãvéva Multilenguaje Acentos múltiple Oñemohenda producción-rã Latencia sa'i
Oñeikotevẽ:: Aplicaciones de producción oikotevẽva TTS ipya'e ha multilingüe

BarkBark

Standard

Bark, Suno mba'éva, ha'e peteĩ modelo texto-gui ñe'ẽnguérape g̃uarã oñemopyendáva transformador-pe, ikatúva omoheñói ñe'ẽnguéra peteĩteĩ ha'evéva, ha ambue ñe'ẽnguéra, taha'e purahéi, ru he'ẽ ha efecto sonoro. Ikatu omoheñói ñe'ẽnguéra ndaha'éiva ñe'ẽnguéra, taha'e ñe'ẽnguéra ñemboyke, ñe'ẽnguéra ñemboyke ha ñe'ẽnguéra ñemboyke. Bark oykeko hetave 100 preconfiguración ñe'ẽnguérape g̃uarã ha hetave 13 ñe'ẽ.

Desarrollador::
Suno
Licencia::
MIT
Velocidad:
Slow
Calidad::
Ñe'ẽ:
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
VRAM:
5GB
Clonación ñe'ẽnguéra rehe:
No
Presupuesto peteĩteĩ 1K carácter-pe g̃uarã:
2x
Efectos de sonido Ojevy/ojepy'apy Música ñemoheñói 100+ ñe'ẽnguéra Multilenguaje
Oñeikotevẽ:: Ñe'ẽnguéra ñemoheñói, aranduka ñe'ẽnguéra oguerekóva emoción, efecto sonoro

Bark SmallBark Small

Standard

Bark Small hína peteĩ versión destilada modelo Bark mba'éva, ombohasahápe peteĩ ñe'ẽnguéra calidad inferencia rehegua velocidad pya'eve ha memoria rehegua requisito michĩvéva rehe, ha oguereko gueteri Bark capacidad omongu'éva ñe'ẽnguéra emoción, ta'ãnga ha heta ñe'ẽ rupive.

Desarrollador::
Suno
Licencia::
MIT
Velocidad:
Medium
Calidad::
Ñe'ẽ:
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
VRAM:
2GB
Clonación ñe'ẽnguéra rehe:
No
Presupuesto peteĩteĩ 1K carácter-pe g̃uarã:
2x
Ligero Ipya'eveve corteza tuichakue rovake Ñe'ẽ emocional Multilenguaje
Oñeikotevẽ:: Ñembohasa pya'e ha creativo, corteza tuichakue ojeipy'apy jave

CosyVoice 2CosyVoice 2

Standard

CosyVoice 2, Tongyi Lab Alibaba mba'éva, ohupyty ñe'ẽnguéra calidad ojokupytýva yvypóra ñe'ẽme, latencia sa'ivéva, ha upéva omboheko ojeporu hag̃ua tiempo real-pe. Oiporu peteĩ enfoque de cuantización escalar finito síntesis de flujo-pe g̃uarã ha oykeko ñe'ẽnguéra clonación cero disparo rehegua, síntesis interlingüística ha control de emoción de grano fino. Oiko porãve heta sistema comercial TTS-gui evaluación subjetiva-pe.

Desarrollador::
Alibaba (Tongyi Lab)
Licencia::
Apache 2.0
Velocidad:
Medium
Calidad::
Ñe'ẽ:
en, zh, ja, ko, fr, de, it, es
VRAM:
4GB
Clonación ñe'ẽnguéra rehe:
Ha'e
Presupuesto peteĩteĩ 1K carácter-pe g̃uarã:
2x
Streaming Clonación cero disparo Interlenguaje Emoción rehegua control Paridad humana
Oñeikotevẽ:: Aplicaciones tiempo real-pe g̃uarã, transmisión TTS, ñe'ẽasa asistente

Dia TTSDia TTS

Standard

Dia, Nari Labs mba'éva, ha'e peteĩ modelo texto-gui-ñe'ẽ-pe g̃uarã parámetro 1.6B, oñemoheñói va'ekue omoheñói hag̃ua ñe'ẽasa heta ñe'ẽsarekóva. Ikatu omboguata ñe'ẽsasõ oguerekóva ñe'ẽjoaju natural mokõi ñe'ẽsarekóva turno-kuéra, prosodi ha expresión emocional oguerekóva. Dia iñambueporã ojejapo hag̃ua contenido podcast-peguápe, ñe'ẽsasõ aranduka ñe'ẽ'arúpe ha IA ñe'ẽsasõ rehegua.

Desarrollador::
Nari Labs
Licencia::
Apache 2.0
Velocidad:
Medium
Calidad::
Ñe'ẽ:
en
VRAM:
4GB
Clonación ñe'ẽnguéra rehe:
No
Presupuesto peteĩteĩ 1K carácter-pe g̃uarã:
2x
Oñe'ẽ'ỹva Diálogo ñemoheñói Ojejapo jey natural Expresión emocional Parámetro
Oñeikotevẽ:: Podcast, audiolibro ñe'ẽjovake, ñe'ẽjoaju contenido

Parler TTSParler TTS

Standard

Parler TTS hína peteĩ modelo ñe'ẽ-gui-ñe'ẽ-pe g̃uarã oipuruhápe ñe'ẽnguéra rehegua descripción ñe'ẽnguéra rehe oñeñangareko hag̃ua ñe'ẽnguéra oguerekóva rehe. Oñeha'ã'ỹre peteĩ ñe'ẽnguéra rehe, ojehechauka ñe'ẽnguéra oikotevẽva (techapyrã, "peteĩ kuña hova'ỹva acento británico michĩvéva ndive, oñe'ẽva pya'e ha hesakã'ỹre") ha Parler omoheñói ñe'ẽnguéra ojojoguáva upe descripción rehe. Kóva ojapo ichugui peteĩ flexibilidad ha'evéva umi aplicación creativa-pe g̃uarã.

Desarrollador::
Hugging Face
Licencia::
Apache 2.0
Velocidad:
Medium
Calidad::
Ñe'ẽ:
en
VRAM:
4GB
Clonación ñe'ẽnguéra rehe:
No
Presupuesto peteĩteĩ 1K carácter-pe g̃uarã:
2x
Ñe'ẽ rehegua descripción Lenguaje natural ñemohenda Ñe'ẽ ñemoheñói flexible Ndojeporui ñe'ẽ oñemohendapyréva
Oñeikotevẽ:: Aplicaciones creativas oikotevẽhápe ñe'ẽnguéra característica-kuéra ojehechapyréva

IndexTTS-2IndexTTS-2

Standard

IndexTTS-2 hína peteĩ sistema avanzado ñe'ẽ-gui ñe'ẽngue-pe g̃uarã, ojehecharamova'ekue ñe'ẽnguéra síntesis-pe, control de emoción granular rupive, ikatu omoheñói ñe'ẽnguéra peteĩ tono emocional específico rehe, taha'e ñemboyke, py'aguapy, ira térã ñemboyke, oikotevẽ'ỹre umi dato de entrenamiento específico umi emoción rehegua. Ko modelo oipuru umi vector de emoción ombohape hag̃ua ñe'ẽnguéra expresión emocional generada.

Desarrollador::
Index Team
Licencia::
Bilibili Model License
Velocidad:
Medium
Calidad::
Ñe'ẽ:
en, zh
VRAM:
4GB
Clonación ñe'ẽnguéra rehe:
Ha'e
Presupuesto peteĩteĩ 1K carácter-pe g̃uarã:
2x
Emoción rehegua control Cero-shot Emoción rehegua vector Ñe'ẽ expresiva Control de grano fino
Oñeikotevẽ:: Contenido emocionalmente expresivo, aranduka ñehendurã, asistente virtual

Spark TTSSpark TTS

Standard

Spark TTS SparkAudio mba'éva hína peteĩ modelo ñe'ẽ-gui-ñe'ẽ-pe g̃uarã ombojoajuhápe ñe'ẽ clonación emoción ha ñe'ẽnguéra controlable rehe. Oiporukuévo 5 segundo añónte ñe'ẽnguéra referencia-pegua, ikatu omoheñói peteĩ clona peteĩ ñe'ẽme ha upéi omoheñói ñe'ẽnguéra oguerekóva heta emoción, velocidad ha estilo, ha upéicha avei omombaretekuévo ñe'ẽnguéra clonada-kuéra identidad. Spark TTS oipuru peteĩ sistema de control oñemopyendáva prompt-pe.

Desarrollador::
SparkAudio
Licencia::
CC BY-NC-SA 4.0
Velocidad:
Medium
Calidad::
Ñe'ẽ:
en, zh
VRAM:
4GB
Clonación ñe'ẽnguéra rehe:
Ha'e
Presupuesto peteĩteĩ 1K carácter-pe g̃uarã:
2x
Clonación ñe'ẽnguéra rehe Emoción rehegua control Estilo control Ojehechapyre Clonación 5 segundo-pe
Oñeikotevẽ:: Contenido ñemoheñói ñe'ẽ clonada ha control emocional rupive.

GPT-SoVITSGPT-SoVITS

Standard

GPT-SoVITS ombojoaju lenguaje modelo GPT estilo SoVITS ndive (Inferencia de voz ñe'ẽ ñeikumby ha síntesis rupive) peteĩ clonación de voz potente-rã sa'i toma-pe g̃uarã. 5 segundo sa'ivéva ñe'ẽnguéra referencia-gui, ikatu omoheñói peteĩ clona de voz ha omoheñói ñe'ẽnguéra pyahu, ha upéicha avei oñangareko umi característica ojekuaáva ñe'ẽnguéra rehe. Oĩ porãve ñe'ẽnguéra ha síntesis ñe'ẽnguéra rehe.

Desarrollador::
RVC-Boss
Licencia::
MIT
Velocidad:
Slow
Calidad::
Ñe'ẽ:
en, zh, ja, ko
VRAM:
6GB
Clonación ñe'ẽnguéra rehe:
Ha'e
Presupuesto peteĩteĩ 1K carácter-pe g̃uarã:
2x
Clonación 5 segundo-pe Ñe'ẽ ñehendu'ỹva Tekombo'e sa'i disparo rehe Alta fidelidad Interlenguaje
Oñeikotevẽ:: Clonación ñe'ẽnguéra rehe, síntesis ñe'ẽnguéra rehe, ñe'ẽnguéra peteĩteĩ omoheñóiva contenido replicación

OrpheusOrpheus

Standard

Orpheus hína peteĩ modelo ñe'ẽnguérape g̃uarã tuichaháicha, ohupytyséva yvypóra ñe'ẽnguéra rehegua expresión emocional; oñemoarandu rire hetave 100.000 hora-pe hetaichagua ñe'ẽnguéra rehegua, ojehecharamo ñe'ẽnguéra rehe ñemboguata, umi temimo'ã natural, ñe'ẽnguéra estilo ha ñe'ẽnguéra rehe ñemboguatápe; Orpheus ikatu omoheñói ñe'ẽnguéra ndojoavyiva'ekue yvypóra ñe'ẽnguéra rehe.

Desarrollador::
Canopy Labs
Licencia::
Llama 3.2 Community
Velocidad:
Medium
Calidad::
Ñe'ẽ:
en
VRAM:
4GB
Clonación ñe'ẽnguéra rehe:
No
Presupuesto peteĩteĩ 1K carácter-pe g̃uarã:
2x
Emoción yvypóra nivel-pe 100K arapokõindy ñemoarandu Enfasis natural Ñe'ẽ expresiva
Oñeikotevẽ:: Ñe'ẽ emocional iñapysẽvéva, aranduka ñehendurã, actuación de voz.

ChatterboxChatterbox

Premium

Chatterbox, Resemble AI mba'éva, ha'e hína peteĩ modelo avanzado ñe'ẽ clonación rehegua cero-shot. Ikatu ombohasa oimeraẽ ñe'ẽ peteĩ muestra de sonido-gui peteĩ precisión tuichavéva rehe, ojapyhykuévo ndaha'éi timbre añónte, avei ñe'ẽnguéra estilo ha umi matiz emocional. Chatterbox avei oguereko control emocional iñambuéva, ombohapéva oñemohenda hag̃ua tono emocional ñe'ẽnguéra generada-pegua, ojehecha'ỹre identidad de voz-gui.

Desarrollador::
Resemble AI
Licencia::
MIT
Velocidad:
Medium
Calidad::
Ñe'ẽ:
en
VRAM:
4GB
Clonación ñe'ẽnguéra rehe:
Ha'e
Presupuesto peteĩteĩ 1K carácter-pe g̃uarã:
4x
Clonación cero disparo Emoción rehegua control Alta fidelidad Estilo transferencia Clonación peteĩ muestra-pe
Oñeikotevẽ:: Clonación profesional ñe'ẽnguéra rehe ñeñangareko rehe, control emocional ha contenido ñemoheñói.

Tortoise TTSTortoise TTS

Premium

Tortoise TTS hína peteĩ sistema texto-gui ñe'ẽngue-pe g̃uarã, oguerekóva ñe'ẽnguéra ñemoambue autorregresivo, omopyendáva ñe'ẽnguéra rehegua calidad ha'eveve hag̃ua ipya'eve. Oiporu arquitectura DALL-E-pe oñemopyendáva omoheñói hag̃ua ñe'ẽnguéra peteĩteĩ, oguerekóva prosodi ha ñe'ẽnguéra ñembojoja porãva. Jepéramo ipya'eve hína heta alternativa rovake, Tortoise omoheñói ñe'ẽnguéra ñemoambue rehegua modelo realista-véva oĩva peteĩ ecosistema de código abierto-pe.

Desarrollador::
James Betker
Licencia::
Apache 2.0
Velocidad:
Slow
Calidad::
Ñe'ẽ:
en
VRAM:
8GB
Clonación ñe'ẽnguéra rehe:
Ha'e
Presupuesto peteĩteĩ 1K carácter-pe g̃uarã:
4x
Calidad ijyvatevéva Ñe'ẽteĩ Arquitectura DALL-E Clonación ñe'ẽnguéra rehe Regresión automática
Oñeikotevẽ:: Audiolibro, contenido premium, aplicación-kuéra calidad-ypy rehegua

StyleTTS 2StyleTTS 2

Premium

StyleTTS 2-pe ojehupyty TTS síntesis yvypóra nivel-pegua, ombojoajukuévo estilo difusión ha ñe'ẽnguéra rehe ñembokatupyry oipurukuévo lenguaje modelo tuichaitereíva. Ojapo ñe'ẽnguéra oguerekóva sonido naturalvéva peteĩ ñe'ẽnguéra ñemohenda apytépe, ojoguahápe umi yvypóra ñe'ẽnguéra rehe. StyleTTS 2 oipuru modelo estilo-kuéra oñemohendáva difusión-pe ojapyhy hag̃ua yvypóra ñe'ẽnguéra ñemoambue tuichakue.

Desarrollador::
Columbia University
Licencia::
MIT
Velocidad:
Medium
Calidad::
Ñe'ẽ:
en
VRAM:
4GB
Clonación ñe'ẽnguéra rehe:
No
Presupuesto peteĩteĩ 1K carácter-pe g̃uarã:
4x
Nivel humano Estilo difusión Ñembo'e ñembohovake Variación natural Alta fidelidad
Oñeikotevẽ:: Síntesis peteĩ ñe'ẽha rehegua estudio calidad-pe, narración profesional

OpenVoiceOpenVoice

Premium

OpenVoice MyShell.ai rupive ombohape ñe'ẽnguéra clonación inmediata peteĩ control granular rupive ñe'ẽnguéra estilo, emoción, acento, ritmo, pausa ha entonación rehegua. Ikatu clonar peteĩ ñe'ẽ peteĩ clip de sonido mbyky guive ha omoheñói ñe'ẽnguéra heta ñe'ẽme, ojejavykuévo ñe'ẽnguéra identidad. OpenVoice avei omba'apo ñe'ẽnguéra conversor ramo, ombohapéva ñe'ẽnguéra ñemoambue tiempo real-pe.

Desarrollador::
MyShell.ai / MIT
Licencia::
MIT
Velocidad:
Medium
Calidad::
Ñe'ẽ:
en, zh, ja, ko, fr, es
VRAM:
4GB
Clonación ñe'ẽnguéra rehe:
Ha'e
Presupuesto peteĩteĩ 1K carácter-pe g̃uarã:
4x
Clonación instantánea Conversión de voz Emoción rehegua control Control de acento Multilenguaje
Oñeikotevẽ:: Clonación ñe'ẽnguéra rehe, estilo control de grano fino, ñe'ẽnguéra ñemoambue

Qwen3 TTSQwen3 TTS

Standard

Qwen3-TTS hína peteĩ modelo texto-gui ñe'ẽngue-pe g̃uarã oguerekóva 1.700 millón parámetro, Qwen aty Alibaba mba'éva. Oipytyvõ mokõi modo-pe: ñe'ẽnguéra oñemohendapyréva control emocional rupive (9 ñe'ẽnguéra) ha peteĩ modo ñe'ẽnguéra diseño rehegua ojehechaukahápe ñe'ẽnguéra oikotevẽva lenguaje natural-pe. Oipytyvõ 10 ñe'ẽnguérape, oguerekóva expresividad ha prosodi natural ijyvatevéva.

Desarrollador::
Alibaba (Qwen)
Licencia::
Apache 2.0
Velocidad:
Medium
Calidad::
Ñe'ẽ:
en, zh, ja, ko, de, fr, ru, pt, es, it
VRAM:
7GB
Clonación ñe'ẽnguéra rehe:
No
Presupuesto peteĩteĩ 1K carácter-pe g̃uarã:
2x
9 ñe'ẽ oñemohendapyréva Ñe'ẽ diseño ñe'ẽtegui Emoción rehegua control Ñe'ẽ
Oñeikotevẽ:: Contenido multilingüe ñe'ẽnguéra oñemohendapyréva térã ñe'ẽnguéra diseño ojehechapy'ỹva

VieNeu-TTS-v2VieNeu-TTS-v2

Standard

VieNeu-TTS-v2 hína peteĩ modelo TTS vietnamita ypy oguerekóva 300M parámetro oñemoaranduhápe 10.000 arýrupi dato bilingüe rehe. Oipytyvõkuaa código-remu en-vi, 7 ñe'ẽ oñemohendapyréva oguerekóva acento norte ha sur gotyo, ha ñe'ẽ clonación instantánea 3-5 segundo guive ñe'ẽ referencia rehegua. Oñemongu'e CPU-pe inferencia GGUF Q4 rupive + descodificador ñe'ẽ ONNX — ndaipóri GPU oñeikotevẽva, generación oñemohu'ã 7 segundo rupi. Oñemopu'ã peteĩ backbone Qwen3-pe.

Desarrollador::
Phạm Nguyễn Ngọc Bảo
Licencia::
Apache 2.0
Velocidad:
Fast
Calidad::
Ñe'ẽ:
vi, en
VRAM:
CPU
Clonación ñe'ẽnguéra rehe:
Ha'e
Presupuesto peteĩteĩ 1K carácter-pe g̃uarã:
2x
7 ñe'ẽ oñemohendapyréva (acento norte ha sur) Conmutación de código En-Vi Clonación ñe'ẽ (referencia 3-5s) Podcast/mbyteteĩ ñehendurã ñemoneĩ CPU añónte - ndaipóri GPU oñeikotevẽva
Oñeikotevẽ:: Vietnamgua contenido ha ñe'ẽnguéra en-vi-pegua.

Sesame CSMSesame CSM

Premium

Sesame CSM (Modelo de Conversación de Habla) ha'e peteĩ modelo oguerekóva mil millones de parámetro oñemohendáva oñemoheñói hag̃ua ñe'ẽñe'ẽ, omoha'ãnga umi patrón natural yvypóra ñe'ẽñe'ẽ rehegua, oikehápe avei tiempo de turno, ñembohovái canal-pe, reacción emocional ha ñe'ẽñe'ẽ rehegua flujo. CSM omoheñói peteĩ ñe'ẽñe'ẽ he'iséva peteĩ ñe'ẽñe'ẽ yvypóra rehegua, ñe'ẽñe'ẽ sintético rãngue.

Desarrollador::
Sesame
Licencia::
Apache 2.0
Velocidad:
Slow
Calidad::
Ñe'ẽ:
en
VRAM:
8GB
Clonación ñe'ẽnguéra rehe:
No
Presupuesto peteĩteĩ 1K carácter-pe g̃uarã:
4x
Conversación Tiempo natural Ojejapo jey Canal ñembohasa Parámetro 1B
Oñeikotevẽ:: AI-pegua asistente, chatbots, IA ñe'ẽjoaju rehegua aplicación-kuéra

Chatterbox TurboChatterbox Turbo

Standard

Chatterbox Turbo, Resemble AI mba'éva, ha'e hína peteĩ parámetro 350M-pegua actualización Chatterbox-pe g̃uarã, ome'ẽva 6x-peve velocidad tiempo real-pe peteĩ latencia sa'ive 200ms-gui. Omoneĩ etiqueta paralingüística taha'e [risa], [to'o] ha [chuckle] texto ryepýpe. Oike avei Perth marca de agua opaite umi sonido generado-pe ojejuhu hag̃ua oúva moõguipa.

Desarrollador::
Resemble AI
Licencia::
MIT
Velocidad:
Fast
Calidad::
Ñe'ẽ:
en
VRAM:
2GB
Clonación ñe'ẽnguéra rehe:
Ha'e
Presupuesto peteĩteĩ 1K carácter-pe g̃uarã:
2x
Latencia sa'ivéva 200ms-gui Etiquetas paralingüísticas 6x tiempo real Clonación ñe'ẽnguéra rehe Marca de agua
Oñeikotevẽ:: Agentes ñe'ẽ'ỹmegua tiempo real-pe, ñe'ẽ'ỹmegua ñe'ẽ'ỹmegua sonido natural-pe.

VoxCPMVoxCPM

Standard

VoxCPM 1.5 OpenBMB mba'éva hína peteĩ modelo TTS pyahu tokenizador-ỹva omba'apóva espacio continuo-pe token discreto-kuéra rangue. Ojapo ñe'ẽnguéra 44.1kHz fidelidad-pe, oykeko ñe'ẽnguéra clonación cero-disparo rehegua 3-10 segundo-pe, ha oguereko consistencia párrafo-kuéra apytépe. Clonación ñe'ẽnguéra ñembojoaju rupive ikatu ojeiporu ñe'ẽnguéra inglés-gui chino-pe g̃uarã ha viceversa.

Desarrollador::
OpenBMB
Licencia::
Apache 2.0
Velocidad:
Fast
Calidad::
Ñe'ẽ:
en, zh
VRAM:
4GB
Clonación ñe'ẽnguéra rehe:
Ha'e
Presupuesto peteĩteĩ 1K carácter-pe g̃uarã:
2x
Audio Tokenizer-free Clonación ñe'ẽjoaju rehegua Context-sensitive Ajuste fino LoRA
Oñeikotevẽ:: Ñe'ẽnguéra oguerekóva alta fidelidad, aranduka ñe'ẽnguéra, ha contenido ipukúva ñe'ẽnguéra rehe ñeñangarekorã.

Kani TTS 2Kani TTS 2

Free

Kani-TTS-2 NineNineSix mba'éva hína peteĩ modelo ultraligero 400M parámetro-kuéra rehegua oñemopu'ãva peteĩ backbone LFM2 AI líquido-pe NVIDIA NanoCodec ndive. Ojeporu 3GB VRAM añónte ha ome'ẽ ~10 segundo ñe'ẽnguéra ~2 segundo aja peteĩ A100 (RTF 0.2)-pe. Ko'agãgua versión pública ome'ẽ peteĩ punto de control `kani-tts-2-en` inglés-pe añónte ha ndoguerekói pe gancho de incrustación oñeikotevẽva ñe'ẽnguéra clonación-pe g̃uarã — ojeporu Chatterbox / IndexTTS2 / F5-TTS clonación-pe g̃uarã, térã Kokoro / MeloTTS ndaha'éiva inglés-pe g̃uarã.

Desarrollador::
NineNineSix
Licencia::
Apache 2.0
Velocidad:
Fast
Calidad::
Ñe'ẽ:
en
VRAM:
3GB
Clonación ñe'ẽnguéra rehe:
No
Presupuesto peteĩteĩ 1K carácter-pe g̃uarã:
Libre
3GB VRAM Yvate pya'e Ligero NanoCodec Libre
Oñeikotevẽ:: Generación inglesa pya'evéva hardware VRAM sa'ivévape, tapykueve jehecha pya'evéva

OuteTTSOuteTTS

Free

OuteTTS ombotuichave umi lenguaje modelo tuichavéva oguerekóva capacidad ñe'ẽ'apo-gui ñe'ẽ'apo-pe g̃uarã, ha upéicha avei oñangareko arquitectura ypy rehe. Oipytyvõ heta backend-pe, oikehápe llama.cpp (CPU/GPU), Hugging Face Transformers, ExLlamaV2, VLLM, ha avei inferencia navegador rupive Transformers.js rupive. Oguerekóva clonación ñe'ẽ'apo rehegua cero disparo rupive umi perfil ñe'ẽ'apohára rehegua oñeñongatuhápe JSON-ramo.

Desarrollador::
OuteAI
Licencia::
Apache 2.0
Velocidad:
Fast
Calidad::
Ñe'ẽ:
en
VRAM:
2GB
Clonación ñe'ẽnguéra rehe:
Ha'e
Presupuesto peteĩteĩ 1K carácter-pe g̃uarã:
Libre
CPU inferencia Navegador inferencia Clonación ñe'ẽnguéra rehe Heta backend Ñemoñe'ẽha perfil
Oñeikotevẽ:: Despliegue Edge, TTS oñemopyendáva navegador-pe, entorno sa'i recurso oguerekóva

VibeVoiceVibeVoice

Standard

VibeVoice Microsoft mba'éva omoheñói ñe'ẽjoaju ipukúva 90 minuto peve, oykekohápe 4 ñe'ẽha'ãnga simultáneo, ha upéva oikoporãve podcast ha ñe'ẽjovake. Realtime 0.5B variante oguereko peteĩ latencia de ~300ms jeporu interactivo-pe g̃uarã. Oipytyvõ ñe'ẽjovake etiqueta-kuérape oñemoheñói hag̃ua ñe'ẽjovake heta turno-pe.

Desarrollador::
Microsoft
Licencia::
MIT
Velocidad:
Fast
Calidad::
Ñe'ẽ:
en, zh
VRAM:
4GB
Clonación ñe'ẽnguéra rehe:
No
Presupuesto peteĩteĩ 1K carácter-pe g̃uarã:
2x
Oñe'ẽ'ỹva Forma puku (90 min) Podcast ñemoheñói Diálogo Latencia sa'i
Oñeikotevẽ:: Podcast, ñe'ẽjovake, ñe'ẽjoaju ipukúva, contenido oguerekóva heta ñe'ẽha

Pocket TTSPocket TTS

Free

Pocket TTS Kyutai mba'éva (Moshi omoheñói va'ekue) ha'e peteĩ modelo compacto texto-gui ñe'ẽngue-pe g̃uarã oguerekóva 100M parámetro, imbaretevéva ipukuvévagui. Oñemongu'e porã CPU-pe, oykeko ñe'ẽ clonación cero tiro rehegua peteĩ muestra de sonido añónte guive ha omoheñói ñe'ẽngue oguerekóva sonido natural. Modelo michĩva ojapo ichugui peteĩ modelo ideal umi entorno de despliegue extremo ha sa'i recurso oguerekóvape g̃uarã.

Desarrollador::
Kyutai
Licencia::
MIT
Velocidad:
Fast
Calidad::
Ñe'ẽ:
en, fr
VRAM:
1GB
Clonación ñe'ẽnguéra rehe:
Ha'e
Presupuesto peteĩteĩ 1K carácter-pe g̃uarã:
Libre
Parámetro 100M CPU inferencia Clonación ñe'ẽnguéra rehe Clonación peteĩ muestra-pe Oñemohenda
Oñeikotevẽ:: Despliegue ipya'éva, entorno CPU añónte, clonación ñe'ẽmby pya'éva

Kitten TTSKitten TTS

Free

Kitten TTS KittenML mba'éva hína peteĩ modelo texto-gui-ñe'ẽ-pe g̃uarã ipya'evéva, oñemopyendáva ONNX-pe. Oguerekóva variante 15M guive 80M peve (25-80 MB disco-pe), ome'ẽ ñe'ẽ ñeikumby porã CPU-pe oikotevẽ'ỹre peteĩ GPU. Oguerekóva 8 ñe'ẽ oñemohendáva, ñe'ẽ ñeikumby pya'e oñemoambuéva ha ñe'ẽ ñeikumby preprocesamiento oñemohendáva papapykuéra, moneda ha unidad-kuéra. Iñambueporã umi aplicación desplegable ha de baja latencia-pe g̃uarã.

Desarrollador::
KittenML
Licencia::
Apache 2.0
Velocidad:
Fast
Calidad::
Ñe'ẽ:
en
VRAM:
0GB
Clonación ñe'ẽnguéra rehe:
No
Presupuesto peteĩteĩ 1K carácter-pe g̃uarã:
Libre
Inferencia CPU añónte Tamaño modelo michĩvéva 80MB 8 ñe'ẽ oñemohendáva Control de velocidad Oñemopyenda ONNX-pe 24kHz salida
Oñeikotevẽ:: TTS ipya'e ha pya'e, implementación de borde, aplicación de baja latencia

CosyVoice3CosyVoice3

Standard

CosyVoice3 hína evolución pyahu FunAudioLLM aty Alibaba mba'éva. Oguerekóva inferencia bi-streaming ~150ms de latencia rehe, control oñemopyendáva instrucción-pe emoción/velocidad/volumen ha ñe'ẽnguéra jojoguaporãve clonación cero-disparo rehegua. Oipytyvõ 9 ñe'ẽ ha 18 dialecto chino. Variante ajustada RL-pe ome'ẽ peteĩ prosodia moderno.

Desarrollador::
Alibaba (FunAudioLLM)
Licencia::
Apache 2.0
Velocidad:
Fast
Calidad::
Ñe'ẽ:
en, zh, ja, ko, de, es, fr, it, ru
VRAM:
4GB
Clonación ñe'ẽnguéra rehe:
Ha'e
Presupuesto peteĩteĩ 1K carácter-pe g̃uarã:
2x
Bi-streaming Emoción rehegua control Clonación ñe'ẽnguéra rehe Velocidad/volume control Instrucción ohasáva
Oñeikotevẽ:: Producción multilingüe TTS, aplicación tiempo real-pe, ñe'ẽ clonación

NAMAA Saudi TTSNAMAA Saudi TTS

Standard

NAMAA Saudi TTS hína peteĩ árabe saudita ñe'ẽnguéra ñemoambue, ChatterboxMultilingual IA-pegua. Oñemoarandu NAMAA Space rupive ñe'ẽnguéra árabe saudita autentica-pe, omoheñói peteĩ árabe estándar moderno ha ñe'ẽnguéra árabe saudita ñe'ẽnguéra ñemoambue, umi modelo multilingüe genérico ndojokupytýi va'ekue. Oguereko Chatterbox ñe'ẽnguéra clonación cero-shot ha control emocional ñe'ẽnguéra referencia-pegua rupive. TTS árabe ypy oguerekóva peso abierto ojeporu TTS.ai-pe.

Desarrollador::
NAMAA Space
Licencia::
MIT
Velocidad:
Medium
Calidad::
Ñe'ẽ:
ar
VRAM:
6GB
Clonación ñe'ẽnguéra rehe:
Ha'e
Presupuesto peteĩteĩ 1K carácter-pe g̃uarã:
2x
Árabe saudita dialecto Árabe estándar moderno Clonación ñe'ẽ cero-shot Emoción rehegua control Pronunciación nativa
Oñeikotevẽ:: Umi contenido árabe ojejapóva audiencia saudita-pe g̃uarã, narración MSA, agentes de voz dialecto Khaleeji-pegua, aranduka ñehendurã árabe.

Darwin TTSDarwin TTS

Standard

Darwin-TTS-1.7B-Cross FINAL-Bench mba'éva hína peteĩ variante jeporekarã Qwen3-TTS-1.7B rehegua, oĩhápe 84 tensor-FFN ñe'ẽ'apohára (8,6%) ojoajuhápe α=3% rehe tensor ojokupytýva Qwen3-1.7B-Base-gui. Ko combinación oñemohenda ñembokatupyry'ỹ rehe ha ome'ẽ peteĩ clonación ñe'ẽjoaju ojoavýva ojekuaaporãve hag̃ua coreano, inglés, japonés ha chino-pe. Oiko modo de clonación ñe'ẽjoaju cero disparo-pe (3 segundos ñe'ẽjoaju referencia).

Desarrollador::
FINAL-Bench
Licencia::
Apache 2.0
Velocidad:
Medium
Calidad::
Ñe'ẽ:
en, ko, ja, zh
VRAM:
7GB
Clonación ñe'ẽnguéra rehe:
Ha'e
Presupuesto peteĩteĩ 1K carácter-pe g̃uarã:
2x
Clonación ñe'ẽnguéra rehe Interlenguaje FFN- ojoaju 4 ñe'ẽ ypy Qwen3 backbone
Oñeikotevẽ:: Clonación ñe'ẽnguéra apytépe inglés, coreano, japonés ha chino apytépe peteĩ ñe'ẽ referencia añónte rehe

MOSS-TTSDMOSS-TTSD

Standard

MOSS-TTSD v1.0 OpenMOSS-pegua hína peteĩ modelo ñe'ẽasa ñe'ẽ'arã 7B-pegua, omboguatahápe ñe'ẽasa peteĩ ñe'ẽ'arã mbykymi guive. Oipytyvõ 5 ñe'ẽha'ãnga simultáneo rupive etiqueta [S1]/[S2], ñe'ẽ clonación cero-disparo rehegua 3-10 s ñe'ẽ'arã referencia rehegua, ha 60 mbyte peve ñe'ẽ'arã coherente multi-giro rehegua 20 ñe'ẽ rupive. Ojoavy MOSS-TTS-gui — TTSD oñemopyenda umi flujo de trabajo podcast/libro ñe'ẽ'arã/doblado-pe g̃uarã.

Desarrollador::
OpenMOSS
Licencia::
Apache 2.0
Velocidad:
Medium
Calidad::
Ñe'ẽ:
en, zh
VRAM:
12GB
Clonación ñe'ẽnguéra rehe:
Ha'e
Presupuesto peteĩteĩ 1K carácter-pe g̃uarã:
2x
Ñemoñe'ẽnguéra ñemohenda 5 ñehenduvéva peve Audio coherente 60' Clonación ñe'ẽnguéra rehe Podcast ñembohape
Oñeikotevẽ:: Podcast, audiolibro, ñe'ẽjoaju oñembohasahápe, ñe'ẽjoaju contenido heta ñe'ẽ rupive

Ming-Omni TTSMing-Omni TTS

Free

Ming-omni-tts-0.5B inclusionAI mba'éva hína peteĩ modelo de discurso omnimodal compacto oñemopyendáva BailingMM columna vertebral densa-pe, oguerekóva peteĩ descodificador de sonido ojokupytýva flujo rehe parche-pa-parche rupive. Oikuave'ẽ peteĩ salida 44.1kHz (CD calidad ykére), oykeko ñe'ẽ clonación cero disparo rehegua peteĩ referencia 3+ segundo rehegua, ha oike emoción/dialecto/BGM control integrado umi instrucción JSON rupive. Estabilidad mbarete - 0.83% WER umi referencia chino-pe.

Desarrollador::
inclusionAI
Licencia::
Apache 2.0
Velocidad:
Medium
Calidad::
Ñe'ẽ:
en, zh
VRAM:
3GB
Clonación ñe'ẽnguéra rehe:
Ha'e
Presupuesto peteĩteĩ 1K carácter-pe g̃uarã:
Libre
44.1kHz salida Clonación ñe'ẽnguéra rehe Emoción rehegua control Dialecto control BGM generación Compact 0.5B
Oñeikotevẽ:: High-fidelity bilingual narration, emotion-controlled voice acting, Chinese audiobook content

MOSS-TTS NanoMOSS-TTS Nano

Free

MOSS-TTS-Nano-100M hína peteĩ variante 100M-parámetro-pegua OpenMOSS-pegua, MOSS-TTS familia-pegua, ombojoajuhápe arquitectura de transformador de retraso. Oñemoambue modelo 8B calidad ypy rehe peso michĩvévape ~80 ha VRAM michĩvévape peteĩ ñeikotevẽ rupive, ha upéva ojapose hag̃ua ikatu hína despliegue de nivel libre ha alto rendimiento.

Desarrollador::
OpenMOSS
Licencia::
Apache 2.0
Velocidad:
Fast
Calidad::
Ñe'ẽ:
en, zh, de, es, fr, ja, it, ko, ru, ar, pt
VRAM:
2GB
Clonación ñe'ẽnguéra rehe:
Ha'e
Presupuesto peteĩteĩ 1K carácter-pe g̃uarã:
Libre
Compact 100M Inferencia pya'e Multilenguaje Clonación ñe'ẽnguéra rehe MOSS familia ojoguáva
Oñeikotevẽ:: TTS nivel-va'ekue, producción tuichavéva, jeporu interactivo sa'ivéva latencia-gui.

KokoroKokoro

Libre

Kokoro is an 82 million parameter text-to-speech model that punches well above its weight class. Despite its tiny size, it produces remarkably natural and expressive speech. Kokoro supports multiple languages including English, Japanese, Chinese, and Korean with a variety of expressive voices. It runs incredibly fast — generating audio nearly 100x faster than real-time on a GPU.

Desarrollador::
Hexgrad
Licencia::
Apache 2.0
Velocidad:
Fast
Calidad::
Ñe'ẽ: en, ja, zh, fr, it, pt, es, hi
Oñeikotevẽ:: High-quality TTS with minimal latency, streaming applications

PiperPiper

Libre

Piper is a lightweight text-to-speech engine developed by Rhasspy that uses VITS and larynx architectures. It runs entirely on CPU, making it ideal for edge devices, home automation, and applications requiring offline TTS. With over 100 voices across 30+ languages, Piper delivers natural-sounding speech at real-time speeds even on a Raspberry Pi 4.

Desarrollador::
Rhasspy
Licencia::
MIT
Velocidad:
Fast
Calidad::
Ñe'ẽ: en, de, fr, es, it, pt, nl, pl, ru, zh, ar, cs, da, fi, el, hu, is, ka, kk, ne, no, ro, sk, sr, sv, sw, tr, uk, vi, ca, cy, fa, lv, sl, lb
Oñeikotevẽ:: Quick previews, accessibility, and embedded applications

VITSVITS

Libre

VITS (Variational Inference with adversarial learning for end-to-end Text-to-Speech) is a parallel end-to-end TTS method that generates more natural sounding audio than current two-stage models. It adopts variational inference augmented with normalizing flows and an adversarial training process, achieving a significant improvement in naturalness.

Desarrollador::
Jaehyeon Kim et al.
Licencia::
MIT
Velocidad:
Fast
Calidad::
Ñe'ẽ: en, de, es, fr, pt, nl, fi, hu, bg, ja, pl
Oñeikotevẽ:: General-purpose text-to-speech with natural prosody

MeloTTSMeloTTS

Libre

MeloTTS by MyShell.ai is a multilingual TTS library supporting English (American, British, Indian, Australian), Spanish, French, Chinese, Japanese, and Korean. It is extremely fast, processing text at near real-time speed on CPU alone. MeloTTS is designed for production use and supports both CPU and GPU inference.

Desarrollador::
MyShell.ai
Licencia::
MIT
Velocidad:
Fast
Calidad::
Ñe'ẽ: en, es, fr, zh, ja, ko
Oñeikotevẽ:: Production applications needing fast, multilingual TTS

Kani TTS 2Kani TTS 2

Libre

Kani-TTS-2 by NineNineSix is an ultra-lightweight 400M parameter model built on a Liquid AI LFM2 backbone with NVIDIA NanoCodec. It runs in just 3GB VRAM and produces ~10 seconds of speech in ~2 seconds on an A100 (RTF 0.2). The current public release ships an English-only `kani-tts-2-en` checkpoint and does not expose the speaker-embedding hook needed for voice cloning — use Chatterbox / IndexTTS2 / F5-TTS for cloning, or Kokoro / MeloTTS for non-English.

Desarrollador::
NineNineSix
Licencia::
Apache 2.0
Velocidad:
Fast
Calidad::
Ñe'ẽ: en
Oñeikotevẽ:: Fast English generation on low-VRAM hardware, quick previews

OuteTTSOuteTTS

Libre

OuteTTS extends large language models with text-to-speech capabilities while preserving the original architecture. It supports multiple backends including llama.cpp (CPU/GPU), Hugging Face Transformers, ExLlamaV2, VLLM, and even browser inference via Transformers.js. Features zero-shot voice cloning through speaker profiles saved as JSON.

Desarrollador::
OuteAI
Licencia::
Apache 2.0
Velocidad:
Fast
Calidad::
Ñe'ẽ: en
Oñeikotevẽ:: Edge deployment, browser-based TTS, low-resource environments

Pocket TTSPocket TTS

Libre

Pocket TTS by Kyutai (creators of Moshi) is a compact 100M parameter text-to-speech model that punches well above its weight. It runs efficiently on CPU, supports zero-shot voice cloning from a single audio sample, and produces natural-sounding speech. The small model size makes it ideal for edge deployment and low-resource environments.

Desarrollador::
Kyutai
Licencia::
MIT
Velocidad:
Fast
Calidad::
Ñe'ẽ: en, fr
Oñeikotevẽ:: Lightweight deployment, CPU-only environments, quick voice cloning

Kitten TTSKitten TTS

Libre

Kitten TTS by KittenML is an ultra-lightweight text-to-speech model built on ONNX. With variants from 15M to 80M parameters (25-80 MB on disk), it delivers high-quality voice synthesis on CPU without requiring a GPU. Features 8 built-in voices, adjustable speech speed, and built-in text preprocessing for numbers, currencies, and units. Ideal for edge deployment and low-latency applications.

Desarrollador::
KittenML
Licencia::
Apache 2.0
Velocidad:
Fast
Calidad::
Ñe'ẽ: en
Oñeikotevẽ:: Fast lightweight TTS, edge deployment, low-latency applications

Ming-Omni TTSMing-Omni TTS

Libre

Ming-omni-tts-0.5B by inclusionAI is a compact omni-modal speech model built on the BailingMM dense backbone with a Patch-by-Patch flow-matching audio decoder. Delivers 44.1kHz output (near CD quality), supports zero-shot voice cloning from a 3+ second reference, and includes built-in emotion / dialect / BGM control via JSON instructions. Excellent stability — 0.83% WER on Chinese benchmarks.

Desarrollador::
inclusionAI
Licencia::
Apache 2.0
Velocidad:
Medium
Calidad::
Ñe'ẽ: en, zh
Oñeikotevẽ:: High-fidelity bilingual narration, emotion-controlled voice acting, Chinese audiobook content

MOSS-TTS NanoMOSS-TTS Nano

Libre

MOSS-TTS-Nano-100M is OpenMOSS's compact 100M-parameter variant of the MOSS-TTS family, sharing the delay-transformer architecture. Trades the 8B model's peak quality for ~80x smaller weights and dramatically lower per-request VRAM, making it suitable for free-tier and high-throughput deployments. Same 20-language reach.

Desarrollador::
OpenMOSS
Licencia::
Apache 2.0
Velocidad:
Fast
Calidad::
Ñe'ẽ: en, zh, de, es, fr, ja, it, ko, ru, ar, pt
Oñeikotevẽ:: Free-tier TTS, high-volume production, low-latency interactive use

BarkBark

Estándar

Bark by Suno is a transformer-based text-to-audio model that can generate highly realistic, multilingual speech as well as other audio like music, background noise, and sound effects. It can produce nonverbal communications like laughing, sighing, and crying. Bark supports over 100 speaker presets and 13+ languages.

Desarrollador::
Suno
Licencia::
MIT
Velocidad:
Slow
Calidad::
Ñe'ẽ:
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
Clonación ñe'ẽnguéra rehe:
No
Sound effectsLaughing/sighingMusic generation100+ speakersMultilingual
Oñeikotevẽ:: Creative audio content, audiobooks with emotion, sound effects

Bark SmallBark Small

Estándar

Bark Small is a distilled version of the Bark model that trades some audio quality for significantly faster inference speeds and lower memory requirements. It retains Bark's ability to generate speech with emotions, laughter, and multiple languages.

Desarrollador::
Suno
Licencia::
MIT
Velocidad:
Medium
Calidad::
Ñe'ẽ:
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
Clonación ñe'ẽnguéra rehe:
No
LightweightFaster than full BarkEmotional speechMultilingual
Oñeikotevẽ:: Quick creative audio when full Bark is too slow

CosyVoice 2CosyVoice 2

Estándar

CosyVoice 2 by Alibaba's Tongyi Lab achieves human-comparable speech quality with extremely low latency, making it ideal for real-time applications. It uses a finite scalar quantization approach for streaming synthesis and supports zero-shot voice cloning, cross-lingual synthesis, and fine-grained emotion control. It outperforms many commercial TTS systems in subjective evaluations.

Desarrollador::
Alibaba (Tongyi Lab)
Licencia::
Apache 2.0
Velocidad:
Medium
Calidad::
Ñe'ẽ:
en, zh, ja, ko, fr, de, it, es
Clonación ñe'ẽnguéra rehe:
Ha'e
StreamingZero-shot cloningCross-lingualEmotion controlHuman-parity
Oñeikotevẽ:: Real-time applications, streaming TTS, voice assistants

Dia TTSDia TTS

Estándar

Dia by Nari Labs is a 1.6B parameter text-to-speech model designed specifically for generating multi-speaker dialogue. It can produce natural-sounding conversations between two speakers with appropriate turn-taking, prosody, and emotional expression. Dia is perfect for creating podcast-style content, audiobook dialogues, and interactive conversational AI.

Desarrollador::
Nari Labs
Licencia::
Apache 2.0
Velocidad:
Medium
Calidad::
Ñe'ẽ:
en
Clonación ñe'ẽnguéra rehe:
No
Multi-speakerDialog generationNatural turn-takingEmotional expression1.6B parameters
Oñeikotevẽ:: Podcasts, audiobook dialogues, conversational content

Parler TTSParler TTS

Estándar

Parler TTS is a text-to-speech model that uses natural language voice descriptions to control the generated speech. Instead of selecting from preset voices, you describe the voice you want (e.g., "a warm female voice with a slight British accent, speaking slowly and clearly") and Parler generates speech matching that description. This makes it uniquely flexible for creative applications.

Desarrollador::
Hugging Face
Licencia::
Apache 2.0
Velocidad:
Medium
Calidad::
Ñe'ẽ:
en
Clonación ñe'ẽnguéra rehe:
No
Voice descriptionNatural language controlFlexible voice creationNo preset voices needed
Oñeikotevẽ:: Creative applications where you need custom voice characteristics

IndexTTS-2IndexTTS-2

Estándar

IndexTTS-2 is an advanced text-to-speech system that excels at zero-shot voice synthesis with fine-grained emotion control. It can generate speech with specific emotional tones like happy, sad, angry, or fearful without requiring emotion-specific training data. The model uses emotion vectors to precisely control the emotional expression of generated speech.

Desarrollador::
Index Team
Licencia::
Bilibili Model License
Velocidad:
Medium
Calidad::
Ñe'ẽ:
en, zh
Clonación ñe'ẽnguéra rehe:
Ha'e
Emotion controlZero-shotEmotion vectorsExpressive speechFine-grained control
Oñeikotevẽ:: Emotionally expressive content, audiobooks, virtual assistants

Spark TTSSpark TTS

Estándar

Spark TTS by SparkAudio is a text-to-speech model that combines voice cloning with controllable emotion and speaking style. Using just 5 seconds of reference audio, it can clone a voice and then generate speech with different emotions, speeds, and styles while maintaining the cloned voice identity. Spark TTS uses a prompt-based control system.

Desarrollador::
SparkAudio
Licencia::
CC BY-NC-SA 4.0
Velocidad:
Medium
Calidad::
Ñe'ẽ:
en, zh
Clonación ñe'ẽnguéra rehe:
Ha'e
Voice cloningEmotion controlStyle controlPrompt-based5-second cloning
Oñeikotevẽ:: Content creation with cloned voices and emotional control

GPT-SoVITSGPT-SoVITS

Estándar

GPT-SoVITS combines GPT-style language modeling with SoVITS (Singing Voice Inference via Translation and Synthesis) for powerful few-shot voice cloning. With as little as 5 seconds of reference audio, it can accurately clone a voice and generate new speech while preserving the speaker's unique characteristics. It excels at both speaking and singing voice synthesis.

Desarrollador::
RVC-Boss
Licencia::
MIT
Velocidad:
Slow
Calidad::
Ñe'ẽ:
en, zh, ja, ko
Clonación ñe'ẽnguéra rehe:
Ha'e
5-second cloningSinging voiceFew-shot learningHigh fidelityCross-lingual
Oñeikotevẽ:: Voice cloning, singing synthesis, content creator voice replication

OrpheusOrpheus

Estándar

Orpheus is a large-scale text-to-speech model that achieves human-level emotional expression. Trained on over 100,000 hours of diverse speech data, it excels at generating speech with natural emotions, emphasis, and speaking styles. Orpheus can produce speech that is virtually indistinguishable from human recordings.

Desarrollador::
Canopy Labs
Licencia::
Llama 3.2 Community
Velocidad:
Medium
Calidad::
Ñe'ẽ:
en
Clonación ñe'ẽnguéra rehe:
No
Human-level emotion100K hours trainingNatural emphasisExpressive speech
Oñeikotevẽ:: High-quality emotional speech, audiobooks, voice acting

Qwen3 TTSQwen3 TTS

Estándar

Qwen3-TTS is a 1.7 billion parameter text-to-speech model from Alibaba's Qwen team. It supports two modes: preset voices with emotion control (9 speakers), and a unique voice design mode where you describe the voice you want in natural language. It covers 10 languages with high expressiveness and natural prosody.

Desarrollador::
Alibaba (Qwen)
Licencia::
Apache 2.0
Velocidad:
Medium
Calidad::
Ñe'ẽ:
en, zh, ja, ko, de, fr, ru, pt, es, it
Clonación ñe'ẽnguéra rehe:
No
9 preset voicesVoice design from textEmotion control10 languages
Oñeikotevẽ:: Multilingual content with preset voices or custom voice design

VieNeu-TTS-v2VieNeu-TTS-v2

Estándar

VieNeu-TTS-v2 is a 300M parameter Vietnamese-first TTS model trained on 10,000+ hours of bilingual data. It supports seamless en-vi code-switching, 7 preset voices spanning Northern and Southern accents, and instant voice cloning from 3-5 seconds of reference audio. Runs entirely on CPU via GGUF Q4 inference + ONNX audio decoder — no GPU needed, generations finish in ~7 seconds. Built on a Qwen3 backbone.

Desarrollador::
Phạm Nguyễn Ngọc Bảo
Licencia::
Apache 2.0
Velocidad:
Fast
Calidad::
Ñe'ẽ:
vi, en
Clonación ñe'ẽnguéra rehe:
Ha'e
7 preset voices (North + South accents)En-Vi code-switchingVoice cloning (3-5s reference)Podcast / multi-speaker supportCPU-only — no GPU required
Oñeikotevẽ:: Vietnamese content and bilingual en-vi narration

Chatterbox TurboChatterbox Turbo

Estándar

Chatterbox Turbo by Resemble AI is a 350M parameter upgrade to Chatterbox, delivering up to 6x real-time speed with sub-200ms latency. It supports paralinguistic tags like [laugh], [cough], and [chuckle] directly in text. Includes Perth watermarking on all generated audio for provenance tracking.

Desarrollador::
Resemble AI
Licencia::
MIT
Velocidad:
Fast
Calidad::
Ñe'ẽ:
en
Clonación ñe'ẽnguéra rehe:
Ha'e
Sub-200ms latencyParalinguistic tags6x real-timeVoice cloningWatermarking
Oñeikotevẽ:: Real-time voice agents, expressive speech with natural sounds

VoxCPMVoxCPM

Estándar

VoxCPM 1.5 by OpenBMB is a novel tokenizer-free TTS model that operates in continuous space rather than discrete tokens. It produces high-fidelity 44.1kHz audio, supports zero-shot voice cloning from 3-10 seconds, and maintains consistency across paragraphs. Cross-language cloning lets you apply an English voice to Chinese speech and vice versa.

Desarrollador::
OpenBMB
Licencia::
Apache 2.0
Velocidad:
Fast
Calidad::
Ñe'ẽ:
en, zh
Clonación ñe'ẽnguéra rehe:
Ha'e
44.1kHz audioTokenizer-freeCross-lingual cloningContext-awareLoRA fine-tuning
Oñeikotevẽ:: High-fidelity audio, audiobooks, long-form content with voice consistency

VibeVoiceVibeVoice

Estándar

VibeVoice from Microsoft generates long-form speech up to 90 minutes with support for 4 simultaneous speakers, making it ideal for podcasts and dialogues. The Realtime 0.5B variant achieves ~300ms latency for interactive use. Supports speaker tags for multi-turn dialogue generation.

Desarrollador::
Microsoft
Licencia::
MIT
Velocidad:
Fast
Calidad::
Ñe'ẽ:
en, zh
Clonación ñe'ẽnguéra rehe:
No
Multi-speakerLong-form (90 min)Podcast generationDialogueLow latency
Oñeikotevẽ:: Podcasts, dialogues, long-form narration, multi-speaker content

CosyVoice3CosyVoice3

Estándar

CosyVoice3 is the latest evolution from Alibaba's FunAudioLLM team. It features bi-streaming inference with ~150ms latency, instruction-based control for emotion/speed/volume, and improved speaker similarity for zero-shot cloning. Supports 9 languages plus 18 Chinese dialects. RL-tuned variant delivers state-of-the-art prosody.

Desarrollador::
Alibaba (FunAudioLLM)
Licencia::
Apache 2.0
Velocidad:
Fast
Calidad::
Ñe'ẽ:
en, zh, ja, ko, de, es, fr, it, ru
Clonación ñe'ẽnguéra rehe:
Ha'e
Bi-streamingEmotion controlVoice cloningSpeed/volume controlInstruction following
Oñeikotevẽ:: Multilingual production TTS, real-time applications, voice cloning

NAMAA Saudi TTSNAMAA Saudi TTS

Estándar

NAMAA Saudi TTS is a Saudi Arabic fine-tune of Resemble AI's ChatterboxMultilingual. Trained by NAMAA Space on authentic Saudi-dialect speech, it produces natural Modern Standard Arabic and Saudi colloquial pronunciation that generic multilingual models cannot match. Inherits Chatterbox's zero-shot voice cloning and emotion control via reference audio prompts. The first open-weights Arabic TTS deployed on TTS.ai.

Desarrollador::
NAMAA Space
Licencia::
MIT
Velocidad:
Medium
Calidad::
Ñe'ẽ:
ar
Clonación ñe'ẽnguéra rehe:
Ha'e
Saudi Arabic dialectModern Standard ArabicZero-shot voice cloningEmotion controlNative pronunciation
Oñeikotevẽ:: Arabic content for Saudi audiences, MSA narration, Khaleeji-dialect voice agents, Arabic audiobooks

Darwin TTSDarwin TTS

Estándar

Darwin-TTS-1.7B-Cross by FINAL-Bench is a research variant of Qwen3-TTS-1.7B where 84 talker-FFN tensors (8.6%) are blended at α=3% with the matching tensors from Qwen3-1.7B-Base. The blend is built without retraining and produces noticeably crisper cross-lingual voice cloning across Korean, English, Japanese, and Chinese. Operates in zero-shot voice-clone mode (3 seconds reference audio).

Desarrollador::
FINAL-Bench
Licencia::
Apache 2.0
Velocidad:
Medium
Calidad::
Ñe'ẽ:
en, ko, ja, zh
Clonación ñe'ẽnguéra rehe:
Ha'e
Voice cloningCross-lingualFFN-blended4 core languagesQwen3 backbone
Oñeikotevẽ:: Cross-lingual voice cloning between English / Korean / Japanese / Chinese with a single reference voice

MOSS-TTSDMOSS-TTSD

Estándar

MOSS-TTSD v1.0 from OpenMOSS is a 7B dialogue text-to-speech model that continues conversations from a short audio prompt. Supports up to 5 simultaneous speakers via [S1]/[S2] tags, zero-shot voice cloning from 3-10s reference audio, and up to 60 minutes of coherent multi-turn dialogue across 20 languages. Distinct from MOSS-TTS — TTSD is specialized for podcast/audiobook/dubbing workflows.

Desarrollador::
OpenMOSS
Licencia::
Apache 2.0
Velocidad:
Medium
Calidad::
Ñe'ẽ:
en, zh
Clonación ñe'ẽnguéra rehe:
Ha'e
Multi-speaker dialogueUp to 5 speakers60min coherent audioVoice cloningPodcast-optimised
Oñeikotevẽ:: Podcasts, audiobooks, dubbed dialogue, conversational content with multiple voices

ChatterboxChatterbox

Premium

Chatterbox by Resemble AI is a cutting-edge zero-shot voice cloning model. It can replicate any voice from a single audio sample with remarkable accuracy, capturing not just the timbre but also the speaking style and emotional nuances. Chatterbox also features fine-grained emotion control, allowing you to adjust the emotional tone of the generated speech independently from the voice identity.

Desarrollador::
Resemble AI
Licencia::
MIT
Velocidad:
Medium
Calidad::
Ñe'ẽ:
en
Clonación ñe'ẽnguéra rehe:
Ha'e
VRAM:
4GB
Presupuesto peteĩteĩ 1K carácter-pe g̃uarã:
4x
Zero-shot cloningEmotion controlHigh fidelityStyle transferSingle sample cloning
Oñeikotevẽ:: Professional voice cloning with emotional control, content creation

Tortoise TTSTortoise TTS

Premium

Tortoise TTS is an autoregressive multi-voice text-to-speech system that prioritizes audio quality over speed. It uses DALL-E-inspired architecture to generate highly natural speech with excellent prosody and speaker similarity. While slower than many alternatives, Tortoise produces some of the most realistic synthetic speech available in the open-source ecosystem.

Desarrollador::
James Betker
Licencia::
Apache 2.0
Velocidad:
Slow
Calidad::
Ñe'ẽ:
en
Clonación ñe'ẽnguéra rehe:
Ha'e
VRAM:
8GB
Presupuesto peteĩteĩ 1K carácter-pe g̃uarã:
4x
Highest qualityMulti-voiceDALL-E architectureVoice cloningAutoregressive
Oñeikotevẽ:: Audiobooks, premium content, quality-first applications

StyleTTS 2StyleTTS 2

Premium

StyleTTS 2 achieves human-level TTS synthesis by combining style diffusion with adversarial training using large speech language models. It generates the most natural sounding speech among single-speaker models, rivaling human recordings. StyleTTS 2 uses diffusion-based style modeling to capture the full range of human speech variation.

Desarrollador::
Columbia University
Licencia::
MIT
Velocidad:
Medium
Calidad::
Ñe'ẽ:
en
Clonación ñe'ẽnguéra rehe:
No
VRAM:
4GB
Presupuesto peteĩteĩ 1K carácter-pe g̃uarã:
4x
Human-levelStyle diffusionAdversarial trainingNatural variationHigh fidelity
Oñeikotevẽ:: Studio-quality single-speaker synthesis, professional narration

OpenVoiceOpenVoice

Premium

OpenVoice by MyShell.ai enables instant voice cloning with granular control over voice style, emotion, accent, rhythm, pauses, and intonation. It can clone a voice from a short audio clip and generate speech in multiple languages while maintaining the speaker identity. OpenVoice also functions as a voice converter, allowing real-time voice transformation.

Desarrollador::
MyShell.ai / MIT
Licencia::
MIT
Velocidad:
Medium
Calidad::
Ñe'ẽ:
en, zh, ja, ko, fr, es
Clonación ñe'ẽnguéra rehe:
Ha'e
VRAM:
4GB
Presupuesto peteĩteĩ 1K carácter-pe g̃uarã:
4x
Instant cloningVoice conversionEmotion controlAccent controlMultilingual
Oñeikotevẽ:: Voice cloning with fine-grained style control, voice conversion

Sesame CSMSesame CSM

Premium

Sesame CSM (Conversational Speech Model) is a 1 billion parameter model designed specifically for generating conversational speech. It models the natural patterns of human conversation including turn-taking timing, backchannel responses, emotional reactions, and conversational flow. CSM generates audio that sounds like a natural human conversation rather than synthetic speech.

Desarrollador::
Sesame
Licencia::
Apache 2.0
Velocidad:
Slow
Calidad::
Ñe'ẽ:
en
Clonación ñe'ẽnguéra rehe:
No
VRAM:
8GB
Presupuesto peteĩteĩ 1K carácter-pe g̃uarã:
4x
ConversationalNatural timingTurn-takingBackchannel1B parameters
Oñeikotevẽ:: AI assistants, chatbots, conversational AI applications

Modelo comparación rehegua tabla

Modelo Desarrollador: Ta'ãnga Calidad: Velocidad Ñe'ẽ Clonación ñe'ẽnguéra rehe VRAM Licencia: Presupuesto
Kokoro Hexgrad Free Fast 8 1.5GB Apache 2.0 Libre Ojeporu
Piper Rhasspy Free Fast 35 0 (CPU only) MIT Libre Ojeporu
VITS Jaehyeon Kim et al. Free Fast 11 1GB MIT Libre Ojeporu
MeloTTS MyShell.ai Free Fast 6 0.5GB (GPU optional) MIT Libre Ojeporu
Bark Suno Standard Slow 13 5GB MIT 2 Ojeporu
Bark Small Suno Standard Medium 13 2GB MIT 2 Ojeporu
CosyVoice 2 Alibaba (Tongyi Lab) Standard Medium 8 4GB Apache 2.0 2 Ojeporu
Dia TTS Nari Labs Standard Medium 1 4GB Apache 2.0 2 Ojeporu
Parler TTS Hugging Face Standard Medium 1 4GB Apache 2.0 2 Ojeporu
IndexTTS-2 Index Team Standard Medium 2 4GB Bilibili Model License 2 Ojeporu
Spark TTS SparkAudio Standard Medium 2 4GB CC BY-NC-SA 4.0 2 Ojeporu
GPT-SoVITS RVC-Boss Standard Slow 4 6GB MIT 2 Ojeporu
Orpheus Canopy Labs Standard Medium 1 4GB Llama 3.2 Community 2 Ojeporu
Chatterbox Resemble AI Premium Medium 1 4GB MIT 4 Ojeporu
Tortoise TTS James Betker Premium Slow 1 8GB Apache 2.0 4 Ojeporu
StyleTTS 2 Columbia University Premium Medium 1 4GB MIT 4 Ojeporu
OpenVoice MyShell.ai / MIT Premium Medium 6 4GB MIT 4 Ojeporu
Qwen3 TTS Alibaba (Qwen) Standard Medium 10 7GB Apache 2.0 2 Ojeporu
VieNeu-TTS-v2 Phạm Nguyễn Ngọc Bảo Standard Fast 2 CPU Apache 2.0 2 Ojeporu
Sesame CSM Sesame Premium Slow 1 8GB Apache 2.0 4 Ojeporu
Chatterbox Turbo Resemble AI Standard Fast 1 2GB MIT 2 Ojeporu
VoxCPM OpenBMB Standard Fast 2 4GB Apache 2.0 2 Ojeporu
Kani TTS 2 NineNineSix Free Fast 1 3GB Apache 2.0 Libre Ojeporu
OuteTTS OuteAI Free Fast 1 2GB Apache 2.0 Libre Ojeporu
VibeVoice Microsoft Standard Fast 2 4GB MIT 2 Ojeporu
Pocket TTS Kyutai Free Fast 2 1GB MIT Libre Ojeporu
Kitten TTS KittenML Free Fast 1 0GB Apache 2.0 Libre Ojeporu
CosyVoice3 Alibaba (FunAudioLLM) Standard Fast 9 4GB Apache 2.0 2 Ojeporu
NAMAA Saudi TTS NAMAA Space Standard Medium 1 6GB MIT 2 Ojeporu
Darwin TTS FINAL-Bench Standard Medium 4 7GB Apache 2.0 2 Ojeporu
MOSS-TTSD OpenMOSS Standard Medium 2 12GB Apache 2.0 2 Ojeporu
Ming-Omni TTS inclusionAI Free Medium 2 3GB Apache 2.0 Libre Ojeporu
MOSS-TTS Nano OpenMOSS Free Fast 11 2GB Apache 2.0 Libre Ojeporu

Plataforma IA ñeikumby ñe'ẽ'arã tuichavéva

Mba'érepa oiporavo TTS.ai ñe'ẽjoaju ñeikumbyrã?

TTS.ai ombojoaju umi modelo ñe'ẽ-gui-ñe'ẽ-pe g̃uarã fuente abierto-pegua iporãvéva arapy tuichakue peteĩ plataforma añónte, ndahasýi ojeporu hag̃ua. Umi servicio propiedad-peguápe ojoavýva ombohape hag̃ua peteĩ motor ñe'ẽ rehegua añónte, TTS.ai ome'ẽ acceso hetave 20 modelo-pe g̃uarã umi laboratorio de investigación ha'evéva apytépe, oikehápe Coqui, MyShell, Amphion, NVIDIA, Suno, HuggingFace, Tsinghua Universidad ha hetave.

Opaite modelo hína código abierto MIT, Apache 2.0 térã ambue licencia permisiva rupive, ombohapehápe ikatu hag̃uaicha oguereko derecho comercial oipuru hag̃ua umi sonido ojehupytýva nde proyecto-pe. Oikotevẽramo peteĩ síntesis ipya'e ha pya'egua umi aplicación tiempo real-pe g̃uarã térã peteĩ salida estudio-pegua calidad-pe g̃uarã audiolibro ha podcast-pe g̃uarã, TTS.ai oguereko modelo oĩporãva oimeraẽ jeporurã.

Modelos libres, ndoikotevẽi peteĩ cuenta

Oñepyrũ pya'e mbohapy modelo TTS-pe: Piper (hypy'ũva, ipya'evéva), VITS (síntesis neuronal calidad-py yvatevéva) ha MeloTTS (apopyrã heta ñe'ẽme). Ndojehechavéima registro, tarjeta de crédito, generación-kuéra límite. Umi modelo libre oykeko inglés ha ambue ñe'ẽnguéra, oguerekóva salida natural ha oguerekóva sonido oikéva heta aplicación-pe g̃uarã.

Procesamiento acelerado GPU rupive

Opaite modelo TTS oiko GPU NVIDIA-pe oñemohendáva, generación pya'eve ha katui hag̃ua. Umi modelo gratuito katuínte omoheñói ñehendurã 2 segundo sa'ive aja. Umi modelo estándar, taha'e Kokoro, CosyVoice 2 ha Bark, oguereko peteĩ promedio 3 ha 5 segundo rupi. Umi modelo premium calidad ijyvatevéva, taha'e Tortoise ha Chatterbox, omoheñói ñehendurã 5 ha 15 segundo rupi, ojehechahápe ñe'ẽnguéra ipukukue.

30+ ñe'ẽ ojeykeko

Oñemoheñói ñe'ẽnguéra hetave 30 ñe'ẽme, oikehápe inglés, español, francés, alemán, italiano, portugués, chino, japonés, coreano, árabe, hindi, ruso ha hetave. Heta modelo oykeko ñe'ẽnguéra ñembojoaju, he'iséva ikatuha omoheñói ñe'ẽnguéra peteĩteĩ peteĩ ñe'ẽme ndojeikuaa'ỹva. CosyVoice 2 ha GPT-SoVITS ojehecharamo clonación ñe'ẽnguéra ñembojoajurã.

API oñembosako'iporãva umi desarrollador-pe g̃uarã

Oike TTS.ai-pe apopyrãkuérape API REST OpenAI-pe ojokupytýva rupive. Peteĩ punto final opaite 20+ modelo-pe g̃uarã. Python, JavaScript, cURL ha Go SDK. Apopyrã tiempo real-pe g̃uarã. Procesamiento por lotes contenido generación tuichaháicha-pe g̃uarã. Webhooks notificación asincrónica-pe g̃uarã. API jeike oike hína oimeraẽ plan-pe, oikehápe avei libre.

Pregunta ojejapóva py'ỹinte

Ñe'ẽ ñeikumby ñe'ẽ'ỹme (TTS) hína peteĩ IA tecnología ombohasa umi ñe'ẽ ñehaipyre ñe'ẽ'ỹmegua ñe'ẽ'ỹmegua ñe'ẽ'ỹmegua. Umi modelo TTS neural moderno, taha'e Kokoro, Chatterbox ha CosyVoice 2, oipuru aprendizaje profundo omoheñói hag̃ua ñe'ẽ'ỹmegua ñe'ẽ'ỹmegua, oguerekóva prosodi, emoción ha ritmo natural.

Ojehecha mba'épa tekotevẽ. Ojehecha pya'eve hag̃ua, ojeporu Piper térã MeloTTS (ite'ỹva, pya'e). Ojehechaporãve hag̃ua, oñeha'ã Kokoro térã CosyVoice 2 (nivel estándar). Ojeiporu hag̃ua ñe'ẽ clonación, ojeporu Chatterbox térã GPT-SoVITS (premium). Ñe'ẽjovake/podcast ñe'ẽnguérape g̃uarã, oñeha'ã Dia TTS. Peteĩteĩ modelo oguereko ambue mbaretekue - oñeha'ã ojejuhu hag̃ua ojeikoporãvéva.

Aye! TTS.ai ome'ẽ ñe'ẽ ñeikumby'ỹva Kokoro, Piper, VITS ha MeloTTS modelo-kuéra rupive. Ndojeporui peteĩ cuenta 500 caractere peve ha 3 generación peteĩ hora-pe. Oñemoinge peteĩ cuenta 15.000 caractere peve ha ojeike opavave modelo-pe.

Umi modelo TTS oguerekóva oñondive omombareteve 30 ñe'ẽve, oikehápe inglés, español, francés, alemán, italiano, portugués, chino, japonés, coreano, árabe, ruso, hindi ha hetave.

Aye, ñe'ẽnguéra oñemoheñóiva TTS.ai rupive ikatu ojeporu ñemuhápe. Opavave ñane modelo oipuru código abierto licencia (MIT, Apache 2.0). Ehecha modelo peteĩteĩ licencia he'iséva. Rekomenda hína reñeha'ã hag̃ua modelo específico licencia oipurukuaáva apopyrãpe.

TTS.ai oykeko MP3, WAV, OGG ha FLAC formato-kuéra salida. MP3 hína formato por defecto reproducción web-pe g̃uarã. WAV oñemoñe'ẽve hína ñemuha ñemuha ñemuharã. Ikatu oñemoambue formato apytépe jaiporukuévo ñane conversor de audio herramienta.

Ñe'ẽ clonación oiporu IA omoheñói hag̃ua peteĩ ñe'ẽ peteĩ muestra de sonido mbyky guive (heta jey 5-30 segundo peve). Ojejuhu peteĩ grabación hesakãvéva ñe'ẽ ojehupytysévagui, ha umi modelo taha'e Chatterbox, GPT-SoVITS térã OpenVoice omoheñói ñe'ẽ pyahu upe ñe'ẽpe. Kalidad oñemoporãve ñe'ẽ ñeikumby hesakãvéva ha ipukuvéva rupive.

Umi usuario libre ikatu omoheñói 500 caractere peve peteĩ ñeporandu rupi. Umi usuario registrado ikatu omoheñói 5.000 caractere peve peteĩ ñeporandu rupi. Umi ñe'ẽryru ipukuvévape g̃uarã, ñehendurã oñemoheñói fragmento-ramo ha oñembojoaju peteĩteĩ. Umi API jeporuhára ikatu omoheñói 10.000 caractere peve peteĩ ñeporandu rupi.

SSML (Speech Synthesis Markup Language) ñemoneĩ iñambue modelo rupive. Piper ha ambue modelo-kuéra omoneĩ etiqueta SSML básica pausa, énfasis ha ñe'ẽnguéra ñemohendarã. Umi modelo ndoguerekóiva SSML ñemoneĩ nativo, ikatu oipuru puntuación natural ha línea ñemboja'o ombyai hag̃ua prosodia.

Ayeguai, hetave umi modelo oykeko velocidad ajuste 0.5x guive 2.0x peve. Oĩ ambue modelo, taha'e Bark ha Parler, avei oikuave'ẽ control de tono ha estilo. Ikatu oñemohenda velocidad parámetro configuración avanzada panel-pe térã API velocidad parámetro rupive.

Aye, proceso por lotes oĩ disponible API rupive. Ikatu omoĩ heta segmento ñe'ẽnguéra peteĩ API llamada térã script-pe, ha peteĩteĩva oñemohenda ha ojevy mbohaipy archivo ojoavývaramo. Kóva iñambue umi audiolibro capítulo-pe g̃uarã, e-learning módulo térã ñembosarái script-pe g̃uarã.

Oñemohenda peteĩ clave API panel de control de cuenta-gui, upéi oheja pedido POST punto final API REST-pe, texto, modelo ha ñe'ẽnguéra parámetros ndive. Oñemohenda código techapyrã Python, JavaScript ha cURL-pe. API ojoaju OpenAI-pe, upévare umi integración oĩva oiko ñemoambue sa'ivéva rupive.
5.0/5 (4)

Mba'épa ikatu ñambohape? Tuichave ñemoneĩ oipytyvõta ñamoambue hag̃ua umi apañuãi.

Oñepyrũ conversi'ỹva ñe'ẽ'ỹme

Ojoaju hetaiterei creador-pe oiporúvo TTS.ai. Oñemoinge 15000 caractere'ỹre peteĩ cuenta pyahu rupive. Oĩ modelo'ỹre ojeiporukuaáva ndojehechakuaái rupi.