Oñe'ẽ peteĩ error rehegua reporte/ mba'eporã ñeikotevẽ

IA ñe'ẽasa ñehendurã

Oñemoambue jehaipy ñe'ẽte he'íva natural-pe modelo IA fuente abierto rupive. Ojeporuve'ỹre, ndaha'éi oñeikotevẽva peteĩ cuenta.

Oñemoinge'ỹre

Ndoguerekói gueteri ñe'ẽ TTS nde ñe'ẽme. Yvy'akuaa ñamoĩnge umi nde'éregua! Oñemu ñe'ẽ

0/500 caracteres · Oñeme'ẽ 5.000 peteĩteĩ generación-pe g̃uarã →

Ojejapo 5000 caracter rehegua límite

Modo SSML (Lenguaje jehaipy ñeikumby rehegua control fino-rã)

Ojehaijey ñe'ẽnguéra etiquetas SSML-pe peteĩ control hekopete g̃uarã:

<speak><prosody rate="slow">Slow speech</prosody></speak>

Emoción/Etiqueta estilo

Etiquetas ohechakuaáva modelo ojeporavóva - tesãirã peteĩ peteĩva ñe'ẽnguérape, oĩhápe:

Diccionario de pronunciación

Oñemohenda ñe'ẽnguéra ojehechapyréva (tembiapo = ñe'ẽnguéra):

Tonalidad 0

-12 +12

Modelo IA

Ñe'ẽ

Formato de salida

Velocidad 1.0x

0.5x 2.0x

Libre Piper, VITS, MeloTTS ndive

Audio-kuéra oguenohẽva ojekuaauka ko'ápe. Oñeporavo peteĩ modelo, omoĩnge ñe'ẽ ha ohesa'ỹijo Generar.

Modelo detalle-kuéra

Kokoro

Free

Kokoro is an 82 million parameter text-to-speech model that punches well above its weight class. Despite its tiny size, it produces remarkably natural and expressive speech. Kokoro supports multiple languages including English, Japanese, Chinese, and Korean with a variety of expressive voices. It runs incredibly fast — generating audio nearly 100x faster than real-time on a GPU.

Desarrollador:	Hexgrad
Licencia:	Apache 2.0
Velocidad	Fijo
Calidad:
Ñe'ẽ	8 Ñe'ẽ
VRAM	1.5GB
Clonación ñe'ẽnguéra rehe	No admitido

Característica:

82M parameters Ultra-fast Expressive voices Multilingual Streaming support

Oñeikotevẽ:: High-quality TTS with minimal latency, streaming applications

Ñemomarandu ojehupyty hag̃ua peteĩ mba'e porãve

Oiporu puntuación oĩporãva pausa ha entonación natural-pe g̃uarã.
Oñe'ẽ papapy ha abreviatura-kuéra ñe'ẽporãve hag̃ua
Omoĩngeve comillas omoheñói hag̃ua pausa michĩva ñe'ẽjoaju apytépe
Oiporu punto de suspensión (...) pausa dramática pukukue
Oñeha'ã Kokoro térã CosyVoice 2 ojehupyty hag̃ua resultado natural
Oiporu Dia diálogo-pe heta ñehendurã ha podcast-kuéra rehegua contenido

Caracter jeporu

Ta'ãnga	Presupuesto
Libre	1:1 (tembiapo)
Estándar	Caracteres 2x
Premium	4x caractere

Oñeme'ẽve caractere

Mba'éichapa IA rembiapo ñe'ẽjoaju rehegua

Oñemoheñói ñe'ẽnguéra peteĩteĩ mbohapy paso ndahasýiva rupive. Nahániri conocimiento técnico.

Paso 1

Oike'ỹre ñe'ẽ

Ehai, ape'a térã oguerahauka jey ñe'ẽ ojehe'a hag̃ua ñe'ẽ'apo. Omoneĩ 5000 caractere peve peteĩ generación-pe g̃uarã umi cuenta libre-pe g̃uarã, térã 10 umi plan ojejapyhyhápe. Oiporu texto ndaha'éiva térã omoĩnge etiquetas SSML control avanzado ñe'ẽ'apo, pausa ha enfasis rehegua.

Paso 2

Oñeporavo modelo ha ñe'ẽ

Oñeporavo 20+ modelo IA apytépe mbohapy nivel-pe. Oñeporavo peteĩ ñe'ẽ ojokupytýva nde contenido ndive, oporavo ñe'ẽ ojehupytyséva, omohenda reproducción rehegua velocidad 0.5x guive 2.0x peve ha oporavo formato de salida ojehecharamovéva (MP3, WAV, OGG térã FLAC).

Paso 3

Generar y descargar

Ohesa'ỹijo peteĩ enlace compartible. Oiporu API proceso por lotes ha ñemoĩnge hag̃ua tembiapo jehaipy ryepýpe.

Ojeporukuaáva ñe'ẽjoaju ñeikumbyrã

IA rupive ojehaíva ñe'ẽngue-pe omoambue mba'éichapa yvypóra omoheñói, oiporu ha ojokupyty umi contenido sonoro heta industria-pe.

Audiolibro

Oñemoambue arandukaveínte peteĩ ñe'ẽnguéra ñe'ẽra'ã rehe, ñe'ẽnguéra oguerekóva calidad estudio-pegua. Oñemoĩ heta ñe'ẽnguéra Dia ndive diálogo de personaje-pe g̃uarã.

Video ñehendu'ã

Oñemohenda ñe'ẽnguéra profesional-kuéra YouTube, TikTok, Instagram Reels ha corto-kuéra-pe g̃uarã. 100 ñe'ẽgui hetave térã clone nde'éregua.

Podcast

Oñemohenda podcast episodio-kuéra guión-kuéragui oguerekóva heta ñe'ẽ IA. Oiporu Dia ñe'ẽjovake mokõi ñe'ẽha rehe.

Juego

IA ñe'ẽnguéra ñemboheko ñembosarái juego independiente-pe g̃uarã, novela visual ha ficción interactiva, diálogo NPC, ñe'ẽnguéra escena-pegua, hetave 30 ñe'ẽ.

E-learning

Oñemoambue curso material, ñe'ẽnguéra ha ñemoarandu rehegua contenido ñe'ẽnguérape. Apopyrã ñe'ẽnguéra plataforma global-pe g̃uarã.

Accesibilidad

Oñemohenda umi web rendápe, documento ha aplicación-pe g̃uarã jeike pya'eve. API ñeikumbyhára pantalla-pe jeike ha artículo ñeikumby ñehendurã.

Sistema telefónico ha IVR

Oñemombareteve umi sistema IVR, menú telefónico ha servicio de atención al cliente IA ñe'ẽ natural rupive. Transmisión de baja latencia umi centro de llamada-pe g̃uarã.

Medio social

TikTok ñe'ẽnguéra, Instagram Reels, Twitter/X ñe'ẽnguéra, YouTube cortos. Generación pya'evéva modelo-kuéra libre rehe.

Streaming

Alertas Twitch TTS, ñe'ẽjoaju ñe'ẽ'ỹme, IA co-host ha bots Discord. Sa'i latencia, hetave 100 ñe'ẽ, ojokupyty StreamElements rehe.

Comercialización

Ñemomarandu ñehendurã, video explicativo, producto demostración ha ñemurã presentación. Oñembohetave contenido sonoro producción campaña rupive.

Doblaje ha localización

Oñemoambue ha ojehai video 30 ñe'ẽme IA ñe'ẽjoaju rupive, transcripción automática ha ñe'ẽha'ãnga.

Meditación ha Bienestar

Meditación guiada, ñe'ẽ'i jejukarã, respiración rehegua ejercicio ha afirmación IA ñe'ẽ joja ha oporombojojahápe.

Ojehecha opaite umi caso de uso ha herramienta

Opaite modelo ñe'ẽ'apo rehegua

Especificación detallada peteĩteĩ modelo IA oĩva TTS.ai-pe. Oñembojoja calidad, velocidad, ñe'ẽjoaju ha característica-kuéra ojejuhu hag̃ua modelo iporãvéva nde proyecto-pe g̃uarã.

Kokoro

Free

Kokoro hína peteĩ modelo texto-gui-ñe'ẽ-pe g̃uarã oguerekóva 82 millón parámetro, ha'éva tuichaiterei mba'e ijyvatevéva clase de peso-gui. Jepéramo michĩeterei, ome'ẽ ñe'ẽnguéra peteĩteĩ natural ha expresiva. Kokoro oykeko heta ñe'ẽnguérape, oikehápe inglés, japonés, chino ha coreano heta ñe'ẽnguéra expresiva-kuéra. Ojeporu pya'eterei, omoheñói ñe'ẽnguéra 100-guive pya'eve peteĩ GPU tiempo real-pe.

Desarrollador::
Hexgrad

Licencia::
Apache 2.0

Velocidad:
Fijo

Calidad::

Ñe'ẽ:
en, ja, zh, fr, it, pt, es, hi

VRAM:
1.5GB

Clonación ñe'ẽnguéra rehe:
No

Presupuesto:
Libre

Parámetro 82M Yvate pya'e Ñe'ẽ expresiva Multilenguaje Streaming apopyrã

Oñeikotevẽ:: TTS calidad ijyvatevéva, latencia michĩvéva, aplicación-kuéra transmisión rehegua

Oñeha'ã Kokoro

Piper

Free

Piper hína peteĩ motor de texto-gui-ñe'ẽ-pe pyahu, omoheñóiva Rhasspy oiporúvo VITS ha larynx arquitectura. Ojeporuporã CPU-pe, ha upéva ombohekoporãve umi dispositivo periférico-pe, automatización hogapypegua ha aplicación oikotevẽva TTS fuera de línea. Oguerekóvo hetave 100 ñe'ẽ 30 ñe'ẽgui, Piper ome'ẽ ñe'ẽ ñeikumby natural tiempo real-pe, avei Raspberry Pi 4-pe.

Desarrollador::
Rhasspy

Licencia::
MIT

Velocidad:
Fijo

Calidad::

Ñe'ẽ:
en, de, fr, es, it, pt, nl, pl, ru, zh, ar, cs, da, fi, el, hu, is, ka, kk, ne, no, ro, sk, sr, sv, sw, tr, uk, vi, ca, cy, fa, lv, sl, lb, eu, id, ku, ml, sq, te, ur

VRAM:
0 (CPU only)

Clonación ñe'ẽnguéra rehe:
No

Presupuesto:
Libre

CPU-pe g̃uarã Oñemumo'ãva'ekue 100+ ñe'ẽ 35+ ñe'ẽ SSML apopyrã

Oñeikotevẽ:: Previsualización pya'evéva, jeike pya'e ha aplicación-kuéra incrustada

Oñeha'ã Piper

VITS

Free

VITS (inferencia variacional aprendizaje adversario rupive ñe'ẽ'aravo-gui ñe'ẽ'aravo-pe g̃uarã) ha'e peteĩ método TTS paralelo, oguerekóva peteĩ ñe'ẽ'aravo natural umi modelo ko'agãgua mokõi etapa-guive, oipuru inferencia variacional oñembohetavehápe flujo normalización ha peteĩ proceso de aprendizaje adversario, ha upéicha ojehupyty peteĩ naturalidad oñemoporãvehápe.

Desarrollador::
Jaehyeon Kim et al.

Licencia::
MIT

Velocidad:
Fijo

Calidad::

Ñe'ẽ:
en, de, es, fr, pt, nl, fi, hu, bg, ja, pl

VRAM:
1GB

Clonación ñe'ẽnguéra rehe:
No

Presupuesto:
Libre

Síntesis punto-ha-punto Procedimiento natural Inferencia pya'e Heta ñe'ẽnguéra

Oñeikotevẽ:: Ñe'ẽjoaju ñe'ẽ'ỹmegua propósito general-pe g̃uarã prosodi natural reheve.

Oñeha'ã VITS

MeloTTS

Free

MeloTTS MyShell.ai mba'éva hína peteĩ biblioteca TTS multilenguaje rehegua oykekóva inglés (americano, británico, indio, australiano), español, francés, chino, japonés ha coreano. Ipya'eeterei, omboheko umi jehaipy pya'eterei rupi CPU añónte. MeloTTS oñemohenda ojeporu hag̃ua producción-pe ha oykeko CPU ha GPU inferencia.

Desarrollador::
MyShell.ai

Licencia::
MIT

Velocidad:
Fijo

Calidad::

Ñe'ẽ:
en, es, fr, zh, ja, ko

VRAM:
0.5GB (GPU optional)

Clonación ñe'ẽnguéra rehe:
No

Presupuesto:
Libre

CPU-rã oñemoporãvéva Multilenguaje Acentos múltiple Oñemohenda producción-rã Latencia sa'i

Oñeikotevẽ:: Aplicaciones de producción oikotevẽva TTS ipya'e ha multilingüe

Oñeha'ã MeloTTS

Bark

Standard

Bark, Suno mba'éva, ha'e peteĩ modelo texto-gui ñe'ẽnguérape g̃uarã oñemopyendáva transformador-pe, ikatúva omoheñói ñe'ẽnguéra peteĩteĩ ha'evéva, ha ambue ñe'ẽnguéra, taha'e purahéi, ru he'ẽ ha efecto sonoro. Ikatu omoheñói ñe'ẽnguéra ndaha'éiva ñe'ẽnguéra, taha'e ñe'ẽnguéra ñemboyke, ñe'ẽnguéra ñemboyke ha ñe'ẽnguéra ñemboyke. Bark oykeko hetave 100 preconfiguración ñe'ẽnguérape g̃uarã ha hetave 13 ñe'ẽ.

Desarrollador::
Suno

Licencia::
MIT

Velocidad:
Oñepy'ỹijo

Calidad::

Ñe'ẽ:
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr

VRAM:
5GB

Clonación ñe'ẽnguéra rehe:
No

Presupuesto:
2x

Efectos de sonido Ojevy/ojepy'apy Música ñemoheñói 100+ ñe'ẽnguéra Multilenguaje

Oñeikotevẽ:: Ñe'ẽnguéra ñemoheñói, aranduka ñe'ẽnguéra oguerekóva emoción, efecto sonoro

Oñeha'ã Bark

Bark Small

Standard

Bark Small hína peteĩ versión destilada modelo Bark mba'éva, ombohasahápe peteĩ ñe'ẽnguéra calidad inferencia rehegua velocidad pya'eve ha memoria rehegua requisito michĩvéva rehe, ha oguereko gueteri Bark capacidad omongu'éva ñe'ẽnguéra emoción, ta'ãnga ha heta ñe'ẽ rupive.

Desarrollador::
Suno

Licencia::
MIT

Velocidad:
Medio

Calidad::

Ñe'ẽ:
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr

VRAM:
2GB

Clonación ñe'ẽnguéra rehe:
No

Presupuesto:
2x

Ligero Ipya'eveve corteza tuichakue rovake Ñe'ẽ emocional Multilenguaje

Oñeikotevẽ:: Ñembohasa pya'e ha creativo, corteza tuichakue ojeipy'apy jave

Oñeha'ã Bark Small

CosyVoice 2

Standard

CosyVoice 2, Tongyi Lab Alibaba mba'éva, ohupyty ñe'ẽnguéra calidad ojokupytýva yvypóra ñe'ẽme, latencia sa'ivéva, ha upéva omboheko ojeporu hag̃ua tiempo real-pe. Oiporu peteĩ enfoque de cuantización escalar finito síntesis de flujo-pe g̃uarã ha oykeko ñe'ẽnguéra clonación cero disparo rehegua, síntesis interlingüística ha control de emoción de grano fino. Oiko porãve heta sistema comercial TTS-gui evaluación subjetiva-pe.

Desarrollador::
Alibaba (Tongyi Lab)

Licencia::
Apache 2.0

Velocidad:
Medio

Calidad::

Ñe'ẽ:
en, zh, ja, ko, fr, de, it, es

VRAM:
4GB

Clonación ñe'ẽnguéra rehe:
Ha'e

Presupuesto:
2x

Streaming Clonación cero disparo Interlenguaje Emoción rehegua control Paridad humana

Oñeikotevẽ:: Aplicaciones tiempo real-pe g̃uarã, transmisión TTS, ñe'ẽasa asistente

Oñeha'ã CosyVoice 2

Dia TTS

Standard

Dia, Nari Labs mba'éva, ha'e peteĩ modelo texto-gui-ñe'ẽ-pe g̃uarã parámetro 1.6B, oñemoheñói va'ekue omoheñói hag̃ua ñe'ẽasa heta ñe'ẽsarekóva. Ikatu omboguata ñe'ẽsasõ oguerekóva ñe'ẽjoaju natural mokõi ñe'ẽsarekóva turno-kuéra, prosodi ha expresión emocional oguerekóva. Dia iñambueporã ojejapo hag̃ua contenido podcast-peguápe, ñe'ẽsasõ aranduka ñe'ẽ'arúpe ha IA ñe'ẽsasõ rehegua.

Desarrollador::
Nari Labs

Licencia::
Apache 2.0

Velocidad:
Medio

Calidad::

Ñe'ẽ:
en

VRAM:
4GB

Clonación ñe'ẽnguéra rehe:
No

Presupuesto:
2x

Oñe'ẽ'ỹva Diálogo ñemoheñói Ojejapo jey natural Expresión emocional Parámetro

Oñeikotevẽ:: Podcast, audiolibro ñe'ẽjovake, ñe'ẽjoaju contenido

Oñeha'ã Dia TTS

Parler TTS

Standard

Parler TTS hína peteĩ modelo ñe'ẽ-gui-ñe'ẽ-pe g̃uarã oipuruhápe ñe'ẽnguéra rehegua descripción ñe'ẽnguéra rehe oñeñangareko hag̃ua ñe'ẽnguéra oguerekóva rehe. Oñeha'ã'ỹre peteĩ ñe'ẽnguéra rehe, ojehechauka ñe'ẽnguéra oikotevẽva (techapyrã, "peteĩ kuña hova'ỹva acento británico michĩvéva ndive, oñe'ẽva pya'e ha hesakã'ỹre") ha Parler omoheñói ñe'ẽnguéra ojojoguáva upe descripción rehe. Kóva ojapo ichugui peteĩ flexibilidad ha'evéva umi aplicación creativa-pe g̃uarã.

Desarrollador::
Hugging Face

Licencia::
Apache 2.0

Velocidad:
Medio

Calidad::

Ñe'ẽ:
en

VRAM:
4GB

Clonación ñe'ẽnguéra rehe:
No

Presupuesto:
2x

Ñe'ẽ rehegua descripción Lenguaje natural ñemohenda Ñe'ẽ ñemoheñói flexible Ndojeporui ñe'ẽ oñemohendapyréva

Oñeikotevẽ:: Aplicaciones creativas oikotevẽhápe ñe'ẽnguéra característica-kuéra ojehechapyréva

Oñeha'ã Parler TTS

Indic Parler TTS

Standard

Parler TTS AI4Bharat mba'éva ombohasa Parler arquitectura umi ñe'ẽ india-pe, omoheñói hag̃ua ñe'ẽñe'ẽ natural Tamil, Bengali, Marathi, Gujarati, Kannada, Punjabi, Odia, Assamese, Hindi, Telugu, Malayalam ha Inglés-pe. Parler-icha, ojehechauka ñe'ẽ oñeikotevẽva peteĩ ñe'ẽ ndahasýihápe ha modelo ojoaju hese - ndaipóri ñe'ẽ oñemohendapyréva. Oñemoarandu AI4Bharat ñe'ẽnguéra rehe, ojehecha hag̃ua ñe'ẽñe'ẽ ha prosodi auténtica subcontinente indio-pe.

Desarrollador::
AI4Bharat

Licencia::
Apache 2.0

Velocidad:
Oñepy'ỹijo

Calidad::

Ñe'ẽ:
ta, bn, mr, gu, kn, pa, or, as, hi, te, ml, en

VRAM:
8GB

Clonación ñe'ẽnguéra rehe:
No

Presupuesto:
2x

Umi ñe'ẽ india Ñe'ẽ rehegua descripción Lenguaje natural ñemohenda Pronunciación india auténtica

Oñeikotevẽ:: Ñe'ẽnguéra del idioma indio-pegua, contenido regional, aplicación-kuéra multilingüe del idioma indio.

Oñeha'ã Indic Parler TTS

KhanomTan TTS

Standard

KhanomTan TTS hína peteĩ modelo abierto tailandés ñe'ẽasa ñeikumbyrã oñemopyendáva arquitectura multilingüe YourTTS ári. Oñemoarandu CC0 ha corpora tailandés licencia permisiva rupive (TSync) ambue ñe'ẽkuéra ykére, ome'ẽ ñe'ẽ añetéva tailandés ñe'ẽnguéra rehe, peteĩ opción hesakãva, ojeporúva ñemuhápe tailandés-pe g̃uarã, upe ñe'ẽ tuichakue nunga modelo TTS abierto-pe g̃uarã ojeguerekóva licencia ndojeporuvéiva ñemuhápe.

Desarrollador::
Wannaphong Phatthiyaphaibun

Licencia::
Apache 2.0

Velocidad:
Fijo

Calidad::

Ñe'ẽ:
th

VRAM:
2GB

Clonación ñe'ẽnguéra rehe:
No

Presupuesto:
2x

Tai TTS Heta ñe'ẽnguéra YourTTS arquitectura Licencia comercial-segura

Oñeikotevẽ:: Ñemoambue tailandés, contenido ha aplicación-kuéra tailandés ñe'ẽme

Oñeha'ã KhanomTan TTS

IndexTTS-2

Standard

IndexTTS-2 hína peteĩ sistema avanzado ñe'ẽ-gui ñe'ẽngue-pe g̃uarã, ojehecharamova'ekue ñe'ẽnguéra síntesis-pe, control de emoción granular rupive, ikatu omoheñói ñe'ẽnguéra peteĩ tono emocional específico rehe, taha'e ñemboyke, py'aguapy, ira térã ñemboyke, oikotevẽ'ỹre umi dato de entrenamiento específico umi emoción rehegua. Ko modelo oipuru umi vector de emoción ombohape hag̃ua ñe'ẽnguéra expresión emocional generada.

Desarrollador::
Index Team

Licencia::
Bilibili Model License

Velocidad:
Medio

Calidad::

Ñe'ẽ:
en, zh

VRAM:
4GB

Clonación ñe'ẽnguéra rehe:
Ha'e

Presupuesto:
2x

Emoción rehegua control Cero-shot Emoción rehegua vector Ñe'ẽ expresiva Control de grano fino

Oñeikotevẽ:: Contenido emocionalmente expresivo, aranduka ñehendurã, asistente virtual

Oñeha'ã IndexTTS-2

Spark TTS

Standard

Spark TTS SparkAudio mba'éva hína peteĩ modelo ñe'ẽ-gui-ñe'ẽ-pe g̃uarã ombojoajuhápe ñe'ẽ clonación emoción ha ñe'ẽnguéra controlable rehe. Oiporukuévo 5 segundo añónte ñe'ẽnguéra referencia-pegua, ikatu omoheñói peteĩ clona peteĩ ñe'ẽme ha upéi omoheñói ñe'ẽnguéra oguerekóva heta emoción, velocidad ha estilo, ha upéicha avei omombaretekuévo ñe'ẽnguéra clonada-kuéra identidad. Spark TTS oipuru peteĩ sistema de control oñemopyendáva prompt-pe.

Desarrollador::
SparkAudio

Licencia::
CC BY-NC-SA 4.0

Velocidad:
Medio

Calidad::

Ñe'ẽ:
en, zh

VRAM:
4GB

Clonación ñe'ẽnguéra rehe:
Ha'e

Presupuesto:
2x

Clonación ñe'ẽnguéra rehe Emoción rehegua control Estilo control Ojehechapyre Clonación 5 segundo-pe

Oñeikotevẽ:: Contenido ñemoheñói ñe'ẽ clonada ha control emocional rupive.

Oñeha'ã Spark TTS

GPT-SoVITS

Standard

GPT-SoVITS ombojoaju lenguaje modelo GPT estilo SoVITS ndive (Inferencia de voz ñe'ẽ ñeikumby ha síntesis rupive) peteĩ clonación de voz potente-rã sa'i toma-pe g̃uarã. 5 segundo sa'ivéva ñe'ẽnguéra referencia-gui, ikatu omoheñói peteĩ clona de voz ha omoheñói ñe'ẽnguéra pyahu, ha upéicha avei oñangareko umi característica ojekuaáva ñe'ẽnguéra rehe. Oĩ porãve ñe'ẽnguéra ha síntesis ñe'ẽnguéra rehe.

Desarrollador::
RVC-Boss

Licencia::
MIT

Velocidad:
Oñepy'ỹijo

Calidad::

Ñe'ẽ:
en, zh, ja, ko

VRAM:
6GB

Clonación ñe'ẽnguéra rehe:
Ha'e

Presupuesto:
2x

Clonación 5 segundo-pe Ñe'ẽ ñehendu'ỹva Tekombo'e sa'i disparo rehe Alta fidelidad Interlenguaje

Oñeikotevẽ:: Clonación ñe'ẽnguéra rehe, síntesis ñe'ẽnguéra rehe, ñe'ẽnguéra peteĩteĩ omoheñóiva contenido replicación

Oñeha'ã GPT-SoVITS

Orpheus

Standard

Orpheus hína peteĩ modelo ñe'ẽnguérape g̃uarã tuichaháicha, ohupytyséva yvypóra ñe'ẽnguéra rehegua expresión emocional; oñemoarandu rire hetave 100.000 hora-pe hetaichagua ñe'ẽnguéra rehegua, ojehecharamo ñe'ẽnguéra rehe ñemboguata, umi temimo'ã natural, ñe'ẽnguéra estilo ha ñe'ẽnguéra rehe ñemboguatápe; Orpheus ikatu omoheñói ñe'ẽnguéra ndojoavyiva'ekue yvypóra ñe'ẽnguéra rehe.

Desarrollador::
Canopy Labs

Licencia::
Llama 3.2 Community

Velocidad:
Medio

Calidad::

Ñe'ẽ:
en

VRAM:
4GB

Clonación ñe'ẽnguéra rehe:
No

Presupuesto:
2x

Emoción yvypóra nivel-pe 100K arapokõindy ñemoarandu Enfasis natural Ñe'ẽ expresiva

Oñeikotevẽ:: Ñe'ẽ emocional iñapysẽvéva, aranduka ñehendurã, actuación de voz.

Oñeha'ã Orpheus

Chatterbox

Premium

Chatterbox, Resemble AI mba'éva, ha'e hína peteĩ modelo avanzado ñe'ẽ clonación rehegua cero-shot. Ikatu ombohasa oimeraẽ ñe'ẽ peteĩ muestra de sonido-gui peteĩ precisión tuichavéva rehe, ojapyhykuévo ndaha'éi timbre añónte, avei ñe'ẽnguéra estilo ha umi matiz emocional. Chatterbox avei oguereko control emocional iñambuéva, ombohapéva oñemohenda hag̃ua tono emocional ñe'ẽnguéra generada-pegua, ojehecha'ỹre identidad de voz-gui.

Desarrollador::
Resemble AI

Licencia::
MIT

Velocidad:
Medio

Calidad::

Ñe'ẽ:
en

VRAM:
4GB

Clonación ñe'ẽnguéra rehe:
Ha'e

Presupuesto:
4x

Clonación cero disparo Emoción rehegua control Alta fidelidad Estilo transferencia Clonación peteĩ muestra-pe

Oñeikotevẽ:: Clonación profesional ñe'ẽnguéra rehe ñeñangareko rehe, control emocional ha contenido ñemoheñói.

Oñeha'ã Chatterbox

Tortoise TTS

Premium

Tortoise TTS hína peteĩ sistema texto-gui ñe'ẽngue-pe g̃uarã, oguerekóva ñe'ẽnguéra ñemoambue autorregresivo, omopyendáva ñe'ẽnguéra rehegua calidad ha'eveve hag̃ua ipya'eve. Oiporu arquitectura DALL-E-pe oñemopyendáva omoheñói hag̃ua ñe'ẽnguéra peteĩteĩ, oguerekóva prosodi ha ñe'ẽnguéra ñembojoja porãva. Jepéramo ipya'eve hína heta alternativa rovake, Tortoise omoheñói ñe'ẽnguéra ñemoambue rehegua modelo realista-véva oĩva peteĩ ecosistema de código abierto-pe.

Desarrollador::
James Betker

Licencia::
Apache 2.0

Velocidad:
Oñepy'ỹijo

Calidad::

Ñe'ẽ:
en

VRAM:
8GB

Clonación ñe'ẽnguéra rehe:
Ha'e

Presupuesto:
4x

Calidad ijyvatevéva Ñe'ẽteĩ Arquitectura DALL-E Clonación ñe'ẽnguéra rehe Regresión automática

Oñeikotevẽ:: Audiolibro, contenido premium, aplicación-kuéra calidad-ypy rehegua

Oñeha'ã Tortoise TTS

StyleTTS 2

Premium

StyleTTS 2-pe ojehupyty TTS síntesis yvypóra nivel-pegua, ombojoajukuévo estilo difusión ha ñe'ẽnguéra rehe ñembokatupyry oipurukuévo lenguaje modelo tuichaitereíva. Ojapo ñe'ẽnguéra oguerekóva sonido naturalvéva peteĩ ñe'ẽnguéra ñemohenda apytépe, ojoguahápe umi yvypóra ñe'ẽnguéra rehe. StyleTTS 2 oipuru modelo estilo-kuéra oñemohendáva difusión-pe ojapyhy hag̃ua yvypóra ñe'ẽnguéra ñemoambue tuichakue.

Desarrollador::
Columbia University

Licencia::
MIT

Velocidad:
Medio

Calidad::

Ñe'ẽ:
en

VRAM:
4GB

Clonación ñe'ẽnguéra rehe:
No

Presupuesto:
4x

Nivel humano Estilo difusión Ñembo'e ñembohovake Variación natural Alta fidelidad

Oñeikotevẽ:: Síntesis peteĩ ñe'ẽha rehegua estudio calidad-pe, narración profesional

Oñeha'ã StyleTTS 2

OpenVoice

Premium

OpenVoice MyShell.ai rupive ombohape ñe'ẽnguéra clonación inmediata peteĩ control granular rupive ñe'ẽnguéra estilo, emoción, acento, ritmo, pausa ha entonación rehegua. Ikatu clonar peteĩ ñe'ẽ peteĩ clip de sonido mbyky guive ha omoheñói ñe'ẽnguéra heta ñe'ẽme, ojejavykuévo ñe'ẽnguéra identidad. OpenVoice avei omba'apo ñe'ẽnguéra conversor ramo, ombohapéva ñe'ẽnguéra ñemoambue tiempo real-pe.

Desarrollador::
MyShell.ai / MIT

Licencia::
MIT

Velocidad:
Medio

Calidad::

Ñe'ẽ:
en, zh, ja, ko, fr, es

VRAM:
4GB

Clonación ñe'ẽnguéra rehe:
Ha'e

Presupuesto:
4x

Clonación instantánea Conversión de voz Emoción rehegua control Control de acento Multilenguaje

Oñeikotevẽ:: Clonación ñe'ẽnguéra rehe, estilo control de grano fino, ñe'ẽnguéra ñemoambue

Oñeha'ã OpenVoice

Qwen3 TTS

Standard

Qwen3-TTS hína peteĩ modelo texto-gui ñe'ẽngue-pe g̃uarã oguerekóva 1.700 millón parámetro, Qwen aty Alibaba mba'éva. Oipytyvõ mokõi modo-pe: ñe'ẽnguéra oñemohendapyréva control emocional rupive (9 ñe'ẽnguéra) ha peteĩ modo ñe'ẽnguéra diseño rehegua ojehechaukahápe ñe'ẽnguéra oikotevẽva lenguaje natural-pe. Oipytyvõ 10 ñe'ẽnguérape, oguerekóva expresividad ha prosodi natural ijyvatevéva.

Desarrollador::
Alibaba (Qwen)

Licencia::
Apache 2.0

Velocidad:
Medio

Calidad::

Ñe'ẽ:
en, zh, ja, ko, de, fr, ru, pt, es, it

VRAM:
7GB

Clonación ñe'ẽnguéra rehe:
No

Presupuesto:
2x

9 ñe'ẽ oñemohendapyréva Ñe'ẽ diseño ñe'ẽtegui Emoción rehegua control Ñe'ẽ

Oñeikotevẽ:: Contenido multilingüe ñe'ẽnguéra oñemohendapyréva térã ñe'ẽnguéra diseño ojehechapy'ỹva

Oñeha'ã Qwen3 TTS

VieNeu-TTS-v2

Standard

VieNeu-TTS-v2 hína peteĩ modelo TTS vietnamita ypy oguerekóva 300M parámetro oñemoaranduhápe 10.000 arýrupi dato bilingüe rehe. Oipytyvõkuaa código-remu en-vi, 7 ñe'ẽ oñemohendapyréva oguerekóva acento norte ha sur gotyo, ha ñe'ẽ clonación instantánea 3-5 segundo guive ñe'ẽ referencia rehegua. Oñemongu'e CPU-pe inferencia GGUF Q4 rupive + descodificador ñe'ẽ ONNX — ndaipóri GPU oñeikotevẽva, generación oñemohu'ã 7 segundo rupi. Oñemopu'ã peteĩ backbone Qwen3-pe.

Desarrollador::
Phạm Nguyễn Ngọc Bảo

Licencia::
Apache 2.0

Velocidad:
Fijo

Calidad::

Ñe'ẽ:
vi, en

VRAM:
CPU

Clonación ñe'ẽnguéra rehe:
Ha'e

Presupuesto:
2x

7 ñe'ẽ oñemohendapyréva (acento norte ha sur) Conmutación de código En-Vi Clonación ñe'ẽ (referencia 3-5s) Podcast/mbyteteĩ ñehendurã ñemoneĩ CPU añónte - ndaipóri GPU oñeikotevẽva

Oñeikotevẽ:: Vietnamgua contenido ha ñe'ẽnguéra en-vi-pegua.

Oñeha'ã VieNeu-TTS-v2

Sesame CSM

Premium

Sesame CSM (Modelo de Conversación de Habla) ha'e peteĩ modelo oguerekóva mil millones de parámetro oñemohendáva oñemoheñói hag̃ua ñe'ẽñe'ẽ, omoha'ãnga umi patrón natural yvypóra ñe'ẽñe'ẽ rehegua, oikehápe avei tiempo de turno, ñembohovái canal-pe, reacción emocional ha ñe'ẽñe'ẽ rehegua flujo. CSM omoheñói peteĩ ñe'ẽñe'ẽ he'iséva peteĩ ñe'ẽñe'ẽ yvypóra rehegua, ñe'ẽñe'ẽ sintético rãngue.

Desarrollador::
Sesame

Licencia::
Apache 2.0

Velocidad:
Oñepy'ỹijo

Calidad::

Ñe'ẽ:
en

VRAM:
8GB

Clonación ñe'ẽnguéra rehe:
No

Presupuesto:
4x

Conversación Tiempo natural Ojejapo jey Canal ñembohasa Parámetro 1B

Oñeikotevẽ:: AI-pegua asistente, chatbots, IA ñe'ẽjoaju rehegua aplicación-kuéra

Oñeha'ã Sesame CSM

Chatterbox Turbo

Standard

Chatterbox Turbo, Resemble AI mba'éva, ha'e hína peteĩ parámetro 350M-pegua actualización Chatterbox-pe g̃uarã, ome'ẽva 6x-peve velocidad tiempo real-pe peteĩ latencia sa'ive 200ms-gui. Omoneĩ etiqueta paralingüística taha'e [risa], [to'o] ha [chuckle] texto ryepýpe. Oike avei Perth marca de agua opaite umi sonido generado-pe ojejuhu hag̃ua oúva moõguipa.

Desarrollador::
Resemble AI

Licencia::
MIT

Velocidad:
Fijo

Calidad::

Ñe'ẽ:
en

VRAM:
2GB

Clonación ñe'ẽnguéra rehe:
Ha'e

Presupuesto:
2x

Latencia sa'ivéva 200ms-gui Etiquetas paralingüísticas 6x tiempo real Clonación ñe'ẽnguéra rehe Marca de agua

Oñeikotevẽ:: Agentes ñe'ẽ'ỹmegua tiempo real-pe, ñe'ẽ'ỹmegua ñe'ẽ'ỹmegua sonido natural-pe.

Oñeha'ã Chatterbox Turbo

VoxCPM

Standard

VoxCPM 1.5 OpenBMB mba'éva hína peteĩ modelo TTS pyahu tokenizador-ỹva omba'apóva espacio continuo-pe token discreto-kuéra rangue. Ojapo ñe'ẽnguéra 44.1kHz fidelidad-pe, oykeko ñe'ẽnguéra clonación cero-disparo rehegua 3-10 segundo-pe, ha oguereko consistencia párrafo-kuéra apytépe. Clonación ñe'ẽnguéra ñembojoaju rupive ikatu ojeiporu ñe'ẽnguéra inglés-gui chino-pe g̃uarã ha viceversa.

Desarrollador::
OpenBMB

Licencia::
Apache 2.0

Velocidad:
Fijo

Calidad::

Ñe'ẽ:
en, zh

VRAM:
4GB

Clonación ñe'ẽnguéra rehe:
Ha'e

Presupuesto:
2x

Audio Tokenizer-free Clonación ñe'ẽjoaju rehegua Context-sensitive Ajuste fino LoRA

Oñeikotevẽ:: Ñe'ẽnguéra oguerekóva alta fidelidad, aranduka ñe'ẽnguéra, ha contenido ipukúva ñe'ẽnguéra rehe ñeñangarekorã.

Oñeha'ã VoxCPM

Kani TTS 2

Free

Kani-TTS-2 NineNineSix mba'éva hína peteĩ modelo ultraligero 400M parámetro-kuéra rehegua oñemopu'ãva peteĩ backbone LFM2 AI líquido-pe NVIDIA NanoCodec ndive. Ojeporu 3GB VRAM añónte ha ome'ẽ ~10 segundo ñe'ẽnguéra ~2 segundo aja peteĩ A100 (RTF 0.2)-pe. Ko'agãgua versión pública ome'ẽ peteĩ punto de control `kani-tts-2-en` inglés-pe añónte ha ndoguerekói pe gancho de incrustación oñeikotevẽva ñe'ẽnguéra clonación-pe g̃uarã — ojeporu Chatterbox / IndexTTS2 / F5-TTS clonación-pe g̃uarã, térã Kokoro / MeloTTS ndaha'éiva inglés-pe g̃uarã.

Desarrollador::
NineNineSix

Licencia::
Apache 2.0

Velocidad:
Fijo

Calidad::

Ñe'ẽ:
en

VRAM:
3GB

Clonación ñe'ẽnguéra rehe:
No

Presupuesto:
Libre

3GB VRAM Yvate pya'e Ligero NanoCodec Libre

Oñeikotevẽ:: Generación inglesa pya'evéva hardware VRAM sa'ivévape, tapykueve jehecha pya'evéva

Oñeha'ã Kani TTS 2

OuteTTS

Free

OuteTTS ombotuichave umi lenguaje modelo tuichavéva oguerekóva capacidad ñe'ẽ'apo-gui ñe'ẽ'apo-pe g̃uarã, ha upéicha avei oñangareko arquitectura ypy rehe. Oipytyvõ heta backend-pe, oikehápe llama.cpp (CPU/GPU), Hugging Face Transformers, ExLlamaV2, VLLM, ha avei inferencia navegador rupive Transformers.js rupive. Oguerekóva clonación ñe'ẽ'apo rehegua cero disparo rupive umi perfil ñe'ẽ'apohára rehegua oñeñongatuhápe JSON-ramo.

Desarrollador::
OuteAI

Licencia::
Apache 2.0

Velocidad:
Oñepy'ỹijo

Calidad::

Ñe'ẽ:
en

VRAM:
2GB

Clonación ñe'ẽnguéra rehe:
No

Presupuesto:
Libre

CPU inferencia Navegador inferencia Heta backend Ñemoñe'ẽha perfil

Oñeikotevẽ:: Despliegue Edge, TTS oñemopyendáva navegador-pe, entorno sa'i recurso oguerekóva

Oñeha'ã OuteTTS

VibeVoice

Standard

VibeVoice Microsoft mba'éva omoheñói ñe'ẽjoaju ipukúva 90 minuto peve, oykekohápe 4 ñe'ẽha'ãnga simultáneo, ha upéva oikoporãve podcast ha ñe'ẽjovake. Realtime 0.5B variante oguereko peteĩ latencia de ~300ms jeporu interactivo-pe g̃uarã. Oipytyvõ ñe'ẽjovake etiqueta-kuérape oñemoheñói hag̃ua ñe'ẽjovake heta turno-pe.

Desarrollador::
Microsoft

Licencia::
MIT

Velocidad:
Fijo

Calidad::

Ñe'ẽ:
en, zh

VRAM:
4GB

Clonación ñe'ẽnguéra rehe:
No

Presupuesto:
2x

Oñe'ẽ'ỹva Forma puku (90 min) Podcast ñemoheñói Diálogo Latencia sa'i

Oñeikotevẽ:: Podcast, ñe'ẽjovake, ñe'ẽjoaju ipukúva, contenido oguerekóva heta ñe'ẽha

Oñeha'ã VibeVoice

Pocket TTS

Free

Pocket TTS Kyutai mba'éva (Moshi omoheñói va'ekue) ha'e peteĩ modelo compacto texto-gui ñe'ẽngue-pe g̃uarã oguerekóva 100M parámetro, imbaretevéva ipukuvévagui. Oñemongu'e porã CPU-pe, oykeko ñe'ẽ clonación cero tiro rehegua peteĩ muestra de sonido añónte guive ha omoheñói ñe'ẽngue oguerekóva sonido natural. Modelo michĩva ojapo ichugui peteĩ modelo ideal umi entorno de despliegue extremo ha sa'i recurso oguerekóvape g̃uarã.

Desarrollador::
Kyutai

Licencia::
MIT

Velocidad:
Fijo

Calidad::

Ñe'ẽ:
en, fr

VRAM:
1GB

Clonación ñe'ẽnguéra rehe:
Ha'e

Presupuesto:
Libre

Parámetro 100M CPU inferencia Clonación ñe'ẽnguéra rehe Clonación peteĩ muestra-pe Oñemohenda

Oñeikotevẽ:: Despliegue ipya'éva, entorno CPU añónte, clonación ñe'ẽmby pya'éva

Oñeha'ã Pocket TTS

Kitten TTS

Free

Kitten TTS KittenML mba'éva hína peteĩ modelo texto-gui-ñe'ẽ-pe g̃uarã ipya'evéva, oñemopyendáva ONNX-pe. Oguerekóva variante 15M guive 80M peve (25-80 MB disco-pe), ome'ẽ ñe'ẽ ñeikumby porã CPU-pe oikotevẽ'ỹre peteĩ GPU. Oguerekóva 8 ñe'ẽ oñemohendáva, ñe'ẽ ñeikumby pya'e oñemoambuéva ha ñe'ẽ ñeikumby preprocesamiento oñemohendáva papapykuéra, moneda ha unidad-kuéra. Iñambueporã umi aplicación desplegable ha de baja latencia-pe g̃uarã.

Desarrollador::
KittenML

Licencia::
Apache 2.0

Velocidad:
Fijo

Calidad::

Ñe'ẽ:
en

VRAM:
0GB

Clonación ñe'ẽnguéra rehe:
No

Presupuesto:
Libre

Inferencia CPU añónte Tamaño modelo michĩvéva 80MB 8 ñe'ẽ oñemohendáva Control de velocidad Oñemopyenda ONNX-pe 24kHz salida

Oñeikotevẽ:: TTS ipya'e ha pya'e, implementación de borde, aplicación de baja latencia

Oñeha'ã Kitten TTS

CosyVoice3

Standard

CosyVoice3 hína evolución pyahu FunAudioLLM aty Alibaba mba'éva. Oguerekóva inferencia bi-streaming ~150ms de latencia rehe, control oñemopyendáva instrucción-pe emoción/velocidad/volumen ha ñe'ẽnguéra jojoguaporãve clonación cero-disparo rehegua. Oipytyvõ 9 ñe'ẽ ha 18 dialecto chino. Variante ajustada RL-pe ome'ẽ peteĩ prosodia moderno.

Desarrollador::
Alibaba (FunAudioLLM)

Licencia::
Apache 2.0

Velocidad:
Fijo

Calidad::

Ñe'ẽ:
en, zh, ja, ko, de, es, fr, it, ru

VRAM:
4GB

Clonación ñe'ẽnguéra rehe:
Ha'e

Presupuesto:
2x

Bi-streaming Emoción rehegua control Clonación ñe'ẽnguéra rehe Velocidad/volume control Instrucción ohasáva

Oñeikotevẽ:: Producción multilingüe TTS, aplicación tiempo real-pe, ñe'ẽ clonación

Oñeha'ã CosyVoice3

NAMAA Saudi TTS

Standard

NAMAA Saudi TTS hína peteĩ árabe saudita ñe'ẽnguéra ñemoambue, ChatterboxMultilingual IA-pegua. Oñemoarandu NAMAA Space rupive ñe'ẽnguéra árabe saudita autentica-pe, omoheñói peteĩ árabe estándar moderno ha ñe'ẽnguéra árabe saudita ñe'ẽnguéra ñemoambue, umi modelo multilingüe genérico ndojokupytýi va'ekue. Oguereko Chatterbox ñe'ẽnguéra clonación cero-shot ha control emocional ñe'ẽnguéra referencia-pegua rupive. TTS árabe ypy oguerekóva peso abierto ojeporu TTS.ai-pe.

Desarrollador::
NAMAA Space

Licencia::
MIT

Velocidad:
Medio

Calidad::

Ñe'ẽ:
ar

VRAM:
6GB

Clonación ñe'ẽnguéra rehe:
Ha'e

Presupuesto:
2x

Árabe saudita dialecto Árabe estándar moderno Clonación ñe'ẽ cero-shot Emoción rehegua control Pronunciación nativa

Oñeikotevẽ:: Umi contenido árabe ojejapóva audiencia saudita-pe g̃uarã, narración MSA, agentes de voz dialecto Khaleeji-pegua, aranduka ñehendurã árabe.

Oñeha'ã NAMAA Saudi TTS

Darwin TTS

Standard

Darwin-TTS-1.7B-Cross FINAL-Bench mba'éva hína peteĩ variante jeporekarã Qwen3-TTS-1.7B rehegua, oĩhápe 84 tensor-FFN ñe'ẽ'apohára (8,6%) ojoajuhápe α=3% rehe tensor ojokupytýva Qwen3-1.7B-Base-gui. Ko combinación oñemohenda ñembokatupyry'ỹ rehe ha ome'ẽ peteĩ clonación ñe'ẽjoaju ojoavýva ojekuaaporãve hag̃ua coreano, inglés, japonés ha chino-pe. Oiko modo de clonación ñe'ẽjoaju cero disparo-pe (3 segundos ñe'ẽjoaju referencia).

Desarrollador::
FINAL-Bench

Licencia::
Apache 2.0

Velocidad:
Medio

Calidad::

Ñe'ẽ:
en, ko, ja, zh

VRAM:
7GB

Clonación ñe'ẽnguéra rehe:
Ha'e

Presupuesto:
2x

Clonación ñe'ẽnguéra rehe Interlenguaje FFN- ojoaju 4 ñe'ẽ ypy Qwen3 backbone

Oñeikotevẽ:: Clonación ñe'ẽnguéra apytépe inglés, coreano, japonés ha chino apytépe peteĩ ñe'ẽ referencia añónte rehe

Oñeha'ã Darwin TTS

MOSS-TTSD

Standard

MOSS-TTSD v1.0 OpenMOSS-pegua hína peteĩ modelo ñe'ẽasa ñe'ẽ'arã 7B-pegua, omboguatahápe ñe'ẽasa peteĩ ñe'ẽ'arã mbykymi guive. Oipytyvõ 5 ñe'ẽha'ãnga simultáneo rupive etiqueta [S1]/[S2], ñe'ẽ clonación cero-disparo rehegua 3-10 s ñe'ẽ'arã referencia rehegua, ha 60 mbyte peve ñe'ẽ'arã coherente multi-giro rehegua 20 ñe'ẽ rupive. Ojoavy MOSS-TTS-gui — TTSD oñemopyenda umi flujo de trabajo podcast/libro ñe'ẽ'arã/doblado-pe g̃uarã.

Desarrollador::
OpenMOSS

Licencia::
Apache 2.0

Velocidad:
Medio

Calidad::

Ñe'ẽ:
en, zh

VRAM:
12GB

Clonación ñe'ẽnguéra rehe:
Ha'e

Presupuesto:
2x

Ñemoñe'ẽnguéra ñemohenda 5 ñehenduvéva peve Audio coherente 60' Clonación ñe'ẽnguéra rehe Podcast ñembohape

Oñeikotevẽ:: Podcast, audiolibro, ñe'ẽjoaju oñembohasahápe, ñe'ẽjoaju contenido heta ñe'ẽ rupive

Oñeha'ã MOSS-TTSD

Ming-Omni TTS

Free

Ming-omni-tts-0.5B inclusionAI mba'éva hína peteĩ modelo de discurso omnimodal compacto oñemopyendáva BailingMM columna vertebral densa-pe, oguerekóva peteĩ descodificador de sonido ojokupytýva flujo rehe parche-pa-parche rupive. Oikuave'ẽ peteĩ salida 44.1kHz (CD calidad ykére), oykeko ñe'ẽ clonación cero disparo rehegua peteĩ referencia 3+ segundo rehegua, ha oike emoción/dialecto/BGM control integrado umi instrucción JSON rupive. Estabilidad mbarete - 0.83% WER umi referencia chino-pe.

Desarrollador::
inclusionAI

Licencia::
Apache 2.0

Velocidad:
Medio

Calidad::

Ñe'ẽ:
en, zh

VRAM:
3GB

Clonación ñe'ẽnguéra rehe:
Ha'e

Presupuesto:
Libre

44.1kHz salida Clonación ñe'ẽnguéra rehe Emoción rehegua control Dialecto control BGM generación Compact 0.5B

Oñeikotevẽ:: High-fidelity bilingual narration, emotion-controlled voice acting, Chinese audiobook content

Oñeha'ã Ming-Omni TTS

MOSS-TTS Nano

Free

MOSS-TTS-Nano-100M hína peteĩ variante 100M-parámetro-pegua OpenMOSS-pegua, MOSS-TTS familia-pegua, ombojoajuhápe arquitectura de transformador de retraso. Oñemoambue modelo 8B calidad ypy rehe peso michĩvévape ~80 ha VRAM michĩvévape peteĩ ñeikotevẽ rupive, ha upéva ojapose hag̃ua ikatu hína despliegue de nivel libre ha alto rendimiento.

Desarrollador::
OpenMOSS

Licencia::
Apache 2.0

Velocidad:
Fijo

Calidad::

Ñe'ẽ:
en, zh, de, es, fr, ja, it, ko, ru, ar, pt

VRAM:
2GB

Clonación ñe'ẽnguéra rehe:
Ha'e

Presupuesto:
Libre

Compact 100M Inferencia pya'e Multilenguaje Clonación ñe'ẽnguéra rehe MOSS familia ojoguáva

Oñeikotevẽ:: TTS nivel-va'ekue, producción tuichavéva, jeporu interactivo sa'ivéva latencia-gui.

Oñeha'ã MOSS-TTS Nano

Modelo	Desarrollador:	Ta'ãnga	Velocidad	Ñe'ẽ	VRAM	Licencia:	Presupuesto
Kokoro	Hexgrad	Free	Fijo	8	1.5GB	Apache 2.0	Libre	Ojeporu
Piper	Rhasspy	Free	Fijo	42	0 (CPU only)	MIT	Libre	Ojeporu
VITS	Jaehyeon Kim et al.	Free	Fijo	11	1GB	MIT	Libre	Ojeporu
MeloTTS	MyShell.ai	Free	Fijo	6	0.5GB (GPU optional)	MIT	Libre	Ojeporu
Bark	Suno	Standard	Oñepy'ỹijo	13	5GB	MIT	2	Ojeporu
Bark Small	Suno	Standard	Medio	13	2GB	MIT	2	Ojeporu
CosyVoice 2	Alibaba (Tongyi Lab)	Standard	Medio	8	4GB	Apache 2.0	2	Ojeporu
Dia TTS	Nari Labs	Standard	Medio	1	4GB	Apache 2.0	2	Ojeporu
Parler TTS	Hugging Face	Standard	Medio	1	4GB	Apache 2.0	2	Ojeporu
Indic Parler TTS	AI4Bharat	Standard	Oñepy'ỹijo	12	8GB	Apache 2.0	2	Ojeporu
KhanomTan TTS	Wannaphong Phatthiyaphaibun	Standard	Fijo	1	2GB	Apache 2.0	2	Ojeporu
IndexTTS-2	Index Team	Standard	Medio	2	4GB	Bilibili Model License	2	Ojeporu
Spark TTS	SparkAudio	Standard	Medio	2	4GB	CC BY-NC-SA 4.0	2	Ojeporu
GPT-SoVITS	RVC-Boss	Standard	Oñepy'ỹijo	4	6GB	MIT	2	Ojeporu
Orpheus	Canopy Labs	Standard	Medio	1	4GB	Llama 3.2 Community	2	Ojeporu
Chatterbox	Resemble AI	Premium	Medio	1	4GB	MIT	4	Ojeporu
Tortoise TTS	James Betker	Premium	Oñepy'ỹijo	1	8GB	Apache 2.0	4	Ojeporu
StyleTTS 2	Columbia University	Premium	Medio	1	4GB	MIT	4	Ojeporu
OpenVoice	MyShell.ai / MIT	Premium	Medio	6	4GB	MIT	4	Ojeporu
Qwen3 TTS	Alibaba (Qwen)	Standard	Medio	10	7GB	Apache 2.0	2	Ojeporu
VieNeu-TTS-v2	Phạm Nguyễn Ngọc Bảo	Standard	Fijo	2	CPU	Apache 2.0	2	Ojeporu
Sesame CSM	Sesame	Premium	Oñepy'ỹijo	1	8GB	Apache 2.0	4	Ojeporu
Chatterbox Turbo	Resemble AI	Standard	Fijo	1	2GB	MIT	2	Ojeporu
VoxCPM	OpenBMB	Standard	Fijo	2	4GB	Apache 2.0	2	Ojeporu
Kani TTS 2	NineNineSix	Free	Fijo	1	3GB	Apache 2.0	Libre	Ojeporu
OuteTTS	OuteAI	Free	Oñepy'ỹijo	1	2GB	Apache 2.0	Libre	Ojeporu
VibeVoice	Microsoft	Standard	Fijo	2	4GB	MIT	2	Ojeporu
Pocket TTS	Kyutai	Free	Fijo	2	1GB	MIT	Libre	Ojeporu
Kitten TTS	KittenML	Free	Fijo	1	0GB	Apache 2.0	Libre	Ojeporu
CosyVoice3	Alibaba (FunAudioLLM)	Standard	Fijo	9	4GB	Apache 2.0	2	Ojeporu
NAMAA Saudi TTS	NAMAA Space	Standard	Medio	1	6GB	MIT	2	Ojeporu
Darwin TTS	FINAL-Bench	Standard	Medio	4	7GB	Apache 2.0	2	Ojeporu
MOSS-TTSD	OpenMOSS	Standard	Medio	2	12GB	Apache 2.0	2	Ojeporu
Ming-Omni TTS	inclusionAI	Free	Medio	2	3GB	Apache 2.0	Libre	Ojeporu
MOSS-TTS Nano	OpenMOSS	Free	Fijo	11	2GB	Apache 2.0	Libre	Ojeporu

Plataforma IA ñeikumby ñe'ẽ'arã tuichavéva

Mba'érepa oiporavo TTS.ai ñe'ẽjoaju ñeikumbyrã?

TTS.ai ombojoaju umi modelo ñe'ẽ-gui-ñe'ẽ-pe g̃uarã fuente abierto-pegua iporãvéva arapy tuichakue peteĩ plataforma añónte, ndahasýi ojeporu hag̃ua. Umi servicio propiedad-peguápe ojoavýva ombohape hag̃ua peteĩ motor ñe'ẽ rehegua añónte, TTS.ai ome'ẽ acceso hetave 20 modelo-pe g̃uarã umi laboratorio de investigación ha'evéva apytépe, oikehápe Coqui, MyShell, Amphion, NVIDIA, Suno, HuggingFace, Tsinghua Universidad ha hetave.

Opaite modelo hína código abierto MIT, Apache 2.0 térã ambue licencia permisiva rupive, ombohapehápe ikatu hag̃uaicha oguereko derecho comercial oipuru hag̃ua umi sonido ojehupytýva nde proyecto-pe. Oikotevẽramo peteĩ síntesis ipya'e ha pya'egua umi aplicación tiempo real-pe g̃uarã térã peteĩ salida estudio-pegua calidad-pe g̃uarã audiolibro ha podcast-pe g̃uarã, TTS.ai oguereko modelo oĩporãva oimeraẽ jeporurã.

Modelos libres, ndoikotevẽi peteĩ cuenta

Oñepyrũ pya'e mbohapy modelo TTS-pe: Piper (hypy'ũva, ipya'evéva), VITS (síntesis neuronal calidad-py yvatevéva) ha MeloTTS (apopyrã heta ñe'ẽme). Ndojehechavéima registro, tarjeta de crédito, generación-kuéra límite. Umi modelo libre oykeko inglés ha ambue ñe'ẽnguéra, oguerekóva salida natural ha oguerekóva sonido oikéva heta aplicación-pe g̃uarã.

Procesamiento acelerado GPU rupive

Opaite modelo TTS oiko GPU NVIDIA-pe oñemohendáva, generación pya'eve ha katui hag̃ua. Umi modelo gratuito katuínte omoheñói ñehendurã 2 segundo sa'ive aja. Umi modelo estándar, taha'e Kokoro, CosyVoice 2 ha Bark, oguereko peteĩ promedio 3 ha 5 segundo rupi. Umi modelo premium calidad ijyvatevéva, taha'e Tortoise ha Chatterbox, omoheñói ñehendurã 5 ha 15 segundo rupi, ojehechahápe ñe'ẽnguéra ipukukue.

30+ ñe'ẽ ojeykeko

Oñemoheñói ñe'ẽnguéra hetave 30 ñe'ẽme, oikehápe inglés, español, francés, alemán, italiano, portugués, chino, japonés, coreano, árabe, hindi, ruso ha hetave. Heta modelo oykeko ñe'ẽnguéra ñembojoaju, he'iséva ikatuha omoheñói ñe'ẽnguéra peteĩteĩ peteĩ ñe'ẽme ndojeikuaa'ỹva. CosyVoice 2 ha GPT-SoVITS ojehecharamo clonación ñe'ẽnguéra ñembojoajurã.

API oñembosako'iporãva umi desarrollador-pe g̃uarã

Oike TTS.ai-pe apopyrãkuérape API REST OpenAI-pe ojokupytýva rupive. Peteĩ punto final opaite 20+ modelo-pe g̃uarã. Python, JavaScript, cURL ha Go SDK. Apopyrã tiempo real-pe g̃uarã. Procesamiento por lotes contenido generación tuichaháicha-pe g̃uarã. Webhooks notificación asincrónica-pe g̃uarã. API jeike oike hína oimeraẽ plan-pe, oikehápe avei libre.

Pregunta ojejapóva py'ỹinte

Ñe'ẽ ñeikumby ñe'ẽ'ỹme (TTS) hína peteĩ IA tecnología ombohasa umi ñe'ẽ ñehaipyre ñe'ẽ'ỹmegua. Umi modelo TTS neural moderno, taha'e Kokoro, Chatterbox ha CosyVoice 2, oipuru aprendizaje profundo omoheñói hag̃ua ñe'ẽ'ỹmegua ñe'ẽ'ỹmegua, oguerekóva prosodi, emoción ha ritmo natural.

Ojehecha mba'épa tekotevẽ. Ojehecha pya'eve hag̃ua, ojeporu Piper térã MeloTTS (ite'ỹva, pya'e). Ojehechaporãve hag̃ua, oñeha'ã Kokoro térã CosyVoice 2 (nivel estándar). Ojeiporu hag̃ua ñe'ẽ clonación, ojeporu Chatterbox térã GPT-SoVITS (premium). Ñe'ẽjovake/podcast ñe'ẽnguérape g̃uarã, oñeha'ã Dia TTS. Peteĩteĩ modelo oguereko ambue mbaretekue - oñeha'ã ojejuhu hag̃ua ojeikoporãvéva.

Aye! TTS.ai ome'ẽ ñe'ẽ ñeikumby'ỹva Kokoro, Piper, VITS ha MeloTTS modelo-kuéra rupive. Ndojeporui peteĩ cuenta 500 caractere peve ha 3 generación peteĩ hora-pe. Oñemoinge peteĩ cuenta 15.000 caractere peve ha ojeike opavave modelo-pe.

Umi modelo TTS oguerekóva oñondive omombareteve 30 ñe'ẽve, oikehápe inglés, español, francés, alemán, italiano, portugués, chino, japonés, coreano, árabe, ruso, hindi ha hetave.

Aye, ñe'ẽnguéra oñemoheñóiva TTS.ai rupive ikatu ojeporu ñemuhápe. Opavave ñane modelo oipuru código abierto licencia (MIT, Apache 2.0). Ehecha modelo peteĩteĩ licencia he'iséva. Rekomenda hína reñeha'ã hag̃ua modelo específico licencia oipurukuaáva apopyrãpe.

TTS.ai oykeko MP3, WAV, OGG ha FLAC formato-kuéra salida. MP3 hína formato por defecto reproducción web-pe g̃uarã. WAV oñemoñe'ẽve hína ñemuharã. Ikatu oñemoambue formato apytépe jaiporukuévo ñane conversor de audio herramienta.

Ñe'ẽ clonación oiporu IA omoheñói hag̃ua peteĩ ñe'ẽ peteĩ muestra de sonido mbyky guive (heta jey 5-30 segundo peve). Ojejuhu peteĩ grabación hesakãvéva ñe'ẽ ojehupytysévagui, ha umi modelo taha'e Chatterbox, GPT-SoVITS térã OpenVoice omoheñói ñe'ẽ pyahu upe ñe'ẽpe. Kalidad oñemoporãve ñe'ẽ ñeikumby hesakãvéva ha ipukuvéva rupive.

Umi usuario libre ikatu omoheñói 500 caractere peve peteĩ ñeporandu rupi. Umi usuario registrado ikatu omoheñói 5.000 caractere peve peteĩ ñeporandu rupi. Umi ñe'ẽryru ipukuvévape g̃uarã, ñehendurã oñemoheñói fragmento-ramo ha oñembojoaju peteĩteĩ. Umi API jeporuhára ikatu omoheñói 10.000 caractere peve peteĩ ñeporandu rupi.

SSML (Speech Synthesis Markup Language) ñemoneĩ iñambue modelo rupive. Piper ha ambue modelo-kuéra omoneĩ etiqueta SSML básica pausa, énfasis ha ñe'ẽnguéra ñemohendarã. Umi modelo ndoguerekóiva SSML ñemoneĩ nativo, ikatu oipuru puntuación natural ha línea ñemboja'o ombyai hag̃ua prosodia.

Ayeguai, hetave umi modelo oykeko velocidad ajuste 0.5x guive 2.0x peve. Oĩ ambue modelo, taha'e Bark ha Parler, avei oikuave'ẽ control de tono ha estilo. Ikatu oñemohenda velocidad parámetro configuración avanzada panel-pe térã API velocidad parámetro rupive.

Aye, proceso por lotes oĩ disponible API rupive. Ikatu omoĩ heta segmento ñe'ẽnguéra peteĩ API llamada térã script-pe, ha peteĩteĩva oñemohenda ha ojevy mbohaipy archivo ojoavývaramo. Kóva iñambue umi audiolibro capítulo-pe g̃uarã, e-learning módulo térã ñembosarái script-pe g̃uarã.

Oñemohenda peteĩ clave API panel de control de cuenta-gui, upéi oheja pedido POST punto final API REST-pe, texto, modelo ha ñe'ẽnguéra parámetros ndive. Oñemohenda código techapyrã Python, JavaScript ha cURL-pe. API ojoaju OpenAI-pe, upévare umi integración oĩva oiko ñemoambue sa'ivéva rupive.

5.0/5 (4)

Oñepyrũ conversi'ỹva ñe'ẽ'ỹme

Ojoaju hetaiterei creador-pe oiporúvo TTS.ai. Oñemoinge 15000 caractere'ỹre peteĩ cuenta pyahu rupive. Oĩ modelo'ỹre ojeiporukuaáva ndojehechakuaái rupi.

Oñemoinge'ỹre Ojehecha mba'e repy

IA ñe'ẽasa ñehendurã

Ehayhuetéva TTS.ai? He'i umi iñangirũpe!

Modelo detalle-kuéra

Kokoro

Ñemomarandu ojehupyty hag̃ua peteĩ mba'e porãve

Caracter jeporu

Mba'éichapa IA rembiapo ñe'ẽjoaju rehegua

Oike'ỹre ñe'ẽ

Oñeporavo modelo ha ñe'ẽ

Generar y descargar

Ojeporukuaáva ñe'ẽjoaju ñeikumbyrã

Audiolibro

Video ñehendu'ã

Podcast

Juego

E-learning

Accesibilidad

Sistema telefónico ha IVR

Medio social

Streaming

Comercialización

Doblaje ha localización

Meditación ha Bienestar

Opaite modelo ñe'ẽ'apo rehegua

Kokoro

Piper

VITS

MeloTTS

Bark

Bark Small

CosyVoice 2

Dia TTS

Parler TTS

Indic Parler TTS

KhanomTan TTS

IndexTTS-2

Spark TTS

GPT-SoVITS

Orpheus

Chatterbox

Tortoise TTS

StyleTTS 2

OpenVoice

Qwen3 TTS

VieNeu-TTS-v2

Sesame CSM

Chatterbox Turbo

VoxCPM

Kani TTS 2

OuteTTS

VibeVoice

Pocket TTS

Kitten TTS

CosyVoice3

NAMAA Saudi TTS

Darwin TTS

MOSS-TTSD

Ming-Omni TTS

MOSS-TTS Nano

Kokoro

Piper

VITS

MeloTTS

Kani TTS 2

OuteTTS

Pocket TTS

Kitten TTS

Ming-Omni TTS

MOSS-TTS Nano

Bark Small

CosyVoice 2

Dia TTS

Parler TTS

Indic Parler TTS

KhanomTan TTS

Spark TTS

Orpheus

Qwen3 TTS

Chatterbox Turbo

VibeVoice