Informar de fallo / Petición de características

Modelos de texto de código abierto a voz

Cada modelo TTS en nuestra plataforma es de código abierto con licencias comerciales. MIT, Apache 2.0 — sin bloqueo privativo, sin restricciones de uso, sin cuotas de licencia sorpresa. Úsalos a través de nuestra API alojada, o auto-anfitriona en su propia infraestructura con control total.

Código abierto Licencia del MIT Apache 2.0 Self-Hostable GitHub

Editor de TTS completo API Docs

Inténtalo ahora.

0/500

Libre con Kokoro, Piper, VITS, MeloTTS

Su audio generado aparecerá aquí

Abrir el editor completo de TTS

Beneficios del TTS de código abierto

Por qué los modelos de código abierto importan para sus proyectos

Todas las licencias de código abierto

Cada modelo en TTS.ai utiliza una licencia de código abierto permisiva. No hay cajas negras propietarias, no hay bloqueo de proveedores, no hay cuotas de licencia inesperadas.

MIT / Apache 2.0

Los modelos están bajo licencia MIT o Apache 2.0, las licencias de código abierto más permisivas. Use comercialmente, modifique, redistribuya — sin restricciones.

Self-Hostable

Descargue cualquier modelo y ejecútelo en su propio hardware. Control total de sus datos, latencia e infraestructura. No se requiere dependencia de la nube.

GPU optimizada

Los modelos están optimizados para GPUs NVIDIA con soporte CUDA. Piper sólo funciona en CPU. La mayoría de los modelos necesitan 2-8GB VRAM para una inferencia eficiente.

Mantenimiento de la comunidad

Las comunidades activas de código abierto mantienen y mejoran estos modelos. Las contribuciones son bienvenidas: presenten errores, mejoras y nuevas voces en GitHub.

Uso comercial OK

Todos los modelos permiten el uso comercial bajo sus licencias. Construya productos, venda servicios y cree contenido comercial sin regalías ni tasas de uso.

Nuestro Catálogo de modelos de código abierto

Cada modelo, su licencia, y lo que hace mejor

Kokoro

Free

Lightweight 82M parameter model delivering studio-quality speech with blazing-fast inference.

Fast 5/5

Lo mejor para: Apache 2.0 — modelo libre de la mejor calidad, params 82M, fácil de auto-anfitrión

Intente Kokoro

Piper

Free

A fast, local neural text to speech system optimized for Raspberry Pi and embedded devices.

Fast 3/5

Lo mejor para: MIT — solo CPU, perfecto para dispositivos de borde y auto-alojamiento integrado

Intente Piper

VITS

Free

Conditional variational autoencoder with adversarial learning for end-to-end text-to-speech.

Fast 3/5

Lo mejor para: MIT: arquitectura fundacional utilizada por muchos modelos descendentes

Intente VITS

Bark

Standard

Transformer-based text-to-audio model that generates realistic speech, music, and sound effects.

Slow 4/5

Lo mejor para: MIT — capacidades únicas de generación de audio más allá de la TTS estándar

Intente Bark

Tortoise TTS

Premium

Multi-voice text-to-speech focused on quality with autoregressive architecture.

Slow 5/5 Clonación de voz

Lo mejor para: Apache 2.0: implementación de referencia de máxima calidad y ampliamente estudiada

Intente Tortoise TTS

OpenVoice

Premium

Instant voice cloning with granular control over style, emotion, and accent.

Medium 4/5 Clonación de voz

Lo mejor para: MIT — clonación de voz de código abierto con control de estilo granular

Intente OpenVoice

Cómo usar TTS de código abierto

Utilice nuestra API alojada o ejecute modelos usted mismo

Explorar modelos de código abierto

Consulte nuestro catálogo de más de 20 modelos TTS de código abierto. Cada página de modelo muestra los requisitos de licencia, arquitectura, capacidades y auto-hosting.

Pruebe en su navegador

Pruebe cualquier modelo directamente en TTS.ai sin instalar nada. Nuestros servidores GPU manejan el procesamiento para que pueda evaluar la calidad antes de comprometerse con el auto-hosting.

Self-Host o utilizar nuestra API

Clon Repos modelo de GitHub y ejecutar localmente, o utilizar nuestra API alojada para la producción. El auto-hosting da control completo; nuestra API proporciona infraestructura administrada.

Construir su aplicación

Integre TTS en su producto usando modelos auto hospedados o nuestra API REST. Todos los modelos son comercialmente utilizables sin cargos de licencia ni regalías.

Comparación de licencias

Todos los modelos de TTS.ai utilizan licencias comerciales de código abierto

Modelo	Licencia	Atribución
Kokoro	Apache 2.0	Requerido
Piper	MIT	Opcional
VITS	MIT	Opcional
MeloTTS	MIT	Opcional
Chatterbox	MIT	Opcional
Tortoise TTS	Apache 2.0	Requerido
StyleTTS 2	MIT	Opcional
OpenVoice	MIT	Opcional
Sesame CSM	Apache 2.0	Requerido
Orpheus	Llama 3.2	"Built with Llama"

Pruebe estos modelos gratis

Self-Hosting vs API alojada

Ejecute modelos usted mismo o déjenos manejar la infraestructura

Hospedaje personal en su hardware

Cada modelo en TTS.ai está disponible como un proyecto de código abierto en GitHub o Hugging Face. Descargue los pesos, instale las dependencias y ejecute inferencias en sus propias GPUs. Tiene control total sobre la latencia, privacidad y escalado.

Privacidad completa de los datos: el audio nunca sale del servidor
No hay costes por solicitud después de la configuración inicial
Afinación personalizada en sus propios datos
Requiere hardware GPU (NVIDIA recomendado)
Usted administra actualizaciones, escalado y dependencias

Usar la API alojada TTS.ai

Obtén acceso instantáneo a los más de 20 modelos a través de una única API REST. Manejamos el aprovisionamiento de GPU, actualizaciones de modelos, administración de colas y escalado. Una clave de API te da acceso a cada modelo, sin necesidad de administrar implementaciones separadas.

No se necesita hardware de GPU
Todos los más de 20 modelos a través de una API
Actualizaciones y mejoras automáticas del modelo
99,9% de tiempo de actividad con infraestructuras redundantes
Paga sólo por lo que usas

Usar API alojada en su lugar

Inicio rápido: API o auto-alojamiento

Utilice nuestra API alojada, o instale Kokoro localmente en minutos

Opción 1: API alojada por TTS.ai Más fácil

import requests

response = requests.post("https://api.tts.ai/v1/tts", json={
    "text": "Open source TTS with a simple API.",
    "model": "kokoro",
    "voice": "af_heart",
    "format": "wav"
}, headers={"Authorization": "Bearer YOUR_API_KEY"})

with open("output.wav", "wb") as f:
    f.write(response.content)

Opción 2: Autoayuda con pip Control completo

# Install Kokoro locally
pip install kokoro

# Generate speech on your own GPU
import kokoro

pipeline = kokoro.KPipeline(lang_code="a")
generator = pipeline("Hello from your own server!", voice="af_heart")
for i, (gs, ps, audio) in enumerate(generator):
    kokoro.save(audio, f"output_{i}.wav")

Ver la documentación de API

Código abierto, precios asequibles

Nuestra API alojada hace que TTS de código abierto sea accesible sin administrar GPUs.

Nivel libre

15.000 caracteres en el registro

4 modelos de código abierto gratis
No hay registro para uso básico
Uso comercial permitido

Iniciador

500.000 caracteres/mes

Todos los más de 20 modelos de código abierto
Clonación de voz
Acceso a la API

Pro

$29

2.000.000 caracteres/mes

Procesamiento prioritario de la GPU
Todos los modelos premium
Apoyo a las empresas

Ver precios completos

Preguntas frecuentes

Preguntas comunes sobre el texto de código abierto al discurso

Sí. Cada modelo de TTS.ai utiliza una licencia de código abierto permisiva, ya sea MIT o Apache 2.0. Excluimos específicamente modelos con licencias restrictivas (como CPML de Coqui o CC-BY-NC no comercial). Puede verificar la licencia de cada modelo en su repositorio GitHub.

Ambas son licencias de código abierto permisivas que permiten el uso comercial, la modificación y la redistribución. Apache 2.0 añade concesiones de patente explícitas y requiere indicar cambios si modifica el código. El MIT es más simple con menos requisitos.

Sí. Cada modelo puede ser auto-anfitrión. Clone el repositorio de modelos de GitHub, instale dependencias, descargue pesos de modelos e inferencia de ejecución. Proporcionamos documentación para los requisitos de auto-anfitrión de cada modelo, incluyendo la versión GPU, RAM y Python.

Los requisitos varían según el modelo. Piper no necesita GPU (CPU solamente). Kokoro y MeloTTS necesitan 1-2GB VRAM. La mayoría de los modelos estándar necesitan 4GB VRAM. Tortuga y Sésamo CSM necesitan 8GB. Un NVIDIA RTX 3060 (12GB) puede funcionar la mayoría de los modelos cómodamente.

Sí. Las licencias de código abierto permiten la modificación, incluyendo el ajuste fino. Modelos como GPT-SoVITS y Bark proporcionan scripts de ajuste fino. Puede entrenar modelos en sus propios datos de voz para crear voces personalizadas o mejorar el rendimiento para idiomas específicos.

Los mejores modelos de código abierto (Kokoro, StyleTTS 2, Chatterbox) ahora coinciden o superan los servicios comerciales como ElevenLabs y Google TTS en puntos de referencia de calidad. La principal ventaja de los servicios comerciales es la infraestructura gestionada y el soporte, no la calidad de audio.

XTTS/XTTS-v2 (CPML de Coqui — no comercial), F5-TTS (CC-BY-NC — no comercial) y Higgs-v2 (Licencia Boson — restrictiva) fueron eliminados. Cada modelo en TTS.ai es seguro de uso comercial verificado.

Sí. La mayoría de los modelos aceptan contribuciones de la comunidad a través de GitHub. Puede enviar informes de errores, grabaciones de voz para nuevos idiomas, mejoras de código y documentación.

Carga modelos bajo demanda y descarga cuando está inactivo para compartir memoria GPU. Nuestro servidor GPU ejecuta 20+ modelos en 4x Tesla P40 (96GB total VRAM) utilizando carga dinámica. Para auto-alojamiento, una sola GPU de 24 GB puede servir 3-5 modelos simultáneamente.

Muchos modelos proporcionan imágenes Docker oficiales o archivos Docker. Para ejecutar varios modelos, puede crear una configuración Docker personalizada con NVIDIA Container Toolkit para el acceso a GPU. Nuestra arquitectura de servidor API puede servir como una implementación de referencia.

La mayoría de los modelos requieren Python 3.10-3.12. Coqui TTS (VITS) necesita específicamente Python 3.11. Recomendamos Python 3.12 para la mayoría de los modelos.

Sí. Las licencias MIT y Apache 2.0 permiten explícitamente el uso comercial. Puede construir productos SaaS, aplicaciones móviles, juegos y servicios utilizando estos modelos sin cargos de licencia, regalías o requisitos de atribución (aunque se aprecia la atribución).

5.0/5 (1)

Pruebe TTS de código abierto hoy

Más de 20 modelos de código abierto, todos con licencia comercial. Utilice nuestra API o auto-host — la elección es suya.

Regístrate gratis Ver precios

Modelos de texto de código abierto a voz

Inténtalo ahora.

¿Te gusta TTS.ai? ¡Cuéntaselo a tus amigos!

Beneficios del TTS de código abierto

Todas las licencias de código abierto

MIT / Apache 2.0

Self-Hostable

GPU optimizada

Mantenimiento de la comunidad

Uso comercial OK

Nuestro Catálogo de modelos de código abierto

Kokoro

Piper

VITS

Bark

Tortoise TTS

OpenVoice

Cómo usar TTS de código abierto

Explorar modelos de código abierto

Pruebe en su navegador

Self-Host o utilizar nuestra API

Construir su aplicación

Comparación de licencias

Self-Hosting vs API alojada

Hospedaje personal en su hardware

Usar la API alojada TTS.ai

Inicio rápido: API o auto-alojamiento

Código abierto, precios asequibles

Nivel libre

Iniciador

Pro

Preguntas frecuentes

¿Son todos los modelos TTS.ai realmente de código abierto?

¿Cuál es la diferencia entre las licencias MIT y Apache 2.0?

¿Puedo alojar estos modelos en mi propio servidor?

¿Qué GPU necesito para albergar modelos TTS?

¿Puedo ajustar los modelos TTS de código abierto?

¿Cómo se comparan los modelos TTS de código abierto con los servicios comerciales?

¿Hay algún modelo con licencias restrictivas que deba evitar?

¿Puedo contribuir a estos modelos de código abierto?

¿Cómo puedo ejecutar varios modelos en un servidor GPU?

¿Hay una imagen Docker para auto-anfitriones?

¿Qué versión de Python necesito para ser auto-anfitriona?

¿Puedo construir un producto comercial usando estos modelos?

Pruebe TTS de código abierto hoy