Modelos de texto de código abierto a voz

Cada modelo TTS en nuestra plataforma es de código abierto con licencias comerciales. MIT, Apache 2.0 — sin bloqueo privativo, sin restricciones de uso, sin cuotas de licencia sorpresa. Úsalos a través de nuestra API alojada, o auto-anfitriona en su propia infraestructura con control total.

Código abierto Licencia del MIT Apache 2.0 Self-Hostable GitHub

Inténtalo ahora.

Libre con Kokoro, Piper, VITS, MeloTTS
Su audio generado aparecerá aquí
Generado
Descargar
¿Te gusta TTS.ai? ¡Cuéntaselo a tus amigos!

Beneficios del TTS de código abierto

Por qué los modelos de código abierto importan para sus proyectos

Todas las licencias de código abierto

Cada modelo en TTS.ai utiliza una licencia de código abierto permisiva. No hay cajas negras propietarias, no hay bloqueo de proveedores, no hay cuotas de licencia inesperadas.

MIT / Apache 2.0

Los modelos están bajo licencia MIT o Apache 2.0, las licencias de código abierto más permisivas. Use comercialmente, modifique, redistribuya — sin restricciones.

Self-Hostable

Descargue cualquier modelo y ejecútelo en su propio hardware. Control total de sus datos, latencia e infraestructura. No se requiere dependencia de la nube.

GPU optimizada

Los modelos están optimizados para GPUs NVIDIA con soporte CUDA. Piper sólo funciona en CPU. La mayoría de los modelos necesitan 2-8GB VRAM para una inferencia eficiente.

Mantenimiento de la comunidad

Las comunidades activas de código abierto mantienen y mejoran estos modelos. Las contribuciones son bienvenidas: presenten errores, mejoras y nuevas voces en GitHub.

Uso comercial OK

Todos los modelos permiten el uso comercial bajo sus licencias. Construya productos, venda servicios y cree contenido comercial sin regalías ni tasas de uso.

Nuestro Catálogo de modelos de código abierto

Cada modelo, su licencia, y lo que hace mejor

KokoroKokoro

Free

Lightweight 82M parameter model delivering studio-quality speech with blazing-fast inference.

Fast 5/5

Lo mejor para: Apache 2.0 — modelo libre de la mejor calidad, params 82M, fácil de auto-anfitrión

Intente Kokoro

PiperPiper

Free

A fast, local neural text to speech system optimized for Raspberry Pi and embedded devices.

Fast 3/5

Lo mejor para: MIT — solo CPU, perfecto para dispositivos de borde y auto-alojamiento integrado

Intente Piper

VITSVITS

Free

Conditional variational autoencoder with adversarial learning for end-to-end text-to-speech.

Fast 3/5

Lo mejor para: MIT: arquitectura fundacional utilizada por muchos modelos descendentes

Intente VITS

BarkBark

Standard

Transformer-based text-to-audio model that generates realistic speech, music, and sound effects.

Slow 4/5

Lo mejor para: MIT — capacidades únicas de generación de audio más allá de la TTS estándar

Intente Bark

Tortoise TTSTortoise TTS

Premium

Multi-voice text-to-speech focused on quality with autoregressive architecture.

Slow 5/5 Clonación de voz

Lo mejor para: Apache 2.0: implementación de referencia de máxima calidad y ampliamente estudiada

Intente Tortoise TTS

OpenVoiceOpenVoice

Premium

Instant voice cloning with granular control over style, emotion, and accent.

Medium 4/5 Clonación de voz

Lo mejor para: MIT — clonación de voz de código abierto con control de estilo granular

Intente OpenVoice

Cómo usar TTS de código abierto

Utilice nuestra API alojada o ejecute modelos usted mismo

1

Explorar modelos de código abierto

Consulte nuestro catálogo de más de 20 modelos TTS de código abierto. Cada página de modelo muestra los requisitos de licencia, arquitectura, capacidades y auto-hosting.

2

Pruebe en su navegador

Pruebe cualquier modelo directamente en TTS.ai sin instalar nada. Nuestros servidores GPU manejan el procesamiento para que pueda evaluar la calidad antes de comprometerse con el auto-hosting.

3

Self-Host o utilizar nuestra API

Clon Repos modelo de GitHub y ejecutar localmente, o utilizar nuestra API alojada para la producción. El auto-hosting da control completo; nuestra API proporciona infraestructura administrada.

4

Construir su aplicación

Integre TTS en su producto usando modelos auto hospedados o nuestra API REST. Todos los modelos son comercialmente utilizables sin cargos de licencia ni regalías.

Comparación de licencias

Todos los modelos de TTS.ai utilizan licencias comerciales de código abierto

Modelo Licencia Uso comercial Modificación Self-Host Atribución
Kokoro Apache 2.0 Requerido
Piper MIT Opcional
VITS MIT Opcional
MeloTTS MIT Opcional
Chatterbox MIT Opcional
Tortoise TTS Apache 2.0 Requerido
StyleTTS 2 MIT Opcional
OpenVoice MIT Opcional
Sesame CSM Apache 2.0 Requerido
Orpheus Llama 3.2 "Built with Llama"

Self-Hosting vs API alojada

Ejecute modelos usted mismo o déjenos manejar la infraestructura

Hospedaje personal en su hardware

Cada modelo en TTS.ai está disponible como un proyecto de código abierto en GitHub o Hugging Face. Descargue los pesos, instale las dependencias y ejecute inferencias en sus propias GPUs. Tiene control total sobre la latencia, privacidad y escalado.

  • Privacidad completa de los datos: el audio nunca sale del servidor
  • No hay costes por solicitud después de la configuración inicial
  • Afinación personalizada en sus propios datos
  • Requiere hardware GPU (NVIDIA recomendado)
  • Usted administra actualizaciones, escalado y dependencias

Usar la API alojada TTS.ai

Obtén acceso instantáneo a los más de 20 modelos a través de una única API REST. Manejamos el aprovisionamiento de GPU, actualizaciones de modelos, administración de colas y escalado. Una clave de API te da acceso a cada modelo, sin necesidad de administrar implementaciones separadas.

  • No se necesita hardware de GPU
  • Todos los más de 20 modelos a través de una API
  • Actualizaciones y mejoras automáticas del modelo
  • 99,9% de tiempo de actividad con infraestructuras redundantes
  • Paga sólo por lo que usas

Inicio rápido: API o auto-alojamiento

Utilice nuestra API alojada, o instale Kokoro localmente en minutos

Opción 1: API alojada por TTS.ai Más fácil
import requests

response = requests.post("https://api.tts.ai/v1/tts", json={
    "text": "Open source TTS with a simple API.",
    "model": "kokoro",
    "voice": "af_heart",
    "format": "wav"
}, headers={"Authorization": "Bearer YOUR_API_KEY"})

with open("output.wav", "wb") as f:
    f.write(response.content)
Opción 2: Autoayuda con pip Control completo
# Install Kokoro locally
pip install kokoro

# Generate speech on your own GPU
import kokoro

pipeline = kokoro.KPipeline(lang_code="a")
generator = pipeline("Hello from your own server!", voice="af_heart")
for i, (gs, ps, audio) in enumerate(generator):
    kokoro.save(audio, f"output_{i}.wav")

Código abierto, precios asequibles

Nuestra API alojada hace que TTS de código abierto sea accesible sin administrar GPUs.

Nivel libre

$0

15.000 caracteres en el registro

  • 4 modelos de código abierto gratis
  • No hay registro para uso básico
  • Uso comercial permitido

Iniciador

$9

500.000 caracteres/mes

  • Todos los más de 20 modelos de código abierto
  • Clonación de voz
  • Acceso a la API

Pro

$29

2.000.000 caracteres/mes

  • Procesamiento prioritario de la GPU
  • Todos los modelos premium
  • Apoyo a las empresas
Ver precios completos

Preguntas frecuentes

Preguntas comunes sobre el texto de código abierto al discurso

Sí. Cada modelo de TTS.ai utiliza una licencia de código abierto permisiva, ya sea MIT o Apache 2.0. Excluimos específicamente modelos con licencias restrictivas (como CPML de Coqui o CC-BY-NC no comercial). Puede verificar la licencia de cada modelo en su repositorio GitHub.

Ambas son licencias de código abierto permisivas que permiten el uso comercial, la modificación y la redistribución. Apache 2.0 añade concesiones de patente explícitas y requiere indicar cambios si modifica el código. El MIT es más simple con menos requisitos.

Sí. Cada modelo puede ser auto-anfitrión. Clone el repositorio de modelos de GitHub, instale dependencias, descargue pesos de modelos e inferencia de ejecución. Proporcionamos documentación para los requisitos de auto-anfitrión de cada modelo, incluyendo la versión GPU, RAM y Python.

Los requisitos varían según el modelo. Piper no necesita GPU (CPU solamente). Kokoro y MeloTTS necesitan 1-2GB VRAM. La mayoría de los modelos estándar necesitan 4GB VRAM. Tortuga y Sésamo CSM necesitan 8GB. Un NVIDIA RTX 3060 (12GB) puede funcionar la mayoría de los modelos cómodamente.

Sí. Las licencias de código abierto permiten la modificación, incluyendo el ajuste fino. Modelos como GPT-SoVITS y Bark proporcionan scripts de ajuste fino. Puede entrenar modelos en sus propios datos de voz para crear voces personalizadas o mejorar el rendimiento para idiomas específicos.

Los mejores modelos de código abierto (Kokoro, StyleTTS 2, Chatterbox) ahora coinciden o superan los servicios comerciales como ElevenLabs y Google TTS en puntos de referencia de calidad. La principal ventaja de los servicios comerciales es la infraestructura gestionada y el soporte, no la calidad de audio.

XTTS/XTTS-v2 (CPML de Coqui — no comercial), F5-TTS (CC-BY-NC — no comercial) y Higgs-v2 (Licencia Boson — restrictiva) fueron eliminados. Cada modelo en TTS.ai es seguro de uso comercial verificado.

Sí. La mayoría de los modelos aceptan contribuciones de la comunidad a través de GitHub. Puede enviar informes de errores, grabaciones de voz para nuevos idiomas, mejoras de código y documentación.

Carga modelos bajo demanda y descarga cuando está inactivo para compartir memoria GPU. Nuestro servidor GPU ejecuta 20+ modelos en 4x Tesla P40 (96GB total VRAM) utilizando carga dinámica. Para auto-alojamiento, una sola GPU de 24 GB puede servir 3-5 modelos simultáneamente.

Muchos modelos proporcionan imágenes Docker oficiales o archivos Docker. Para ejecutar varios modelos, puede crear una configuración Docker personalizada con NVIDIA Container Toolkit para el acceso a GPU. Nuestra arquitectura de servidor API puede servir como una implementación de referencia.

La mayoría de los modelos requieren Python 3.10-3.12. Coqui TTS (VITS) necesita específicamente Python 3.11. Recomendamos Python 3.12 para la mayoría de los modelos.

Sí. Las licencias MIT y Apache 2.0 permiten explícitamente el uso comercial. Puede construir productos SaaS, aplicaciones móviles, juegos y servicios utilizando estos modelos sin cargos de licencia, regalías o requisitos de atribución (aunque se aprecia la atribución).
5.0/5 (1)

¿Qué podríamos mejorar? Sus comentarios nos ayudan a solucionar problemas.

Pruebe TTS de código abierto hoy

Más de 20 modelos de código abierto, todos con licencia comercial. Utilice nuestra API o auto-host — la elección es suya.