Modelos de texto a voz de código aberto

Cada modelo TTS da nosa plataforma é de código aberto con licenzas comerciais amigables. MIT, Apache 2. 0 — sen restricións de propiedade, sen restricións de uso, sen taxas de licenza inesperadas. Úsaos a través da nosa API aloxada, ou aloxaos na túa propia infraestrutura con control total.

Código aberto Licenza MIT Apache Autoservible GitHub

Probalo agora

0/500
Libre con Kokoro, Piper, VITS, MeloTTS
Your generated audio will appear here
Xerado
0:00 0:00
Obter
Como TTS.ai? Dillo aos teus amigos!

Vantaxes do TTS de código aberto

Por que os modelos de código aberto son importantes para os seus proxectos

Todos con licenza de código aberto

Cada modelo en TTS.ai usa unha licenza permisiva de código aberto. Sen caixas negras propietarias, sen bloqueo de vendedor, sen taxas de licenza inesperadas.

MIT / Apache

Os modelos están licenciados baixo MIT ou Apache 2. 0, as licenzas de código aberto máis permisivas. Pódese usar comercialmente, modificar, redistribuír, sen restricións.

Autoservible

Obteña calquera modelo e executeo no seu propio hardware. Control total sobre os seus datos, latencia e infraestrutura. Non require dependencia da nube.

Optimizado para GPU

Os modelos están optimizados para GPU NVIDIA con soporte CUDA. Piper só se executa na CPU. A maioría dos modelos precisan de 2 a 8 GB de VRAM para unha inferencia eficiente.

Mantida pola comunidade

Comunidades activas de código aberto manteñen e melloran estes modelos. As contribucións son benvidas: envíe erros, melloras e novas voces en GitHub.

Uso comercial aceptado

Todos os modelos permiten o uso comercial baixo as súas licenzas. Construa produtos, venda servizos e cree contido comercial sen royalties nin taxas de uso.

O noso catálogo de modelos de código aberto

Cada modelo, a súa licenza e o que mellor fai

KokoroKokoro

Free

Lightweight 82M parameter model delivering studio-quality speech with blazing-fast inference.

Fast 5/5

Mellor para: Apache 2. 0 - modelo libre de mellor calidade, 82M parámetros, fácil de auto- aloxar

Probar Kokoro

PiperPiper

Free

A fast, local neural text to speech system optimized for Raspberry Pi and embedded devices.

Fast 3/5

Mellor para: MIT — só CPU, perfecto para dispositivos periféricos e autoaloxamento incorporado

Probar Piper

VITSVITS

Free

Conditional variational autoencoder with adversarial learning for end-to-end text-to-speech.

Fast 3/5

Mellor para: MIT — arquitectura fundamental usada por moitos modelos subseguintes

Probar VITS

BarkBark

Standard

Transformer-based text-to-audio model that generates realistic speech, music, and sound effects.

Slow 4/5

Mellor para: MIT — capacidades únicas de xeración de son máis alá do TTS estándar

Probar Bark

Tortoise TTSTortoise TTS

Premium

Multi-voice text-to-speech focused on quality with autoregressive architecture.

Slow 5/5 Clonaxe de voz

Mellor para: Apache 2. 0 - máxima calidade, implementación de referencia amplamente estudada

Probar Tortoise TTS

OpenVoiceOpenVoice

Premium

Instant voice cloning with granular control over style, emotion, and accent.

Medium 4/5 Clonaxe de voz

Mellor para: MIT — clonación de voz de código aberto con control de estilo granular

Probar OpenVoice

Como usar TTS de código aberto

Empregue a nosa API aloxada ou execute modelos vostede mesmo

1

Explore modelos de código aberto

Examine o noso catálogo de máis de 20 modelos de TTS de código aberto. Cada páxina de modelo mostra a licenza, a arquitectura, as capacidades e os requisitos de autoaloxamento.

2

Probar no navegador

Probe calquera modelo directamente en TTS.ai sen instalar nada. Os nosos servidores de GPU xestionan o procesamento para que poida avaliar a calidade antes de comprometerse co autoaloxamento.

3

Autoaloxamento ou usar a nosa API

Clone repositorios de modelos desde GitHub e execute localmente, ou empregue a nosa API aloxada para produción. O autoaloxamento dá control total; a nosa API proporciona infraestrutura xestionada.

4

Cree o seu propio programa

Integre TTS no seu produto empregando modelos autoaloxados ou a nosa API REST. Todos os modelos son utilizables comercialmente sen taxas de licenza nin royalties.

Comparación de licenzas

Todos os modelos de TTS.ai usan licenzas de código aberto comerciais

Modelo Licenza Uso comercial Modificación Servidor automático Atribución
Kokoro Apache 2.0 Requirido
Piper MIT Opcional
VITS MIT Opcional
MeloTTS MIT Opcional
Chatterbox MIT Opcional
Tortoise TTS Apache 2.0 Requirido
StyleTTS 2 MIT Opcional
OpenVoice MIT Opcional
Sesame CSM Apache 2.0 Requirido
Orpheus Llama 3.2 "Built with Llama"

Autoaloxamento vs API aloxada

Execute os modelos vostede mesmo ou deixe que nos encarguemos da infraestrutura

Autoservizo no hardware

Cada modelo de TTS.ai está dispoñíbel como proxecto de código aberto en GitHub ou Hugging Face. Descargue os pesos, instale as dependencias e execute a inferencia nas súas propias GPU. Ten control total sobre a latencia, a privacidade e o escalado.

  • Privacidade completa dos datos: o son nunca sae do servidor
  • Sen custos por petición despois da configuración inicial
  • Afinación personalizada dos seus propios datos
  • Require hardware de GPU (recoméndase NVIDIA)
  • Xestione actualizacións, escalado e dependencias

Empregar a API aloxada de TTS. ai

Obteña acceso instantáneo a máis de 24 modelos a través dunha única API REST. Xestionamos o aprovisionamento de GPU, as actualizacións de modelos, a xestión de filas e o escalado. Unha chave de API dá acceso a todos os modelos, sen necesidade de xestionar implementacións separadas.

  • Non se precisa hardware de GPU
  • Todos os 24+ modelos a través dunha API
  • Actualizacións e melloras automáticas do modelo
  • Tempo de actividade do 99,9% con infraestrutura redundante
  • Pague só polo que use

Inicio rápido: API ou autoservizo

Empregue a nosa API aloxada ou instale Kokoro localmente en minutos

Opción 1: API aloxada en TTS. ai O máis sinxelo
import requests

response = requests.post("https://api.tts.ai/v1/tts", json={
    "text": "Open source TTS with a simple API.",
    "model": "kokoro",
    "voice": "af_heart",
    "format": "wav"
}, headers={"Authorization": "Bearer YOUR_API_KEY"})

with open("output.wav", "wb") as f:
    f.write(response.content)
Opción 2: Autoservizo con pip Control total
# Install Kokoro locally
pip install kokoro

# Generate speech on your own GPU
import kokoro

pipeline = kokoro.KPipeline(lang_code="a")
generator = pipeline("Hello from your own server!", voice="af_heart")
for i, (gs, ps, audio) in enumerate(generator):
    kokoro.save(audio, f"output_{i}.wav")

Código aberto, prezos asequibles

A nosa API aloxada fai accesible o TTS de código aberto sen xestionar GPUs.

Nivel libre

$0

50 créditos ao rexistrarse

  • 4 modelos de código aberto gratuítos
  • Non hai rexistro para o uso básico
  • Uso comercial permitido

Iniciador

$9

500 créditos/mes

  • Todos os 24+ modelos de código aberto
  • Clonaxe de voz
  • Acceso á API

Pro

$29

2000 créditos/mes

  • Prioridade no procesamento da GPU
  • Todos os modelos premium
  • Soporte empresarial
Ver o prezo completo

Preguntas frecuentes

Preguntas frecuentes sobre a síntese de voz de código aberto

Si. Cada modelo en TTS.ai usa unha licenza permisiva de código aberto — MIT ou Apache 2.0. Excluímos especificamente os modelos con licenzas restritivas (como CPML de Coqui ou CC-BY-NC non comercial). Pode verificar a licenza de cada modelo no seu repositorio de GitHub.

Ambas son licenzas permisivas de código aberto que permiten o uso comercial, modificación e redistribución. Apache 2. 0 engade concesións explícitas de patentes e require indicar os cambios se se modifica o código. MIT é máis sinxelo con menos requisitos. Ambas son amigables para os negocios.

Si. Cada modelo pode ser autoaloxado. Clone o repositorio do modelo desde GitHub, instale as dependencias, descargue os pesos do modelo e execute a inferencia. Proporcionamos documentación para os requisitos de autoaloxamento de cada modelo, incluíndo GPU, RAM e versión de Python.

Os requisitos varían segundo o modelo. Piper non precisa GPU (só CPU). Kokoro e MeloTTS precisan 1- 2 GB de VRAM. A maioría dos modelos estándar precisan 4 GB de VRAM. Tortoise e Sesame CSM precisan 8 GB. Unha NVIDIA RTX 3060 (12 GB) pode executar a maioría dos modelos con comodidade.

Si. As licenzas de código aberto permiten a modificación, incluíndo o axuste fino. Modelos como GPT- SoVITS e Bark fornecen scripts de axuste fino. Pode adestrar modelos cos seus propios datos de voz para crear voces personalizadas ou mellorar o rendemento para linguaxes específicas.

Os mellores modelos de código aberto (Kokoro, StyleTTS 2, Chatterbox) agora igualan ou superan os servizos comerciais como ElevenLabs e Google TTS nos parámetros de calidade. A principal vantaxe dos servizos comerciais é a infraestrutura xestionada e o soporte, non a calidade do son.

Xa os excluímos. Elimináronse XTTS/XTTS-v2 (CPML de Coqui — non comercial), F5-TTS (CC-BY-NC — non comercial) e Higgs-v2 (Licenza de Bosóns — restritiva). Todos os modelos en TTS.ai están verificados como seguros para uso comercial.

Si. A maioría dos modelos aceptan contribucións da comunidade a través de GitHub. Pode enviar informes de erros, gravacións de voz para novas linguaxes, melloras de código e documentación. Comprobe o repositorio de GitHub de cada modelo para as directrices de contribución e problemas activos.

Cargue modelos segundo a demanda e descargue cando estea inactivo para compartir a memoria da GPU. O noso servidor de GPU executa máis de 20 modelos en 4x Tesla P40 (96 GB de VRAM total) usando carga dinámica. Para autoaloxamento, unha única GPU de 24 GB pode servir de 3 a 5 modelos simultaneamente.

Moitos modelos fornecen imaxes oficiais de Docker ou ficheiros Dockerfiles. Para executar varios modelos, pode construír unha configuración personalizada de Docker con NVIDIA Container Toolkit para o acceso á GPU. A nosa arquitectura de servidor API pode servir como implementación de referencia.

A maioría dos modelos requiren Python 3. 10- 3. 12. Coqui TTS (VITS) precisa especificamente Python 3. 11. Recoméndase Python 3. 12 para a maioría dos modelos. Comprobe o requirements. txt de cada modelo para a compatibilidade exacta da versión.

Si. As licenzas MIT e Apache 2. 0 permiten explicitamente o uso comercial. Pode construír produtos SaaS, aplicacións móbiles, xogos e servizos usando estes modelos sen taxas de licenza, royalties ou requisitos de atribución (aínda que a atribución é apreciada).
5.0/5 (1)

Probe hoxe o TTS de código aberto

Máis de 24 modelos de código aberto, todos con licenza comercial. Utilice a nosa API ou auto-host, a elección é súa.