Informar dun erro / Solicitar unha funcionalidade

Modelos de texto a voz de código aberto

Cada modelo TTS da nosa plataforma é de código aberto con licenzas comerciais amigables. MIT, Apache 2. 0 — sen restricións de propiedade, sen restricións de uso, sen taxas de licenza inesperadas. Úsaos a través da nosa API aloxada, ou aloxaos na túa propia infraestrutura con control total.

Código aberto Licenza MIT Apache Autoservible GitHub

Editor completo de TTS Documentación da API

Probalo agora

0/500

Libre con Kokoro, Piper, VITS, MeloTTS

O son xerado aparecerá aquí

Abrir o editor completo de TTS

Vantaxes do TTS de código aberto

Por que os modelos de código aberto son importantes para os seus proxectos

Todos con licenza de código aberto

Cada modelo en TTS.ai usa unha licenza permisiva de código aberto. Sen caixas negras propietarias, sen bloqueo de vendedor, sen taxas de licenza inesperadas.

MIT / Apache

Os modelos están licenciados baixo MIT ou Apache 2. 0, as licenzas de código aberto máis permisivas. Pódese usar comercialmente, modificar, redistribuír, sen restricións.

Autoservible

Obteña calquera modelo e executeo no seu propio hardware. Control total sobre os seus datos, latencia e infraestrutura. Non require dependencia da nube.

Optimizado para GPU

Os modelos están optimizados para GPU NVIDIA con soporte CUDA. Piper só se executa na CPU. A maioría dos modelos precisan de 2 a 8 GB de VRAM para unha inferencia eficiente.

Mantida pola comunidade

Comunidades activas de código aberto manteñen e melloran estes modelos. As contribucións son benvidas: envíe erros, melloras e novas voces en GitHub.

Uso comercial aceptado

Todos os modelos permiten o uso comercial baixo as súas licenzas. Construa produtos, venda servizos e cree contido comercial sen royalties nin taxas de uso.

O noso catálogo de modelos de código aberto

Cada modelo, a súa licenza e o que mellor fai

Kokoro

Free

Lightweight 82M parameter model delivering studio-quality speech with blazing-fast inference.

Rápido 5/5

Mellor para: Apache 2. 0 - modelo libre de mellor calidade, 82M parámetros, fácil de auto- aloxar

Probar Kokoro

Piper

Free

A fast, local neural text to speech system optimized for Raspberry Pi and embedded devices.

Rápido 3/5

Mellor para: MIT — só CPU, perfecto para dispositivos periféricos e autoaloxamento incorporado

Probar Piper

VITS

Free

Conditional variational autoencoder with adversarial learning for end-to-end text-to-speech.

Rápido 3/5

Mellor para: MIT — arquitectura fundamental usada por moitos modelos subseguintes

Probar VITS

Bark

Standard

Transformer-based text-to-audio model that generates realistic speech, music, and sound effects.

Lento 4/5

Mellor para: MIT — capacidades únicas de xeración de son máis alá do TTS estándar

Probar Bark

Tortoise TTS

Premium

Multi-voice text-to-speech focused on quality with autoregressive architecture.

Lento 5/5 Clonaxe de voz

Mellor para: Apache 2. 0 - máxima calidade, implementación de referencia amplamente estudada

Probar Tortoise TTS

OpenVoice

Premium

Instant voice cloning with granular control over style, emotion, and accent.

Medio 4/5 Clonaxe de voz

Mellor para: MIT — clonación de voz de código aberto con control de estilo granular

Probar OpenVoice

Como usar TTS de código aberto

Empregue a nosa API aloxada ou execute modelos vostede mesmo

Explore modelos de código aberto

Examine o noso catálogo de máis de 20 modelos de TTS de código aberto. Cada páxina de modelo mostra a licenzarquitectura, as capacidades e os requisitos de autoaloxamento.

Probar no navegador

Probe calquera modelo directamente en TTS.ai sen instalar nada. Os nosos servidores de GPU xestionan o procesamento para que poida avaliar a calidade antes de comprometerse co autoaloxamento.

Autoaloxamento ou usar a nosa API

Clone repositorios de modelos desde GitHub e execute localmente, ou empregue a nosa API aloxada para produción. O autoaloxamento dá control total; a nosa API proporciona infraestrutura xestionada.

Cree o seu propio programa

Integre TTS no seu produto empregando modelos autoaloxados ou a nosa API REST. Todos os modelos son utilizables comercialmente sen taxas de licenza nin royalties.

Comparación de licenzas

Todos os modelos de TTS.ai usan licenzas de código aberto comerciais

Modelo	Licenza	Atribución
Kokoro	Apache 2.0	Requirido
Piper	MIT	Opcional
VITS	MIT	Opcional
MeloTTS	MIT	Opcional
Chatterbox	MIT	Opcional
Tortoise TTS	Apache 2.0	Requirido
StyleTTS 2	MIT	Opcional
OpenVoice	MIT	Opcional
Sesame CSM	Apache 2.0	Requirido
Orpheus	Llama 3.2	"Built with Llama"

Proba estes modelos de balde

Autoaloxamento vs API aloxada

Execute os modelos vostede mesmo ou deixe que nos encarguemos da infraestrutura

Autoservizo no hardware

Cada modelo de TTS.ai está dispoñíbel como proxecto de código aberto en GitHub ou Hugging Face. Descargue os pesos, instale as dependencias e execute a inferencia nas súas propias GPU. Ten control total sobre a latencia, a privacidade e o escalado.

Privacidade completa dos datos: o son nunca sae do servidor
Sen custos por petición despois da configuración inicial
Afinación personalizada dos seus propios datos
Require hardware de GPU (recoméndase NVIDIA)
Xestione actualizacións, escalado e dependencias

Empregar a API aloxada de TTS.ai

Obteña acceso instantáneo a máis de 20 modelos a través dunha única API REST. Xestionamos o aprovisionamento da GPU, as actualizacións de modelos, a xestión de filas e o escalado. Unha chave de API dá acceso a todos os modelos, sen necesidade de xestionar implementacións separadas.

Non se precisa hardware de GPU
Máis de 20 modelos a través dunha API
Actualizacións e melloras automáticas do modelo
Tempo de actividade do 99,9% con infraestrutura redundante
Pague só polo que use

Empregar no canto a API aloxada

Inicio rápido: API ou autoservizo

Empregue a nosa API aloxada ou instale Kokoro localmente en minutos

Opción 1: API aloxada por TTS.ai O máis sinxelo

import requests

response = requests.post("https://api.tts.ai/v1/tts", json={
    "text": "Open source TTS with a simple API.",
    "model": "kokoro",
    "voice": "af_heart",
    "format": "wav"
}, headers={"Authorization": "Bearer YOUR_API_KEY"})

with open("output.wav", "wb") as f:
    f.write(response.content)

Opción 2: Autoservizo con pip Control total

# Install Kokoro locally
pip install kokoro

# Generate speech on your own GPU
import kokoro

pipeline = kokoro.KPipeline(lang_code="a")
generator = pipeline("Hello from your own server!", voice="af_heart")
for i, (gs, ps, audio) in enumerate(generator):
    kokoro.save(audio, f"output_{i}.wav")

Ver a documentación da API

Código aberto, prezos asequibles

A nosa API aloxada fai accesible o TTS de código aberto sen xestionar GPUs.

Nivel libre

15. 000 caracteres ao rexistrarse

4 modelos de código aberto gratuítos
Non hai rexistro para o uso básico
Uso comercial permitido

Iniciador

500 créditos/mes

Todos os 20+ modelos de código aberto
Clonaxe de voz
Acceso á API

Pro

$29

2000 créditos/mes

Prioridade no procesamento da GPU
Todos os modelos premium
Soporte empresarial

Ver o prezo completo

Preguntas frecuentes

Preguntas frecuentes sobre a síntese de voz de código aberto

Si. Cada modelo en TTS.ai usa unha licenza permisiva de código aberto — MIT ou Apache 2.0. Excluímos especificamente os modelos con licenzas restritivas (como CPML de Coqui ou CC-BY-NC non comercial). Pode verificar a licenza de cada modelo no seu repositorio de GitHub.

Ambas son licenzas permisivas de código aberto que permiten o uso comercial, modificación e redistribución. Apache 2. 0 engade concesións explícitas de patentes e require indicar os cambios se se modifica o código. MIT é máis sinxelo con menos requisitos. Ambas son amigables para os negocios.

Si. Cada modelo pode ser autoaloxado. Clone o repositorio do modelo desde GitHub, instale as dependencias, descargue os pesos do modelo e execute a inferencia. Proporcionamos documentación para os requisitos de autoaloxamento de cada modelo, incluíndo GPU, RAM e versión de Python.

Os requisitos varían segundo o modelo. Piper non precisa GPU (só CPU). Kokoro e MeloTTS precisan 1- 2 GB de VRAM. A maioría dos modelos estándar precisan 4 GB de VRAM. Tortoise e Sesame CSM precisan 8 GB. Unha NVIDIA RTX 3060 (12 GB) pode executar a maioría dos modelos con comodidade.

Si. As licenzas de código aberto permiten a modificación, incluíndo o axuste fino. Modelos como GPT- SoVITS e Bark fornecen scripts de axuste fino. Pode adestrar modelos cos seus propios datos de voz para crear voces personalizadas ou mellorar o rendemento para linguaxes específicas.

Os mellores modelos de código aberto (Kokoro, StyleTTS 2, Chatterbox) agora igualan ou superan os servizos comerciais como ElevenLabs e Google TTS nos parámetros de calidade. A principal vantaxe dos servizos comerciais é a infraestrutura xestionada e o soporte, non a calidade do son.

Xa os excluímos. Elimináronse XTTS/XTTS-v2 (CPML de Coqui — non comercial), F5-TTS (CC-BY-NC — non comercial) e Higgs-v2 (Licenza de Bosóns — restritiva). Todos os modelos en TTS.ai están verificados como seguros para uso comercial.

Si. A maioría dos modelos aceptan contribucións da comunidade a través de GitHub. Pode enviar informes de erros, gravacións de voz para novas linguaxes, melloras de código e documentación. Comprobe o repositorio de GitHub de cada modelo para as directrices de contribución e problemas activos.

Cargue modelos segundo a demanda e descargue cando estea inactivo para compartir a memoria da GPU. O noso servidor de GPU executa máis de 20 modelos en 4x Tesla P40 (96 GB de VRAM total) usando carga dinámica. Para autoaloxamento, unha única GPU de 24 GB pode servir de 3 a 5 modelos simultaneamente.

Moitos modelos fornecen imaxes oficiais de Docker ou ficheiros Dockerfiles. Para executar varios modelos, pode construír unha configuración personalizada de Docker con NVIDIA Container Toolkit para o acceso á GPU. A nosa arquitectura de servidor API pode servir como implementación de referencia.

A maioría dos modelos requiren Python 3. 10- 3. 12. Coqui TTS (VITS) precisa especificamente Python 3. 11. Recoméndase Python 3. 12 para a maioría dos modelos. Comprobe o requirements. txt de cada modelo para a compatibilidade exacta da versión.

Si. As licenzas MIT e Apache 2. 0 permiten explicitamente o uso comercial. Pode construír produtos SaaS, aplicacións móbiles, xogos e servizos usando estes modelos sen taxas de licenza, royalties ou requisitos de atribución (aínda que a atribución é apreciada).

5.0/5 (1)

Probe hoxe o TTS de código aberto

Máis de 20 modelos de código aberto, todos con licenza comercial. Utilice a nosa API ou auto-host, a elección é súa.

Inscríbete gratis Ver os prezos

Modelos de texto a voz de código aberto

Probalo agora

Encántalle TTS.ai? Cóntallo aos teus amigos!

Vantaxes do TTS de código aberto

Todos con licenza de código aberto

MIT / Apache

Autoservible

Optimizado para GPU

Mantida pola comunidade

Uso comercial aceptado

O noso catálogo de modelos de código aberto

Kokoro

Piper

VITS

Bark

Tortoise TTS

OpenVoice

Como usar TTS de código aberto

Explore modelos de código aberto

Probar no navegador

Autoaloxamento ou usar a nosa API

Cree o seu propio programa

Comparación de licenzas

Autoaloxamento vs API aloxada

Autoservizo no hardware

Empregar a API aloxada de TTS.ai

Inicio rápido: API ou autoservizo

Código aberto, prezos asequibles

Nivel libre

Iniciador

Pro

Preguntas frecuentes

Son todos os modelos de TTS.ai realmente de código aberto?

Cal é a diferenza entre as licenzas MIT e Apache 2. 0?

Podo aloxar estes modelos no meu propio servidor?

Que GPU necesito para auto- aloxar modelos TTS?

Podo afinar os modelos TTS de código aberto?

Como se comparan os modelos TTS de código aberto cos servizos comerciais?

Hai algún modelo con licenzas restritivas que deba evitar?

Podo contribuír a estes modelos de código aberto?

Como podo executar varios modelos nun servidor de GPU?

Existe unha imaxe de Docker para autoaloxamento?

Que versión de Python necesito para o autoaloxamento?

Podo construír un produto comercial usando estes modelos?

Probe hoxe o TTS de código aberto