IA libre Texto a vozComment
22+ modelos de código aberto, 100+ voces, 32+ idiomas. Non se require conta.
Todo o que precisa para a IA de voz
26 ferramentas impulsadas por máis de 24 modelos de IA de código aberto
Máis de 22 modelos de voz de IA
A colección máis completa de modelos TTS de código aberto nunha única plataforma
Kokoro Free
Kokoro é un modelo de síntese de voz de 82 millóns de parámetros que supera con creces a súa clase de peso. A pesar do seu tamaño minúsculo, produce unha fala extraordinariamente natural e expresiva. Kokoro soporta múltiples linguas, incluíndo inglés, xaponés, chinés e coreano cunha variedade de voces expresivas. Executase incribelmente rápido, xerando son case 100 veces máis rápido que en tempo real nunha GPU.
Mellor para: TTS de alta calidade con latencia mínima, aplicacións de transmisión
Probar de baldePiper Free
Piper é un motor lixeiro de síntese de voz desenvolvido por Rhasspy que emprega as arquitecturas VITS e larynx. Execútase completamente na CPU, o que o fai ideal para dispositivos periféricos, automatización doméstica e aplicacións que requiran TTS sen conexión. Con máis de 100 voces en máis de 30 idiomas, Piper ofrece voz natural a velocidades en tempo real mesmo nun Raspberry Pi 4.
Mellor para: Vistas previas rápidas, accesibilidade e programas incorporados
Probar de baldeVITS Free
VITS (Variational Inference with adversarial learning for end- to- end Text- to- Speech) é un método de TTS paralelo de extremo a extremo que xera un son máis natural que os modelos actuais de dúas etapas. Adopta a inferencia variacional aumentada con fluxos normalizadores e un proceso de adestramento adversario, logrando unha mellora significativa na naturalidade.
Mellor para: Texto a voz de propósito xeral con prosodia natural
Probar de baldeMeloTTS Free
MeloTTS de MyShell. ai é unha biblioteca de TTS multilingüe que admite inglés (americano, británico, indio, australiano), español, francés, chinés, xaponés e coreano. É extremadamente rápida, procesando o texto a unha velocidade case en tempo real só na CPU. MeloTTS está deseñado para uso en produción e admite a inferencia tanto na CPU como na GPU.
Mellor para: Aplicativos de produción que precisan de TTS rápido e multilingüe
Probar de baldeBark Standard
Modelo de transformación de texto en son baseado en transformadores que xera fala, música e efectos sonoros realistas.
Desenvolvente: Suno · Licenza: MIT
InténtaoBark Small Standard
Versión máis lixeira de Bark con inferencias máis rápidas e menor uso de memoria.
Desenvolvente: Suno · Licenza: MIT
InténtaoCosyVoice 2 Standard
TTS de transmisión escalable de Alibaba con naturalidade de paridade humana e latencia case cero.
Desenvolvente: Alibaba (Tongyi Lab) · Licenza: Apache 2.0
InténtaoDia TTS Standard
Modelo de xeración de diálogos multifalante que crea conversas naturais entre falantes.
Desenvolvente: Nari Labs · Licenza: Apache 2.0
InténtaoParler TTS Standard
Describa a voz que queira en linguaxe natural e Parler xerará a voz correspondente.
Desenvolvente: Hugging Face · Licenza: Apache 2.0
InténtaoIndexTTS-2 Standard
TTS de tiro cero con control de emocións de gran fino e alta expresividade.
Desenvolvente: Index Team · Licenza: Apache 2.0
InténtaoSpark TTS Standard
Clonaxe de voz TTS con emocións controlábeis e estilo de fala mediante mensaxes.
Desenvolvente: SparkAudio · Licenza: Apache 2.0
InténtaoGPT-SoVITS Standard
Clonaxe de voz TTS de poucas tomas que replica calquera voz a partir de só 5 segundos de son.
Desenvolvente: RVC-Boss · Licenza: MIT
InténtaoOrpheus Standard
Modelo TTS emocional a nivel humano adestrado con 100K horas de datos de fala.
Desenvolvente: Canopy Labs · Licenza: Llama 3.2 Community
InténtaoQwen3 TTS Standard
O TTS multilingüe de Alibaba con clonación de voz, voces predefinidas e deseño de voz a partir de texto.
Desenvolvente: Alibaba (Qwen) · Licenza: Apache 2.0
InténtaoCosyVoice 2
TTS de transmisión escalable de Alibaba con naturalidade de paridade humana e latencia case cero.
Linguas: en, zh, ja, ko, fr, de, it, es
Clonar a vozIndexTTS-2
TTS de tiro cero con control de emocións de gran fino e alta expresividade.
Linguas: en, zh
Clonar a vozSpark TTS
Clonaxe de voz TTS con emocións controlábeis e estilo de fala mediante mensaxes.
Linguas: en, zh
Clonar a vozGPT-SoVITS
Clonaxe de voz TTS de poucas tomas que replica calquera voz a partir de só 5 segundos de son.
Linguas: en, zh, ja, ko
Clonar a vozChatterbox
Clonaxe de voz de última xeración con control de emocións de Resemble AI.
Linguas: en
Clonar a vozTortoise TTS
Texto-a-fala multi-voz centrado na calidade cunha arquitectura autoregressiva.
Linguas: en
Clonar a vozOpenVoice
Clonaxe instantánea de voz con control granular sobre estilo, emoción e acento.
Linguas: en, zh, ja, ko, fr, de, es, it
Clonar a vozQwen3 TTS
O TTS multilingüe de Alibaba con clonación de voz, voces predefinidas e deseño de voz a partir de texto.
Linguas: en, zh, ja, ko, de, fr, ru, pt, es, it
Clonar a vozAPI para desenvolvedores
API REST compatíbel con OpenAI. Un punto final, máis de 22 modelos. Soporte de transmisión para aplicacións en tempo real.
- Formato compatíbel con OpenAI
- Transmisión de TTS para aplicacións en tempo real
- Procesamento por lotes para traballos grandes
- Notificacións de webhook
import requests
response = requests.post(
"https://api.tts.ai/v1/tts/",
headers={"Authorization": "Bearer sk-tts-xxx"},
json={
"model": "kokoro",
"text": "Hello from TTS.ai!",
"voice": "af_bella",
}
)
with open("output.mp3", "wb") as f:
f.write(response.content)
Prezos simples e transparentes
Comeza libre. Escala a medida que medres.
Libre
50 créditos
- Kokoro, Piper, VITS, MeloTTS
- Límite de 500 caracteres
- 3 xenes/ hora (sen conta)
Iniciador
500 créditos/mes
- Todos os 22+ modelos
- Límite de 5. 000 caracteres
- Clonaxe de voz
Pro
2.000 créditos/mes
- Todo no iniciador
- Acceso á API
- Procesamento de prioridade
Enterpriseusa. kgm
10. 000 créditos/ mes
- Todo en Pro
- API a granel
- Fila de prioridade
Preguntas frecuentes
Comece a usar a voz da IA hoxe
Únase a creadores, desenvolvedores e empresas que usan TTS.ai