IA libre Texto a vozComment

20+ modelos de código aberto, 107+ voces, 32+ idiomas. Non se require conta.

1K+
creadores
2K+
xeracións
20+
Modelos de IA
107+
voces
0/500 caracteres Libre
Como TTS.ai? Dillo aos teus amigos!

Todo o que precisa para a IA de voz

Máis de 30 ferramentas baseadas en modelos de IA de código aberto

20+ Modelos de voz de IA

A colección máis completa de modelos TTS de código aberto nunha única plataforma

KokoroKokoro Free

Kokoro é un modelo de síntese de voz de 82 millóns de parámetros que supera con creces a súa clase de peso. A pesar do seu tamaño minúsculo, produce unha fala extraordinariamente natural e expresiva. Kokoro soporta múltiples linguas, incluíndo inglés, xaponés, chinés e coreano cunha variedade de voces expresivas. Executase incribelmente rápido, xerando son case 100 veces máis rápido que en tempo real nunha GPU.

Mellor para: TTS de alta calidade con latencia mínima, aplicacións de transmisión

Probar de balde

PiperPiper Free

Piper é un motor lixeiro de síntese de voz desenvolvido por Rhasspy que emprega as arquitecturas VITS e larynx. Execútase completamente na CPU, o que o fai ideal para dispositivos periféricos, automatización doméstica e aplicacións que requiran TTS sen conexión. Con máis de 100 voces en máis de 30 idiomas, Piper ofrece voz natural a velocidades en tempo real mesmo nun Raspberry Pi 4.

Mellor para: Vistas previas rápidas, accesibilidade e programas incorporados

Probar de balde

VITSVITS Free

VITS (Variational Inference with adversarial learning for end- to- end Text- to- Speech) é un método de TTS paralelo de extremo a extremo que xera un son máis natural que os modelos actuais de dúas etapas. Adopta a inferencia variacional aumentada con fluxos normalizadores e un proceso de adestramento adversario, logrando unha mellora significativa na naturalidade.

Mellor para: Texto a voz de propósito xeral con prosodia natural

Probar de balde

MeloTTSMeloTTS Free

MeloTTS de MyShell. ai é unha biblioteca de TTS multilingüe que admite inglés (americano, británico, indio, australiano), español, francés, chinés, xaponés e coreano. É extremadamente rápida, procesando o texto a unha velocidade case en tempo real só na CPU. MeloTTS está deseñado para uso en produción e admite a inferencia tanto na CPU como na GPU.

Mellor para: Aplicativos de produción que precisan de TTS rápido e multilingüe

Probar de balde

BarkBark Standard

Modelo de transformación de texto en son baseado en transformadores que xera fala, música e efectos sonoros realistas.

Desenvolvente: Suno · Licenza: MIT

Inténtao

Bark SmallBark Small Standard

Versión máis lixeira de Bark con inferencias máis rápidas e menor uso de memoria.

Desenvolvente: Suno · Licenza: MIT

Inténtao

CosyVoice 2CosyVoice 2 Standard

TTS de transmisión escalable de Alibaba con naturalidade de paridade humana e latencia case cero.

Desenvolvente: Alibaba (Tongyi Lab) · Licenza: Apache 2.0

Inténtao

Dia TTSDia TTS Standard

Modelo de xeración de diálogos multifalante que crea conversas naturais entre falantes.

Desenvolvente: Nari Labs · Licenza: Apache 2.0

Inténtao

Parler TTSParler TTS Standard

Describa a voz que queira en linguaxe natural e Parler xerará a voz correspondente.

Desenvolvente: Hugging Face · Licenza: Apache 2.0

Inténtao

GLM-TTSGLM-TTS Standard

Consegue a taxa de erro de caracteres máis baixa entre os modelos TTS de código aberto.

Desenvolvente: Zhipu AI · Licenza: GLM-4 License

Inténtao

IndexTTS-2IndexTTS-2 Standard

TTS de tiro cero con control de emocións de gran fino e alta expresividade.

Desenvolvente: Index Team · Licenza: Bilibili Model License

Inténtao

Spark TTSSpark TTS Standard

Clonaxe de voz TTS con emocións controlábeis e estilo de fala mediante mensaxes.

Desenvolvente: SparkAudio · Licenza: CC BY-NC-SA 4.0

Inténtao

GPT-SoVITSGPT-SoVITS Standard

Clonaxe de voz TTS de poucas tomas que replica calquera voz a partir de só 5 segundos de son.

Desenvolvente: RVC-Boss · Licenza: MIT

Inténtao

OrpheusOrpheus Standard

Modelo TTS emocional a nivel humano adestrado con 100K horas de datos de fala.

Desenvolvente: Canopy Labs · Licenza: Llama 3.2 Community

Inténtao

Qwen3 TTSQwen3 TTS Standard

O TTS multilingüe de Alibaba con clonación de voz, voces predefinidas e deseño de voz a partir de texto.

Desenvolvente: Alibaba (Qwen) · Licenza: Apache 2.0

Inténtao

ChatterboxChatterbox Premium

Clonaxe de voz de última xeración con control de emocións de Resemble AI.

Calidade:

Inténtao

Tortoise TTSTortoise TTS Premium

Texto-a-fala multi-voz centrado na calidade cunha arquitectura autoregressiva.

Calidade:

Inténtao

StyleTTS 2StyleTTS 2 Premium

Texto-a-fala a nivel humano a través da difusión de estilos e adestramento contraditorio.

Calidade:

Inténtao

OpenVoiceOpenVoice Premium

Clonaxe instantánea de voz con control granular sobre estilo, emoción e acento.

Calidade:

Inténtao

Sesame CSMSesame CSM Premium

Modelo de fala conversacional que xera diálogo natural con tempo e emoción axeitados.

Calidade:

Inténtao

CosyVoice 2CosyVoice 2

TTS de transmisión escalable de Alibaba con naturalidade de paridade humana e latencia case cero.

Linguas: en, zh, ja, ko, fr, de, it, es

Clonar a voz

GLM-TTSGLM-TTS

Consegue a taxa de erro de caracteres máis baixa entre os modelos TTS de código aberto.

Linguas: en, zh

Clonar a voz

IndexTTS-2IndexTTS-2

TTS de tiro cero con control de emocións de gran fino e alta expresividade.

Linguas: en, zh

Clonar a voz

Spark TTSSpark TTS

Clonaxe de voz TTS con emocións controlábeis e estilo de fala mediante mensaxes.

Linguas: en, zh

Clonar a voz

GPT-SoVITSGPT-SoVITS

Clonaxe de voz TTS de poucas tomas que replica calquera voz a partir de só 5 segundos de son.

Linguas: en, zh, ja, ko

Clonar a voz

ChatterboxChatterbox

Clonaxe de voz de última xeración con control de emocións de Resemble AI.

Linguas: en

Clonar a voz

Tortoise TTSTortoise TTS

Texto-a-fala multi-voz centrado na calidade cunha arquitectura autoregressiva.

Linguas: en

Clonar a voz

OpenVoiceOpenVoice

Clonaxe instantánea de voz con control granular sobre estilo, emoción e acento.

Linguas: en, zh, ja, ko, fr, de, es, it

Clonar a voz

Qwen3 TTSQwen3 TTS

O TTS multilingüe de Alibaba con clonación de voz, voces predefinidas e deseño de voz a partir de texto.

Linguas: en, zh, ja, ko, de, fr, ru, pt, es, it

Clonar a voz

API para desenvolvedores

API REST compatíbel con OpenAI. Un punto final, máis de 22 modelos. Soporte de transmisión para aplicacións en tempo real.

  • Formato compatíbel con OpenAI
  • Transmisión de TTS para aplicacións en tempo real
  • Procesamento por lotes para traballos grandes
  • Notificacións de webhook
Ver a documentación da API
pip install ttsai npm install @ttsainpm/ttsai
Python
from tts_ai import TTSClient

client = TTSClient(api_key="sk-tts-xxx")
audio = client.generate(
    text="Hello from TTS.ai!",
    model="kokoro",
    voice="af_bella",
)
client.save(audio, "output.mp3")

Prezos simples e transparentes

Comeza libre. Escala a medida que medres.

Libre

$0

15. 000 caracteres

  • Kokoro, Piper, VITS, MeloTTS
  • Límite de 500 caracteres
  • 3 xenes/ hora (sen conta)
Inscríbete gratis

Iniciador

$9/ms

500 créditos/mes

  • Todos os 22+ modelos
  • 100. 000 caracteres por xeración
  • Clonaxe de voz
Comezar
Máis popular

Pro

$29/ms

2.000 créditos/mes

  • Todo no iniciador
  • Acceso á API
  • Procesamento de prioridade
Obter Pro

Negocios

$99/ms

10. 000 créditos/ mes

  • Todo en Pro
  • API a granel
  • Fila de prioridade
Obter o negocio

Vexa todos os plans incluíndo paquetes de créditos →

Preguntas frecuentes

TTS.ai é a plataforma de voz de IA máis completa, que ofrece máis de 22 modelos de texto a voz, clonación de voz, voz a texto e ferramentas de son. Todos os modelos son de código aberto e non están limitados por ningún fabricante.

Si! TTS.ai ofrece texto- a- voz gratuíto cos modelos Kokoro, Piper, VITS e MeloTTS. Non se require conta. Regístrese para obter 15. 000 caracteres gratuítos e acceder a todos os modelos. Os plans de pago comezan en $9/ mes.

Para velocidade, use Kokoro ou Piper. Para calidade, tente CosyVoice 2 ou StyleTTS 2. Para clonación de voz, use Chatterbox ou GPT- SoVITS. Para diálogos, use Dia TTS. Tente varios modelos no mesmo texto para comparar.

Si. API REST compatíbel con OpenAI para TTS, STT, clonación de voz e ferramentas de son. Dispoñible nos plans Pro ($29/mes) e Enterprise ($99/mes). Vexa a documentación en tts.ai/api/.

A calidade da voz varía segundo o modelo. Os modelos premium como CosyVoice 2, StyleTTS 2 e Chatterbox producen unha voz de calidade case humana con entonación e emoción naturais. Os modelos gratuítos como Kokoro ofrecen unha calidade excelente para a maioría dos casos de uso.

TTS.ai soporta máis de 30 idiomas na súa biblioteca de modelos. O inglés ten o soporte de modelos máis amplo, pero modelos como CosyVoice 2 cobren chinés, xaponés e coreano; GPT- SoVITS xestiona chinés, xaponés, coreano e inglés; e MeloTTS soporta inglés, español, francés, chinés, xaponés e coreano.

Si. Todo o procesamento faise nos nosos servidores dedicados de GPU. Non almacenamos a súa entrada de texto nin o son xerado despois da entrega. As mostras de voz enviadas para a clonación só se usan para a sesión actual e non se conservan. Nunca compartimos os seus datos con terceiros nin os usamos para adestrar modelos.

Si. Todo o son xerado en TTS.ai é seu para uso comercial, incluíndo vídeos de YouTube, podcasts, audiolibros, aplicacións, anuncios e produtos. Os nosos modelos son de código aberto baixo licenzas permisivas (MIT, Apache 2.0). Non se requiren dereitos de autor nin atribución.

TTS.ai xera o son no formato WAV por omisión para a máxima calidade. Pode converter a MP3, FLAC, OGG ou M4A coa nosa ferramenta gratuita Audio Converter. A API permite especificar o formato de saída preferido directamente na solicitude.

Envíe unha pequena mostra de son (tan curta como 5 segundos) da voz que queira clonar, e logo escriba calquera texto para xerar fala nesa voz. Modelos como Chatterbox, GPT- SoVITS e CosyVoice 2 admiten a clonación de voz. A voz clonada captura o ton, o acento e o estilo de fala.

Os modelos gratuítos (Kokoro, Piper, VITS, MeloTTS) non requiren conta e custan cero créditos. Os modelos estándar (2 créditos/ 1K caracteres) inclúen Bark, CosyVoice 2, F5- TTS e Dia. Os modelos premium (4 créditos/ 1K caracteres) inclúen OpenVoice, Chatterbox, StyleTTS 2 e Tortoise. Os modelos pagos xeralmente ofrecen maior calidade, máis voces e características adicionais como a clonación de voz.

Si. A API admite o procesamento por lotes para converter grandes volumes de texto en voz. Envíe múltiples solicitudes e recupere os resultados de forma asincrónica empregando UUID de tarefas. Os plans Enterprise ($99/ mes) inclúen acceso prioritario á fila para un procesamento por lotes máis rápido. Ideal para a produción de audiolibros, contido de cursos e proxectos de voz a gran escala.
4.0/5 (8)

Comece a usar a voz da IA hoxe

Únase a creadores, desenvolvedores e empresas que usan TTS.ai