IA libre Texto a vozComment

31+ modelos de código aberto, 231+ voces, 34+ idiomas. Non se require conta.

8K+
creadores
30K+
xeracións
31+
Modelos de IA
231+
voces
0/500 caracteres · Sign up for 5,000 per generation → Libre
Encántalle TTS.ai? Cóntallo aos teus amigos!

Todo o que precisa para a IA de voz

Máis de 30 ferramentas baseadas en modelos de IA de código aberto

31+ Modelos de voz de IA

A colección máis completa de modelos TTS de código aberto nunha única plataforma

KokoroKokoro Free

Kokoro é un modelo de síntese de voz de 82 millóns de parámetros que supera con creces a súa clase de peso. A pesar do seu tamaño minúsculo, produce unha fala extraordinariamente natural e expresiva. Kokoro soporta múltiples linguas, incluíndo inglés, xaponés, chinés e coreano cunha variedade de voces expresivas. Executase incribelmente rápido, xerando son case 100 veces máis rápido que en tempo real nunha GPU.

Mellor para: TTS de alta calidade con latencia mínima, aplicacións de transmisión

Probar de balde

PiperPiper Free

Piper é un motor lixeiro de síntese de voz desenvolvido por Rhasspy que emprega as arquitecturas VITS e larynx. Execútase completamente na CPU, o que o fai ideal para dispositivos periféricos, automatización doméstica e aplicacións que requiran TTS sen conexión. Con máis de 100 voces en máis de 30 idiomas, Piper ofrece voz natural a velocidades en tempo real mesmo nun Raspberry Pi 4.

Mellor para: Vistas previas rápidas, accesibilidade e programas incorporados

Probar de balde

VITSVITS Free

VITS (Variational Inference with adversarial learning for end- to- end Text- to- Speech) é un método de TTS paralelo de extremo a extremo que xera un son máis natural que os modelos actuais de dúas etapas. Adopta a inferencia variacional aumentada con fluxos normalizadores e un proceso de adestramento adversario, logrando unha mellora significativa na naturalidade.

Mellor para: Texto a voz de propósito xeral con prosodia natural

Probar de balde

MeloTTSMeloTTS Free

MeloTTS de MyShell. ai é unha biblioteca de TTS multilingüe que admite inglés (americano, británico, indio, australiano), español, francés, chinés, xaponés e coreano. É extremadamente rápida, procesando o texto a unha velocidade case en tempo real só na CPU. MeloTTS está deseñado para uso en produción e admite a inferencia tanto na CPU como na GPU.

Mellor para: Aplicativos de produción que precisan de TTS rápido e multilingüe

Probar de balde

OuteTTSOuteTTS Free

OuteTTS estende grandes modelos de linguaxe con capacidades de texto- a- voz, preservando a arquitectura orixinal. Soporta múltiples infraestruturas, incluíndo llama. cpp (CPU/GPU), Hugging Face Transformers, ExLlamaV2, VLLM, e mesmo inferencia do navegador mediante Transformers. js. Dispón de clonación de voz de tiro cero a través de perfís de falante gardados como JSON.

Mellor para: Despliegue de Edge, TTS baseado en navegador, entornos de baixos recursos

Probar de balde

Pocket TTSPocket TTS Free

Pocket TTS de Kyutai (creadores de Moshi) é un modelo de síntese de voz de 100M de parámetros que é moito máis potente que o seu peso. Executase eficientemente na CPU, admite a clonación de voz sen disparos a partir dunha soa mostra de son e produce unha voz de son natural. O tamaño pequeno do modelo faino ideal para o despliegue de perímetro e ambientes con poucos recursos.

Mellor para: Despliegue lixeiro, entornos só de CPU, clonación rápida de voz

Probar de balde

Kitten TTSKitten TTS Free

Kitten TTS by KittenML is an ultra-lightweight text-to-speech model built on ONNX. With variants from 15M to 80M parameters (25-80 MB on disk), it delivers high-quality voice synthesis on CPU without requiring a GPU. Features 8 built-in voices, adjustable speech speed, and built-in text preprocessing for numbers, currencies, and units. Ideal for edge deployment and low-latency applications.

Mellor para: Fast lightweight TTS, edge deployment, low-latency applications

Probar de balde

BarkBark Standard

Modelo de transformación de texto en son baseado en transformadores que xera fala, música e efectos sonoros realistas.

Desenvolvente: Suno · Licenza: MIT

Inténtao

Bark SmallBark Small Standard

Versión máis lixeira de Bark con inferencias máis rápidas e menor uso de memoria.

Desenvolvente: Suno · Licenza: MIT

Inténtao

CosyVoice 2CosyVoice 2 Standard

TTS de transmisión escalable de Alibaba con naturalidade de paridade humana e latencia case cero.

Desenvolvente: Alibaba (Tongyi Lab) · Licenza: Apache 2.0

Inténtao

Dia TTSDia TTS Standard

Modelo de xeración de diálogos multifalante que crea conversas naturais entre falantes.

Desenvolvente: Nari Labs · Licenza: Apache 2.0

Inténtao

Parler TTSParler TTS Standard

Describa a voz que queira en linguaxe natural e Parler xerará a voz correspondente.

Desenvolvente: Hugging Face · Licenza: Apache 2.0

Inténtao

GLM-TTSGLM-TTS Standard

Consegue a taxa de erro de caracteres máis baixa entre os modelos TTS de código aberto.

Desenvolvente: Zhipu AI · Licenza: GLM-4 License

Inténtao

IndexTTS-2IndexTTS-2 Standard

TTS de tiro cero con control de emocións de gran fino e alta expresividade.

Desenvolvente: Index Team · Licenza: Bilibili Model License

Inténtao

Spark TTSSpark TTS Standard

Clonaxe de voz TTS con emocións controlábeis e estilo de fala mediante mensaxes.

Desenvolvente: SparkAudio · Licenza: CC BY-NC-SA 4.0

Inténtao

GPT-SoVITSGPT-SoVITS Standard

Clonaxe de voz TTS de poucas tomas que replica calquera voz a partir de só 5 segundos de son.

Desenvolvente: RVC-Boss · Licenza: MIT

Inténtao

OrpheusOrpheus Standard

Modelo TTS emocional a nivel humano adestrado con 100K horas de datos de fala.

Desenvolvente: Canopy Labs · Licenza: Llama 3.2 Community

Inténtao

Qwen3 TTSQwen3 TTS Standard

O TTS multilingüe de Alibaba con clonación de voz, voces predefinidas e deseño de voz a partir de texto.

Desenvolvente: Alibaba (Qwen) · Licenza: Apache 2.0

Inténtao

Chatterbox TurboChatterbox Turbo Standard

Chatterbox máis rápido con latencia inferior a 200 ms e etiquetas paralingüísticas para risas, toses e máis.

Desenvolvente: Resemble AI · Licenza: MIT

Inténtao

Dia 2Dia 2 Standard

TTS conversacional de primeira transmisión con diálogo multifalante e pistas paralingüísticas.

Desenvolvente: Nari Labs · Licenza: Apache 2.0

Inténtao

VoxCPMVoxCPM Standard

TTS sen tokenizador que produce son a 44,1 kHz con consistencia de parágrafos consciente do contexto.

Desenvolvente: OpenBMB · Licenza: Apache 2.0

Inténtao

TADATADA Standard

TTS sen alucinacións con aliñamento dual texto-acústico, 5 veces máis rápido que o TTS LLM comparable.

Desenvolvente: Hume AI · Licenza: MIT

Inténtao

VibeVoiceVibeVoice Standard

Modelo de Microsoft para contidos multifalante de forma longa como podcasts e audiolibros.

Desenvolvente: Microsoft · Licenza: MIT

Inténtao

CosyVoice3CosyVoice3 Standard

Next-generation multilingual TTS with bi-streaming, emotion control, and zero-shot voice cloning.

Desenvolvente: Alibaba (FunAudioLLM) · Licenza: Apache 2.0

Inténtao

ChatterboxChatterbox Premium

Clonaxe de voz de última xeración con control de emocións de Resemble AI.

Calidade:

Inténtao

Tortoise TTSTortoise TTS Premium

Texto-a-fala multi-voz centrado na calidade cunha arquitectura autoregressiva.

Calidade:

Inténtao

StyleTTS 2StyleTTS 2 Premium

Texto-a-fala a nivel humano a través da difusión de estilos e adestramento contraditorio.

Calidade:

Inténtao

OpenVoiceOpenVoice Premium

Clonaxe instantánea de voz con control granular sobre estilo, emoción e acento.

Calidade:

Inténtao

Sesame CSMSesame CSM Premium

Modelo de fala conversacional que xera diálogo natural con tempo e emoción axeitados.

Calidade:

Inténtao

MOSS-TTSMOSS-TTS Premium

Ultra-long 20-language TTS supporting up to 1 hour of continuous generation with phoneme-level control.

Calidade:

Inténtao

MegaTTS3MegaTTS3 Premium

ByteDance's sparse alignment TTS with adjustable intelligibility vs. speaker similarity.

Calidade:

Inténtao

CosyVoice 2CosyVoice 2

TTS de transmisión escalable de Alibaba con naturalidade de paridade humana e latencia case cero.

Linguas: en, zh, ja, ko, fr, de, it, es

Clonar a voz

GLM-TTSGLM-TTS

Consegue a taxa de erro de caracteres máis baixa entre os modelos TTS de código aberto.

Linguas: en, zh

Clonar a voz

IndexTTS-2IndexTTS-2

TTS de tiro cero con control de emocións de gran fino e alta expresividade.

Linguas: en, zh

Clonar a voz

Spark TTSSpark TTS

Clonaxe de voz TTS con emocións controlábeis e estilo de fala mediante mensaxes.

Linguas: en, zh

Clonar a voz

GPT-SoVITSGPT-SoVITS

Clonaxe de voz TTS de poucas tomas que replica calquera voz a partir de só 5 segundos de son.

Linguas: en, zh, ja, ko

Clonar a voz

ChatterboxChatterbox

Clonaxe de voz de última xeración con control de emocións de Resemble AI.

Linguas: en

Clonar a voz

Tortoise TTSTortoise TTS

Texto-a-fala multi-voz centrado na calidade cunha arquitectura autoregressiva.

Linguas: en

Clonar a voz

OpenVoiceOpenVoice

Clonaxe instantánea de voz con control granular sobre estilo, emoción e acento.

Linguas: en, zh, ja, ko, fr, de, es, it

Clonar a voz

Qwen3 TTSQwen3 TTS

O TTS multilingüe de Alibaba con clonación de voz, voces predefinidas e deseño de voz a partir de texto.

Linguas: en, zh, ja, ko, de, fr, ru, pt, es, it

Clonar a voz

Chatterbox TurboChatterbox Turbo

Chatterbox máis rápido con latencia inferior a 200 ms e etiquetas paralingüísticas para risas, toses e máis.

Linguas: en

Clonar a voz

VoxCPMVoxCPM

TTS sen tokenizador que produce son a 44,1 kHz con consistencia de parágrafos consciente do contexto.

Linguas: en, zh

Clonar a voz

OuteTTSOuteTTS

TTS baseado en LLM que se executa en CPU, GPU ou navegador mediante llama. cpp e Transformers. js.

Linguas: en

Clonar a voz

Pocket TTSPocket TTS

Modelo de parámetros lixeiro de 100M por Kyutai con clonación de voz a partir dunha soa mostra. Name

Linguas: en, fr

Clonar a voz

CosyVoice3CosyVoice3

Next-generation multilingual TTS with bi-streaming, emotion control, and zero-shot voice cloning.

Linguas: en, zh, ja, ko, de, es, fr, it, ru

Clonar a voz

MOSS-TTSMOSS-TTS

Ultra-long 20-language TTS supporting up to 1 hour of continuous generation with phoneme-level control.

Linguas: en, zh, de, es, fr, ja, it, hu, ko, ru, fa, ar, pl, pt, cs, da, sv, el, tr

Clonar a voz

MegaTTS3MegaTTS3

ByteDance's sparse alignment TTS with adjustable intelligibility vs. speaker similarity.

Linguas: en, zh

Clonar a voz

API para desenvolvedores

API REST compatíbel con OpenAI. Un punto final, máis de 22 modelos. Soporte de transmisión para aplicacións en tempo real.

  • Formato compatíbel con OpenAI
  • Transmisión de TTS para aplicacións en tempo real
  • Procesamento por lotes para traballos grandes
  • Notificacións de webhook
Ver a documentación da API
pip install ttsai npm install @ttsainpm/ttsai
Python
from tts_ai import TTSClient

client = TTSClient(api_key="sk-tts-xxx")
audio = client.generate(
    text="Hello from TTS.ai!",
    model="kokoro",
    voice="af_bella",
)
client.save(audio, "output.mp3")

Prezos simples e transparentes

Comeza libre. Escala a medida que medres.

Libre

$0

15. 000 caracteres

  • Kokoro, Piper, VITS, MeloTTS
  • Límite de 500 caracteres
  • 3 xenes/ hora (sen conta)
Inscríbete gratis

Iniciador

$9/ms

500 créditos/mes

  • Todos os 22+ modelos
  • 100. 000 caracteres por xeración
  • Clonaxe de voz
Comezar
Máis popular

Pro

$29/ms

2.000 créditos/mes

  • Todo no iniciador
  • Acceso á API
  • Procesamento de prioridade
Obter Pro

Negocios

$99/ms

10. 000 créditos/ mes

  • Todo en Pro
  • API a granel
  • Fila de prioridade
Obter o negocio

Vexa todos os plans incluíndo paquetes de créditos →

Preguntas frecuentes

TTS.ai é a plataforma de voz de IA máis completa, que ofrece máis de 22 modelos de texto a voz, clonación de voz, voz a texto e ferramentas de son. Todos os modelos son de código aberto e non están limitados por ningún fabricante.

Si! TTS.ai ofrece texto- a- voz gratuíto cos modelos Kokoro, Piper, VITS e MeloTTS. Non se require conta. Regístrese para obter 15. 000 caracteres gratuítos e acceder a todos os modelos. Os plans de pago comezan en $9/ mes.

Para velocidade, use Kokoro ou Piper. Para calidade, tente CosyVoice 2 ou StyleTTS 2. Para clonación de voz, use Chatterbox ou GPT- SoVITS. Para diálogos, use Dia TTS. Tente varios modelos no mesmo texto para comparar.

Si. API REST compatíbel con OpenAI para TTS, STT, clonación de voz e ferramentas de son. Dispoñible nos plans Pro ($29/mes) e Enterprise ($99/mes). Vexa a documentación en tts.ai/api/.

A calidade da voz varía segundo o modelo. Os modelos premium como CosyVoice 2, StyleTTS 2 e Chatterbox producen unha voz de calidade case humana con entonación e emoción naturais. Os modelos gratuítos como Kokoro ofrecen unha calidade excelente para a maioría dos casos de uso.

TTS.ai soporta máis de 30 idiomas na súa biblioteca de modelos. O inglés ten o soporte de modelos máis amplo, pero modelos como CosyVoice 2 cobren chinés, xaponés e coreano; GPT- SoVITS xestiona chinés, xaponés, coreano e inglés; e MeloTTS soporta inglés, español, francés, chinés, xaponés e coreano.

Si. Todo o procesamento faise nos nosos servidores dedicados de GPU. Non almacenamos a súa entrada de texto nin o son xerado despois da entrega. As mostras de voz enviadas para a clonación só se usan para a sesión actual e non se conservan. Nunca compartimos os seus datos con terceiros nin os usamos para adestrar modelos.

Si. Todo o son xerado en TTS.ai é seu para uso comercial, incluíndo vídeos de YouTube, podcasts, audiolibros, aplicacións, anuncios e produtos. Os nosos modelos son de código aberto baixo licenzas permisivas (MIT, Apache 2.0). Non se requiren dereitos de autor nin atribución.

TTS.ai xera o son no formato WAV por omisión para a máxima calidade. Pode converter a MP3, FLAC, OGG ou M4A coa nosa ferramenta gratuita Audio Converter. A API permite especificar o formato de saída preferido directamente na solicitude.

Envíe unha pequena mostra de son (tan curta como 5 segundos) da voz que queira clonar, e logo escriba calquera texto para xerar fala nesa voz. Modelos como Chatterbox, GPT- SoVITS e CosyVoice 2 admiten a clonación de voz. A voz clonada captura o ton, o acento e o estilo de fala.

Os modelos gratuítos (Kokoro, Piper, VITS, MeloTTS) non requiren conta e custan cero créditos. Os modelos estándar (2 créditos/ 1K caracteres) inclúen Bark, CosyVoice 2, F5- TTS e Dia. Os modelos premium (4 créditos/ 1K caracteres) inclúen OpenVoice, Chatterbox, StyleTTS 2 e Tortoise. Os modelos pagos xeralmente ofrecen maior calidade, máis voces e características adicionais como a clonación de voz.

Si. A API admite o procesamento por lotes para converter grandes volumes de texto en voz. Envíe múltiples solicitudes e recupere os resultados de forma asincrónica empregando UUID de tarefas. Os plans Enterprise ($99/ mes) inclúen acceso prioritario á fila para un procesamento por lotes máis rápido. Ideal para a produción de audiolibros, contido de cursos e proxectos de voz a gran escala.
4.1/5 (21)

What could we improve? Your feedback helps us fix issues.

Comece a usar a voz da IA hoxe

Únase a creadores, desenvolvedores e empresas que usan TTS.ai