IA libre Texto a vozComment

33+ modelos de código aberto, 273+ voces, 33+ idiomas. Non se require conta.

17K+
creadores
70K+
xeracións
33+
Modelos de IA
273+
voces
0/500 caracteres · Inscríbete por 5.000 por xeración → Libre
Encántalle TTS.ai? Cóntallo aos teus amigos!

Todo o que precisa para a IA de voz

Máis de 30 ferramentas baseadas en modelos de IA de código aberto

33+ Modelos de voz de IA

A colección máis completa de modelos TTS de código aberto nunha única plataforma

KokoroKokoro Libre

Kokoro é un modelo de síntese de voz de 82 millóns de parámetros que supera con creces a súa clase de peso. A pesar do seu tamaño minúsculo, produce unha fala extraordinariamente natural e expresiva. Kokoro soporta múltiples linguas, incluíndo inglés, xaponés, chinés e coreano cunha variedade de voces expresivas. Executase incribelmente rápido, xerando son case 100 veces máis rápido que en tempo real nunha GPU.

Mellor para: TTS de alta calidade con latencia mínima, aplicacións de transmisión

Probar de balde

PiperPiper Libre

Piper é un motor lixeiro de síntese de voz desenvolvido por Rhasspy que emprega as arquitecturas VITS e larynx. Execútase completamente na CPU, o que o fai ideal para dispositivos periféricos, automatización doméstica e aplicacións que requiran TTS sen conexión. Con máis de 100 voces en máis de 30 idiomas, Piper ofrece voz natural a velocidades en tempo real mesmo nun Raspberry Pi 4.

Mellor para: Vistas previas rápidas, accesibilidade e programas incorporados

Probar de balde

VITSVITS Libre

VITS (Variational Inference with adversarial learning for end- to- end Text- to- Speech) é un método de TTS paralelo de extremo a extremo que xera un son máis natural que os modelos actuais de dúas etapas. Adopta a inferencia variacional aumentada con fluxos normalizadores e un proceso de adestramento adversario, logrando unha mellora significativa na naturalidade.

Mellor para: Texto a voz de propósito xeral con prosodia natural

Probar de balde

MeloTTSMeloTTS Libre

MeloTTS de MyShell. ai é unha biblioteca de TTS multilingüe que admite inglés (americano, británico, indio, australiano), español, francés, chinés, xaponés e coreano. É extremadamente rápida, procesando o texto a unha velocidade case en tempo real só na CPU. MeloTTS está deseñado para uso en produción e admite a inferencia tanto na CPU como na GPU.

Mellor para: Aplicativos de produción que precisan de TTS rápido e multilingüe

Probar de balde

Kani TTS 2Kani TTS 2 Libre

Kani- TTS- 2 de NineNineSix é un modelo ultraligeiro de 400M de parámetros construído sobre o núcleo LiquidAI LFM2 con Nvidia NanoCodec. Execútase en só 3GB de VRAM e consegue 10 segundos de fala en ~2 segundos (RTF 0. 2). Soporta a clonación de voz sen disparos mediante a incorporación de altofalantes.

Mellor para: Xeración rápida, entornos con poucos recursos, vistas previas rápidas

Probar de balde

OuteTTSOuteTTS Libre

OuteTTS estende grandes modelos de linguaxe con capacidades de texto- a- voz, preservando a arquitectura orixinal. Soporta múltiples infraestruturas, incluíndo llama. cpp (CPU/GPU), Hugging Face Transformers, ExLlamaV2, VLLM, e mesmo inferencia do navegador mediante Transformers. js. Dispón de clonación de voz de tiro cero a través de perfís de falante gardados como JSON.

Mellor para: Despliegue de Edge, TTS baseado en navegador, entornos de baixos recursos

Probar de balde

Pocket TTSPocket TTS Libre

Pocket TTS de Kyutai (creadores de Moshi) é un modelo de síntese de voz de 100M de parámetros que é moito máis potente que o seu peso. Executase eficientemente na CPU, admite a clonación de voz sen disparos a partir dunha soa mostra de son e produce unha voz de son natural. O tamaño pequeno do modelo faino ideal para o despliegue de perímetro e ambientes con poucos recursos.

Mellor para: Despliegue lixeiro, entornos só de CPU, clonación rápida de voz

Probar de balde

Kitten TTSKitten TTS Libre

Kitten TTS de KittenML é un modelo de síntese de voz ultraligeiro construído sobre ONNX. Con variantes de 15M a 80M de parámetros (25- 80 MB en disco), ofrece síntese de voz de alta calidade na CPU sen precisar de GPU. Posúe 8 voces incorporadas, velocidade de fala axustábel e preprocesamento de texto incorporado para números, moedas e unidades. Ideal para aplicacións de implementación de borde e de baixa latencia.

Mellor para: TTS rápido e lixeiro, aplicacións de baixa latencia e de implementación á beira

Probar de balde

Ming-Omni TTSMing-Omni TTS Libre

Ming- omni- tts- 0. 5B de inclusionAI é un modelo de fala omnimodal compacto construído sobre a densa estrutura do BailingMM cun descodificador de son que se corresponde con fluxos parche a parche. Ofrece unha saída de 44, 1 kHz (cerca da calidade dun CD), soporta clonación de voz sen tomas a partir dunha referencia de 3 segundos ou máis, e inclúe control de emocións/ dialecto/ BGM mediante instrucións JSON. Excelente estabilidade — 0, 83% WER en probas chinesas.

Mellor para: Narración bilingüe de alta fidelidade, voz controlada pola emoción, contido de audiolibro chinés

Probar de balde

MOSS-TTS NanoMOSS-TTS Nano Libre

MOSS- TTS- Nano- 100M é a variante compacta de 100M parámetros de OpenMOSS da familia MOSS- TTS, que comparte a arquitectura de transformador de atraso. Troca a calidade máxima do modelo 8B por ~80 veces menos peso e VRAM dramáticamente menor por petición, o que o fai axeitado para implementacións de nivel libre e alto rendemento. O mesmo alcance de 20 linguas.

Mellor para: TTS de capa libre, produción de alto volume, uso interactivo de baixa latencia

Probar de balde

BarkBark Estándar

Modelo de transformación de texto en son baseado en transformadores que xera fala, música e efectos sonoros realistas.

Desenvolvente: Suno · Licenza: MIT

Inténtao

Bark SmallBark Small Estándar

Versión máis lixeira de Bark con inferencias máis rápidas e menor uso de memoria.

Desenvolvente: Suno · Licenza: MIT

Inténtao

CosyVoice 2CosyVoice 2 Estándar

TTS de transmisión escalable de Alibaba con naturalidade de paridade humana e latencia case cero.

Desenvolvente: Alibaba (Tongyi Lab) · Licenza: Apache 2.0

Inténtao

Dia TTSDia TTS Estándar

Modelo de xeración de diálogos multifalante que crea conversas naturais entre falantes.

Desenvolvente: Nari Labs · Licenza: Apache 2.0

Inténtao

Parler TTSParler TTS Estándar

Describa a voz que queira en linguaxe natural e Parler xerará a voz correspondente.

Desenvolvente: Hugging Face · Licenza: Apache 2.0

Inténtao

IndexTTS-2IndexTTS-2 Estándar

TTS de tiro cero con control de emocións de gran fino e alta expresividade.

Desenvolvente: Index Team · Licenza: Bilibili Model License

Inténtao

Spark TTSSpark TTS Estándar

Clonaxe de voz TTS con emocións controlábeis e estilo de fala mediante mensaxes.

Desenvolvente: SparkAudio · Licenza: CC BY-NC-SA 4.0

Inténtao

GPT-SoVITSGPT-SoVITS Estándar

Clonaxe de voz TTS de poucas tomas que replica calquera voz a partir de só 5 segundos de son.

Desenvolvente: RVC-Boss · Licenza: MIT

Inténtao

OrpheusOrpheus Estándar

Modelo TTS emocional a nivel humano adestrado con 100K horas de datos de fala.

Desenvolvente: Canopy Labs · Licenza: Llama 3.2 Community

Inténtao

Qwen3 TTSQwen3 TTS Estándar

O TTS multilingüe de Alibaba con clonación de voz, voces predefinidas e deseño de voz a partir de texto.

Desenvolvente: Alibaba (Qwen) · Licenza: Apache 2.0

Inténtao

VieNeu-TTS-v2VieNeu-TTS-v2 Estándar

TTS con conmutación de código vietnamita + inglés con 7 voces predefinidas e clonación de voz sen disparos. Só CPU, non se require GPU. Name

Desenvolvente: Phạm Nguyễn Ngọc Bảo · Licenza: Apache 2.0

Inténtao

Chatterbox TurboChatterbox Turbo Estándar

Chatterbox máis rápido con latencia inferior a 200 ms e etiquetas paralingüísticas para risas, toses e máis.

Desenvolvente: Resemble AI · Licenza: MIT

Inténtao

VoxCPMVoxCPM Estándar

TTS sen tokenizador que produce son a 44,1 kHz con consistencia de parágrafos consciente do contexto.

Desenvolvente: OpenBMB · Licenza: Apache 2.0

Inténtao

VibeVoiceVibeVoice Estándar

Modelo de Microsoft para contidos multifalante de forma longa como podcasts e audiolibros.

Desenvolvente: Microsoft · Licenza: MIT

Inténtao

CosyVoice3CosyVoice3 Estándar

TTS multilingüe de próxima xeración con bi-streaming, control de emocións e clonación de voz sen disparos.

Desenvolvente: Alibaba (FunAudioLLM) · Licenza: Apache 2.0

Inténtao

NAMAA Saudi TTSNAMAA Saudi TTS Estándar

O primeiro TTS aberto en árabe saudita. Dialecto saudita nativo con clonación de voz de calidade Chatterbox.

Desenvolvente: NAMAA Space · Licenza: MIT

Inténtao

Darwin TTSDarwin TTS Estándar

Variante cross- modal de Qwen3- TTS con pesos FFN mesturados do modelo de linguaxe Qwen3- 1. 7B para unha clonación multilingüe máis nítida.

Desenvolvente: FINAL-Bench · Licenza: Apache 2.0

Inténtao

MOSS-TTSDMOSS-TTSD Estándar

Modelo de continuidade de diálogo multifalante — xera conversas ao estilo de podcast con ata 5 falantes e 60 minutos de son coherente.

Desenvolvente: OpenMOSS · Licenza: Apache 2.0

Inténtao

ChatterboxChatterbox Premium

Clonaxe de voz de última xeración con control de emocións de Resemble AI.

Calidade:

Inténtao

Tortoise TTSTortoise TTS Premium

Texto-a-fala multi-voz centrado na calidade cunha arquitectura autoregressiva.

Calidade:

Inténtao

StyleTTS 2StyleTTS 2 Premium

Texto-a-fala a nivel humano a través da difusión de estilos e adestramento contraditorio.

Calidade:

Inténtao

OpenVoiceOpenVoice Premium

Clonaxe instantánea de voz con control granular sobre estilo, emoción e acento.

Calidade:

Inténtao

Sesame CSMSesame CSM Premium

Modelo de fala conversacional que xera diálogo natural con tempo e emoción axeitados.

Calidade:

Inténtao

CosyVoice 2CosyVoice 2

TTS de transmisión escalable de Alibaba con naturalidade de paridade humana e latencia case cero.

Linguas: en, zh, ja, ko, fr, de, it, es

Clonar a voz

IndexTTS-2IndexTTS-2

TTS de tiro cero con control de emocións de gran fino e alta expresividade.

Linguas: en, zh

Clonar a voz

Spark TTSSpark TTS

Clonaxe de voz TTS con emocións controlábeis e estilo de fala mediante mensaxes.

Linguas: en, zh

Clonar a voz

GPT-SoVITSGPT-SoVITS

Clonaxe de voz TTS de poucas tomas que replica calquera voz a partir de só 5 segundos de son.

Linguas: en, zh, ja, ko

Clonar a voz

ChatterboxChatterbox

Clonaxe de voz de última xeración con control de emocións de Resemble AI.

Linguas: en

Clonar a voz

Tortoise TTSTortoise TTS

Texto-a-fala multi-voz centrado na calidade cunha arquitectura autoregressiva.

Linguas: en

Clonar a voz

OpenVoiceOpenVoice

Clonaxe instantánea de voz con control granular sobre estilo, emoción e acento.

Linguas: en, zh, ja, ko, fr, es

Clonar a voz

VieNeu-TTS-v2VieNeu-TTS-v2

TTS con conmutación de código vietnamita + inglés con 7 voces predefinidas e clonación de voz sen disparos. Só CPU, non se require GPU. Name

Linguas: vi, en

Clonar a voz

Chatterbox TurboChatterbox Turbo

Chatterbox máis rápido con latencia inferior a 200 ms e etiquetas paralingüísticas para risas, toses e máis.

Linguas: en

Clonar a voz

VoxCPMVoxCPM

TTS sen tokenizador que produce son a 44,1 kHz con consistencia de parágrafos consciente do contexto.

Linguas: en, zh

Clonar a voz

OuteTTSOuteTTS

TTS baseado en LLM que se executa en CPU, GPU ou navegador mediante llama. cpp e Transformers. js.

Linguas: en

Clonar a voz

Pocket TTSPocket TTS

Modelo de parámetros lixeiro de 100M por Kyutai con clonación de voz a partir dunha soa mostra. Name

Linguas: en, fr

Clonar a voz

CosyVoice3CosyVoice3

TTS multilingüe de próxima xeración con bi-streaming, control de emocións e clonación de voz sen disparos.

Linguas: en, zh, ja, ko, de, es, fr, it, ru

Clonar a voz

NAMAA Saudi TTSNAMAA Saudi TTS

O primeiro TTS aberto en árabe saudita. Dialecto saudita nativo con clonación de voz de calidade Chatterbox.

Linguas: ar

Clonar a voz

Darwin TTSDarwin TTS

Variante cross- modal de Qwen3- TTS con pesos FFN mesturados do modelo de linguaxe Qwen3- 1. 7B para unha clonación multilingüe máis nítida.

Linguas: en, ko, ja, zh

Clonar a voz

MOSS-TTSDMOSS-TTSD

Modelo de continuidade de diálogo multifalante — xera conversas ao estilo de podcast con ata 5 falantes e 60 minutos de son coherente.

Linguas: en, zh

Clonar a voz

Ming-Omni TTSMing-Omni TTS

Modelo de voz omnimodal compacto de 0,5B de inclusionAI con saída de alta fidelidade de 44,1 kHz e clonación de voz sen disparos.

Linguas: en, zh

Clonar a voz

MOSS-TTS NanoMOSS-TTS Nano

Variante MOSS-TTS de 100M minúscula — mesma arquitectura, 80x menor, latencia de capa libre.

Linguas: en, zh, de, es, fr, ja, it, ko, ru, ar, pt

Clonar a voz

API para desenvolvedores

API REST compatíbel con OpenAI. Un punto final, máis de 22 modelos. Soporte de transmisión para aplicacións en tempo real.

  • Formato compatíbel con OpenAI
  • Transmisión de TTS para aplicacións en tempo real
  • Procesamento por lotes para traballos grandes
  • Notificacións de webhook
Ver a documentación da API
pip install ttsai npm install @ttsainpm/ttsai
Python
from tts_ai import TTSClient

client = TTSClient(api_key="sk-tts-xxx")
audio = client.generate(
    text="Hello from TTS.ai!",
    model="kokoro",
    voice="af_bella",
)
client.save(audio, "output.mp3")

Prezos simples e transparentes

Comeza libre. Escala a medida que medres.

Libre

$0

15. 000 caracteres + 5. 000/ día

  • 7 modelos libres, incluíndo Kokoro
  • 5000 caracteres por xeración
  • Acceso á API incluído
Inscríbete gratis

Iniciador

$9/ms

500 créditos/mes

  • Todos os 22+ modelos
  • 100. 000 caracteres por xeración
  • Clonaxe de voz
Comezar
Máis popular

Pro

$29/ms

2.000 créditos/mes

  • Todo no iniciador
  • Acceso á API
  • Procesamento de prioridade
Obter Pro

Negocios

$99/ms

10. 000 créditos/ mes

  • Todo en Pro
  • API a granel
  • Fila de prioridade
Obter o negocio

Vexa todos os plans incluíndo paquetes de créditos →

Preguntas frecuentes

TTS.ai é a plataforma de voz de IA máis completa, que ofrece máis de 22 modelos de texto a voz, clonación de voz, voz a texto e ferramentas de son. Todos os modelos son de código aberto e non están limitados por ningún fabricante.

Si! TTS.ai ofrece texto- a- voz gratuíto cos modelos Kokoro, Piper, VITS e MeloTTS. Non se require conta. Regístrese para obter 15. 000 caracteres gratuítos e acceder a todos os modelos. Os plans de pago comezan en $9/ mes.

Para velocidade, use Kokoro ou Piper. Para calidade, tente CosyVoice 2 ou StyleTTS 2. Para clonación de voz, use Chatterbox ou GPT- SoVITS. Para diálogos, use Dia TTS. Tente varios modelos no mesmo texto para comparar.

Si. API REST compatíbel con OpenAI para TTS, STT, clonación de voz e ferramentas de son. Inclúese en todos os plans, incluído o gratuíto, con límites de velocidade que se escalan segundo o nivel (Gratis: 10 req/min, Lite: 20, Inicial: 30, Profesional: 60, Empresarial: 300). Vexa a documentación en tts. ai/api/.

A calidade da voz varía segundo o modelo. Os modelos premium como CosyVoice 2, StyleTTS 2 e Chatterbox producen unha voz de calidade case humana con entonación e emoción naturais. Os modelos gratuítos como Kokoro ofrecen unha calidade excelente para a maioría dos casos de uso.

TTS.ai soporta máis de 30 idiomas na súa biblioteca de modelos. O inglés ten o soporte de modelos máis amplo, pero modelos como CosyVoice 2 cobren chinés, xaponés e coreano; GPT- SoVITS xestiona chinés, xaponés, coreano e inglés; e MeloTTS soporta inglés, español, francés, chinés, xaponés e coreano.

Si. Todo o procesamento faise nos nosos servidores dedicados de GPU. Non almacenamos a súa entrada de texto nin o son xerado despois da entrega. As mostras de voz enviadas para a clonación só se usan para a sesión actual e non se conservan. Nunca compartimos os seus datos con terceiros nin os usamos para adestrar modelos.

Si. Todo o son xerado en TTS.ai é seu para uso comercial, incluíndo vídeos de YouTube, podcasts, audiolibros, aplicacións, anuncios e produtos. Os nosos modelos son de código aberto baixo licenzas permisivas (MIT, Apache 2.0). Non se requiren dereitos de autor nin atribución.

TTS.ai xera o son no formato WAV por omisión para a máxima calidade. Pode converter a MP3, FLAC, OGG ou M4A coa nosa ferramenta gratuita Audio Converter. A API permite especificar o formato de saída preferido directamente na solicitude.

Envíe unha pequena mostra de son (tan curta como 5 segundos) da voz que queira clonar, e logo escriba calquera texto para xerar fala nesa voz. Modelos como Chatterbox, GPT- SoVITS e CosyVoice 2 admiten a clonación de voz. A voz clonada captura o ton, o acento e o estilo de fala.

Os modelos gratuítos (Kokoro, Piper, VITS, MeloTTS) non requiren conta e custan cero créditos. Os modelos estándar (2 créditos/ 1K caracteres) inclúen Bark, CosyVoice 2, F5- TTS e Dia. Os modelos premium (4 créditos/ 1K caracteres) inclúen OpenVoice, Chatterbox, StyleTTS 2 e Tortoise. Os modelos pagos xeralmente ofrecen maior calidade, máis voces e características adicionais como a clonación de voz.

Si. A API admite o procesamento por lotes para converter grandes volumes de texto en voz. Envie múltiples solicitudes e recupere os resultados de forma asincrónica empregando UUIDs de tarefas. O plan de negocios ($99/ mes) e superior inclúen acceso prioritario á fila para un procesamento por lotes máis rápido. Ideal para a produción de audiolibros, contido de cursos e proxectos de voz a gran escala.
4.1/5 (42)

Que podemos mellorar? Os seus comentarios axúdannos a corrixir os problemas.

Comece a usar a voz da IA hoxe

Únase a creadores, desenvolvedores e empresas que usan TTS.ai