IA libre Texto a vozComment

22+ modelos de código aberto, 100+ voces, 32+ idiomas. Non se require conta.

0/500 caracteres Libre
Sen tarxeta de crédito 50 créditos libres 32+ linguas Uso comercial aceptado
0:00 / 0:00
Obter o son A ligazón caduca en 24 horas
Como TTS.ai? Dillo aos teus amigos!

Todo o que precisa para a IA de voz

26 ferramentas impulsadas por máis de 24 modelos de IA de código aberto

Máis de 22 modelos de voz de IA

A colección máis completa de modelos TTS de código aberto nunha única plataforma

Kokoro Free

Kokoro é un modelo de síntese de voz de 82 millóns de parámetros que supera con creces a súa clase de peso. A pesar do seu tamaño minúsculo, produce unha fala extraordinariamente natural e expresiva. Kokoro soporta múltiples linguas, incluíndo inglés, xaponés, chinés e coreano cunha variedade de voces expresivas. Executase incribelmente rápido, xerando son case 100 veces máis rápido que en tempo real nunha GPU.

Mellor para: TTS de alta calidade con latencia mínima, aplicacións de transmisión

Probar de balde

Piper Free

Piper é un motor lixeiro de síntese de voz desenvolvido por Rhasspy que emprega as arquitecturas VITS e larynx. Execútase completamente na CPU, o que o fai ideal para dispositivos periféricos, automatización doméstica e aplicacións que requiran TTS sen conexión. Con máis de 100 voces en máis de 30 idiomas, Piper ofrece voz natural a velocidades en tempo real mesmo nun Raspberry Pi 4.

Mellor para: Vistas previas rápidas, accesibilidade e programas incorporados

Probar de balde

VITS Free

VITS (Variational Inference with adversarial learning for end- to- end Text- to- Speech) é un método de TTS paralelo de extremo a extremo que xera un son máis natural que os modelos actuais de dúas etapas. Adopta a inferencia variacional aumentada con fluxos normalizadores e un proceso de adestramento adversario, logrando unha mellora significativa na naturalidade.

Mellor para: Texto a voz de propósito xeral con prosodia natural

Probar de balde

MeloTTS Free

MeloTTS de MyShell. ai é unha biblioteca de TTS multilingüe que admite inglés (americano, británico, indio, australiano), español, francés, chinés, xaponés e coreano. É extremadamente rápida, procesando o texto a unha velocidade case en tempo real só na CPU. MeloTTS está deseñado para uso en produción e admite a inferencia tanto na CPU como na GPU.

Mellor para: Aplicativos de produción que precisan de TTS rápido e multilingüe

Probar de balde

Bark Standard

Modelo de transformación de texto en son baseado en transformadores que xera fala, música e efectos sonoros realistas.

Desenvolvente: Suno · Licenza: MIT

Inténtao

Bark Small Standard

Versión máis lixeira de Bark con inferencias máis rápidas e menor uso de memoria.

Desenvolvente: Suno · Licenza: MIT

Inténtao

CosyVoice 2 Standard

TTS de transmisión escalable de Alibaba con naturalidade de paridade humana e latencia case cero.

Desenvolvente: Alibaba (Tongyi Lab) · Licenza: Apache 2.0

Inténtao

Dia TTS Standard

Modelo de xeración de diálogos multifalante que crea conversas naturais entre falantes.

Desenvolvente: Nari Labs · Licenza: Apache 2.0

Inténtao

Parler TTS Standard

Describa a voz que queira en linguaxe natural e Parler xerará a voz correspondente.

Desenvolvente: Hugging Face · Licenza: Apache 2.0

Inténtao

IndexTTS-2 Standard

TTS de tiro cero con control de emocións de gran fino e alta expresividade.

Desenvolvente: Index Team · Licenza: Apache 2.0

Inténtao

Spark TTS Standard

Clonaxe de voz TTS con emocións controlábeis e estilo de fala mediante mensaxes.

Desenvolvente: SparkAudio · Licenza: Apache 2.0

Inténtao

GPT-SoVITS Standard

Clonaxe de voz TTS de poucas tomas que replica calquera voz a partir de só 5 segundos de son.

Desenvolvente: RVC-Boss · Licenza: MIT

Inténtao

Orpheus Standard

Modelo TTS emocional a nivel humano adestrado con 100K horas de datos de fala.

Desenvolvente: Canopy Labs · Licenza: Llama 3.2 Community

Inténtao

Qwen3 TTS Standard

O TTS multilingüe de Alibaba con clonación de voz, voces predefinidas e deseño de voz a partir de texto.

Desenvolvente: Alibaba (Qwen) · Licenza: Apache 2.0

Inténtao

Chatterbox Premium

Clonaxe de voz de última xeración con control de emocións de Resemble AI.

Calidade:

Inténtao

Tortoise TTS Premium

Texto-a-fala multi-voz centrado na calidade cunha arquitectura autoregressiva.

Calidade:

Inténtao

StyleTTS 2 Premium

Texto-a-fala a nivel humano a través da difusión de estilos e adestramento contraditorio.

Calidade:

Inténtao

OpenVoice Premium

Clonaxe instantánea de voz con control granular sobre estilo, emoción e acento.

Calidade:

Inténtao

CosyVoice 2

TTS de transmisión escalable de Alibaba con naturalidade de paridade humana e latencia case cero.

Linguas: en, zh, ja, ko, fr, de, it, es

Clonar a voz

IndexTTS-2

TTS de tiro cero con control de emocións de gran fino e alta expresividade.

Linguas: en, zh

Clonar a voz

Spark TTS

Clonaxe de voz TTS con emocións controlábeis e estilo de fala mediante mensaxes.

Linguas: en, zh

Clonar a voz

GPT-SoVITS

Clonaxe de voz TTS de poucas tomas que replica calquera voz a partir de só 5 segundos de son.

Linguas: en, zh, ja, ko

Clonar a voz

Chatterbox

Clonaxe de voz de última xeración con control de emocións de Resemble AI.

Linguas: en

Clonar a voz

Tortoise TTS

Texto-a-fala multi-voz centrado na calidade cunha arquitectura autoregressiva.

Linguas: en

Clonar a voz

OpenVoice

Clonaxe instantánea de voz con control granular sobre estilo, emoción e acento.

Linguas: en, zh, ja, ko, fr, de, es, it

Clonar a voz

Qwen3 TTS

O TTS multilingüe de Alibaba con clonación de voz, voces predefinidas e deseño de voz a partir de texto.

Linguas: en, zh, ja, ko, de, fr, ru, pt, es, it

Clonar a voz

API para desenvolvedores

API REST compatíbel con OpenAI. Un punto final, máis de 22 modelos. Soporte de transmisión para aplicacións en tempo real.

  • Formato compatíbel con OpenAI
  • Transmisión de TTS para aplicacións en tempo real
  • Procesamento por lotes para traballos grandes
  • Notificacións de webhook
Ver a documentación da API
Python
import requests

response = requests.post(
    "https://api.tts.ai/v1/tts/",
    headers={"Authorization": "Bearer sk-tts-xxx"},
    json={
        "model": "kokoro",
        "text": "Hello from TTS.ai!",
        "voice": "af_bella",
    }
)

with open("output.mp3", "wb") as f:
    f.write(response.content)

Prezos simples e transparentes

Comeza libre. Escala a medida que medres.

Libre

$0

50 créditos

  • Kokoro, Piper, VITS, MeloTTS
  • Límite de 500 caracteres
  • 3 xenes/ hora (sen conta)
Inscríbete gratis

Iniciador

$9/ms

500 créditos/mes

  • Todos os 22+ modelos
  • Límite de 5. 000 caracteres
  • Clonaxe de voz
Comezar
Máis popular

Pro

$29/ms

2.000 créditos/mes

  • Todo no iniciador
  • Acceso á API
  • Procesamento de prioridade
Obter Pro

Enterpriseusa. kgm

$99/ms

10. 000 créditos/ mes

  • Todo en Pro
  • API a granel
  • Fila de prioridade
Contactar coas vendas

Vexa todos os plans incluíndo paquetes de créditos →

Preguntas frecuentes

TTS.ai é a plataforma de voz de IA máis completa, que ofrece máis de 22 modelos de texto a voz, clonación de voz, voz a texto e ferramentas de son. Todos os modelos son de código aberto e non están limitados por ningún fabricante.

Si! TTS.ai ofrece texto a voz gratuíto cos modelos Kokoro, Piper, VITS e MeloTTS. Non se require conta. Regístrese para obter 50 créditos gratuítos e acceder a todos os modelos. Os plans de pago comezan en $9/mes.

Para velocidade, use Kokoro ou Piper. Para calidade, tente CosyVoice 2 ou StyleTTS 2. Para clonación de voz, use Chatterbox ou GPT- SoVITS. Para diálogos, use Dia TTS. Tente varios modelos no mesmo texto para comparar.

Si. API REST compatíbel con OpenAI para TTS, STT, clonación de voz e ferramentas de son. Dispoñible nos plans Pro ($29/mes) e Enterprise ($99/mes). Vexa a documentación en tts.ai/api/.

A calidade da voz varía segundo o modelo. Os modelos premium como CosyVoice 2, StyleTTS 2 e Chatterbox producen unha voz de calidade case humana con entonación e emoción naturais. Os modelos gratuítos como Kokoro ofrecen unha calidade excelente para a maioría dos casos de uso.

TTS. ai admite máis de 30 idiomas na súa biblioteca de modelos. O inglés ten o soporte de modelos máis amplo, pero modelos como CosyVoice 2 cobren chinés, xaponés e coreano; GPT- SoVITS xestiona chinés, xaponés, coreano e inglés; e MeloTTS admite inglés, español, francés, chinés, xaponés e coreano.

Si. Todo o procesamento faise nos nosos servidores dedicados de GPU. Non almacenamos a súa entrada de texto nin o son xerado despois da entrega. As mostras de voz enviadas para a clonación só se usan para a sesión actual e non se conservan. Nunca compartimos os seus datos con terceiros nin os usamos para adestrar modelos.

Si. Todo o son xerado en TTS.ai é seu para uso comercial, incluíndo vídeos de YouTube, podcasts, audiolibros, aplicacións, anuncios e produtos. Os nosos modelos son de código aberto baixo licenzas permisivas (MIT, Apache 2.0). Non se requiren dereitos de autor nin atribución.

TTS. ai xera o son no formato WAV por omisión para obter a máxima calidade. Pode converter a MP3, FLAC, OGG ou M4A empregando a nosa ferramenta de conversión de son gratuíta. A API permite especificar o formato de saída preferido directamente na solicitude.

Envíe unha pequena mostra de son (tan curta como 5 segundos) da voz que queira clonar, e logo escriba calquera texto para xerar fala nesa voz. Modelos como Chatterbox, GPT- SoVITS e CosyVoice 2 admiten a clonación de voz. A voz clonada captura o ton, o acento e o estilo de fala.

Os modelos gratuítos (Kokoro, Piper, VITS, MeloTTS) non requiren conta e custan cero créditos. Os modelos estándar (2 créditos/ 1K caracteres) inclúen Bark, CosyVoice 2, F5- TTS e Dia. Os modelos premium (4 créditos/ 1K caracteres) inclúen OpenVoice, Chatterbox, StyleTTS 2 e Tortoise. Os modelos pagos xeralmente ofrecen maior calidade, máis voces e características adicionais como a clonación de voz.

Si. A API admite o procesamento por lotes para converter grandes volumes de texto en voz. Envíe múltiples solicitudes e recupere os resultados de forma asincrónica empregando UUID de tarefas. Os plans Enterprise ($99/ mes) inclúen acceso prioritario á fila para un procesamento por lotes máis rápido. Ideal para a produción de audiolibros, contido de cursos e proxectos de voz a gran escala.
5.0/5 (1)

Comece a usar a voz da IA hoxe

Únase a creadores, desenvolvedores e empresas que usan TTS.ai