Informar dun erro / Solicitar unha funcionalidade

Texto a voz de IAName

Converta texto en voz natural con máis de 24 modelos de IA de código aberto. Uso gratuíto, non se require conta.

Inscríbete gratis

Non o facemos. Vender a túa voz

0/500 caracteres · Inscríbete por 5.000 por xeración →

Inscríbete límite de 5. 000 caracteres

Modo SSML (Linguaxe de marcación de síntese de voz para control fino)

Incluír o texto en etiquetas SSML para un control preciso:

<speak><prosody rate="slow">Slow speech</prosody></speak>

Etiquetas de Emoción/ Estilo

Engadir marcadores de emoción para influír na entrega (o soporte do modelo varía):

Dicionario de pronunciación

Definir pronunciacións personalizadas (palabra = pronunciación):

Tonalidade 0

-12 +12

Modelo de IA

Voz

Lingua

Formato de saída

Velocidade 1.0x

0.5x 2.0x

Libre con Piper, VITS, MeloTTS

O son xerado aparecerá aquí. Escolla un modelo, introduza o texto e prema Xerar.

Detalles do modelo

OuteTTS

Free

OuteTTS extends large language models with text-to-speech capabilities while preserving the original architecture. It supports multiple backends including llama.cpp (CPU/GPU), Hugging Face Transformers, ExLlamaV2, VLLM, and even browser inference via Transformers.js. Features zero-shot voice cloning through speaker profiles saved as JSON.

Desenvolvente:	OuteAI
Licenza:	Apache 2.0
Velocidade	Fast
Calidade:
linguas	1 lingua
VRAM	2GB
Clonaxe de voz	Soportado

Características:

CPU inference Browser inference Voice cloning Multiple backends Speaker profiles

Mellor para:: Edge deployment, browser-based TTS, low-resource environments

Consellos para obter mellores resultados

Empregar a puntuación axeitada para pausas e entoación naturais
Ortografía os números e abreviaturas para unha pronuncia máis clara
Engadir vírgulas para crear pausas curtas entre frases
Empregar reticencias (...) para pausas dramáticas máis longas
Probe Kokoro ou CosyVoice 2 para obter os resultados máis naturais
Empregar Dia para diálogos multifalante e contido de podcast

Custos de crédito

Tier	Custo por 1K caracteres
Libre	0 créditos (sen límite)
Estándar	2 créditos / 1K caracteres
Premium	4 créditos / 1K caracteres

Obter máis créditos

Como funciona a conversión de texto a voz da IA

Xere voces de calidade profesional en tres pasos sinxelos. Non se requiren coñecementos técnicos.

Paso 1

Introduza o seu texto

Escriba, apegue ou envíe o texto que queira converter en voz. Soporta ata 5. 000 caracteres por xeración para usuarios con sesión iniciada. Empregue texto simple ou engada etiquetas SSML para un control avanzado da pronuncia, pausas e énfase.

Paso 2

Escoller o modelo e a voz

Escolla entre máis de 20 modelos de IA en tres niveis. Escolla unha voz que coincida co seu contido, escolla a lingua de destino, axuste a velocidade de reprodución de 0, 5x a 2, 0x e escolla o formato de saída preferido (MP3, WAV, OGG ou FLAC).

Paso 3

Xerar e obter

Prema Xerar e o son estará listo en segundos. Previsualice co reprodutor incorporado, descargue no formato escollido ou copie unha ligazón compartible. Empregue a API para procesamento por lotes e integración no seu fluxo de traballo.

Casos de uso de Texto- para- Fala

O texto-a-fala impulsado pola IA está a transformar a forma en que a xente crea, consome e interactúa co contido de audio en decenas de industrias.

Audiolibros

Converta libros enteiros en audiolibros de son natural con narración de calidade de estudio. Soporte multifalante con Dia para diálogos de personaxes.

Locucións de vídeo

Cree voces profesionais para YouTube, TikTok, Instagram Reels e curtametraxes. Máis de 100 voces ou clone as súas propias.

Podcasts

Xere episodios de podcast a partir de guións con múltiplas voces de IA. Empregue Dia para conversas naturais con dous oradores.

Xogos

Voz de IA para xogos independentes, novelas visuais e ficción interactiva. Diálogos de NPC, voces de escenas, máis de 30 idiomas.

Aprendizaxe electrónica

Converta materiais de cursos, conferencias e contidos de adestramento en son. Soporte multilingüe para plataformas globais.

Accesibilidade

Faga accesibles sitios web, documentos e aplicacións. Integración da API do lector de pantalla e conversión de artigos en son.

Sistemas telefónicos e IVRName

Alimente sistemas IVR, menús telefónicos e servizo ao cliente con voces naturais de IA. Transmisión de baixa latencia para centros de chamadas.

Redes sociais

Narracións de TikTok, Instagram Reels, comentarios de Twitter/X, curtametraxes de YouTube. Xeración rápida con modelos gratuítos.

Retransmisión

Alertas TTS de Twitch, chat-to-voice, co-hosts de IA e bots de Discord. Baixa latencia, máis de 100 voces, compatíbel con StreamElements.

Comercialización

Locucións de anuncios, vídeos explicativos, demostracións de produtos e presentacións de vendas. Escale a produción de contidos de son entre campañas.

Dublaxe e localización

Traduza e dublee vídeos en máis de 30 idiomas con IA de correspondencia de voz. Transcrición automática e detección de falantes.

Meditación e benestar

Meditacións guiadas, historias para durmir, exercicios de respiración e afirmacións con voces calmas e tranquilizadoras de IA.

Ver todos os casos de uso e ferramentas

Todos os modelos de síntese de voz

Especificacións detalladas para cada modelo de IA dispoñíbel en TTS.ai. Compare a calidade, velocidade, soporte de linguas e características para atopar o modelo perfecto para o seu proxecto.

Kokoro

Free

Kokoro é un modelo de síntese de voz de 82 millóns de parámetros que supera con creces a súa clase de peso. A pesar do seu tamaño minúsculo, produce unha fala extraordinariamente natural e expresiva. Kokoro soporta múltiples linguas, incluíndo inglés, xaponés, chinés e coreano cunha variedade de voces expresivas. Executase incribelmente rápido, xerando son case 100 veces máis rápido que en tempo real nunha GPU.

Desenvolvente::
Hexgrad

Licenza::
Apache 2.0

Velocidade:
Fast

Calidade::

linguas:
en, ja, zh, fr, it, pt, es, hi

VRAM:
1.5GB

Clonaxe de voz:
Non

Custo por 1K caracteres:
Libre

Parámetros de 82M Ultrarrápido Voces expresivas Multilingüe Soporte de transmisión

Mellor para:: TTS de alta calidade con latencia mínima, aplicacións de transmisión

Probar Kokoro

Piper

Free

Piper é un motor lixeiro de síntese de voz desenvolvido por Rhasspy que emprega as arquitecturas VITS e larynx. Execútase completamente na CPU, o que o fai ideal para dispositivos periféricos, automatización doméstica e aplicacións que requiran TTS sen conexión. Con máis de 100 voces en máis de 30 idiomas, Piper ofrece voz natural a velocidades en tempo real mesmo nun Raspberry Pi 4.

Desenvolvente::
Rhasspy

Licenza::
MIT

Velocidade:
Fast

Calidade::

linguas:
en, de, fr, es, it, pt, nl, pl, ru, zh, ar, cs, da, fi, el, hu, is, ka, kk, ne, no, ro, sk, sr, sv, sw, tr, uk, vi

VRAM:
0 (CPU only)

Clonaxe de voz:
Non

Custo por 1K caracteres:
Libre

Amigable coa CPU Capaz de traballar sen conexión Máis de 100 voces 30+ linguas Soporte de SSML

Mellor para:: Vistas previas rápidas, accesibilidade e programas incorporados

Probar Piper

VITS

Free

VITS (Variational Inference with adversarial learning for end- to- end Text- to- Speech) é un método de TTS paralelo de extremo a extremo que xera un son máis natural que os modelos actuais de dúas etapas. Adopta a inferencia variacional aumentada con fluxos normalizadores e un proceso de adestramento adversario, logrando unha mellora significativa na naturalidade.

Desenvolvente::
Jaehyeon Kim et al.

Licenza::
MIT

Velocidade:
Fast

Calidade::

linguas:
en, de, es, fr, pt, nl, fi, hu, bg, ja, pl

VRAM:
1GB

Clonaxe de voz:
Non

Custo por 1K caracteres:
Libre

Síntese completa Prosodia natural Inferencia rápida Múltiplos altofalantes

Mellor para:: Texto a voz de propósito xeral con prosodia natural

Probar VITS

MeloTTS

Free

MeloTTS de MyShell. ai é unha biblioteca de TTS multilingüe que admite inglés (americano, británico, indio, australiano), español, francés, chinés, xaponés e coreano. É extremadamente rápida, procesando o texto a unha velocidade case en tempo real só na CPU. MeloTTS está deseñado para uso en produción e admite a inferencia tanto na CPU como na GPU.

Desenvolvente::
MyShell.ai

Licenza::
MIT

Velocidade:
Fast

Calidade::

linguas:
en, es, fr, zh, ja, ko

VRAM:
0.5GB (GPU optional)

Clonaxe de voz:
Non

Custo por 1K caracteres:
Libre

Optimizado para a CPU Multilingüe Múltiples acentos Listo para a produción Baixa latencia

Mellor para:: Aplicativos de produción que precisan de TTS rápido e multilingüe

Probar MeloTTS

Bark

Standard

Bark de Suno é un modelo de transformación de texto en son baseado en transformadores que pode xerar fala multilingüe altamente realista, así como outros sons como música, ruído de fondo e efectos sonoros. Pode producir comunicacións non verbais como risas, suspiros e choros. Bark admite máis de 100 altofalantes predefinidos e máis de 13 idiomas.

Desenvolvente::
Suno

Licenza::
MIT

Velocidade:
Slow

Calidade::

linguas:
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr

VRAM:
5GB

Clonaxe de voz:
Non

Custo por 1K caracteres:
2x

Efectos de son Rir/Suspirar Xeración de música 100+ altofalantes Multilingüe

Mellor para:: Contido de son creativo, audiolibros con emocións, efectos sonoros

Probar Bark

Bark Small

Standard

Bark Small é unha versión destilada do modelo Bark que troca algunha calidade de son por velocidades de inferencia significativamente máis rápidas e menores requirimentos de memoria. Conserva a capacidade de Bark de xerar fala con emocións, risas e varias linguas.

Desenvolvente::
Suno

Licenza::
MIT

Velocidade:
Medium

Calidade::

linguas:
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr

VRAM:
2GB

Clonaxe de voz:
Non

Custo por 1K caracteres:
2x

Lixeiro Máis rápido que a corteza completa Fala emocional Multilingüe

Mellor para:: Son creativo rápido cando o cortexo completo é lento de máis

Probar Bark Small

CosyVoice 2

Standard

CosyVoice 2 do laboratorio Tongyi de Alibaba consegue unha calidade de fala comparable á humana cunha latencia extremadamente baixa, o que o fai ideal para aplicacións en tempo real. Emprega un enfoque de cuantización escalar finita para a síntese en fluxo e admite a clonación de voz a tiro cero, síntese entre linguas e control de emocións de gran fino. Supera a moitos sistemas TTS comerciais en avaliacións subxectivas.

Desenvolvente::
Alibaba (Tongyi Lab)

Licenza::
Apache 2.0

Velocidade:
Medium

Calidade::

linguas:
en, zh, ja, ko, fr, de, it, es

VRAM:
4GB

Clonaxe de voz:
Si

Custo por 1K caracteres:
2x

Retransmisión Clonaxe de disparo cero Multilingüe Control de emocións Paridade humana

Mellor para:: Aplicativos en tempo real, transmisión de TTS, asistentes de voz

Probar CosyVoice 2

Dia TTS

Standard

Dia de Nari Labs é un modelo de síntese de texto a voz de 1. 6B de parámetros deseñado especificamente para xerar diálogos de varios falantes. Pode producir conversas de son natural entre dous falantes con turnos axeitados, prosodia e expresión emocional. Dia é perfecto para crear contidos ao estilo de podcasts, diálogos de audiolibros e IA conversacional interactiva.

Desenvolvente::
Nari Labs

Licenza::
Apache 2.0

Velocidade:
Medium

Calidade::

linguas:
en

VRAM:
4GB

Clonaxe de voz:
Non

Custo por 1K caracteres:
2x

Altofalante múltiple Xeración de diálogos Toma de turnos naturais Expresión emocional Parámetros de 1. 6B

Mellor para:: Podcasts, diálogos de audiolibros, contido conversacional

Probar Dia TTS

Parler TTS

Standard

Parler TTS é un modelo de síntese de texto a voz que emprega descricións de voz de linguaxe natural para controlar a fala xerada. No canto de escoller entre voces predefinidas, descríbese a voz que se queira (por ex. « unha voz feminina cálida cun lixeiro acento británico, falando devagar e claramente ») e Parler xera a fala que coincida con esa descrición. Isto faino excepcionalmente flexible para aplicacións creativas.

Desenvolvente::
Hugging Face

Licenza::
Apache 2.0

Velocidade:
Medium

Calidade::

linguas:
en

VRAM:
4GB

Clonaxe de voz:
Non

Custo por 1K caracteres:
2x

Descrición da voz Control da linguaxe natural Creación de voz flexible Non se precisan voces predefinidas

Mellor para:: Aplicativos creativos nos que se precisan características de voz personalizadas

Probar Parler TTS

IndexTTS-2

Standard

IndexTTS- 2 é un sistema avanzado de síntese de texto a voz que sobresae na síntese de voz de tiro cero co control de emocións de gran fino. Pode xerar fala con tons emocionais específicos como feliz, triste, enfadado ou asustado sen requirir datos de adestramento específicos de emocións. O modelo emprega vectores de emocións para controlar con precisión a expresión emocional da fala xerada.

Desenvolvente::
Index Team

Licenza::
Bilibili Model License

Velocidade:
Medium

Calidade::

linguas:
en, zh

VRAM:
4GB

Clonaxe de voz:
Si

Custo por 1K caracteres:
2x

Control de emocións Zero-shot Vectores de emocións Fala expresiva Control de gran fino

Mellor para:: Contido emocionalmente expresivo, audiolibros, asistentes virtuais

Probar IndexTTS-2

Spark TTS

Standard

Spark TTS de SparkAudio é un modelo de texto a voz que combina a clonación de voz con emocións controlábeis e estilo de fala. Usando só 5 segundos de son de referencia, pode clonar unha voz e logo xerar fala con diferentes emocións, velocidades e estilos mantendo a identidade da voz clonada. Spark TTS emprega un sistema de control baseado en mensaxes.

Desenvolvente::
SparkAudio

Licenza::
CC BY-NC-SA 4.0

Velocidade:
Medium

Calidade::

linguas:
en, zh

VRAM:
4GB

Clonaxe de voz:
Si

Custo por 1K caracteres:
2x

Clonaxe de voz Control de emocións Control de estilo Baseado en preguntas Clonaxe de 5 segundos

Mellor para:: Creación de contidos con voces clonadas e control emocional

Probar Spark TTS

GPT-SoVITS

Standard

GPT- SoVITS combina o modelado da linguaxe ao estilo de GPT con SoVITS (Singing Voice Inference via Translation and Synthesis) para unha potente clonación de voz en poucas tomas. Con tan só 5 segundos de son de referencia, pode clonar con precisión unha voz e xerar un novo discurso preservando as características únicas do falante. Excele tanto na síntese de voz falada como cantada.

Desenvolvente::
RVC-Boss

Licenza::
MIT

Velocidade:
Slow

Calidade::

linguas:
en, zh, ja, ko

VRAM:
6GB

Clonaxe de voz:
Si

Custo por 1K caracteres:
2x

Clonaxe de 5 segundos Voz cantando Aprendizaxe de poucas tomas Alta fidelidade Multilingüe

Mellor para:: Clonaxe de voz, síntese de canto, replicación da voz do creador do contido

Probar GPT-SoVITS

Orpheus

Standard

Orpheus é un modelo de síntese de voz a gran escala que consegue a expresión emocional a nivel humano. Adestrado con máis de 100. 000 horas de datos de fala diversos, sobresae na xeración de fala con emocións naturais, énfase e estilos de fala. Orpheus pode producir fala que é virtualmente indistinguible das gravacións humanas.

Desenvolvente::
Canopy Labs

Licenza::
Llama 3.2 Community

Velocidade:
Medium

Calidade::

linguas:
en

VRAM:
4GB

Clonaxe de voz:
Non

Custo por 1K caracteres:
2x

Emoción a nivel humano 100K horas de adestramento Accento natural Fala expresiva

Mellor para:: Fala emocional de alta calidade, audiolibros, dobraxe

Probar Orpheus

Chatterbox

Premium

Chatterbox de Resemble AI é un modelo de clonaxe de voz de vangarda. Pode replicar calquera voz a partir dunha soa mostra de son cunha precisión notable, capturando non só o timbre senón tamén o estilo de fala e os matices emocionais. Chatterbox tamén conta cun control de emocións de gran fino, que lle permite axustar o ton emocional da fala xerada independentemente da identidade da voz.

Desenvolvente::
Resemble AI

Licenza::
MIT

Velocidade:
Medium

Calidade::

linguas:
en

VRAM:
4GB

Clonaxe de voz:
Si

Custo por 1K caracteres:
4x

Clonaxe de disparo cero Control de emocións Alta fidelidade Transferencia de estilo Clonaxe dunha soa mostra

Mellor para:: Clonaxe profesional de voz con control emocional, creación de contidos

Probar Chatterbox

Tortoise TTS

Premium

O Tortoise TTS é un sistema de síntese de voz multi- voz autorregressivo que prioriza a calidade do son sobre a velocidade. Emprega unha arquitectura inspirada en DALL- E para xerar unha fala moi natural cunha excelente prosodia e semellanza co falante. Aínda que é máis lento que moitas alternativas, o Tortoise produce algunhas das falas sintéticas máis realistas dispoñíbeis no ecosistema de código aberto.

Desenvolvente::
James Betker

Licenza::
Apache 2.0

Velocidade:
Slow

Calidade::

linguas:
en

VRAM:
8GB

Clonaxe de voz:
Si

Custo por 1K caracteres:
4x

Calidade máxima Multi- voz Arquitectura DALL- E Clonaxe de voz Auto- regresivo

Mellor para:: Audiolibros, contido premium, aplicacións de calidade

Probar Tortoise TTS

StyleTTS 2

Premium

StyleTTS 2 consegue a síntese TTS a nivel humano combinando a difusión de estilos co adestramento adversario empregando grandes modelos de linguaxe de fala. Xera a fala de son máis natural entre os modelos dun só falante, rivalizando coas gravacións humanas. StyleTTS 2 emprega o modelado de estilos baseado na difusión para capturar toda a gama de variación da fala humana.

Desenvolvente::
Columbia University

Licenza::
MIT

Velocidade:
Medium

Calidade::

linguas:
en

VRAM:
4GB

Clonaxe de voz:
Non

Custo por 1K caracteres:
4x

Nivel humano Difusión de estilo Adestramento competitivo Varianza natural Alta fidelidade

Mellor para:: Síntese dun só altofalante con calidade de estudio, narración profesional

Probar StyleTTS 2

OpenVoice

Premium

OpenVoice de MyShell. ai permite a clonación instantánea de voz cun control granular sobre o estilo de voz, emoción, acento, ritmo, pausas e entoación. Pode clonar unha voz a partir dun clip de son curto e xerar fala en varias linguas mantendo a identidade do falante. OpenVoice tamén funciona como un conversor de voz, permitindo a transformación de voz en tempo real.

Desenvolvente::
MyShell.ai / MIT

Licenza::
MIT

Velocidade:
Medium

Calidade::

linguas:
en, zh, ja, ko, fr, es

VRAM:
4GB

Clonaxe de voz:
Si

Custo por 1K caracteres:
4x

Clonaxe instantánea Conversión de voz Control de emocións Control do acento Multilingüe

Mellor para:: Clonaxe de voz con control de estilo refinado, conversión de voz

Probar OpenVoice

Qwen3 TTS

Standard

Qwen3- TTS é un modelo de síntese de texto a voz de 1. 700 millóns de parámetros do equipo Qwen de Alibaba. Soporta tres modos: voces predefinidas con control de emocións (9 altofalantes), clonación de voz a partir de só 3 segundos de son, e un modo único de deseño de voz onde se describe a voz que se queira en linguaxe natural. Cobre 10 linguas con alta expresividade e prosodia natural.

Desenvolvente::
Alibaba (Qwen)

Licenza::
Apache 2.0

Velocidade:
Medium

Calidade::

linguas:
en, zh, ja, ko, de, fr, ru, pt, es, it

VRAM:
7GB

Clonaxe de voz:
Non

Custo por 1K caracteres:
2x

Clonaxe de voz 9 voces predefinidas Deseño de voz a partir de texto Control de emocións

Mellor para:: Contido multilingüe con clonación de voz ou deseño de voz personalizado

Probar Qwen3 TTS

Sesame CSM

Premium

O Sesame CSM (Conversational Speech Model) é un modelo de mil millóns de parámetros deseñado especificamente para xerar fala conversacional. Modela os patróns naturais da conversa humana, incluíndo o tempo de toma de turnos, as respostas de canle traseira, as reaccións emocionais e o fluxo da conversa. O CSM xera son que soa como unha conversa humana natural en vez dunha fala sintética.

Desenvolvente::
Sesame

Licenza::
Apache 2.0

Velocidade:
Slow

Calidade::

linguas:
en

VRAM:
8GB

Clonaxe de voz:
Non

Custo por 1K caracteres:
4x

Conversacional Temporización natural Tomando a quenda Canle traseira Parámetros 1B

Mellor para:: Asistentes de IA, chatbots, aplicacións de IA conversacionais

Probar Sesame CSM

Chatterbox Turbo

Standard

Chatterbox Turbo de Resemble AI é unha actualización de 350M de parámetros de Chatterbox, que ofrece ata 6x velocidade en tempo real cunha latencia inferior a 200ms. Soporta etiquetas paralingüísticas como [laugh], [cough] e [chuckle] directamente no texto. Inclúe marcas de auga Perth en todo o son xerado para rastrexar a procedencia. Name

Desenvolvente::
Resemble AI

Licenza::
MIT

Velocidade:
Fast

Calidade::

linguas:
en

VRAM:
2GB

Clonaxe de voz:
Si

Custo por 1K caracteres:
2x

Latencia inferior a 200 ms Etiquetas paralingüísticas 6x en tempo real Clonaxe de voz Marca de auga

Mellor para:: Axentes de voz en tempo real, fala expresiva con sons naturais

Probar Chatterbox Turbo

VoxCPM

Standard

VoxCPM 1. 5 de OpenBMB é un novo modelo de TTS libre de tokenizador que opera en espazo continuo en vez de tokens discretos. Produce son de alta fidelidade a 44, 1 kHz, admite a clonación de voz a tiro cero de 3 a 10 segundos, e mantén a consistencia nos parágrafos. A clonación entre linguas permítelle aplicar unha voz inglesa á fala chinesa e viceversa.

Desenvolvente::
OpenBMB

Licenza::
Apache 2.0

Velocidade:
Fast

Calidade::

linguas:
en, zh

VRAM:
4GB

Clonaxe de voz:
Si

Custo por 1K caracteres:
2x

Son de 44, 1 kHz Sen tokenizador Clonaxe multilingüe Sensible ao contexto Afinación fina de LoRA

Mellor para:: Son de alta fidelidade, audiolibros, contidos longos con consistencia de voz

Probar VoxCPM

Kani TTS 2

Free

Kani- TTS- 2 de NineNineSix é un modelo ultraligeiro de 400M de parámetros construído sobre o núcleo LiquidAI LFM2 con Nvidia NanoCodec. Execútase en só 3GB de VRAM e consegue 10 segundos de fala en ~2 segundos (RTF 0. 2). Soporta a clonación de voz sen disparos mediante a incorporación de altofalantes.

Desenvolvente::
NineNineSix

Licenza::
Apache 2.0

Velocidade:
Fast

Calidade::

linguas:
en

VRAM:
3GB

Clonaxe de voz:
Non

Custo por 1K caracteres:
Libre

3GB VRAM Ultrarrápido Clonaxe de voz Lixeiro NanoCodec

Mellor para:: Xeración rápida, entornos con poucos recursos, vistas previas rápidas

Probar Kani TTS 2

OuteTTS

Free

OuteTTS estende grandes modelos de linguaxe con capacidades de texto- a- voz, preservando a arquitectura orixinal. Soporta múltiples infraestruturas, incluíndo llama. cpp (CPU/GPU), Hugging Face Transformers, ExLlamaV2, VLLM, e mesmo inferencia do navegador mediante Transformers. js. Dispón de clonación de voz de tiro cero a través de perfís de falante gardados como JSON.

Desenvolvente::
OuteAI

Licenza::
Apache 2.0

Velocidade:
Fast

Calidade::

linguas:
en

VRAM:
2GB

Clonaxe de voz:
Si

Custo por 1K caracteres:
Libre

Inferencia da CPU Inferencia do navegador Clonaxe de voz Múltiples infraestruturas Perfís dos altofalantes

Mellor para:: Despliegue de Edge, TTS baseado en navegador, entornos de baixos recursos

Probar OuteTTS

VibeVoice

Standard

VibeVoice de Microsoft vén en dúas variantes: un modelo 1. 5B para contidos longos (ata 90 minutos, 4 altofalantes) e un modelo Realtime 0. 5B para transmisión con ~200 ms de latencia do primeiro son. A variante 1. 5B sobresae en podcasts e audiolibros coa consistencia do falante en pasaxes longas. Nota: Microsoft eliminou o código TTS do repositorio e o son xerado inclúe renuncias audibles de IA.

Desenvolvente::
Microsoft

Licenza::
MIT

Velocidade:
Fast

Calidade::

linguas:
en, zh

VRAM:
4GB

Clonaxe de voz:
Non

Custo por 1K caracteres:
2x

Altofalante múltiple Ata 90 min Xeración de podcasts Consistencia do falante Transmisión de 200ms

Mellor para:: Podcasts, audiolibros, contido multifalante de forma longa

Probar VibeVoice

Pocket TTS

Free

Pocket TTS de Kyutai (creadores de Moshi) é un modelo de síntese de voz de 100M de parámetros que é moito máis potente que o seu peso. Executase eficientemente na CPU, admite a clonación de voz sen disparos a partir dunha soa mostra de son e produce unha voz de son natural. O tamaño pequeno do modelo faino ideal para o despliegue de perímetro e ambientes con poucos recursos.

Desenvolvente::
Kyutai

Licenza::
MIT

Velocidade:
Fast

Calidade::

linguas:
en, fr

VRAM:
1GB

Clonaxe de voz:
Si

Custo por 1K caracteres:
Libre

Parámetros 100M Inferencia da CPU Clonaxe de voz Clonaxe de mostra única Preparado para bordos

Mellor para:: Despliegue lixeiro, entornos só de CPU, clonación rápida de voz

Probar Pocket TTS

Kitten TTS

Free

Kitten TTS de KittenML é un modelo de síntese de voz ultraligeiro construído sobre ONNX. Con variantes de 15M a 80M de parámetros (25- 80 MB en disco), ofrece síntese de voz de alta calidade na CPU sen precisar de GPU. Posúe 8 voces incorporadas, velocidade de fala axustábel e preprocesamento de texto incorporado para números, moedas e unidades. Ideal para aplicacións de implementación de borde e de baixa latencia.

Desenvolvente::
KittenML

Licenza::
Apache 2.0

Velocidade:
Fast

Calidade::

linguas:
en

VRAM:
0GB

Clonaxe de voz:
Non

Custo por 1K caracteres:
Libre

Inferencia só da CPU Tamaño do modelo inferior a 80MB 8 voces incorporadas Control de velocidade Baseado en ONNX Saída a 24 kHz

Mellor para:: TTS rápido e lixeiro, aplicacións de baixa latencia e de implementación á beira

Probar Kitten TTS

CosyVoice3

Standard

CosyVoice3 é a última evolución do equipo FunAudioLLM de Alibaba. Posúe inferencia de bi-fluxo con ~150ms de latencia, control baseado en instrucións para emocións/velocidade/volume, e similitude mellorada do falante para clonación de tiro cero. Soporta 9 linguas máis 18 dialectos chineses. A variante sintonizada con RL ofrece prosodia de última xeración.

Desenvolvente::
Alibaba (FunAudioLLM)

Licenza::
Apache 2.0

Velocidade:
Fast

Calidade::

linguas:
en, zh, ja, ko, de, es, fr, it, ru

VRAM:
4GB

Clonaxe de voz:
Si

Custo por 1K caracteres:
2x

Bi- fluxo Control de emocións Clonaxe de voz Control de velocidade/volume Seguimento da instrución

Mellor para:: Produción multilingüe de TTS, aplicacións en tempo real, clonación de voz

Probar CosyVoice3

NAMAA Saudi TTS

Standard

NAMAA Saudi TTS é un axuste fino do árabe saudita de ChatterboxMultilingual de Resemble AI. Adestrado por NAMAA Space no auténtico discurso do dialecto saudita, produce unha pronunciación coloquial saudita e árabe moderno estándar natural que os modelos multilingües xenéricos non poden igualar. Herda a clonación de voz de Chatterbox e o control de emocións mediante mensaxes de son de referencia. O primeiro TTS árabe de peso aberto desplegouse no TTS.ai.

Desenvolvente::
NAMAA Space

Licenza::
MIT

Velocidade:
Medium

Calidade::

linguas:
ar

VRAM:
6GB

Clonaxe de voz:
Si

Custo por 1K caracteres:
2x

Árabe saudita Árabe estándar moderno Clonaxe de voz sen disparos Control de emocións Pronuncia nativa

Mellor para:: Contido árabe para audiencias sauditas, narración MSA, axentes de voz en dialecto Khaleeji, audiolibros árabes

Probar NAMAA Saudi TTS

Darwin TTS

Standard

Darwin- TTS- 1. 7B- Cross de FINAL- Bench é unha variante de investigación de Qwen3- TTS- 1. 7B onde 84 tensores de falantes- FFN (8, 6%) son mesturados a α=3% cos tensores correspondentes de Qwen3- 1. 7B- Base. A mestura é construída sen readestramento e produce unha clonación de voz entre linguas notablemente máis nítida en coreano, inglés, xaponés e chinés. Opera no modo de clonación de voz de tiro cero (audio de referencia de 3 segundos).

Desenvolvente::
FINAL-Bench

Licenza::
Apache 2.0

Velocidade:
Medium

Calidade::

linguas:
en, ko, ja, zh

VRAM:
7GB

Clonaxe de voz:
Si

Custo por 1K caracteres:
2x

Clonaxe de voz Interlingüe FFN- mesturado 4 linguaxes principais Dorsal de Qwen3

Mellor para:: Clonaxe de voz entre idiomas entre inglés, coreano, xaponés e chinés cunha soa voz de referencia

Probar Darwin TTS

MOSS-TTSD

Standard

MOSS- TTS v1. 0 de OpenMOSS é un modelo de diálogo de texto a voz de 7B que continúa conversas desde un breve aviso de son. Soporta ata 5 falantes simultáneos mediante etiquetas [S1]/ [S2], clonación de voz de cero tiros a partir de son de referencia de 3- 10s, e ata 60 minutos de diálogo coherente de varias voltas en 20 linguas. Diferente de MOSS- TTS, TTSD está especializado en fluxos de traballo de podcast/ audiolibro/ dobraxe.

Desenvolvente::
OpenMOSS

Licenza::
Apache 2.0

Velocidade:
Medium

Calidade::

linguas:
en, zh

VRAM:
12GB

Clonaxe de voz:
Si

Custo por 1K caracteres:
2x

Diálogo de varios oradores Ata 5 altofalantes Son coherente de 60 minutos Clonaxe de voz Optimizacións de podcast

Mellor para:: Podcasts, audiolibros, diálogos dobrados, contido conversacional con varias voces

Probar MOSS-TTSD

Ming-Omni TTS

Free

Ming- omni- tts- 0. 5B de inclusionAI é un modelo de fala omnimodal compacto construído sobre a densa estrutura do BailingMM cun descodificador de son que se corresponde con fluxos parche a parche. Ofrece unha saída de 44, 1 kHz (cerca da calidade dun CD), soporta clonación de voz sen tomas a partir dunha referencia de 3 segundos ou máis, e inclúe control de emocións/ dialecto/ BGM mediante instrucións JSON. Excelente estabilidade — 0, 83% WER en probas chinesas.

Desenvolvente::
inclusionAI

Licenza::
Apache 2.0

Velocidade:
Medium

Calidade::

linguas:
en, zh

VRAM:
3GB

Clonaxe de voz:
Si

Custo por 1K caracteres:
Libre

Saída de 44, 1 kHz Clonaxe de voz Control de emocións Control de dialecto Xeración de BGM Compact 0. 5B

Mellor para:: Narración bilingüe de alta fidelidade, voz controlada pola emoción, contido de audiolibro chinés

Probar Ming-Omni TTS

MOSS-TTS Nano

Free

MOSS-TTS-Nano-100M is OpenMOSS's compact 100M-parameter variant of the MOSS-TTS family, sharing the delay-transformer architecture. Trades the 8B model's peak quality for ~80x smaller weights and dramatically lower per-request VRAM, making it suitable for free-tier and high-throughput deployments. Same 20-language reach.

Desenvolvente::
OpenMOSS

Licenza::
Apache 2.0

Velocidade:
Fast

Calidade::

linguas:
en, zh, de, es, fr, ja, it, ko, ru, ar, pt

VRAM:
2GB

Clonaxe de voz:
Si

Custo por 1K caracteres:
Libre

Compact 100M Fast inference Multilingual Voice cloning Same MOSS family

Mellor para:: Free-tier TTS, high-volume production, low-latency interactive use

Probar MOSS-TTS Nano

Kokoro

Libre

Kokoro is an 82 million parameter text-to-speech model that punches well above its weight class. Despite its tiny size, it produces remarkably natural and expressive speech. Kokoro supports multiple languages including English, Japanese, Chinese, and Korean with a variety of expressive voices. It runs incredibly fast — generating audio nearly 100x faster than real-time on a GPU.

Desenvolvente::
Hexgrad

Licenza::
Apache 2.0

Velocidade:
Fast

Calidade::

linguas: en, ja, zh, fr, it, pt, es, hi

Mellor para:: High-quality TTS with minimal latency, streaming applications

Probar de balde

Piper

Libre

Piper is a lightweight text-to-speech engine developed by Rhasspy that uses VITS and larynx architectures. It runs entirely on CPU, making it ideal for edge devices, home automation, and applications requiring offline TTS. With over 100 voices across 30+ languages, Piper delivers natural-sounding speech at real-time speeds even on a Raspberry Pi 4.

Desenvolvente::
Rhasspy

Licenza::
MIT

Velocidade:
Fast

Calidade::

linguas: en, de, fr, es, it, pt, nl, pl, ru, zh, ar, cs, da, fi, el, hu, is, ka, kk, ne, no, ro, sk, sr, sv, sw, tr, uk, vi

Mellor para:: Quick previews, accessibility, and embedded applications

Probar de balde

VITS

Libre

VITS (Variational Inference with adversarial learning for end-to-end Text-to-Speech) is a parallel end-to-end TTS method that generates more natural sounding audio than current two-stage models. It adopts variational inference augmented with normalizing flows and an adversarial training process, achieving a significant improvement in naturalness.

Desenvolvente::
Jaehyeon Kim et al.

Licenza::
MIT

Velocidade:
Fast

Calidade::

linguas: en, de, es, fr, pt, nl, fi, hu, bg, ja, pl

Mellor para:: General-purpose text-to-speech with natural prosody

Probar de balde

MeloTTS

Libre

MeloTTS by MyShell.ai is a multilingual TTS library supporting English (American, British, Indian, Australian), Spanish, French, Chinese, Japanese, and Korean. It is extremely fast, processing text at near real-time speed on CPU alone. MeloTTS is designed for production use and supports both CPU and GPU inference.

Desenvolvente::
MyShell.ai

Licenza::
MIT

Velocidade:
Fast

Calidade::

linguas: en, es, fr, zh, ja, ko

Mellor para:: Production applications needing fast, multilingual TTS

Probar de balde

Kani TTS 2

Libre

Kani-TTS-2 by NineNineSix is an ultra-lightweight 400M parameter model built on a Liquid AI LFM2 backbone with NVIDIA NanoCodec. It runs in just 3GB VRAM and produces ~10 seconds of speech in ~2 seconds on an A100 (RTF 0.2). The current public release ships an English-only `kani-tts-2-en` checkpoint and does not expose the speaker-embedding hook needed for voice cloning — use Chatterbox / IndexTTS2 / F5-TTS for cloning, or Kokoro / MeloTTS for non-English.

Desenvolvente::
NineNineSix

Licenza::
Apache 2.0

Velocidade:
Fast

Calidade::

linguas: en

Mellor para:: Fast English generation on low-VRAM hardware, quick previews

Probar de balde

Modelo	Desenvolvente:	Tier	Velocidade	linguas	VRAM	Licenza:	créditos
Kokoro	Hexgrad	Free	Fast	8	1.5GB	Apache 2.0	Libre	Empregar
Piper	Rhasspy	Free	Fast	29	0 (CPU only)	MIT	Libre	Empregar
VITS	Jaehyeon Kim et al.	Free	Fast	11	1GB	MIT	Libre	Empregar
MeloTTS	MyShell.ai	Free	Fast	6	0.5GB (GPU optional)	MIT	Libre	Empregar
Bark	Suno	Standard	Slow	13	5GB	MIT	2	Empregar
Bark Small	Suno	Standard	Medium	13	2GB	MIT	2	Empregar
CosyVoice 2	Alibaba (Tongyi Lab)	Standard	Medium	8	4GB	Apache 2.0	2	Empregar
Dia TTS	Nari Labs	Standard	Medium	1	4GB	Apache 2.0	2	Empregar
Parler TTS	Hugging Face	Standard	Medium	1	4GB	Apache 2.0	2	Empregar
IndexTTS-2	Index Team	Standard	Medium	2	4GB	Bilibili Model License	2	Empregar
Spark TTS	SparkAudio	Standard	Medium	2	4GB	CC BY-NC-SA 4.0	2	Empregar
GPT-SoVITS	RVC-Boss	Standard	Slow	4	6GB	MIT	2	Empregar
Orpheus	Canopy Labs	Standard	Medium	1	4GB	Llama 3.2 Community	2	Empregar
Chatterbox	Resemble AI	Premium	Medium	1	4GB	MIT	4	Empregar
Tortoise TTS	James Betker	Premium	Slow	1	8GB	Apache 2.0	4	Empregar
StyleTTS 2	Columbia University	Premium	Medium	1	4GB	MIT	4	Empregar
OpenVoice	MyShell.ai / MIT	Premium	Medium	6	4GB	MIT	4	Empregar
Qwen3 TTS	Alibaba (Qwen)	Standard	Medium	10	7GB	Apache 2.0	2	Empregar
Sesame CSM	Sesame	Premium	Slow	1	8GB	Apache 2.0	4	Empregar
Chatterbox Turbo	Resemble AI	Standard	Fast	1	2GB	MIT	2	Empregar
VoxCPM	OpenBMB	Standard	Fast	2	4GB	Apache 2.0	2	Empregar
Kani TTS 2	NineNineSix	Free	Fast	1	3GB	Apache 2.0	Libre	Empregar
OuteTTS	OuteAI	Free	Fast	1	2GB	Apache 2.0	Libre	Empregar
VibeVoice	Microsoft	Standard	Fast	2	4GB	MIT	2	Empregar
Pocket TTS	Kyutai	Free	Fast	2	1GB	MIT	Libre	Empregar
Kitten TTS	KittenML	Free	Fast	1	0GB	Apache 2.0	Libre	Empregar
CosyVoice3	Alibaba (FunAudioLLM)	Standard	Fast	9	4GB	Apache 2.0	2	Empregar
NAMAA Saudi TTS	NAMAA Space	Standard	Medium	1	6GB	MIT	2	Empregar
Darwin TTS	FINAL-Bench	Standard	Medium	4	7GB	Apache 2.0	2	Empregar
MOSS-TTSD	OpenMOSS	Standard	Medium	2	12GB	Apache 2.0	2	Empregar
Ming-Omni TTS	inclusionAI	Free	Medium	2	3GB	Apache 2.0	Libre	Empregar
MOSS-TTS Nano	OpenMOSS	Free	Fast	11	2GB	Apache 2.0	Libre	Empregar

A plataforma de síntese de voz con IA máis completa

Por que escoller TTS.ai para a síntese de voz?

TTS.ai reúne ao mundo

Cada modelo é de código aberto baixo MIT, Apache 2. 0 ou licenzas permisivas similares, o que lle asegura os dereitos comerciais completos para usar o son xerado nos seus proxectos. Queira que precise unha síntese rápida e lixeira para aplicacións en tempo real ou unha saída de calidade de estudio para audiolibros e podcasts, TTS.ai ten o modelo axeitado para cada caso de uso.

Modelos gratuítos, non se require conta

Comece de inmediato con tres modelos de TTS gratuítos: Piper (ultra- rápido, lixeiro), VITS (síntese neural de alta calidade) e MeloTTS (soporte multilingüe). Sen rexistro, sen tarxeta de crédito, sen límites de xeracións. Os modelos gratuítos admiten inglés e varias outras linguas cunha saída de son natural axeitada para a maioría dos programas.

Procesamento acelerado pola GPU

Todos os modelos TTS executanse en GPU NVIDIA dedicadas para tempos de xeración rápidos e consistentes. Os modelos gratuítos xeran normalmente o son en menos de 2 segundos. Os modelos estándar como Kokoro, CosyVoice 2 e Bark teñen unha media de 3- 5 segundos. Os modelos premium coa calidade máis alta, como Tortoise e Chatterbox, procesan en 5- 15 segundos dependendo da lonxitude do texto.

Soporta máis de 30 idiomas

Xere voz en máis de 30 linguas, incluíndo inglés, español, francés, alemán, italiano, portugués, chinés, xaponés, coreano, árabe, hindi, ruso e moitas máis. Varios modelos admiten a síntese entre linguas, o que significa que pode xerar voz nunha lingua na que a voz orixinal nunca foi adestrada. CosyVoice 2 e GPT- SoVITS sobresaen na clonación de voz entre linguas.

API preparada para desenvolvedores

Integre o TTS.ai nas súas aplicacións coa nosa API REST compatíbel con OpenAI. Un punto final para todos os modelos de máis de 20. Python, JavaScript, cURL e Go SDKs. Soporte de transmisión para aplicacións en tempo real. Procesamento por lotes para xerar contido a gran escala. Webhooks para notificacións asincrónicas. Acceso á API incluído en todos os plans, incluído o gratuíto.

Preguntas frecuentes

Texto a voz (TTS) é unha tecnoloxía de IA que converte o texto escrito en son falado de son natural. Os modelos TTS neurais modernos como Kokoro, Chatterbox e CosyVoice 2 usan aprendizaxe profunda para producir fala que soa notablemente humana, con prosodia, emoción e ritmo naturais.

Depende das súas necesidades. Para vistas previas rápidas, empregue Piper ou MeloTTS (gratuito, rápido). Para alta calidade, tente Kokoro ou CosyVoice 2 (nivel estándar). Para clonación de voz, empregue Chatterbox ou GPT- SoVITS (premium). Para contido de diálogo/ podcast, tente Dia TTS. Cada modelo ten puntos fortes diferentes; experimente para atopar o que mellor se adapte.

Si! TTS.ai ofrece texto- a- voz gratuíto cos modelos Kokoro, Piper, VITS e MeloTTS. Non se require conta para un máximo de 500 caracteres e 3 xeracións por hora. Inscríbase nunha conta gratuíta para obter 15 créditos e acceder a todos os modelos.

Os nosos modelos TTS admiten en conxunto máis de 30 idiomas, incluíndo inglés, español, francés, alemán, italiano, portugués, chinés, xaponés, coreano, árabe, ruso, hindi e moitos máis. A disponibilidade de idiomas varía segundo o modelo.

Si, o son xerado mediante TTS.ai pode ser usado comercialmente. Todos os nosos modelos usan licenzas de código aberto (MIT, Apache 2. 0). Comprobe as licenzas individuais dos modelos para ver os termos específicos. Recomendamos revisar a licenza do modelo específico que use para o seu proxecto.

TTS.ai admite os formatos de saída MP3, WAV, OGG e FLAC. MP3 é o predeterminado para a reprodución web. Recoméndase WAV para o posterior procesamento de son. Pode converter entre formatos coa nosa ferramenta de conversión de son.

A clonación de voz emprega a IA para replicar unha voz específica a partir dunha mostra de son curta (normalmente de 5 a 30 segundos). Envíe unha gravación clara da voz de destino, e modelos como Chatterbox, GPT- SoVITS ou OpenVoice xerarán unha nova fala nesa voz. A calidade mellora con son de referencia máis limpo e longo.

Os usuarios gratuítos poden xerar ata 500 caracteres por petición. Os usuarios rexistrados obteñen ata 5. 000 caracteres por petición. Para textos máis longos, o son xérase en anacos e únense automaticamente. Os usuarios da API poden procesar ata 10. 000 caracteres por petición.

O soporte de SSML (Speech Synthesis Markup Language) varía segundo o modelo. Piper e algúns outros modelos soportan etiquetas SSML básicas para pausas, énfase e control da pronuncia. Para modelos sen soporte nativo de SSML, pode usar puntuación natural e saltos de liña para influír na prosodia.

Si, a maioría dos modelos admiten o axuste da velocidade de 0, 5x a 2, 0x. Algúns modelos como Bark e Parler tamén permiten o control do ton e do estilo. Pode axustar os parámetros de velocidade no panel de configuración avanzada ou mediante o parámetro de velocidade da API.

Si, o procesamento por lotes está dispoñíbel a través da nosa API. Pode enviar varios segmentos de texto nunha única chamada ou script da API, e cada un será procesado e devolto como ficheiros de son separados. Isto é ideal para capítulos de audiolibros, módulos de aprendizaxe electrónica ou scripts de diálogo de xogos.

Xere unha chave da API desde o panel da súa conta e, a continuación, envíe peticións POST ao noso punto final da API REST cos seus parámetros de texto, modelo e voz. Ofrecemos exemplos de código en Python, JavaScript e cURL. A API é compatíbel con OpenAI, polo que as integracións existentes funcionan con cambios mínimos.

5.0/5 (4)

Comezar a converter texto en voz agora

Únase a miles de creadores que usan TTS.ai. Obteña 15.000 caracteres gratis cunha nova conta. Modelos gratuitos dispoñibles sen rexistrarse.

Inscríbete gratis Ver os prezos

Texto a voz de IAName

Encántalle TTS.ai? Cóntallo aos teus amigos!

Detalles do modelo

OuteTTS

Consellos para obter mellores resultados

Custos de crédito

Como funciona a conversión de texto a voz da IA

Introduza o seu texto

Escoller o modelo e a voz

Xerar e obter

Casos de uso de Texto- para- Fala

Audiolibros

Locucións de vídeo

Podcasts

Xogos

Aprendizaxe electrónica

Accesibilidade

Sistemas telefónicos e IVRName

Redes sociais

Retransmisión

Comercialización

Dublaxe e localización

Meditación e benestar

Todos os modelos de síntese de voz

Kokoro

Piper

VITS

MeloTTS

Bark

Bark Small

CosyVoice 2

Dia TTS

Parler TTS

IndexTTS-2

Spark TTS

GPT-SoVITS

Orpheus

Chatterbox

Tortoise TTS

StyleTTS 2

OpenVoice

Qwen3 TTS

Sesame CSM

Chatterbox Turbo

VoxCPM

Kani TTS 2

OuteTTS

VibeVoice

Pocket TTS

Kitten TTS

CosyVoice3

NAMAA Saudi TTS

Darwin TTS

MOSS-TTSD

Ming-Omni TTS

MOSS-TTS Nano

Kokoro

Piper

VITS

MeloTTS

Kani TTS 2

OuteTTS

Pocket TTS

Kitten TTS

Ming-Omni TTS

MOSS-TTS Nano

Bark

Bark Small

CosyVoice 2

Dia TTS

Parler TTS

IndexTTS-2

Spark TTS

GPT-SoVITS

Orpheus

Qwen3 TTS

Chatterbox Turbo

VoxCPM

VibeVoice

CosyVoice3