Clonagem de voz em tempo real — clonar qualquer voz em segundos
Clone qualquer voz com apenas 5 segundos de áudio de referência. 9 modelos de clonagem de voz de código aberto, incluindo Chatterbox, CosyVoice 2, GPT-SoVITS e OpenVoice. Clonagem de zero-hot sem treinamento necessário — carregue uma amostra e gere a fala instantaneamente. Todos os modelos são licenciados comercialmente.
Características de clonagem de voz em tempo real
Clone vozes instantaneamente com IA de última geração — sem treinamento, sem conjuntos de dados, sem espera
Clonagem Zero-Shot
Sem treinamento, sem ajuste fino, sem coleta de conjuntos de dados. Carregue 5 segundos de áudio e obtém uma voz clonada imediatamente. As características do alto-falante de IA extraem em tempo real.
9 Modelos de clonagem
Escolha entre Chatterbox, CosyVoice 2, GPT-SoVITS, OpenVoice, Spark, IndexTTS-2, GLM-TTS, Qwen3-TTS e Tortoise. Cada modelo tem diferentes forças para a qualidade, velocidade e linguagem.
Clonagem cruzada
Clone uma voz em inglês e gere fala em chinês, japonês, coreano e muito mais. CosyVoice 2 e Qwen3-TTS preservam a identidade da voz em 17 mais línguas.
Controlo da emoção
Chatterbox, OpenVoice e GLM-TTS suportam a geração de emoções condicionadas. Gere o mesmo texto com diferentes emoções — felizes, tristes, zangados, sussurros — mantendo a voz clonada.
Fonte Aberta e Comercial
Cada modelo de clonagem é open source sob licenças MIT ou Apache 2.0. Use vozes clonadas comercialmente para conteúdo, produtos e aplicações sem royalties.
API de clonagem
API REST para clonagem de voz programática. Carregue áudio de referência, especifique texto e receba fala clonada. SDKs para Python e JavaScript. Clonagem em lotes para fluxos de trabalho de alto volume.
Modelos de clonagem de voz
9 modelos de código aberto para cada caso de clonagem
Chatterbox
Premium
State-of-the-art zero-shot voice cloning with emotion control from Resemble AI.
Melhor para: Melhor qualidade geral — amostras de 5 segundos, controle de emoções, MIT licenciado
Tentar Chatterbox
CosyVoice 2
Standard
Alibaba's scalable streaming TTS with human-parity naturalness and near-zero latency.
Melhor para: Melhor clonagem multilingue — preserva a voz em chinês, inglês, japonês, coreano
Tentar CosyVoice 2
OpenVoice
Premium
Instant voice cloning with granular control over style, emotion, and accent.
Melhor para: Conversão de cor de tom rápida com emoção e transferência de estilo
Tentar OpenVoice
Spark TTS
Standard
Voice cloning TTS with controllable emotion and speaking style via prompts.
Melhor para: Modelo de clonagem mais rápido — resulta em ~12 segundos
Tentar Spark TTS
IndexTTS-2
Standard
Zero-shot TTS with fine-grained emotion control and high expressiveness.
Melhor para: Excelente clonagem chinês-inglês com alta semelhança de falantes
Tentar IndexTTS-2
Tortoise TTS
Premium
Multi-voice text-to-speech focused on quality with autoregressive architecture.
Melhor para: Resultados de qualidade de estúdio — melhor para audiolivros e narração premium
Tentar Tortoise TTSComo funciona a clonagem de voz em tempo real
De uma pequena amostra de áudio a fala clonada ilimitada
Carregar áudio de referência
Gravar ou carregar 5-30 segundos de discurso claro da voz que você deseja clonar. WAV, MP3, ou gravar diretamente no seu navegador.
Escolha um modelo de clonagem
Escolha o modelo que corresponde às suas necessidades — Chatterbox para qualidade, Spark para velocidade, CosyVoice 2 para multilingue.
Insira o seu texto
Digite ou cole o texto que você quer falado na voz clonada. Qualquer idioma suportado pelo modelo funciona.
Gerar e baixar
Clique em gerar e ouvir sua voz clonada em 10-25 segundos. Baixe como WAV ou MP3 para uso imediato.
Como a clonagem de voz Zero-Shot funciona
Sem ajuste fino, sem coleta de conjuntos de dados — apenas upload e clone
Extração de incorporação do alto-falante
A IA analisa seu áudio de referência para extrair uma incorporação de alto-falante — uma representação matemática compacta das características únicas da voz, incluindo a pitch, timbre, ritmo de fala e textura vocal. Isto acontece em menos de 1 segundo.
- Funciona com apenas 5 segundos de áudio
- Captura o laço, o timbre e o estilo de fala
- Não é necessário treino ou ajuste fino
- O áudio nunca é armazenado permanentemente
Síntese condicionada da fala
O modelo TTS gera nova fala condicionada na incorporação do alto-falante. O resultado soa como o alto-falante de referência dizendo seu texto — com prosódia natural, ênfase apropriada, e o caráter da voz original preservado em qualquer língua ou conteúdo.
- Gerar fala ilimitada a partir de uma única amostra
- clonagem translingüe (fale em línguas a referência não foi)
- Emoção e transferência de estilo
- Resultados em 10-25 segundos
Comparação do modelo de clonagem de voz
Escolha o modelo certo para seu caso de uso de clonagem
| Modelo | Referência mínima | Velocidade | Qualidade | Línguas | Emoção | Licença |
|---|---|---|---|---|---|---|
| Chatterbox | 5s | ~21s | Melhor | EN | MIT | |
| CosyVoice 2 | 5s | ~20s | Excelente | CN, EN, JP, KO+ | Apache 2.0 | |
| GPT-SoVITS | 5s | ~16s | Excelente | CN, EN, JP, KO | MIT | |
| OpenVoice | 5s | ~15s | Óptimo. | EN, CN, ES, FR+ | MIT | |
| Spark TTS | 5s | ~12s | Óptimo. | CN, PT | Apache 2.0 | |
| IndexTTS-2 | 5s | ~18s | Excelente | CN, PT | Apache 2.0 | |
| GLM-TTS | 5s | ~25s | Excelente | CN, PT | Apache 2.0 | |
| Qwen3-TTS | 5s | ~16s | Excelente | CN, EN, JP, KO+ | Apache 2.0 | |
| Tortoise | 15s | ~60s | Estúdio | EN | Apache 2.0 |
Para o que as pessoas usam a clonagem de voz em tempo real
Da criação de conteúdo à acessibilidade — a clonagem de voz tem aplicações intermináveis
Narração de Áudiobook
Autores clonam sua própria voz e geram audiobooks inteiros sem passar horas em um banco de gravação. Editar erros regenerando frases únicas em vez de re-gravar.
Abastecimento de vídeo
Vídeos de Dub em outras línguas mantendo a voz do falante original. Modelos multilingües como CosyVoice 2 e Qwen3-TTS preservam a identidade da voz através de chinês, inglês, japonês e coreano.
Criação de Conteúdos
Os YouTubers, podcasters e creadores TikTok clonam sua voz para marcas consistentes. Gere vozovers para novos conteúdos sem gravar, ou crie versões de idioma alternativo de vídeos existentes.
Acessibilidade
As pessoas que perderam a voz por causa de doença ou cirurgia podem preservar-a clonando de gravações antigas. A voz clonada permite-lhes comunicar-se em sua própria voz através de texto a voz.
Desenvolvimento de Jogo
Clone atores de voz e gere variações de diálogo ilimitadas sem tempo de programação do estúdio. Perfeito para jogos indie, mods e prototipagem onde re-gravar cada linha não é viável.
Sistemas IVR & Telefone
Clone a voz do porta-voz da sua empresa para menus de telefone e respostas automatizadas. Atualize o IPR imediatamente sem reservar um ator de voz — apenas digite novo texto e genere.
TTS.ai vs Outras soluções de clonagem de voz
Por que 9 modelos vence um único projeto de código aberto
| Característica | TTS.ai | SV2TTS | ElevenLabs | Resemble AI |
|---|---|---|---|---|
| Modelos de clonagem | 9 | 1 | 1 | 1 |
| Mínimo de áudio de referência | 5 sec | 5 sec | 30 sec | 3 min |
| Formação necessária | Não | Não | Não | Sim |
| Qualidade do áudio (2025) | Estúdio-graduado | Datada | Excelente | Excelente |
| Controlo da emoção | ||||
| Clonagem cruzada | ||||
| Fonte Aberta | ||||
| Requerido da GPU | Nuvem | Sim | Nuvem | Nuvem |
| Acesso à API | ||||
| Free Tier | 15.000 caracteres | Self-host | Limitado |
API de clonagem de voz
Clone vozes programáticamente com a nossa API REST
from tts_ai import TTSClient
client = TTSClient(api_key="sk-tts-...")
# Clone a voice from a 5-second sample
result = client.clone_voice(
name="My Cloned Voice",
file="reference.wav", # 5-30 seconds of clear speech
model="chatterbox", # or cosyvoice2, openvoice, spark...
text="Hello! This is my cloned voice speaking new text.",
)
# Download the cloned audio
audio = client.poll_result(result.uuid)
with open("cloned_output.wav", "wb") as f:
f.write(audio)
curl -X POST https://api.tts.ai/v1/voice-clone \
-H "Authorization: Bearer sk-tts-YOUR_KEY" \
-F "reference=@voice_sample.wav" \
-F "text=This is my cloned voice." \
-F "model=chatterbox"
Dicas para os melhores resultados de clonagem de voz
Obtenha o clone de voz mais preciso com estas diretrizes de gravação
Ambiente silêncio
Gravar em uma sala tranquila com ruído mínimo de fundo. A voz extraída por IA apresenta com mais precisão a partir de áudio limpo.
10-30 segundos
Enquanto 5 segundos funcionam, 10-30 segundos dá resultados significativamente melhores. Quanto mais natural a fala IA ouve, mais preciso o clone.
Discurso natural
Fale naturalmente, não em monotone. Inclua intonação variada e pacing. A IA captura o seu estilo de fala natural, incluindo pausas e ênfase.
Interventor único
Use uma amostra com uma única pessoa falando. Várias vozes confundem o alto-falante incorporando e produzem resultados misturados.
Comece hoje a clonar as vozes
Carregue 5 segundos de áudio e ouça sua voz clonada em menos de 30 segundos. Gratuito para tentar.
Clone uma voz agora Documentação da APIPerguntas Frequentes
Perguntas comuns sobre clonagem de voz em tempo real
O que podemos melhorar? Seu feedback nos ajuda a resolver problemas.
Clone qualquer voz em segundos
9 modelos de clonagem de voz de código aberto. amostras de 5 segundos. Sem treinamento necessário. Tente-o grátis — carregue seu áudio e ouça o clone instantaneamente.