Report Bug / Feature Request

Clonagem de voz em tempo real — clonar qualquer voz em segundos

Clone qualquer voz com apenas 5 segundos de áudio de referência. 9 modelos de clonagem de voz de código aberto, incluindo Chatterbox, CosyVoice 2, GPT-SoVITS e OpenVoice. Clonagem de zero-hot sem treinamento necessário — carregue uma amostra e gere a fala instantaneamente. Todos os modelos são licenciados comercialmente.

Tempo real 5-Segundas Amostras 9 Modelos de clonagem Fonte Aberta 17+ Línguas Controlo da emoção

Características de clonagem de voz em tempo real

Clone vozes instantaneamente com IA de última geração — sem treinamento, sem conjuntos de dados, sem espera

Clonagem Zero-Shot

Sem treinamento, sem ajuste fino, sem coleta de conjuntos de dados. Carregue 5 segundos de áudio e obtém uma voz clonada imediatamente. As características do alto-falante de IA extraem em tempo real.

9 Modelos de clonagem

Escolha entre Chatterbox, CosyVoice 2, GPT-SoVITS, OpenVoice, Spark, IndexTTS-2, GLM-TTS, Qwen3-TTS e Tortoise. Cada modelo tem diferentes forças para a qualidade, velocidade e linguagem.

Clonagem cruzada

Clone uma voz em inglês e gere fala em chinês, japonês, coreano e muito mais. CosyVoice 2 e Qwen3-TTS preservam a identidade da voz em 17 mais línguas.

Controlo da emoção

Chatterbox, OpenVoice e GLM-TTS suportam a geração de emoções condicionadas. Gere o mesmo texto com diferentes emoções — felizes, tristes, zangados, sussurros — mantendo a voz clonada.

Fonte Aberta e Comercial

Cada modelo de clonagem é open source sob licenças MIT ou Apache 2.0. Use vozes clonadas comercialmente para conteúdo, produtos e aplicações sem royalties.

API de clonagem

API REST para clonagem de voz programática. Carregue áudio de referência, especifique texto e receba fala clonada. SDKs para Python e JavaScript. Clonagem em lotes para fluxos de trabalho de alto volume.

Modelos de clonagem de voz

9 modelos de código aberto para cada caso de clonagem

ChatterboxChatterbox

Premium

State-of-the-art zero-shot voice cloning with emotion control from Resemble AI.

Medium 5/5 Clonagem de Voz

Melhor para: Melhor qualidade geral — amostras de 5 segundos, controle de emoções, MIT licenciado

Tentar Chatterbox

CosyVoice 2CosyVoice 2

Standard

Alibaba's scalable streaming TTS with human-parity naturalness and near-zero latency.

Medium 5/5 Clonagem de Voz

Melhor para: Melhor clonagem multilingue — preserva a voz em chinês, inglês, japonês, coreano

Tentar CosyVoice 2

OpenVoiceOpenVoice

Premium

Instant voice cloning with granular control over style, emotion, and accent.

Medium 4/5 Clonagem de Voz

Melhor para: Conversão de cor de tom rápida com emoção e transferência de estilo

Tentar OpenVoice

Spark TTSSpark TTS

Standard

Voice cloning TTS with controllable emotion and speaking style via prompts.

Medium 4/5 Clonagem de Voz

Melhor para: Modelo de clonagem mais rápido — resulta em ~12 segundos

Tentar Spark TTS

IndexTTS-2IndexTTS-2

Standard

Zero-shot TTS with fine-grained emotion control and high expressiveness.

Medium 4/5 Clonagem de Voz

Melhor para: Excelente clonagem chinês-inglês com alta semelhança de falantes

Tentar IndexTTS-2

Tortoise TTSTortoise TTS

Premium

Multi-voice text-to-speech focused on quality with autoregressive architecture.

Slow 5/5 Clonagem de Voz

Melhor para: Resultados de qualidade de estúdio — melhor para audiolivros e narração premium

Tentar Tortoise TTS

Como funciona a clonagem de voz em tempo real

De uma pequena amostra de áudio a fala clonada ilimitada

1

Carregar áudio de referência

Gravar ou carregar 5-30 segundos de discurso claro da voz que você deseja clonar. WAV, MP3, ou gravar diretamente no seu navegador.

2

Escolha um modelo de clonagem

Escolha o modelo que corresponde às suas necessidades — Chatterbox para qualidade, Spark para velocidade, CosyVoice 2 para multilingue.

3

Insira o seu texto

Digite ou cole o texto que você quer falado na voz clonada. Qualquer idioma suportado pelo modelo funciona.

4

Gerar e baixar

Clique em gerar e ouvir sua voz clonada em 10-25 segundos. Baixe como WAV ou MP3 para uso imediato.

Como a clonagem de voz Zero-Shot funciona

Sem ajuste fino, sem coleta de conjuntos de dados — apenas upload e clone

Extração de incorporação do alto-falante

A IA analisa seu áudio de referência para extrair uma incorporação de alto-falante — uma representação matemática compacta das características únicas da voz, incluindo a pitch, timbre, ritmo de fala e textura vocal. Isto acontece em menos de 1 segundo.

  • Funciona com apenas 5 segundos de áudio
  • Captura o laço, o timbre e o estilo de fala
  • Não é necessário treino ou ajuste fino
  • O áudio nunca é armazenado permanentemente

Síntese condicionada da fala

O modelo TTS gera nova fala condicionada na incorporação do alto-falante. O resultado soa como o alto-falante de referência dizendo seu texto — com prosódia natural, ênfase apropriada, e o caráter da voz original preservado em qualquer língua ou conteúdo.

  • Gerar fala ilimitada a partir de uma única amostra
  • clonagem translingüe (fale em línguas a referência não foi)
  • Emoção e transferência de estilo
  • Resultados em 10-25 segundos

Comparação do modelo de clonagem de voz

Escolha o modelo certo para seu caso de uso de clonagem

Modelo Referência mínima Velocidade Qualidade Línguas Emoção Licença
Chatterbox 5s ~21s Melhor EN MIT
CosyVoice 2 5s ~20s Excelente CN, EN, JP, KO+ Apache 2.0
GPT-SoVITS 5s ~16s Excelente CN, EN, JP, KO MIT
OpenVoice 5s ~15s Óptimo. EN, CN, ES, FR+ MIT
Spark TTS 5s ~12s Óptimo. CN, PT Apache 2.0
IndexTTS-2 5s ~18s Excelente CN, PT Apache 2.0
GLM-TTS 5s ~25s Excelente CN, PT Apache 2.0
Qwen3-TTS 5s ~16s Excelente CN, EN, JP, KO+ Apache 2.0
Tortoise 15s ~60s Estúdio EN Apache 2.0

Para o que as pessoas usam a clonagem de voz em tempo real

Da criação de conteúdo à acessibilidade — a clonagem de voz tem aplicações intermináveis

Narração de Áudiobook

Autores clonam sua própria voz e geram audiobooks inteiros sem passar horas em um banco de gravação. Editar erros regenerando frases únicas em vez de re-gravar.

Abastecimento de vídeo

Vídeos de Dub em outras línguas mantendo a voz do falante original. Modelos multilingües como CosyVoice 2 e Qwen3-TTS preservam a identidade da voz através de chinês, inglês, japonês e coreano.

Criação de Conteúdos

Os YouTubers, podcasters e creadores TikTok clonam sua voz para marcas consistentes. Gere vozovers para novos conteúdos sem gravar, ou crie versões de idioma alternativo de vídeos existentes.

Acessibilidade

As pessoas que perderam a voz por causa de doença ou cirurgia podem preservar-a clonando de gravações antigas. A voz clonada permite-lhes comunicar-se em sua própria voz através de texto a voz.

Desenvolvimento de Jogo

Clone atores de voz e gere variações de diálogo ilimitadas sem tempo de programação do estúdio. Perfeito para jogos indie, mods e prototipagem onde re-gravar cada linha não é viável.

Sistemas IVR & Telefone

Clone a voz do porta-voz da sua empresa para menus de telefone e respostas automatizadas. Atualize o IPR imediatamente sem reservar um ator de voz — apenas digite novo texto e genere.

TTS.ai vs Outras soluções de clonagem de voz

Por que 9 modelos vence um único projeto de código aberto

Característica TTS.ai SV2TTS ElevenLabs Resemble AI
Modelos de clonagem 9 1 1 1
Mínimo de áudio de referência 5 sec 5 sec 30 sec 3 min
Formação necessária Não Não Não Sim
Qualidade do áudio (2025) Estúdio-graduado Datada Excelente Excelente
Controlo da emoção
Clonagem cruzada
Fonte Aberta
Requerido da GPU Nuvem Sim Nuvem Nuvem
Acesso à API
Free Tier 15.000 caracteres Self-host Limitado

API de clonagem de voz

Clone vozes programáticamente com a nossa API REST

Python — Clonagem de Voz REST API
from tts_ai import TTSClient

client = TTSClient(api_key="sk-tts-...")

# Clone a voice from a 5-second sample
result = client.clone_voice(
    name="My Cloned Voice",
    file="reference.wav",       # 5-30 seconds of clear speech
    model="chatterbox",         # or cosyvoice2, openvoice, spark...
    text="Hello! This is my cloned voice speaking new text.",
)

# Download the cloned audio
audio = client.poll_result(result.uuid)
with open("cloned_output.wav", "wb") as f:
    f.write(audio)
cURL — Clonagem de voz REST API
curl -X POST https://api.tts.ai/v1/voice-clone \
  -H "Authorization: Bearer sk-tts-YOUR_KEY" \
  -F "reference=@voice_sample.wav" \
  -F "text=This is my cloned voice." \
  -F "model=chatterbox"

Dicas para os melhores resultados de clonagem de voz

Obtenha o clone de voz mais preciso com estas diretrizes de gravação

Ambiente silêncio

Gravar em uma sala tranquila com ruído mínimo de fundo. A voz extraída por IA apresenta com mais precisão a partir de áudio limpo.

10-30 segundos

Enquanto 5 segundos funcionam, 10-30 segundos dá resultados significativamente melhores. Quanto mais natural a fala IA ouve, mais preciso o clone.

Discurso natural

Fale naturalmente, não em monotone. Inclua intonação variada e pacing. A IA captura o seu estilo de fala natural, incluindo pausas e ênfase.

Interventor único

Use uma amostra com uma única pessoa falando. Várias vozes confundem o alto-falante incorporando e produzem resultados misturados.

Comece hoje a clonar as vozes

Carregue 5 segundos de áudio e ouça sua voz clonada em menos de 30 segundos. Gratuito para tentar.

Clone uma voz agora Documentação da API

Perguntas Frequentes

Perguntas comuns sobre clonagem de voz em tempo real

A clonagem de voz em tempo real é tecnologia de IA que pode replicar a voz de uma amostra de áudio curta — tão pouco como 5 segundos — sem treinamento ou ajuste fino. Você carrega uma amostra, e a IA gera novo discurso que soa como aquela pessoa. TTS.ai oferece 9 modelos diferentes de clonagem de voz, cada um com diferentes forças para qualidade, velocidade e suporte linguístico.

Tanto quanto 5 segundos funcionam com a maioria dos modelos (Chatterbox, CosyVoice 2, Spark, GPT-SoVITS, OpenVoice). A Tortoise requer 15+ segundos para obter os melhores resultados. Para uma qualidade ótima em todos os modelos, recomenda-se 10-30 segundos de áudio claro, único falante. O áudio deve ser livre de ruído de fundo e música.

A própria tecnologia de clonagem de voz é legal. No entanto, você só deve clonar vozes que você tem permissão para usar — sua própria voz, voz que você tem consentimento explícito para, ou vozes no domínio público. Usando clonagem de voz para imitar alguém sem consentimento, cometer fraude ou criar conteúdo enganador é ilegal na maioria das jurisdições. TTS.ai termos requerem que você tenha direitos a qualquer voz que você clone.

Depende do seu caso de uso. Chatterbox produz os clones de inglês de alta qualidade com controle emotivo. CosyVoice 2 é melhor para clonagem multilingue (Chinese, Inglês, Japonês, Coreano). Spark é o mais rápido em ~12 segundos. Tortoise produz resultados de qualidade de estúdio mas é mais lento. GPT-SoVITS excelve na clonagem de voz chinesa. Experimente vários modelos para encontrar a melhor correspondência para sua voz.

Sim — isto é chamado de clonagem de voz multilingue. CosyVoice 2, Qwen3-TTS, e OpenVoice o suportam. Por exemplo, você pode carregar uma amostra de voz inglesa e gerar fala em chinês, japonês ou coreano preservando as características vocais do alto-falante. A qualidade varia segundo o modelo e o par de idiomas.

O projeto CorentinJ/Real-Time-Voice-Cloning GitHub (estrelas 60K+) utiliza SV2TTS, uma arquitetura de 2019. Enquanto inovadores no momento, modelos modernos como Chatterbox, CosyVoice 2, e GPT-SoVITS produzem uma qualidade de áudio significativamente melhor com melhor semelhança de alto-falantes. TTS.ai executa 9 modelos de última geração (vs SV2TTS's um) e não requer configuração GPU — apenas upload e clone.

Sim. TTS.ai fornece uma API REST para clonagem de voz. Subir áudio e texto de referência, escolher um modelo e receber voz clonada. Disponível através do Python SDK (`pip install ttsai`), JavaScript SDK (`npm install @ttsainpm/ttsai`), ou pedidos HTTP diretos. Suporta clonagem por lotes para processar múltiplos textos com a mesma voz clonada.

Sim. Depois de clonar, salve a voz para sua conta e reutilize-a durante gerações ilimitadas sem recarregar o áudio de referência. Voces guardadas aparecem na sua biblioteca de voz na página de clonagem de voz e são acessíveis através da API.

WAV, MP3, OGG, FLAC e WebM são todos suportados. Você também pode gravar diretamente no seu navegador usando o gravador de microfone incorporado. Para os melhores resultados, use o formato WAV sem perda em 16kHz ou superior. A IA automaticamente pré-processa áudio (remostragem, filtragem de ruído) independentemente do formato de entrada.

Tempo de geração varia por modelo: Spark é mais rápido em ~12 segundos, OpenVoice em ~15 segundos, GPT-SoVITS em ~16 segundos, CosyVoice 2 em ~20 segundos, Chatterbox em ~21 segundos, e Tortoise em ~60 segundos. Estes tempos são para texto típico de comprimento de frase. Os textos mais longos levam proporcionalmente mais tempo.

Sim. Todos os 9 modelos de clonagem em TTS.ai utilizam licenças de código aberto (MIT ou Apache 2.0) que permitem o uso comercial. Você pode usar áudio clonado em vídeos do YouTube, podcasts, audiobooks, aplicativos, jogos, sistemas de telefone e qualquer outra aplicação comercial, desde que você tenha direitos à voz fonte.

Sim. Cada modelo que executamos é open source e disponível no GitHub/HuggingFace. Você pode auto-host Chatterbox, CosyVoice 2, GPT-SoVITS, OpenVoice, Spark, IndexTTS-2, GLM-TTS, Qwen3-TTS ou Tortoise em seu próprio servidor GPU. A maioria dos modelos requer uma NVIDIA GPU com 4-24GB VRAM dependendo do modelo. TTS.ai maneja toda a infraestrutura para que você não precise.
5.0/5 (1)

O que podemos melhorar? Seu feedback nos ajuda a resolver problemas.

Clone qualquer voz em segundos

9 modelos de clonagem de voz de código aberto. amostras de 5 segundos. Sem treinamento necessário. Tente-o grátis — carregue seu áudio e ouça o clone instantaneamente.