Report Bug / Feature Request

Clonaxe de voz en tempo real - Clone calquera voz en segundos

Clone calquera voz con só 5 segundos de son de referencia. 9 modelos de clonación de voz de código aberto, incluíndo Chatterbox, CosyVoice 2, GPT-SoVITS e OpenVoice. Clonación de cero tiros sen necesidade de adestramento: envíe unha mostra e xere voz instantaneamente. Todos os modelos teñen licenza comercial.

En tempo real Mostraxes de 5 segundos 9 modelos de clonación Código aberto Máis de 17 linguas Control de emocións

Funcións de clonación de voz en tempo real

Clone voces instantaneamente coa IA máis avanzada: sen adestramento, sen conxuntos de datos, sen agardar

Clonaxe Zero- Shot

Sen adestramento, sen sintonización, sen colección de conxuntos de datos. Envíe 5 segundos de son e obterá unha voz clonada inmediatamente. A IA extrae as características do falante en tempo real.

9 modelos de clonación

Escolla entre Chatterbox, CosyVoice 2, GPT- SoVITS, OpenVoice, Spark, IndexTTS- 2, GLM- TTS, Qwen3- TTS e Tortoise. Cada modelo ten diferentes puntos fortes en canto a calidade, velocidade e linguaxe.

Clonaxe entre linguas

Clone unha voz en inglés e xere fala en chinés, xaponés, coreano e máis. CosyVoice 2 e Qwen3-TTS preservan a identidade da voz en máis de 17 idiomas.

Control de emocións

Chatterbox, OpenVoice e GLM- TTS admiten a xeración condicionada por emocións. Xere o mesmo texto con diferentes emocións — feliz, triste, enfadado, murmurando — mantendo a voz clonada.

Código aberto e comercial

Cada modelo de clonación é de código aberto baixo licenza MIT ou Apache 2. 0. Use voces clonadas comercialmente para contidos, produtos e aplicacións sen dereitos de autor.

API de clonación

API REST para clonación de voz por programación. Envíe audio de referencia, especifique texto e reciba voz clonada. SDK para Python e JavaScript. Clonación por lotes para fluxos de traballo de alto volume.

Modelos de clonación de voz

9 modelos de código aberto para cada caso de uso de clonación

ChatterboxChatterbox

Premium

State-of-the-art zero-shot voice cloning with emotion control from Resemble AI.

Medium 5/5 Clonaxe de voz

Mellor para: Mellor calidade global - mostras de 5 segundos, control de emocións, licenza MIT

Probar Chatterbox

CosyVoice 2CosyVoice 2

Standard

Alibaba's scalable streaming TTS with human-parity naturalness and near-zero latency.

Medium 5/5 Clonaxe de voz

Mellor para: A mellor clonación multilingüe — preserva a voz en chinés, inglés, xaponés e coreano

Probar CosyVoice 2

OpenVoiceOpenVoice

Premium

Instant voice cloning with granular control over style, emotion, and accent.

Medium 4/5 Clonaxe de voz

Mellor para: Conversión rápida de cores de ton con emocións e transferencia de estilos

Probar OpenVoice

Spark TTSSpark TTS

Standard

Voice cloning TTS with controllable emotion and speaking style via prompts.

Medium 4/5 Clonaxe de voz

Mellor para: O modelo de clonación máis rápido — resultados en ~12 segundos

Probar Spark TTS

IndexTTS-2IndexTTS-2

Standard

Zero-shot TTS with fine-grained emotion control and high expressiveness.

Medium 4/5 Clonaxe de voz

Mellor para: Excelente clonación chinés- inglés con alta semellanza de falantes

Probar IndexTTS-2

Tortoise TTSTortoise TTS

Premium

Multi-voice text-to-speech focused on quality with autoregressive architecture.

Slow 5/5 Clonaxe de voz

Mellor para: Resultados de calidade de estudio, mellores para audiolibros e narración premium

Probar Tortoise TTS

Como funciona a clonación de voz en tempo real

Desde unha mostra de son curta ata unha voz clonada ilimitada

1

Enviar o son de referencia

Grave ou envíe 5- 30 segundos de fala clara da voz que queira clonar. WAV, MP3, ou grave directamente no navegador.

2

Escoller un modelo de clonación

Escolla o modelo que mellor se adapte ás súas necesidades: Chatterbox para a calidade, Spark para a velocidade, CosyVoice 2 para o multilingüismo.

3

Introduza o seu texto

Escriba ou apegue o texto que queira que se fale na voz clonada. Funciona con calquera linguaxe soportada polo modelo.

4

Xerar e obter

Prema xerar e escoite a súa voz clonada en 10- 25 segundos. Obteña como WAV ou MP3 para o seu uso inmediato.

Como funciona a clonación de voz Zero-Shot

Sen sintonización, sen colección de conxuntos de datos, só enviar e clonar

Extracción de incorporación de altofalantes

A IA analiza o son de referencia para extraer unha representación matemática compacta da voz

  • Funciona con tan só 5 segundos de son
  • Captura o ton, o timbre e o estilo de fala
  • Non se require adestramento nin sintonización
  • O son nunca se garda permanentemente

Síntese de voz condicionada

O modelo TTS xera unha nova voz condicionada pola incorporación do falante. O resultado soa como se o falante de referencia estivese a dicir o seu texto, con prosodia natural, énfase axeitada e a voz orixinal

  • Xere voz ilimitada a partir dunha soa mostra
  • Clonaxe entre linguas (fala en linguas que a referencia non recoñece)
  • Emoción e transferencia de estilo
  • Resultados en 10- 25 segundos

Comparación do modelo de clonación de voz

Escolla o modelo correcto para o seu caso de uso de clonación

Modelo Referencia mínima Velocidade Calidade Linguas Emoción Licenza
Chatterbox 5s ~21s Mellor EN MIT
CosyVoice 2 5s ~20s Excelente CN, EN, JP, KO+ Apache 2.0
GPT-SoVITS 5s ~16s Excelente CN, EN, JP, KO MIT
OpenVoice 5s ~15s Bo EN, CN, ES, FR+ MIT
Spark TTS 5s ~12s Bo CN, EN Apache 2.0
IndexTTS-2 5s ~18s Excelente CN, EN Apache 2.0
GLM-TTS 5s ~25s Excelente CN, EN Apache 2.0
Qwen3-TTS 5s ~16s Excelente CN, EN, JP, KO+ Apache 2.0
Tortoise 15s ~60s Estudio EN Apache 2.0

Para que se usa a clonación de voz en tempo real

Desde a creación de contidos á accesibilidade, a clonación de voz ten infinitas aplicacións

Narración de audiolibro

Os autores clonan a súa propia voz e xeran audiolibros enteiros sen pasar horas nunha cabina de gravación. Edite erros rexenera frases individuais no canto de gravar de novo.

Doblaxe de vídeo

Dubla vídeos noutras linguas mantendo o locutor orixinal

Creación de contido

Os creadores de YouTube, podcasts e TikTok clonan a súa voz para ter unha marca coherente. Xere voces para contidos novos sen gravar, ou cree versións en linguas alternativas de vídeos existentes.

Accesibilidade

A xente que perdeu a voz por mor dunha enfermidade ou cirurxía pode preservala clonando gravacións antigas. A voz clonada permítelle comunicarse coa súa propia voz mediante texto- a- voz.

Desenvolvemento de xogos

Clone actores de voz e xere variación ilimitada de diálogos sen programar tempo de estudo. Perfecto para xogos independentes, mods e prototipos onde non é necesario gravar de novo cada liña

Sistemas telefónicos e IVRName

Clone o portavoz da súa empresa

TTS.ai vs Outras Solucións de Clonaxe de Voz

Por que 9 modelos superan a un só proxecto de código aberto

Característica TTS.ai SV2TTS ElevenLabs Resemble AI
Clonar modelos 9 1 1 1
Son de referencia mínimo 5 sec 5 sec 30 sec 3 min
Requírese adestramento Non Non Non Si
Calidade do son (2025) Grao de estudio Datado Excelente Excelente
Control de emocións
Clonaxe entre linguas
Código aberto
GPU requirida Nubeweather condition Si Nubeweather condition Nubeweather condition
Acceso á API
Nivel libre 15 créditos Auto- servidor Limitada

API de clonación de voz

Clone voces por programación coa nosa API REST

Python - Clonaxe de voz REST API
from tts_ai import TTSClient

client = TTSClient(api_key="sk-tts-...")

# Clone a voice from a 5-second sample
result = client.clone_voice(
    name="My Cloned Voice",
    file="reference.wav",       # 5-30 seconds of clear speech
    model="chatterbox",         # or cosyvoice2, openvoice, spark...
    text="Hello! This is my cloned voice speaking new text.",
)

# Download the cloned audio
audio = client.poll_result(result.uuid)
with open("cloned_output.wav", "wb") as f:
    f.write(audio)
cURL - Clonaxe de voz REST API
curl -X POST https://api.tts.ai/v1/voice-clone \
  -H "Authorization: Bearer sk-tts-YOUR_KEY" \
  -F "reference=@voice_sample.wav" \
  -F "text=This is my cloned voice." \
  -F "model=chatterbox"

Consellos para obter os mellores resultados de clonación de voz

Obteña o clon de voz máis preciso con estas directrices de gravación

Ambiente silencioso

Grave nunha habitación silenciosa con ruído de fondo mínimo. A IA extrae as características da voz con máis precisión do son limpo.

10- 30 segundos

Mentres que 5 segundos funcionan, 10- 30 segundos dan resultados significativamente mellores. Canto máis natural sexa a fala que a IA escoite, máis exacto será o clon.

Fala natural

Fale de forma natural, non monótona. Inclúa entonación e ritmo variados. A IA captura o seu estilo natural de falar, incluíndo pausas e énfase.

Altofalante único

Empregar unha mostra con só unha persoa falando. Múltiplas voces confunden a incorporación do falante e producen resultados mesturados.

Comezar a clonar as voces hoxe

Envíe 5 segundos de son e escoite a súa voz clonada en menos de 30 segundos. Proba gratuita.

Clonar unha voz agora Documentación da API

Preguntas frecuentes

Preguntas comúns acerca da clonación de voz en tempo real

A clonación de voz en tempo real é unha tecnoloxía de IA que pode replicar a voz dunha persoa a partir dunha mostra de son curta — tan só 5 segundos — sen ningún adestramento ou sintonización fina. Envía unha mostra e a IA xera unha nova fala que soa como esa persoa. TTS.ai ofrece 9 modelos diferentes de clonación de voz, cada un con diferentes fortalezas en calidade, velocidade e soporte de linguaxe.

Tan só 5 segundos funcionan na maioría dos modelos (Chatterbox, CosyVoice 2, Spark, GPT- SoVITS, OpenVoice). Tortoise require máis de 15 segundos para obter os mellores resultados. Para unha calidade óptima en todos os modelos, recoméndase un son claro e dun só altofalante de 10- 30 segundos. O son debe estar libre de ruído de fondo e música.

A tecnoloxía de clonación de voz en si é legal. Porén, só debería clonar voces que teña permiso para usar: a súa propia voz, voces para as que teña consentimento explícito ou voces de dominio público. Usar a clonación de voz para suplantar a alguén sen consentimento, cometer fraude ou crear contido engañoso é ilegal na maioría das xurisdicións. Os termos de TTS.ai requiren que teña dereitos sobre calquera voz que clone.

Depende do caso de uso. Chatterbox produce os clons de inglés de maior calidade con control de emocións. CosyVoice 2 é o mellor para clonar en varias linguas (chinés, inglés, xaponés, coreano). Spark é o máis rápido con ~12 segundos. Tortoise produce resultados de calidade de estudio pero é máis lento. GPT- SoVITS sobresae na clonación de voz chinesa. Probe varios modelos para atopar a mellor coincidencia para a súa voz.

Si, isto chámase clonación de voz entre linguas. CosyVoice 2, Qwen3- TTS e OpenVoice soportano. Por exemplo, pode enviar unha mostra de voz en inglés e xerar fala en chinés, xaponés ou coreano preservando as características vocais do falante. A calidade varía segundo o modelo e o par de linguas.

O proxecto CorentinJ/Real-Time-Voice-Cloning GitHub (máis de 60K estrelas) usa SV2TTS, unha arquitectura de 2019. Aínda que revolucionaria naquel momento, modelos modernos como Chatterbox, CosyVoice 2 e GPT-SoVITS producen unha calidade de son significativamente mellor cunha mellor semellanza de altofalantes. TTS.ai executa 9 modelos de última xeración (contra o de SV2TTS) e non require configuración de GPU: só carga e clona.

Si. TTS.ai fornece unha API REST para a clonación de voz. Envíe o audio e o texto de referencia, escolla un modelo e reciba a voz clonada. Dispoñíbel a través do SDK de Python (`pip install ttsai`), do SDK de JavaScript (`npm install @ ttsainpm/ ttsai`) ou de peticións HTTP directas. Soporta a clonación por lotes para procesar varios textos coa mesma voz clonada.

Si. Despois da clonación, garde a voz na súa conta e reutilice a voz en xeracións ilimitadas sen volver enviar o son de referencia. As voces gardadas aparecen na biblioteca de voces na páxina de clonación de voz e son accesibles a través da API.

Están soportados os formatos WAV, MP3, OGG, FLAC e WebM. Tamén pode gravar directamente no navegador empregando o gravador de micrófono incorporado. Para obter os mellores resultados, use o formato WAV sen perdas a 16 kHz ou máis. A IA preprocesa automaticamente o son (remuestreo, filtrado de ruído) independentemente do formato de entrada.

O tempo de xeración varía segundo o modelo: Spark é máis rápido en ~12 segundos, OpenVoice en ~15 segundos, GPT- SoVITS en ~16 segundos, CosyVoice 2 en ~20 segundos, Chatterbox en ~21 segundos e Tortoise en ~60 segundos. Estes tempos son para textos típicos de frases. Os textos máis longos tardan proporcionalmente máis.

Si. Os 9 modelos de clonación do TTS.ai usan licenzas de código aberto (MIT ou Apache 2. 0) que permiten o uso comercial. Pode usar o son clonado en vídeos de YouTube, podcasts, audiolibros, aplicacións, xogos, sistemas telefónicos e calquera outro uso comercial, sempre que teña dereitos sobre a voz orixinal.

Si. Todos os modelos que executamos son de código aberto e están dispoñibles en GitHub/HuggingFace. Pode aloxar Chatterbox, CosyVoice 2, GPT-SoVITS, OpenVoice, Spark, IndexTTS-2, GLM-TTS, Qwen3-TTS ou Tortoise no seu propio servidor de GPU. A maioría dos modelos requiren unha GPU NVIDIA con 4-24GB de VRAM, segundo o modelo. TTS.ai xestiona toda a infraestrutura para que non teña que facelo vostede.
5.0/5 (1)

What could we improve? Your feedback helps us fix issues.

Clonar calquera voz en segundos

9 modelos de clonación de voz de código aberto. Mostras de 5 segundos. Non se require adestramento. Probe de balde - envíe o seu son e escoite o clon instantaneamente.