Report Bug / Feature Request

La veu real de la Cloning Jeanette clonava qualsevol veu en segons

Clona qualsevol veu amb només 5 segons d' àudio de referència. 9 models clonants de veu de codi obert incloent Chatterbox, CosyVoice 2, GPTT- SITS, i OpenVoice. Hi ha prou amb una clonació zero- fons sense entrenament requerida per pujar una mostra de dades i generar un discurs instantàniament. Tots els models són amb llicència comercial.

Real- Time Mostres de 5 segons Nou models de clonació Obre l' origen 17+ Idiomes Control d'emoció

Característiques de la memòria cau de veu real-Time

Clona veus instantàniament amb l'AI de l'estat no hi ha entrenament, ni conjunts de dades, ni d'espera

Clon zero- Shot

No hi ha entrenament, no hi ha una bona col· lecció de conjunts de dades. Carrega cinc segons d' àudio i obté una veu clonada immediatament. L' IA extracte característiques de l' altaveu en temps real.

Nou models de clonació

Escolliu des de Chatterbox, CosyVoice 2, GPT-SoVITS, OpenVice, Spark, índexTTS- 2. 2, GLM- TTS, Qwen3- TTS i Tortose. Cada model té diferents fortaleses per a qualitat, velocitat i idioma.

Clon de Cross-LingCity name (optional, probably does not need a translation)

Clona una veu en anglès i genera veu en xinès, japonès, coreà i més. CosyVoice 2 i Qwen3-TTS conserva la identitat de veu a través de 17 idiomes+.

Control d'emoció

Caixa de xat, OpenVoice, i GLM- TTS suporten la generació d' emocions encondides. Genera el mateix text amb emocions diferents feliç, trist i enfadats, murmuris mentre manté la veu clonada.

Obre l' origen i comercial

Cada model de clonació és el codi obert sota el MIT o les llicències Apache 2.0. Useu les veus clonades comercialitzades per a continguts, productes i aplicacions sense reials.

Clonejant API

API REST per a la clonació de la veu programada. Carrega àudio de referència, especifiqueu text, i rep un discurs clonat. SDKs per al Python i per al JavaScript. Una clonació per lots per a fluxs de treball d' alta volum.

Models de clonació de veu

9 models de codi obert per cada cas de clonament d' ús

ChatterboxChatterbox

Premium

State-of-the-art zero-shot voice cloning with emotion control from Resemble AI.

Medium 5/5 Clon de veu

Millor per a: La millor qualitat total de les 5 segons, control d'emoció, llicència del MIT

Intenta- ho Chatterbox

CosyVoice 2CosyVoice 2

Standard

Alibaba's scalable streaming TTS with human-parity naturalness and near-zero latency.

Medium 5/5 Clon de veu

Millor per a: La millor reproducció multilingüe preserva la veu a través de la Xina, l'anglès, el japonès, coreà

Intenta- ho CosyVoice 2

OpenVoiceOpenVoice

Premium

Instant voice cloning with granular control over style, emotion, and accent.

Medium 4/5 Clon de veu

Millor per a: Conversió de color ràpid de to amb emoció i transferència d' estil

Intenta- ho OpenVoice

Spark TTSSpark TTS

Standard

Voice cloning TTS with controllable emotion and speaking style via prompts.

Medium 4/5 Clon de veu

Millor per a: Model de clonació més ràpida resulta en ~12 segons

Intenta- ho Spark TTS

IndexTTS-2IndexTTS-2

Standard

Zero-shot TTS with fine-grained emotion control and high expressiveness.

Medium 4/5 Clon de veu

Millor per a: Una clonació detallada de l'anglès xinès amb una similitud d'altaveu alta

Intenta- ho IndexTTS-2

Tortoise TTSTortoise TTS

Premium

Multi-voice text-to-speech focused on quality with autoregressive architecture.

Slow 5/5 Clon de veu

Millor per a: Estudieu resultats de qualitat millor per als llibres d'àudio i l'anulació

Intenta- ho Tortoise TTS

Com funciona la veu real-Time

Des d' una breu mostra d' àudio a un discurs clonat sense límit

1

Puja l' àudio de referència

Enregistra o puja 5-30 segons de veu neta de la veu que vols clonar. WAV, MP3, o registrar directament al navegador.

2

Escolliu un model de clonació

Trieu el model que concordi amb les vostres necessitats per a la qualitat, Spark per a la velocitat, CosyVoice 2 per a multilingüe.

3

Introduïu el vostre text

Escriviu o enganxeu el text que voleu parlar amb la veu clonada. Qualsevol idioma suportat pel model funciona.

4

Genera i descarrega

Cliqueu Genera i escolteu la vostra veu clonada en 1025 segons. Baixeu com a WAV o MP3 per a ús immediat.

Com funciona la veu zero- Shot

Sense problemes, sense col· lecció de conjunts de dades només puja i clona

Extracció d' encastat del altaveu

L'AI analitza el vostre àudio de referència per extreure un altaveu que es representa com a representació matemàtica compacta de la veu

  • Funciona amb tan poc com 5 segons d' àudio
  • Captura de to, timbre, i estil de parlant
  • No es requereix entrenament o qualitat
  • L' àudio mai es desa permanentment

Sintetitzador de veu condicionalName

El model TTS genera un nou estat de discurs a l' encastat de l' altaveu. El resultat sona com l' altaveu de referència que diu el text ZIBI amb prosodi natural, èmfasi apropiat i la veu original

  • Genera veu sense límit d' una única mostra
  • Re clonació Cross-lingüe (parent en idiomes la referència va fer
  • Transferència d' estil Emoció i estil
  • Resultats en 1025 segons

Comparació del model de còpia de veu

Escolliu el model dret per al vostre cas d' ús clonat

Model Referència mínima Velocitat Qualitat Idiomes Emoció Llicència
Chatterbox 5s ~21s Millor EN MIT
CosyVoice 2 5s ~20s Excel· lent CN,EN, JP, KO+ Apache 2.0
GPT-SoVITS 5s ~16s Excel· lent CN,EN, JP, KO MIT
OpenVoice 5s ~15s Bo EN, CN, ES, FR+ MIT
Spark TTS 5s ~12s Bo CN, EN Apache 2.0
IndexTTS-2 5s ~18s Excel· lent CN, EN Apache 2.0
GLM-TTS 5s ~25s Excel· lent CN, EN Apache 2.0
Qwen3-TTS 5s ~16s Excel· lent CN,EN, JP, KO+ Apache 2.0
Tortoise 15s ~60s Estudi EN Apache 2.0

El que la gent utilitza veu real-Time per

Des de la creació del contingut a la bústia de veu d' accessibilitat de la IGU té aplicacions sense fi

Narració del llibre d' àudio

Els autors clonen la seva pròpia veu i generen llibres d' àudio sencers sense gastar hores en una cabina de gravació. Editeu errors per frases regenerativas en comptes de tornar a gravar.

S' està gravant el vídeo

Feu vídeos en altres llengües mentre es manté l'altaveu original

Creació del contingut

Els podcasts, podcasts, i els creadors TikTok clonen la seva veu de manera consistent. Genera veus per nous continguts sense gravar o crear versions alternatives de vídeos existents.

Accessibilitat

La veu clonada els permet comunicar-se amb la seva pròpia veu a través de text a veu.

Desenvolupament del joc

Clona actors de veu i genera variacions sense límit de diàleg sense temps d' estudi de planificació. Perfecte per als jocs indie, modificacions i prototipant on es torna a gravar totes les línies

Sistemas IVR i telèfon

Un clon de la teva empresa va parlar en persona.

TTS.ai vs Other Voice Cloning Solutions

Per què 9 models troben un sol projecte de codi obert

Característica TTS.ai SV2TTS ElevenLabs Resemble AI
Models clonants 9 1 1 1
Àudio de referència mín. 5 sec 5 sec 30 sec 3 min
Cal l' entrenament No No No
Qualitat d' àudio (2025) Studio-grade Datada Excel· lent Excel· lent
Control d'emoció
Clon de Cross-LingCity name (optional, probably does not need a translation)
Obre l' origen
Cal la GPU Cloud Cloud Cloud
Accés de l' API
Free TierCity name (optional, probably does not need a translation) 15 crèdits Auto- màquina Limitat

API de la còpia de veu

Clona les veus programades de forma temàtica amb la nostra API REST

Clon de veu Python REST API
from tts_ai import TTSClient

client = TTSClient(api_key="sk-tts-...")

# Clone a voice from a 5-second sample
result = client.clone_voice(
    name="My Cloned Voice",
    file="reference.wav",       # 5-30 seconds of clear speech
    model="chatterbox",         # or cosyvoice2, openvoice, spark...
    text="Hello! This is my cloned voice speaking new text.",
)

# Download the cloned audio
audio = client.poll_result(result.uuid)
with open("cloned_output.wav", "wb") as f:
    f.write(audio)
cURL Voice Cloning REST API
curl -X POST https://api.tts.ai/v1/voice-clone \
  -H "Authorization: Bearer sk-tts-YOUR_KEY" \
  -F "reference=@voice_sample.wav" \
  -F "text=This is my cloned voice." \
  -F "model=chatterbox"

Consells pels resultats de la cerca de la veu superior

Obtén el clon de veu més precís amb aquestes directrius de gravació

Entorn de silenci

Enregistra en una sala de silenci amb soroll mínim de fons. L' IA extracte de veu amb més precisió de l' àudio net.

10- 30 segons

Mentre que 5 segons funcionen, 10-30 segons dóna resultats significativament millors. El discurs més natural de la IA escolta, més precís el clon.

Pronunciació natural

Parla amb naturalitat, no en un mono to. Inclou una innenció variada i espaiat. La IA captura el vostre estil de parlant natural, incloent pausa i èmfasi.

Altaveu simple

Usa una mostra amb només una persona parlant. Múltiples veus confonen l' encastat i produeixen resultats mesclats.

Comença la còpia de Global Voices avui

Pugeu cinc segons d'àudio i escolteu la vostra veu clonada en menys de 30 segons. Lliure per intentar- ho.

Clona una veu Documentació de l' API

Preguntes més freqüents

Preguntes comuns sobre clonació de veu en temps real

Real-time voice cloning is AI technology that can replicate a person's voice from a short audio sample — as little as 5 seconds — without any training or fine-tuning. You upload a sample, and the AI generates new speech that sounds like that person. TTS.ai offers 9 different voice cloning models, each with different strengths for quality, speed, and language support.

Tan poc com els 5 segons funcionen amb la majoria de models (Chatchbox, CosyVoice 2, Spark, GPT-SoVITS, OpenVice). La Tortose requereix 15+ segons per obtenir millors resultats. Per a una qualitat òptima a través de tots els models, 10- 30 segons de clar, es recomana l' àudio de parla simple. L' àudio hauria de ser lliure de soroll de fons i música.

Voice cloning technology itself is legal. However, you should only clone voices you have permission to use — your own voice, voices you have explicit consent for, or voices in the public domain. Using voice cloning to impersonate someone without consent, commit fraud, or create misleading content is illegal in most jurisdictions. TTS.ai's terms require you to have rights to any voice you clone.

Dependrà del vostre cas d' ús. La caixa Chatter produeix els clons en anglès més alt de qualitat amb el control d' emocions. CosyVice 2 és millor per a la clonació multilingüe (Celsive, anglès, japonès, coreà). Spark és el més ràpid de ~12 segons. La comoditat produeix resultats de qualitat d' estudi però és més lent. El GPT- VITS destaca a la veu xinesa. Proveu múltiples models per a trobar la millor coincidència de la vostra veu.

Sí, això s' anomena clonació de veu encreuada. CosyVoice 2, Qween3- TTS i compatibilitat amb l' OpenVoice. Per exemple, podeu pujar una mostra de veu anglesa i generar veu en xinès, japonès, o mentre preserva les característiques vocals de l' altaveu. La qualitat varia en model i la parella de llenguatge.

The CorentinJ/Real-Time-Voice-Cloning GitHub project (60K+ stars) uses SV2TTS, a 2019 architecture. While groundbreaking at the time, modern models like Chatterbox, CosyVoice 2, and GPT-SoVITS produce significantly better audio quality with better speaker similarity. TTS.ai runs 9 state-of-the-art models (vs SV2TTS's one) and requires no GPU setup — just upload and clone.

Yes. TTS.ai provides a REST API for voice cloning. Upload reference audio and text, choose a model, and receive cloned speech. Available via Python SDK (`pip install ttsai`), JavaScript SDK (`npm install @ttsainpm/ttsai`), or direct HTTP requests. Supports batch cloning for processing multiple texts with the same cloned voice.

Sí. Després de clonar la veu, deseu la veu al vostre compte i torneu- lo a usar en generacions sense límit sense tornar a carregar l' àudio de referència. Les veus desades apareixen a la vostra biblioteca de veu a la pàgina de clonació de veu i són accessibles a través de l' API.

WAV, MP3, OGG, FLAC i WebM estan tots acceptats. També podeu enregistrar directament al vostre navegador usant el micròfon integrat. Per a millors resultats, useu el format WAV sense pèrdua al 16kHz o superior. L' IA automàtica processa àudio (respir, filtrat de soroll) independentment del format d' entrada.

El temps de generació varia pel model: Spark és més ràpid en ~12 segons, OpenVoice a ~15 segons, GPTTTITS a ~16 segons, CosyVoice 2 a ~20 segons, Chatterbox a ~21 segons, i Torose en ~60 segons. Aquests temps són per al text típic de frase. El text de text llarg pren proporcionalment més temps.

Sí. Tots 9 models de clonació a TTS.ai0 usen llicències de codi obert (IT o Apache 2.0) que permeten l' ús comercial. Podeu usar àudio clonada als vídeos de YouTube, podcasts, llibres d' àudio, apps, jocs, sistemes de telèfon, i qualsevol altra aplicació comercial que tingueu drets a la veu del codi font.

Yes. Every model we run is open source and available on GitHub/HuggingFace. You can self-host Chatterbox, CosyVoice 2, GPT-SoVITS, OpenVoice, Spark, IndexTTS-2, GLM-TTS, Qwen3-TTS, or Tortoise on your own GPU server. Most models require an NVIDIA GPU with 4-24GB VRAM depending on the model. TTS.ai handles all the infrastructure so you don't have to.
5.0/5 (1)

What could we improve? Your feedback helps us fix issues.

Clona qualsevol veu en segons

9 models de clonació de veu de codi obert. 5- segon mostres. No es requereix entrenament. Proveu- ho amb " cdrdao " i escolteu el clon instantàniament.