Report Bug / Feature Request

حقيقي وقت آواز کلوننگ - سيڪنڊن ۾ ڪنهن به آواز کي کلون ڪريو

ڪو به آواز رڳو 5 سيڪنڊن جي حوالي آڊيو سان کلون ڪريو. 9 اوپن سورس آواز کلوننگ ماڊل بشمول چاٽربڪس، CosyVoice 2، GPT-SoVITS، ۽ OpenVoice. Zero-shot cloning without training required — a sample upload and generate speech instantly. All models are commercially licensed.

ريئل-ٽائم 5- سيڪنڊ نمونا 9 کلوننگ ماڊل اوپن سورس ٻوليون احساس ڪنٽرول

آواز جي ڪلوننگ جون خاصيتون

آوازن کي فوري طور تي state-of-the-art AI سان کلون ڪريو - ڪا تربيت نه ، ڪا ڊيٽا سيٽ نه ، ڪا انتظار نه

Zero-Shot کلوننگ

ڪو تربيت نه، نه fine-tuning، نه ڊيٽا ڪٽڻ. 5 سيڪنڊن جي آڊيو اپ لوڊ ۽ فوري طور تي هڪ کلون آواز حاصل ڪريو. AI سچي وقت ۾ ڳالهائيندڙ جي خاصيتن کي ڪڍي ٿو.

9 کلوننگ ماڊل

چاٽربڪس، ڪوسي واءِس 2، جي پي ٽي-سوويٽس، اوپن واءِس، اسپرڪ، انڊيڪس ٽي ٽي ايس-2، جي ايل ايم-ٽي ٽي ايس، ڪوين3-ٽي ٽي ايس ۽ ٽورتويس مان چونڊيو. هر ماڊل جي معيار، رفتار ۽ ٻولي لاءِ مختلف طاقتون آهن.

ڪراس- لائين ڪلوننگ

انگريزي ۾ آواز کي ڪلون ڪريو ۽ چيني، جاپاني، ڪورين ۽ وڌيڪ ٻولين ۾ ڳالهائڻ پيدا ڪريو. CosyVoice 2 ۽ Qwen3-TTS 17+ ٻولين ۾ آواز جي شناخت محفوظ ڪن ٿا.

احساس ڪنٽرول

چاٽربڪس، اوپن واءِس ۽ GLM-TTS جذباتي حالتن جي پيدائش کي مدد ڏين ٿا. مختلف جذبن سان ھڪ ئي متن پيدا ڪريو - خوش، ڏکيو، ڏمرجندڙ، ڳوڙها وهڻ - جڏهن ته ڪلون ٿيل آواز کي برقرار رکو.

اوپن سورس ۽ تجارتي

سڀئي کلوننگ ماڊل MIT يا Apache 2.0 لائسنسن تحت مفت آهن. ڪلون ٿيل آوازن کي مواد، مصنوعات ۽ ايپليڪيشنن لاءِ تجارتي طور استعمال ڪريو.

ڪلوننگ API

پروگرامنگ آواز کلوننگ لاءِ REST API. حوالو آڊيو اپ لوڊ ڪريو، متن بيان ڪريو، ۽ کلون ٿيل ڳالهائڻ حاصل ڪريو. Python ۽ JavaScript لاءِ SDKs. وڏي حجم واري ڪم جي وهڪري لاءِ باچ کلوننگ.

آواز جي کلوننگ ماڊل

9 کليل-اصل ماڊل هر کلوننگ استعمال جي صورت لاءِ

ChatterboxChatterbox

Premium

State-of-the-art zero-shot voice cloning with emotion control from Resemble AI.

Medium 5/5 آواز جو کلون

ھن لاءِ بهترين: بهترين مجموعي معيار - 5 سيڪنڊن جا نمونا، احساس ڪنٽرول، MIT لائسنس ٿيل

ڪوشش ڪريو Chatterbox

CosyVoice 2CosyVoice 2

Standard

Alibaba's scalable streaming TTS with human-parity naturalness and near-zero latency.

Medium 5/5 آواز جو کلون

ھن لاءِ بهترين: بهترين ٻن ٻولين جو کلوننگ — چيني، انگريزي، جاپاني، ڪورين ۾ آواز محفوظ ڪري ٿو

ڪوشش ڪريو CosyVoice 2

OpenVoiceOpenVoice

Premium

Instant voice cloning with granular control over style, emotion, and accent.

Medium 4/5 آواز جو کلون

ھن لاءِ بهترين: احساس ۽ انداز منتقلي سان جلدي رنگن جي رنگن جي تبديلي

ڪوشش ڪريو OpenVoice

Spark TTSSpark TTS

Standard

Voice cloning TTS with controllable emotion and speaking style via prompts.

Medium 4/5 آواز جو کلون

ھن لاءِ بهترين: تيزترين کلوننگ ماڊل — نتيجا ~12 سيڪنڊن ۾

ڪوشش ڪريو Spark TTS

IndexTTS-2IndexTTS-2

Standard

Zero-shot TTS with fine-grained emotion control and high expressiveness.

Medium 4/5 آواز جو کلون

ھن لاءِ بهترين: چيني- انگريزي جو تمام سٺو کلون، وڏي ڳالهائيندڙ جي مشابهت سان

ڪوشش ڪريو IndexTTS-2

Tortoise TTSTortoise TTS

Premium

Multi-voice text-to-speech focused on quality with autoregressive architecture.

Slow 5/5 آواز جو کلون

ھن لاءِ بهترين: سٽيڊيو-ڪواليٽي جا نتيجا - آڊيو ڪتابن ۽ پرائمري نريشن لاءِ بهترين

ڪوشش ڪريو Tortoise TTS

ريٽل-ٽائم وڊيو ڪلوننگ ڪيئن ڪم ڪري ٿو

ھڪ مختصر آڊيو نموني کان لامحدود کلون ٿيل ڳالھائڻ تائين

1

آڊيو رپورٽ اپ لوڊ ڪريو

5-30 سيڪنڊن جي صاف ڳالھائڻ جي رڪارڊ يا اپ لوڊ ڪريو جيڪو آواز توهان کلون ڪرڻ چاهيو ٿا. WAV, MP3, يا پنهنجي برائوزر ۾ سڌو سنئون رڪارڊ ڪريو.

2

ڪلوننگ ماڊل چونڊيو

چونڊيو جيڪو ماڊل توهان جي ضرورتن سان ٺهڪي اچي ٿو - معيار لاءِ چيٽ باڪس، رفتار لاءِ اسپرنگ، ڪيترن ٻولين لاءِ ڪوسي واءِس 2.

3

پنھنجو متن داخل ڪريو

جيڪو متن توهان کلون ٿيل آواز ۾ ڳالهائڻ چاهيو ٿا سو لکو يا چپايو. ماڊل جي مدد سان ڪابه ٻولي ڪم ڪندي.

4

ڊائون لوڊ

10-25 سيڪنڊن ۾ پنهنجي کلون آواز ٻڌڻ لاءِ پيدا ڪرڻ تي ڪلڪ ڪريو. WAV يا MP3 طور ڊائون لوڊ ڪريو فوري استعمال لاءِ.

Zero-Shot آواز جي کلوننگ ڪيئن ڪم ڪري ٿي

ڪوبه ڦيرگھير نه، ڪوبه ڊيٽا سيٽ مِليڪيشن نه - رڳو اپ لوڊ ۽ کلون

اسپيڪر جي داخل ڪرڻ جي نڪتي

AI توھان جي حوالي آڊيو جو جائزو وٺندو آھي ھڪ اسپيڪر جي داخل ڪرڻ لاءِ - آواز جي ھڪ ڳنڍيل حسابي نمائندگي

  • 5 سيڪنڊن جي آڊيو سان ڪم ڪري ٿو
  • پيچ، ٽمبر ۽ ڳالهائڻ جو انداز لھي ٿو
  • ڪوبه تربيت يا ڦيرگھير جي ضرورت نه آھي
  • آڊيو ڪڏهن به سدائين نه رھندو

شرطي ڳالھائڻ جو سنٿس

TTS ماڊل نئين ڳالھائي پيدا ڪري ٿو جيڪا ڳالهائيندڙ جي داخل ٿيڻ تي منحصر آهي. نتيجو اھڙو ٿيندو جيئن حوالو ٻڌندڙ پنھنجو متن چوندو آھي - قدرتي پروسوڊي سان، مناسب زور سان، ۽ اصل آواز سان

  • ھڪ نموني مان لامحدود ڳالھائڻ پيدا ڪريو
  • cross-language cloning (انھن ٻولين ۾ ڳالھايو جن کي حوالو نه ڏنو ويو)
  • احساس ۽ انداز منتقلي
  • نتيجا 10-25 سيڪنڊن ۾

آواز جي کلوننگ ماڊل جو مقابلو

پنھنجي کلوننگ استعمال جي صورت لاءِ صحيح ماڊل چونڊيو

ماڊل گھٽ ۾ گھٽ حوالو رفتار معيار ٻوليون احساس لائسنس
Chatterbox 5s ~21s بهترين EN MIT
CosyVoice 2 5s ~20s تمام سٺو CN, EN, JP, KO+ Apache 2.0
GPT-SoVITS 5s ~16s تمام سٺو CN, EN, JP, KO MIT
OpenVoice 5s ~15s سٺو انڊين، چيني، اسپيني، فرانسيسي MIT
Spark TTS 5s ~12s سٺو چيني Apache 2.0
IndexTTS-2 5s ~18s تمام سٺو چيني Apache 2.0
GLM-TTS 5s ~25s تمام سٺو چيني Apache 2.0
Qwen3-TTS 5s ~16s تمام سٺو CN, EN, JP, KO+ Apache 2.0
Tortoise 15s ~60s اسٽوڊيو EN Apache 2.0

ماڻهو ريٽل-ٽائم وڊيو ڪلوننگ لاءِ ڇا استعمال ڪندا آهن

مواد جي ٺاھڻ کان وٺي رسائي تائين - آواز جي کلوننگ جا لامحدود استعمال آھن

آڊيو ڪتاب

ليکڪ پنھنجي آواز کي کلون ڪن ٿا ۽ سمورا آڊيو ڪتاب ٺاهيندا آھن رڪارڊنگ بوٽ ۾ ڪلاڪ خرچ ڪرڻ کانسواءِ. ٻيهر رڪارڊ ڪرڻ جي بدران هڪ جملي کي ٻيهر پيدا ڪرڻ سان غلطيون درست ڪريو.

وڊيو ڊبلنگ

اصل ڳالهائيندڙ کي برقرار رکندي ٻين ٻولين ۾ وڊيوز ڊب ڪريو

مواد جو ٺاھڻ

يوٽيوبرز، پوڊڪاسٽرز ۽ ٽڪ ٽاڪ ٺاهيندڙن کي پنهنجي آواز کي مسلسل برانڊنگ لاءِ کلون ڪيو. نئين مواد لاءِ وڊيوز کي رڪارڊ ڪرڻ کانسواءِ پيدا ڪريو، يا موجود وڊيوز جي متبادل ٻولين جا نسخا ٺاهيو.

رسائي

جيڪي ماڻهو بيماريءَ يا سرجري جي ڪري آواز وڃائي چڪا آهن، اهي ان کي پراڻين رڪارڊن مان کلون ڪري محفوظ ڪري سگهن ٿا. کلون ٿيل آواز انهن کي پنهنجي آواز ۾ متن کان ڳالهائڻ ذريعي رابطو ڪرڻ جي اجازت ڏئي ٿو.

راند جي ترقي

آواز جي اداڪارن کي کلون ڪريو ۽ سٽيو وقت جي منصوبابندي کانسواءِ لامحدود گفتگو جي تبديلين کي پيدا ڪريو. انڊي رانديون، ماڊس ۽ پروٽوٽائپنگ لاءِ مثالي جتي هر سٽ کي ٻيهر رڪارڊ ڪرڻ ممڪن نه آهي

فون سسٽم

پنھنجي ڪمپني جو وڪيل کلون ڪريو

TTS.ai مقابل ٻيا آواز کلوننگ حل

ڇو 9 ماڊل هڪ واحد مفت-سورس منصوبي کي ڀڃي ٿو

خاصيت TTS.ai SV2TTS ElevenLabs Resemble AI
ماڊل 9 1 1 1
آڊيو 5 sec 5 sec 30 sec 3 min
تربيت جي ضرورت آھي نه نه نه ھائو
آڊيو معيار سٽيڊيو-گريڊ تاريخ تمام سٺو تمام سٺو
احساس ڪنٽرول
ڪراس- لائين ڪلوننگ
اوپن سورس
GPU جي ضرورت آھي ڪڪر ھائو ڪڪر ڪڪر
API رسائي
مفت 15 ڪرنٽ پاڻمرادو ميزباني محدود

آواز جي کلوننگ API

اسان جي REST API سان پروگرامي طور آوازن کي کلون ڪريو

پائٿن - آواز جو کلوننگ REST API
from tts_ai import TTSClient

client = TTSClient(api_key="sk-tts-...")

# Clone a voice from a 5-second sample
result = client.clone_voice(
    name="My Cloned Voice",
    file="reference.wav",       # 5-30 seconds of clear speech
    model="chatterbox",         # or cosyvoice2, openvoice, spark...
    text="Hello! This is my cloned voice speaking new text.",
)

# Download the cloned audio
audio = client.poll_result(result.uuid)
with open("cloned_output.wav", "wb") as f:
    f.write(audio)
cURL — آواز جي کلوننگ REST API
curl -X POST https://api.tts.ai/v1/voice-clone \
  -H "Authorization: Bearer sk-tts-YOUR_KEY" \
  -F "reference=@voice_sample.wav" \
  -F "text=This is my cloned voice." \
  -F "model=chatterbox"

بهترين آواز کلوننگ نتيجن لاءِ صلاحون

ھنن رڪارڊنگ جي هدايتن سان تمام صحيح آواز جو کلون حاصل ڪريو

خاموش ماحول

خاموش ڪمري ۾ گهٽ ۾ گهٽ پس منظر جي شور سان رڪارڊ ڪريو. AI صاف آڊيو مان آواز جون خاصيتون وڌيڪ صحيح نموني سان ڪڍي ٿو.

10- 30 سيڪنڊ

جڏهن ته 5 سيڪنڊ ڪم ڪن ٿا، 10-30 سيڪنڊ تمام سٺا نتيجا ڏيندا آهن. جيترو وڌيڪ قدرتي ڳالهائڻ AI ٻڌندو، تيترو وڌيڪ صحيح کلون.

عام ڳالھائڻ

عام طرح ڳالهائو، نه ته هڪجهڙائيءَ ۾. مختلف انداز ۽ رفتار شامل ڪريو. ائ آءِ او توهان جي عام ڳالهائڻ جي انداز کي، وقفن ۽ زور سان گڏ، محفوظ ڪري ٿو.

هڪڙو اسپيڪر

مثال استعمال ڪريو جنھن ۾ صرف هڪ شخص ڳالهائيندو آھي. گھڻيون آوازون ڳالهائيندڙ جي داخل ٿيڻ کي خراب ڪندا آھن ۽ گڏيل نتيجا پيدا ڪندا آھن.

اڄ آوازن جو کلون شروع ڪريو

5 سيڪنڊن جي آڊيو اپ لوڊ ڪريو ۽ 30 سيڪنڊن ۾ پنھنجي کلون ٿيل آواز ٻڌو. آزمائڻ مفت آھي.

آواز کي ھاڻي کلون ڪريو API دستاویز

گھڻا پڇيا ويندا سوال

آواز جي حقيقي وقت جي کلوننگ بابت عام سوال

ريئل-ٽائم آواز ڪلوننگ اي آءِ ٽيڪنالاجي آهي جيڪا ڪنهن به تربيت يا فين-ٽونگ کانسواءِ هڪ مختصر آڊيو نموني مان ڪنهن به شخص جي آواز کي ٻيهر ٺاهي سگهي ٿي - 5 سيڪنڊن جيترو ٿورو - توهان هڪ نمونو اپ لوڊ ڪريو، ۽ اي آءِ نئين ڳالھائي پيدا ڪري ٿو جيڪا ان شخص وانگر لڳي ٿي. TTS.ai 9 مختلف آواز ڪلوننگ ماڊل پيش ڪري ٿو، هر هڪ مختلف طاقت سان معيار، رفتار، ۽ ٻولي مدد لاءِ.

گھڻن ماڊلن سان (چيٽر باڪس، ڪوسي واءِس 2، اسپرنگ، GPT-SoVITS، اوپن واءِس) 5 سيڪنڊن کان گهٽ ڪم ڪندو. ٽورتويس کي بهترين نتيجن لاءِ 15+ سيڪنڊن جي ضرورت پوندي. سڀني ماڊلن تي بهترين معيار لاءِ، 10-30 سيڪنڊن جي صاف، هڪ اسپيڪر آڊيو جي صلاح ڏني ويندي. آڊيو کي پس منظر جي شور ۽ موسيقي کان آزاد هجڻ گهرجي.

آوازن جي کلوننگ جي ٽيڪنالاجي پاڻ ۾ قانوني آهي. جيتوڻيڪ، توھان کي رڳو اھي آوازن کي کلون ڪرڻ گھرجي جن کي استعمال ڪرڻ جي اجازت آھي - پنھنجي آواز، آوازن کي توھان جي واضح رضامندي آھي، يا آوازن کي عام ملڪيت ۾. آوازن جي کلوننگ کي استعمال ڪرڻ لاءِ ڪنھن کي رضامندي کانسواءِ، چوري ڪرڻ يا غلط مواد ٺاهڻ غيرقانوني آھي. TTS.ai جي شرطن ۾ توھان کي ڪو به آواز جيڪو توھان کلون ڪيو آھي ان جا حق هجڻ گھرجن.

اهو توھان جي استعمال جي صورت تي منحصر آھي. چيٽ باڪس اعليٰ معيار جا انگريزي کلون جذباتي ڪنٽرول سان پيدا ڪري ٿو. ڪوسي واءِس 2 ڪيترن ٻولين جي کلوننگ لاءِ بهترين آھي (چيني، انگريزي، جاپاني، ڪورين). اسپرڪ تيزترين آھي ~12 سيڪنڊن تي. ٽورتوس اسٽوڊيو-ڪواليٽي جا نتيجا پيدا ڪري ٿو پر سست آھي. GPT-SoVITS چيني آواز جي کلوننگ ۾ بهترين آھي. توھان جي آواز لاءِ بهترين ميلاپ ڳولڻ لاءِ ڪيترائي ماڊل آزمايو.

ھائو - ان کي cross-language آواز جي کلوننگ سڏيو ويندو آھي. CosyVoice 2, Qwen3-TTS, ۽ OpenVoice ان کي مدد ڏيندا آھن. مثال طور، توھان انگريزي آواز جو نمونو اپ لوڊ ڪري سگھو ٿا ۽ چيني، جاپاني يا ڪورين ۾ ڳالھائڻ پيدا ڪري سگھو ٿا جڏهن ته ڳالھائيندڙ جي آواز جي خاصيتن کي محفوظ ڪري سگھو ٿا. معيار ماڊل ۽ ٻولي جو جوڙو تي منحصر آھي.

CorentinJ / ريئل-ٽائم-وائس-ڪلوننگ GitHub منصوبو (60K+ ستارا) SV2TTS، هڪ 2019 آرڪائيو استعمال ڪري ٿو. جڏهن ته وقت تي ترقي ڪري رهيو آهي، جديد ماڊل جهڙوڪ چاٽربڪس، ڪوسي وايس 2، ۽ GPT-SoVITS بهتر اسپيڪر جي مشابهت سان بهتر آڊيو معيار پيدا ڪري ٿو. TTS.ai 9 اسٽيٽ-آف-دي-آرٽ ماڊل (VS SV2TTS's one) هلائي ٿو ۽ GPU جي ڪا به ترتيب جي ضرورت ناهي - صرف اپ لوڊ ۽ ڪلون.

ھائو. TTS.ai آواز جي کلوننگ لاءِ REST API مهيا ڪري ٿو. حوالو آڊيو ۽ متن اپ لوڊ ڪريو، ماڊل چونڊيو، ۽ کلون ٿيل ڳالھائي حاصل ڪريو. Python SDK (`pip install ttsai`) ذريعي دستياب، JavaScript SDK (`npm install @ttsainpm/ttsai`) يا سڌو HTTP درخواستون. اڪيلي کلون ٿيل آواز سان ڪيترن ئي متنن جي پروسيس لاءِ باچ کلوننگ کي سپورٽ ڪري ٿو.

ھائو. کلون ڪرڻ کان پوءِ آواز کي پنھنجي اڪائونٽ ۾ محفوظ ڪريو ۽ ان کي لامحدود نسلن ۾ ٻيهر استعمال ڪريو بغير رفرنس آڊيو کي ٻيهر اپ لوڊ ڪرڻ جي. محفوظ ٿيل آواز پنھنجي آواز جي لائبريري ۾ آواز کلوننگ صفحي تي نظر ايندا ۽ API ذريعي رسائي وارا آھن.

WAV, MP3, OGG, FLAC, ۽ WebM سڀئي مدد ڏنل آھن. توھان پنھنجي برائوزر ۾ سڌو سنئون رڪارڊ ڪري سگھو ٿا اندروني مائڪروفون رڪارڊر استعمال ڪندي. بهترين نتيجن لاءِ، 16kHz يا وڌي تي نقصان کان پاڪ WAV فارميٽ استعمال ڪريو. AI پاڻمرادو آڊيو کي اڳتي وڌائيندو آھي (ريسمپلنگ، شور جي فلٽرنگ) انبوٽ فارميٽ کان بي خبر.

پيدائش جو وقت ماڊل تي منحصر آهي: اسپرنگ ~12 سيڪنڊن تي تيز آهي، اوپن واءِس ~15 سيڪنڊن تي، GPT-SoVITS ~16 سيڪنڊن تي، ڪوسي واءِس 2 ~20 سيڪنڊن تي، چيٽر بڪس ~21 سيڪنڊن تي، ۽ ٽورتوس ~60 سيڪنڊن تي. هي وقت عام جملي جي ڊگهي متن لاءِ آهن. ڊگها متن نسبتاً ڊگها وٺندا.

ھائو. TTS.ai تي سڀ 9 کلوننگ ماڊل اوپن سورس لائسنس استعمال ڪندا آهن (MIT يا Apache 2.0) جيڪي تجارتي استعمال جي اجازت ڏين ٿا. توھان يوٽيوب وڊيوز، پوڊ ڪاسٽس، آڊيو ڪتابن، ايپليڪيشنن، راندين، فون سسٽم ۽ ڪنهن به ٻي تجارتي ايپليڪيشن ۾ کلون ٿيل آڊيو استعمال ڪري سگھو ٿا - جيڪڏھن توھان وٽ ذريعن جي آواز جا حق آھن.

ها. هر ماڊل جيڪو اسان هلائيندا آهيون اهو مفت آهي ۽ GitHub / HuggingFace تي دستياب آهي. توهان پنهنجي GPU سروس تي چاٽربڪس، ڪوسي وائيس 2، GPT-SoVITS، اوپن وائيس، اسپرنگ، انڊيڪس TTS-2، GLM-TTS، Qwen3-TTS، يا ٽورٽوز کي پاڻمرادو ميزبان ڪري سگهو ٿا. اڪثر ماڊل جي ضرورت آهي NVIDIA GPU سان 4-24GB VRAM ماڊل تي منحصر آهي. TTS.ai سڀني زير بنا کي سنڀاليندو آهي تنهنڪري توهان کي نه ڪرڻو پوندو.
5.0/5 (1)

What could we improve? Your feedback helps us fix issues.

ڪنھن به آواز کي سيڪنڊن ۾ کلون ڪريو

9 اوپن سورس آواز کلوننگ ماڊل. 5 سيڪنڊن جا نمونا. ڪوبه تربيت جي ضرورت نه آهي. ان کي مفت ۾ آزمايو - پنھنجي آڊيو اپ لوڊ ڪريو ۽ ڪلون کي فوري طور ٻڌو.