Report Bug / Feature Request

ریل-ٹائم وائٹ کلونینگ - سیکنڈز میں کوئی بھی وائٹ کلونینگ

5 سيکنڈ کے ريفرنس آڊيو کے ساتھ کوئی آواز کلون کريں ۔9 اوپن سورس ويز کلوننگ ماڈل شامل Chatterbox، CosyVoice2، GPT-SoVITS، اور OpenVoice۔ صفر شوٹ کلوننگ کو کوئی تربيت نہیں چاہیے ۔ ایک نمونہ اپ لوڈ کريں اور فوري طور پر بولي پيدا کريں ۔ تمام ماڈل تجارتي لائسنس کے ساتھ هے ۔

رئیل ٹائم 5 سیکنڈ نمونے 9 کلوننگ ماڈل اوپن سورس زبانیں احساسات کا کنٹرول

ریل-ٹائم وائٹ کلونینگ خصوصیات

سٹیٹ آف دی آرٹ AI کے ساتھ فوراً آوازیں کلون کریں - کوئی تربیت نہیں، کوئی ڈیٹا سیٹ نہیں، کوئی انتظار نہیں

صفر-شٹ کلوننگ

کوئی تربيت، کوئی فين ٹونگ، کوئی ڈیٹا سیٹ کلیکشن. آڈیو کے 5 سیکنڈ اپ لوڈ اور فوراً ایک کلون آواز حاصل کریں. AI ریئل ٹائم میں اسپیکر کی خصوصیات نکالے.

9 کلوننگ ماڈل

Chatterbox, CosyVoice2, GPT-SoVITS, OpenVoice, Spark, IndexTTS-2, GLM-TTS, Qwen3-TTS, اور Tortoise سے منتخب کريں ہر ماڈل ميں مختلف قوتیں ہیں معيار، رفتار اور زبان کے ليے

کراس-لنگوي کلونينگ

انگريزي میں آواز کي کلون کريں اور چيني، جاپاني، کو رياني اور اور زبانوں ميں بات کريں CosyVoice2 اور Qwen3-TTS 17+ زبانوں ميں آواز کي شناخت محفوظ رکھتے هيں

احساسات کا کنٹرول

Chatterbox، OpenVoice اور GLM-TTS جذبات سے متعلق حصول کو مدد ديتے هيں مختلف احساسات کے ساتھ عين متن پيدا کريں خوش، غمگين، غصہ، خفیہ آواز کے ساتھ - کلون آواز کو محفوظ رکھتے هيں

اوپن سورس اور تجارتی

ہر کلوننگ ماڈل MIT يا Apache 2.0 لائسنس کے تحت اوپن سورس ہے. کلون کی گئی آوازوں کو تجارتي طور پر مواد، مصنوعات اور ایپلیکيشنز کے ليے استعمال کريں

کلوننگ API

پروگرامیٹک وائٹس کلوننگ کے لیے REST API. حوالہ آڈیو اپ لوڈ کریں، متن کو واضح کریں، اور کلون کلام حاصل کریں. پائیٹن اور جاواسکریپت کے لیے SDKs. بڑے حجم کے ورک فلو کے لیے بٹک کلوننگ.

آواز

ہر کلوننگ استعمال کے معاملے کے لئے 9 اوپن سورس ماڈل

ChatterboxChatterbox

Premium

State-of-the-art zero-shot voice cloning with emotion control from Resemble AI.

Medium 5/5 آواز کا کلوننگ

بہترین: بہترین مجموعی کیفیت - 5 سیکنڈ نمونے، جذبات کو کنٹرول، MIT لائسنس

کوشش کریں Chatterbox

CosyVoice 2CosyVoice 2

Standard

Alibaba's scalable streaming TTS with human-parity naturalness and near-zero latency.

Medium 5/5 آواز کا کلوننگ

بہترین: بہترین کثیر زبانوں کا کلوننگ — چینی، انگریزی، جاپانی، کورین میں آواز محفوظ رکھتا ہے

کوشش کریں CosyVoice 2

OpenVoiceOpenVoice

Premium

Instant voice cloning with granular control over style, emotion, and accent.

Medium 4/5 آواز کا کلوننگ

بہترین: جذبات اور انداز منتقلي کے ساتھ جلدي رنگوں کي تبديلي

کوشش کریں OpenVoice

Spark TTSSpark TTS

Standard

Voice cloning TTS with controllable emotion and speaking style via prompts.

Medium 4/5 آواز کا کلوننگ

بہترین: سب سے تیز کلوننگ ماڈل - ~12 سیکنڈ میں نتائج

کوشش کریں Spark TTS

IndexTTS-2IndexTTS-2

Standard

Zero-shot TTS with fine-grained emotion control and high expressiveness.

Medium 4/5 آواز کا کلوننگ

بہترین: اعليٰ ناطق مشابهت کے ساتھ بہترین چيني-انگريزي کلوننگ

کوشش کریں IndexTTS-2

Tortoise TTSTortoise TTS

Premium

Multi-voice text-to-speech focused on quality with autoregressive architecture.

Slow 5/5 آواز کا کلوننگ

بہترین: سٹوڈیو-کیفیت کے نتائج - اوڈیو بک اور پرائم نریشن کے لیے بہترین

کوشش کریں Tortoise TTS

ریل-ٹائم وائٹس کلونینگ کیسے کام کرتا ہے

ایک مختصر اوڈیو نمونے سے لامحدود کلون کی ہوئی بات

1

حوالہ آڈیو اپ لوڈ کریں

5-30 سیکنڈ کی صاف بولنے کی ریکارڈ یا اپ لوڈ کریں جس آواز کو آپ کلون کرنا چاہتے ہیں. WAV, MP3, یا براہ راست اپنے براؤزر میں ریکارڈ کریں.

2

کلوننگ ماڈل منتخب کریں

آپ کی ضرورتوں کے مطابق ماڈل منتخب کریں - معیار کے لیے چیٹر باکس، رفتار کے لیے اسپارک، متعدد زبانوں کے لیے کوسی وائٹس 2.

3

آپ کا متن داخل کریں

ٹائپ يا پيسٹ کريں متن جو آپ کلون آواز ميں بولنا چا هيتے هيں ماڈل کے ذريعے مدد دئيے جا نے والی کوئی زبان کام کريں

4

بناؤ اور ڈاؤن لوڈ کرو

10-25 سيکنڈ ميں آپ کي کلون آواز سننے کے ليے جنيڑ کلک کريں فوري استعمال کے ليے WAV يا MP3 کے طور پر ڈائون لوڈ کريں

Zero-Shot آواز کلوننگ کیسے کام کرتا ہے

کوئی فائن ٹوننگ نہیں، کوئی ڈیٹا سیٹ کلیکشن نہیں - صرف اپ لوڈ اور کلون

اسپیکر ضم کردہ نکالنا

AI آپ کے حوالہ آڈیو کو ایک اسپیکر embedding نکالے کے ليے تجزیہ کرتا هے - آواز کے منفرد خصوصیات کے ليے ایک کمپیکٹ ریاضی نمائش جس میں پیٹ، تيمبرا، بولنے کا ريٹم اور آواز کا ساخت شامل هے. یہ 1 سيکنڈ کے اندر ہوتا هے

  • آڈیو کے 5 سیکنڈ کے ساتھ کم سے کم کام کرتا ہے
  • پيچ، تيمبر، اور بولنے کا انداز پکڑتا هے
  • کوئی تربیت یا fine-tuning کی ضرورت نہیں
  • آڈیو ہمیشہ محفوظ نہیں ہوتی

وقفہ ناطق سنتھس

TTS ماڈل اسپیکر کے اندراج پر منحصر نئی بولنے کو پیدا کرتا ہے. نتيجہ اس طرح لگتا ہے جیسے حوالہ بولنے والا آپ کا متن بول رہا ہو - قدرتی prosody کے ساتھ، مناسب زور اور اصل آواز کے کردار کو کسی بھی زبان یا مواد میں محفوظ کیا جاتا ہے.

  • يک نمونے سے لا محدود بولي بنا ئيں
  • کراس-لنگويج کلوننگ (زبانوں میں بولیں جنہیں حوالہ نہیں دیا گیا)
  • احساسات اور انداز منتقل کريں
  • 10-25 سیکنڈ میں نتائج

آواز کلوننگ ماڈل موازنہ

آپ کے کلوننگ استعمال کے معاملے کے لیے صحیح ماڈل منتخب کریں

ماڈل کم سے کم حوالہ رفتار معيار زبانیں احساس لائسنس
Chatterbox 5s ~21s بہترین EN MIT
CosyVoice 2 5s ~20s بہترین CN، EN، JP، KO+ Apache 2.0
GPT-SoVITS 5s ~16s بہترین CN، EN، JP، KO MIT
OpenVoice 5s ~15s اچھا EN, CN, ES, FR+ MIT
Spark TTS 5s ~12s اچھا CN، EN Apache 2.0
IndexTTS-2 5s ~18s بہترین CN، EN Apache 2.0
GLM-TTS 5s ~25s بہترین CN، EN Apache 2.0
Qwen3-TTS 5s ~16s بہترین CN، EN، JP، KO+ Apache 2.0
Tortoise 15s ~60s سٹوڈیو EN Apache 2.0

لوگ واقعی وقت آواز کلوننگ کے لئے کیا استعمال کرتے ہیں

مواد کی تخلیق سے وصولی تک - آواز کے کلوننگ کے لامحدود اطلاقات ہیں

آڈیو بک رائے

مصنف اپنی آواز کو کلون کريں اور ري کيو نگ بو تھ ميں گھڑيں گزارنے کے بجا ئيں پورے او ديو بک بنايں

ویڈیو ڈبلنگ

ویڈیوز کو اصل بولنے والے کی آواز کو محفوظ رکھتے ہوئے دوسرے زبانوں میں ڈب کریں۔ کراس-لنگوی ماڈل جیسے کوسی وائٹس ۲ اور Qwen3-TTS چینی، انگریزی، جاپانی اور کورین میں آواز کی شناخت کو محفوظ رکھتے ہیں۔

مواد کی تخلیق

یو ٹیوبرز، پوڈکاسٹرز، اور ٹیک ٹک کریٹرز مسلسل برانڈنگ کے لئے اپنی آوازوں کو کلون کرتے ہیں۔ ریکارڈنگ کے بغیر نئے مواد کے لئے وائٹ اوورز پیدا کرتے ہیں، یا موجود ویڈیوز کے متبادل زبان کے ورژن بناتے ہیں۔

رسائی

وہ لوگ جنہوں نے بیماری یا سرجری کی وجہ سے اپنی آواز کھو دی ہے وہ اسے پرانی ریکارڈ سے کلون کر کے محفوظ کر سکتے ہیں. کلون کی ہوئی آواز انہیں اپنی آواز میں ٹیکس-تو-سپیچ کے ذریعے بات کرنے کی اجازت دیتا ہے.

کھیل کی ترقی

آواز اداکاروں کو کلون کریں اور سٹوڈیو وقت کے شیڈول کے بغیر لامحدود گفتگو کی تغیرات پیدا کریں. انڈی گیمز، مودز اور پروٹوٹائپینگ کے لئے بہترین جہاں ہر لائن کو دوبارہ ریکارڈ کرنا ممکن نہیں ہے.

فون سسٹم

فون مینو اور خودکار جواب کے لیے اپنی کمپنی کے اسپیکر کی آواز کو کلون کریں۔ ایک آواز اداکار کو بکنگ کرنے کے بغیر IVR پروموشن کو فوراً اپڈیٹ کریں ۔ صرف نیا متن ٹائپ کریں اور پیدا کریں۔

TTS.ai اور دوسرے آواز کلوننگ حل

کیوں 9 ماڈلز ایک واحد اوپن سورس پروجیکٹ کو مارتا ہے

خاصيت TTS.ai SV2TTS ElevenLabs Resemble AI
ماڈل کلوننگ 9 1 1 1
کم سے کم ریفرنس آڈیو 5 sec 5 sec 30 sec 3 min
تربيت کا احتياج نہیں نہیں نہیں جی ہاں
اوڈيو معيار سٹوڈیو تاریخ بہترین بہترین
احساسات کا کنٹرول
کراس-لنگوي کلونينگ
اوپن سورس
GPU ضروری بادل جی ہاں بادل بادل
API رسائی
مفت سطح 15,000 حروف خود کار میزبان محدود

آواز کلوننگ API

ہماری REST API کے ساتھ پروگرامنگ کے ذریعے آوازوں کو کلون کریں

پائتھون - آواز کا کلوننگ REST API
from tts_ai import TTSClient

client = TTSClient(api_key="sk-tts-...")

# Clone a voice from a 5-second sample
result = client.clone_voice(
    name="My Cloned Voice",
    file="reference.wav",       # 5-30 seconds of clear speech
    model="chatterbox",         # or cosyvoice2, openvoice, spark...
    text="Hello! This is my cloned voice speaking new text.",
)

# Download the cloned audio
audio = client.poll_result(result.uuid)
with open("cloned_output.wav", "wb") as f:
    f.write(audio)
cURL — آواز کا کلوننگ REST API
curl -X POST https://api.tts.ai/v1/voice-clone \
  -H "Authorization: Bearer sk-tts-YOUR_KEY" \
  -F "reference=@voice_sample.wav" \
  -F "text=This is my cloned voice." \
  -F "model=chatterbox"

بہترین آواز کلوننگ نتائج کے لئے ہدایات

ان ریکارڈنگ رہنما خطوں کے ساتھ سب سے صحیح آواز کلون حاصل کریں

خاموش ماحول

کم سے کم پس منظر کی شور کے ساتھ خاموش کمرے میں ریکارڈ کریں AI صاف آڈیو سے آواز کی خصوصیات زیادہ صحیح طور پر نکالتا ہے

10-30 سیکنڈ

جب 5 سيکنڈ کام کريں تو 10-30 سيکنڈ اس سے بہتر نتيجے ديتے هيں AI جو زیادہ فطري بولي سنتا هے ، کلون اس سے زياده صحيح ھوتا هے

فطری بولنا

فطري طور پر بوليں ، يونٹون ميں نہيں مختلف تنازل اور پيچنگ شامل کريں AI آپ کے فطري بولنے کے انداز کو پکڑتا هے ، بشمول توقف اور زور

ایک اسپیکر

صرف ایک شخص بولنے کے ساتھ نمونے کا استعمال کريں ۔کثرت آوازوں سے اسپيکر امبڈنگ گير کريں اور ملے جلے نتيجے حاصل کريں

آج آوازوں کا کلون شروع کریں

آڈیو کے 5 سیکنڈ اپ لوڈ کریں اور 30 سیکنڈ میں اپنی کلون کی آواز سنیں. آزمائش کے لئے مفت.

اب آواز کلون کریں API دستاویزی

بار بار پوچھے گئے سوالات

ریئل ٹائم وائٹس کلوننگ کے بارے میں عام سوالات

ريئل ٽائم ويز کلوننگ اي آ ءِ تک ن لو جي هے جو کسي آواز کو 5 سيکنڈ کے مختصر او ڊيو نمونے سے ريا کلام کر سکتا هے ، کوئی تربيت يا فين ٹننگ کے بغیر آپ کو اي آ ءِ کو اپ لوڈ کر نے کے بعد ، اي آ ءِ اس شخص کے طور پر آواز نئے انداز ميں بنا تا هے ۔ TTS.ai 9 مختلف ويز کلوننگ ماڈل پيش کر تا هے ، ہر ایک مختلف قوتوں کے ساتھ معيار ، رفتار اور زباني مدد کے ليے

اکثر ماڈلز کے ساتھ کم سے کم 5 س يکنڈ کام کر تا هے (چاٹر باکس، کو سي وائس 2، اسپارک، GPT-SoVITS، اوپن وائس).Tortoise کو بهترين نتيجے کے ليے 15+ س يکنڈز کي ضرورت هے. تمام ماڈلز پر بهترين معيار کے ليے ، 10-30 س يکنڈ واضح ، سيل سپيکر او ڊيو کي سفارش کي جا ئيے. او ديو کي پس منظر کي شور اور موسیقی سے آزاد ھنا چا هيے

آواز کلوننگ تکنيک خود قانوني ہے. تاہم آپ کو صرف ان آوازوں کو کلون کرنا چاہیے جن کے استعمال کا آپ کو اجازت ہو - آپ کی اپنی آواز, آوازیں جن کے لئے آپ کو واضح اجازت ہو يا آوازیں جن کا استعمال عام طور پر ہو. کسی کو اذن کے بغیر تمثيل کرنے کے ليے آواز کلوننگ کا استعمال، فریب کاری کا ارتکاب يا غلط مواد بنانا اکثر علاقوں میں غير قانوني ہے.TTS.ai کے ضابطوں کے مطابق آپ کو اس آواز کے حق حاصل کر نے کي ضرورت هے جو آپ کلون کر رہے هيں.

یہ آپکے استعمال کے معاملے پر منحصر هے Chatterbox جذبات کو کنٹرول کر کے اعلیٰ معيار کے انگريزي کلون بنا تا هے CosyVoice2کثیر زبانوں کے کلوننگ کے ليے بهترين هے ( چيني، انگريزي، جاپاني، کو رياني ) Spark سب سے تيز ترين هے ~12 سيکنڈ پر Tortoise سٹو ديو معيار کے نتيجے بنا تا هے مگر سست هے GPT-SoVITS چيني آواز کے کلوننگ ميں ممتاز هے آپکی آواز کے ليے بهترين ميچ تلاش کر نے کے ليے متعدد ماڈلز کا استعمال کريں

ہاں - اس کو کراس-لنگويج وائٹ کلونینگ کہا جاتا ہے. CosyVoice2, Qwen3-TTS, اور OpenVoice اس کو مدد دیتے ہیں. مثال کے طور پر، آپ ایک انگريزي وائٹ نمونے کو اپ لوڈ کر سکتے ہیں اور چینی، جاپاني، يا کو ريائي میں بول سکتے ہیں اور اس کے ساتھ ساتھ اسپیکر کی آواز کی خصوصیات کو محفوظ رکھ سکتے ہیں.

CorentinJ/Real-Time-Voice-Cloning GitHub پروجیکٹ (60K+ ستارے) SV2TTS کا استعمال کرتا ہے، ایک 2019 فن تعمیر. جبکہ اس وقت پر بنیاد رکھتے ہوئے، جدید ماڈل جیسے Chatterbox, CosyVoice 2, اور GPT-SoVITS بہتر اسپیکر مشابهت کے ساتھ اہم طور پر بہتر اوڈیو کیفیت پیدا کرتے ہیں. TTS.ai 9 ریاست-of-the-Art ماڈل چلتا ہے (VS SV2TTS کا ایک) اور کوئی GPU سیٹ اپ کی ضرورت نہیں ہے - صرف اپ لوڈ اور کلون.

ہاں۔ TTS.ai آواز کلوننگ کے ليے REST API مهيا کر تا هے ۔ حوالہ آ ڈیو اور متن اپ لوڈ کريں ، ماڈل منتخب کريں ، اور کلون ک ئے گئے بولنے کو حاصل کريں ۔ Python SDK (`pip install ttsai`) ، JavaScript SDK (`npm install @ttsainpm/ttsai`) ، يا براہ راست HTTP درخواستوں کے ليے دستياب۔ ایک ئي کلون کی گ ئے ہوئے آواز کے ليے كثرت سے تكليف کے ليے بٹ کلونينگ کو سپورٽ کر تا هے ۔

ہاں. کلوننگ کے بعد، آواز کو اپنے اکاؤنٹ میں محفوظ کریں اور اسے لامحدود نسلوں میں دوبارہ استعمال کریں بغیر اس کے کہ ریفرنس آڈیو کو دوبارہ اپ لوڈ کیا جائے۔ محفوظ کی گئی آوازیں آواز کلوننگ صفحے پر آپ کی آواز لائبریری میں نظر آئیں گی اور API کے ذریعے رسائی کی جاسکتی ہے۔

WAV, MP3, OGG, FLAC, اور WebM سب کو مدد دی جاتی ہے آپ اپنے براؤزر میں براہ راست ریکارڈ بھی کر سکتے ہیں اندرونی مائیکرو فون ریکارڈر کا استعمال کر کے. بہترین نتائج کے لیے، 16kHz یا اس سے زیادہ پر لوسلیس WAV فارمیٹ استعمال کریں. AI خودکار طور پر آڈیو کو پہلے پروسیسنگ کرتا ہے (ریسمپلنگ، شور فلٹرنگ) ان پٹ فارمیٹ سے بے پرواہ.

ماڈل کے مطابق وقت مختلف ہوتا ہے: اسپارک سب سے تیز 12 سيکنڈ پر، اوپن ويز 15 سيکنڈ پر، GPT-SoVITS 16 سيکنڈ پر، کوسي ويز 2 20 سيکنڈ پر، چاٹر باکس 21 سيکنڈ پر اور تيرٹويز 60 سيکنڈ پر۔ یہ وقت عام جملے کے طول کے متن کے ليے هے ۔ طويل متن تناسب کے ليے طويل لگتے هيں ۔

ہاں۔ TTS.ai پر تمام 9 کلوننگ ماڈل اوپن سورس لائسنس (MIT یا Apache 2.0) استعمال کرتے ہیں جو تجارتی استعمال کی اجازت دیتے ہیں۔ آپ یو ٹیوب ویڈیوز، پوڈکاسٹ، آڈیو بک، ایپس، گیمز، فون سسٹم اور کسی بھی دیگر تجارتی ایپلیکیشن میں کلونڈ آڈیو استعمال کرسکتے ہیں۔ بشرطیکہ آپ کو اس آواز کے ذريعے کے حقوق مل جائیں۔

ہاں. ہم چلائے جا رہے ہر ماڈل اوپن سورس اور GitHub/HuggingFace پر دستیاب ہے. آپ خود- مہمان Chatterbox, CosyVoice 2, GPT-SoVITS, OpenVoice, Spark, IndexTTS-2, GLM-TTS, Qwen3-TTS, or Tortoise کو اپنے GPU سرور پر رکھ سکتے ہیں. اکثر ماڈلز کو NVIDIA GPU کی ضرورت ہوتی ہے جس میں ماڈل کے مطابق 4-24GB VRAM ہوتا ہے. TTS.ai تمام بنیادی ڈھانچے کو ہینڈل کرتا ہے تاکہ آپ کو ایسا کرنے کی ضرورت نہ ہو.
5.0/5 (1)

ہم کیا بہتر کر سکتے ہیں؟ آپ کا رائے ہمیں مسائل حل کرنے میں مدد کرتا ہے.

ثانیوں میں کوئی آواز کلون کریں

9 اوپن سورس وائٹ کلونینگ ماڈل 5 سیکنڈ نمونے کوئی تربیت نہیں چاہیے اسے مفت آزمائیں -اپنا آڈیو اپ لوڈ کریں اور فوراً کلون سنیں