ٹیکس ٹو اسپیکینگ (TTS) کیا ہے؟

ٹیکٹس ٹو اسپیچ ایک ایسی ٹیکنالوجی ہے جو لکھی ہوئی تحریر کو مصنوعی ذہانت کے استعمال سے بولے ہوئے آڈیو میں تبدیل کرتی ہے۔ قدیم روبوٹک سینتھسائزرز سے آج کے نیورل نیٹ ورکس تک جن میں انسانوں سے ممتاز آواز نہیں ہوتی، ٹی ٹی ایس نے اس طرح تبدیل کر دیا ہے کہ ہم ٹیکنالوجی کے ساتھ کیسے تعامل کرتے ہیں، مواد استعمال کرتے ہیں، اور معلومات کو رسائی میں رکھتے ہیں۔

ٹکنالوجي تاریخ یہ کیسے کام کرتا ہے نيورل نیٹ ورکس ایوولیوشن

متن سے بوليں ميں اهم تصورات

جديد کلام سنيتھز کے بلک بيل کو سمجھنا

TTS کا مطلب کیا ہے

ٹی ٹی ایس کا مطلب ہے ٹیکسٹ-ٹو-سپیچ- یہ وہ ٹیکنالوجی ہے جو لکھی ہوئی تحریر کو کمپیوٹر سے بنائی ہوئی آوازوں کے استعمال سے بولی ہوئی آڈیو میں تبدیل کرتی ہے۔

نيورل TTS کيسا کام کرتا هے

جدید ٹی ٹی ایس متن کا تجزیہ کرنے کے لئے گہرے نیورل نیٹ ورکس کا استعمال کرتا ہے، بولنے کے نمونوں کی پیشنگوئی کرتا ہے، اور اوڈیو ویو فارمز پیدا کرتا ہے جو قابل ذکر طور پر انسانی آواز دیتے ہیں۔

لفظي ساختي تاريخ

1960 کے دہائی کے اصول پر مبنی نظام سے 1990 کے دہائی کے کنکٹیوٹیو سنتھیسز تک آج کے نیورل ماڈلز تک - TTS نے چھ دہائیوں میں کیسے ترقی کی۔

جديد AI ماڈل

آج کے ماڈل جیسے کوکورو، بارک، اور کوسی وائٹس 2 انسانی سطح کی بولنے کی کیفیت حاصل کرنے کے لئے ٹرانسفارمر، ڈفیشن، اور مختلف اندازوں کا استعمال کرتے ہیں۔

عام اطلاقیات

ٹی ٹی ایس اسکرین ریڈرز، جی پی ایس نیوگییشن، ورچوئل اسسٹنٹ، اوڈیو بک، کلائنٹ سروس بوتس، ای لرننگ پلیٹ فارم اور مواد کی تخلیق کو طاقت دیتا ہے۔

اوپن سورس مقابلہ تجارتی

اوپن سورس ماڈل (MIT، Apache 2.0) مفت، خود مہماندار TTS فراہم کرتے ہیں جبکہ تجارتی خدمات SLAs اور مدد کے ساتھ منیجڈ APIs فراہم کرتے ہیں۔

TTS.ai پر دستیاب TTS ماڈل

تیز اور ہلکے سے سٹوڈیو-کیفیت نیورل آوازوں

KokoroKokoro

Free

Lightweight 82M parameter model delivering studio-quality speech with blazing-fast inference.

Fast 5/5

بہترین: جديد جديد ماڈل — دکھاتا هے کہ نيورال TTS کتنا دور آ چکا هے

کوشش کریں Kokoro

BarkBark

Standard

Transformer-based text-to-audio model that generates realistic speech, music, and sound effects.

Slow 4/5

بہترین: ترينفورميشن پر مبنی ماڈل جو آواز کے علاوہ او ديو جينيرائشن کي نمائش کر تا هے

کوشش کریں Bark

CosyVoice 2CosyVoice 2

Standard

Alibaba's scalable streaming TTS with human-parity naturalness and near-zero latency.

Medium 5/5 آواز کا کلوننگ

بہترین: انسانی-پاریت کی کیفیت اور صفر-شٹ کلوننگ کے ساتھ TTS کی اسٹریمنگ

کوشش کریں CosyVoice 2

ChatterboxChatterbox

Premium

State-of-the-art zero-shot voice cloning with emotion control from Resemble AI.

Medium 5/5 آواز کا کلوننگ

بہترین: صفر-شٹ آواز کلوننگ آواز ساخت کی سرحد دکھاتا ہے

کوشش کریں Chatterbox

Tortoise TTSTortoise TTS

Premium

Multi-voice text-to-speech focused on quality with autoregressive architecture.

Slow 5/5 آواز کا کلوننگ

بہترین: خودکار واپسی فن تعمیر جس میں زیادہ سے زیادہ اوڈیو کی معیار کو ترجیح دی جاتی ہے

کوشش کریں Tortoise TTS

نيورل TTS کيسا کام کرتا هے

چار قدموں ميں جديد کلام سنتھسيز پائپ لائن

1

بنياد سمجھيں

TTS لکھا ہوا متن بولے گئے آڊيو ميں تبديل کر تا هے جديد نظام نيورل نيٹ ورکس کا استعمال کر تا هے جو انسان کے بولے ہوئے رپورٹنگ کے ہزاروں گھنٹوں پر تربيت پا تا هے

2

مختلف ماڈلز کا جائزہ لیں

ہر TTS ماڈل ایک مختلف فن تعمیر (ٹرانسمیٹر، ڈفیشن، ویرینٹل) استعمال کرتا ہے جس میں رفتار، معیار اور خصوصیات میں منفرد قوتیں ہیں۔

3

آپ خود کوشش کریں

TTS کو سمجھنے کا سب سے اچھا طریقہ اس کا استعمال کرنا ہے. اوپر ہمارے مفت ماڈل کو آزمائیں - کوئی بھی متن پسٹ کریں اور اسے سیکنڈوں میں بولا ہوا سنیں.

4

اپنے پروجیکٹ میں شامل کریں

ایک بار آپ کو ایک ماڈل مل جائے تو آپ اپنے ایپلیکیشنز، مصنوعات یا مواد کی تخلیق کے عمل میں ٹی ٹی ایس کو شامل کرنے کے لئے ہمارے API کا استعمال کر سکتے ہیں۔

ٹیکس سے اسپیکینگ کی مختصر تاریخ

نیورل نیٹ ورکس کے لئے میکانیک بات کرنے مشینوں سے

آغازی دن (1950-1980)

پہلی کمپیوٹر سے بنائی ہوئی تقریر 1961 میں آئی بی ایم کے وقت ہوئی تھی

قابل ذکر نظام: Votrax (1970s)، DECtalk (1984، Stephen Hawking کے ذريعے استعمال)، Apple

کنکاينٹیو سنٹيسيز (1990س-2000س)

کنکا نٹیو ٹی ٹی ایس ایک حقيقي انسان کي آواز کو ريکرڈ کر تا هے جو ہزاروں فونم کي جوڑوں کو بولتا هے ، پھر رن ٹائم پر صحيح سيگمنٹ کو مل کر بنا تا هے اس سے زیادہ فطري آواز کا اظہار ہوتا هے مگر اس کے ليے زبردست ڈیٹا بيس کا احتياج ھوتا هے (اکثرا ً ہر آواز کے ليے 10-20 گھنٹوں کے ريجيو کي ضرورت ھوتا هے).

استعمال: AT&T نیچرل وائٹس، نیوانس ویکلائزر، گوگل ٹرانزلیٹ TTS.

اعداد و شمار/پرامٹر (2000-2010)

ري کيو کي سٹيچينگ کے بدلے ، پارا م تري ماڈل بولنے کے تعدادي نما ن کي سيکھتے هيں Hidden Markov Models (HMMs) اور بعد ميں گہرے نيورل نيٹ ورکز بولنے کے ماڈل بناتے هيں (پچ ، مدت ، سپیکٹرل خاصيتیں) جو يک و کو ڈر کے ذریعے فڈ کيے جاتے هيں اس نے لا محدود لفظي ذخيرے اور آسان آواز سازي کي اجازت دي ، مگر و کو ڈر قدم اکثرا يک \

کلیدی ماڈل: HTS، Merlin، ابتدائی DNN-based systems.

نیورال TTS (2016-حال)

جدید دور کا آغاز WaveNet (DeepMind, 2016) سے ہوا، جس نے گہرے نیورل نیٹ ورکس کا استعمال کرکے نمونے کے مطابق آڈیو نمونے پیدا کئے۔ اس کے بعد Tacotron (Google, 2017) کا دور آیا، جس نے براہ راست متن کو سپیکٹروگرام میں تبدیل کرنا سیکھا۔ آج

اہم پیش رفت: ویو نیٹ، ٹیکوٹرون، فسٹ اسپیچ، وی ٹی ایس، بارک، کوکورو۔

جديد نيورل TTS کيسا کام کرتا هے

قدرتی آواز AI آوازوں کے پیچھے فن تعمیر

متن کا تجزیہ اور عام بننا

خام متن صاف اور عام کر دیا گیا ہے: اعداد لفظ بن جاتے ہیں (\

آکوسٹک ماڈل (تکلیف سے سپیکٹروگرام)

آوازي ماڈل ( اکثر اوقات يک ٹرنسفارمر يا خود ريگريشنل نيٹ ورڪ ) فونم کي ترتيب کو لے تا هے اور مل سپیکٹرو گرام کي پيش گوئي کر تا هے - آ ديو کي طرح کي بصري نما ن

ووکوڈر (سپیکٹروگرام سے آڈیو)

ووکوڈر مل سپیکٹروگرام کو حقيقي او ديو ويف فارم ميں تبديل کر تا هے گريفين-ليم کے طرح اول يي ووکوڈر روبوٹک آرٹ فیکٹس بناتے هيں جديد نيورل ووکوڈر (HiFi-GAN، BigVGAN، Vocos) اعلي ايمانداري 24kHz يا 44.1kHz او ديو پيدا کر تا هے جو فطري بولنے کے دقيق تفصيلات کي پکڑ کر تا هے ، جس ميں سانس کی آواز اور خفيه لپٹي حرکات شامل هے

انڈ-ٹو-اینڈ ماڈلز

جديد ماڈل جیسے VITS ، Kokoro ، اور Bark دو مرحلہ پيپ لائن کو پورے طور پر چھوڑ دیتے هے ۔ وہ براہ راست متن سے او ڊيو ميں جا تے هيں ایک واحد نيورل نيٹ ورک ميں ، کم آرٹ فیکٹس کے ساتھ زیادہ قدرتی نتيجے پيدا کر تے هيں ۔ بعض ماڈل (مثلاً Bark) غير زباني آوازیں ، ہنسی اور آواز کے ساتھ موسیقی بھی پيدا کر سکتے هيں ۔

TTS طريقے کا موازنہ

TTS ٹیکنالوجی کی چار نسلوں کا موازنہ کیسے کیا جاتا ہے

طريقہ زمانہ فطرت لنچبليٹی رفتار ڈیٹا ضروری ہے
فارمنٹ سنتھس
قاعدہ پر مبنی فریکوئنسی ماڈلنگ
1960s-1990s کوئی نہیں
کنکاٹنٹیو
سٹیٹچڈ اوڈیو سیکشنز
1990s-2010s 10-20+ گھنٹے
پارامیٹرک (HMM/DNN)
اعداد و شماري بولي ماڈل
2000s-2016 1-5 گھنٹے
نیورال انڈ-ٹو-اینڈ
گہرا لينگويج (VITS, Kokoro, Bark)
2016-حاضر منٹ سے گھنٹے

TTS کے عام استعمال

جس جگہ پر آج ٹیکس سے لفظ کا استعمال ہوتا ہے

رسائی

اسکرین ریڈر، مددگار آلات، اور بصری نقصان یا پڑھنے کی معذوریوں کے ساتھ لوگوں کے لئے ٹولز ہر کسی کے لئے ڈیجیٹل مواد کو رسائی کے لئے ٹی ٹی ایس پر انحصار کرتے ہیں۔

مواد کی تخلیق

یو ٹیوبرز، پوڈکاسٹرز، اور سوشل میڈیا کریٹرز، TTS کو وائٹ اوورز، نریشن، اور خودکار مواد کی پیداوار کے لئے استعمال کرتے ہیں۔

ورچوئل اسسٹنٹ

Siri، Alexa، Google Assistant، اور کلائنٹ سروس چیٹ بٹس سب TTS کا استعمال کرتے ہیں تاکہ صارفوں کو فطری طور پر جوابات سنائی جائیں۔

بار بار پوچھے گئے سوالات

متن سے لفظ تکنيک کے متعلق عام سوالات

TTS کا مطلب ہے Text-to-Speech. یہ اس ٹیکنالوجی کا حوالہ دیتا ہے جو لکھے ہوئے متن کو سننے والے بولے ہوئے لفظوں میں تبدیل کرتا ہے ، synthesized یا AI-جنرائڈ آوازوں کا استعمال کرتے ہوئے۔ یہ اصطلاح تکنیکی ادب میں "زبان کی ترکیب" کے ساتھ متبادل طور پر استعمال کی جاتی ہے ۔

جدید TTS سسٹم تین مرحلوں میں کام کرتے ہیں: متن کا تجزیہ (پارسنگ، نورمالائزیشن، فونیم تبدیل)، پروسوڈی پیشن گوئی (ریتمی، پیچ، تناؤ اور توقفوں کا تعین)، اور آڈیو سنتھز (حقیقی آواز کی ویو فارم پیدا کرنا) نیورل ماڈل تربیت کے ڈیٹا سے تمام تین مرحلے سیکھتے ہیں۔

کنکا نٹیو ٹی ٹی ایس پہلے سے ریکارڈ کئے گئے بولے کے ٹکڑے ایک ساتھ جوڑتا هے جو ٹرانسيشنز پر سست آواز نکال سکتے هيں نيورل ٹی ٹی ایس گہرے لينگويج کا استعمال کر کے صفر سے بولے کي پيدائش کر تا هے ، جو بھلے پروزو ڈي اور احساس کے ساتھ نرم ، زیادہ فطری آواز والا او ڊيو بنا تا هے

SSML (Speak Synthesis Markup Language) ایک XML پر مبنی مارک اپ زبان ہے جو آپ کو TTS سسٹم کے متن کا اظہار کس طرح کريں اس کا کنٹرول کر نے ديے گا آپ وقفے ، زور ، اظہار ، پيٹ کے تبديليوں اور آپ کے متن کے اندر SSML ٹائگلز کا استعمال کر کے بولنے کی شرح کو بيان کر سکتے هيں

ٹی ٹی ایس کو رسائی (سمجھنے میں مشکل استعمال کرنے والوں کے لئے اسکرین ریڈر)، ورچوئل اسسٹنٹ (سیری، الیکسا، گوگل اسسٹنٹ)، آڈیو بک پروڈکشن، ای لرننگ، جی پی ایس نیویگیشن، کلائنٹ سروس آئی وی آر سسٹم، مواد کی تخلیق، اور زبان سیکھنے کے ایپلیکیشنوں کے لئے استعمال کیا جاتا ہے۔

TTS 1960 کی دہائی میں روبوٹک قواعد پر مبنی نظام سے 1990 کی دہائی میں کنکٹینٹیو سنتھیسیز، 2000 کی دہائی میں اعداد و شماری پیرامیٹرک سنتھیسیز، 2016 میں ویو نیٹ کے ساتھ نیورل TTS، آج کے ٹرانسفارمر اور ڈفکشن ماڈلز تک بڑھ گیا جو انسانی سطح کی معیار حاصل کرتے ہیں۔

قدرتی آواز TTS کو صحیح prosody (ریتمی، دباؤ، انٹنیشن)، مناسب پیسینگ، فونیم کے درمیان نرم تبدیلی، اور مسلسل آواز شناخت کی ضرورت ہے۔ نیورال ماڈل یہ نمونے قدرتی انسانی بولنے کی ریکارڈنگ کے بڑے ڈیٹا سیٹوں سے سیکھتے ہیں۔

وائس کلوننگ ماڈل جیسے چیٹر باکس اور کوسی وائس 2 5-30 سیکنڈ کی ریفرنس آڈیو سے ایک مخصوص آواز کو نقل کر سکتے ہیں۔ کلون کی گئی آواز ٹمبر، لہجہ اور بولنے کے انداز کو پکڑتی ہے۔ اگرچہ اخلاقی اور قانونی خیالات دوسرے کی آوازوں کو کلون کرنے پر لاگو ہوتے ہیں۔

جدید TTS ماڈل 30+ زبانوں کو مجموعی طور پر مدد دیتے ہیں. کچھ ماڈل مخصوص زبانوں میں تخصص رکھتے ہیں جب کہ دوسرے متعدد زبانوں کے ہیں. انگریزی میں سب سے زیادہ دستیاب ماڈل اور آوازیں ہیں، لیکن چینی، جاپانی، کورین، اسپانیش، اور یورپی زبانیں اچھی طرح سے مدد دی جاتی ہیں.

TTS AI آواز جي جنري کي سب سيٹ هے TTS خاص طور پر متن کي ان پٹ کو بولي آ وٹ پٹ ميں تبديل کر تا هے AI آواز جي جنري ايک وسیع تر اصطلاح هے جس ميں آواز کي کلوننگ ، آواز کي تبديلي ، بولي سے بولي اور آواز کے اثر کي جنري شامل هے

یہ آپ کی ضرورتوں پر منحصر ہے. Kokoro عام استعمال کے ليے رفتار اور معيار کا سب سے اچھا موازنہ پيش کرتا هے. Chatterbox آواز کے کلوننگ ميں ليڈر هيں. Orpheus جذباتي اظہار ميں ممتاز هے. StyleTTS2 سب سے طبيعي واحد اسپيکر نريشن پيدا کر تا هے.

ہاں TTS.ai پر تمام ماڈل اوپن سورس ہیں اور خود مہمان کیے جا سکتے ہیں. پیپر جیسے صرف سي پي يو ماڈل کو کسی بھی کمپیوٹر پر چلانا پائے گا. کوکورو اور بارک جیسے جي پي يو ماڈل کو 2-8GB VRAM کے ساتھ اين وي ڈی ائے جي پي يو کا احتياج هے. ہمارا پليٽ فارم مہمان کیے گئے رسائي کو بھی فراہم کرتا هے تاکہ آپ کو بنیادی ڈھانچے کا انتظام کرنا پڑے
5.0/5 (1)

ہم کیا بہتر کر سکتے ہیں؟ آپ کا رائے ہمیں مسائل حل کرنے میں مدد کرتا ہے.

خود کو جدید TTS کا تجربہ دیں

20+ ریاست-of-the-Art AI آواز ماڈل مفت آزمائیں. دیکھیں کہ کتنا دور ٹیکس سے بولنے آیا ہے.