متن کان ڳالھائڻ (TTS) ڇا آھي؟

لفظن مان ڳالھائڻ اها ٽيڪنالاجي آھي جيڪا لکيل لفظن کي مصنوعي ذهانت استعمال ڪندي ڳالھايل آڊيو ۾ تبديل ڪري ٿي. ابتدائي روبوٽڪ سنٿسيٽرز کان اڄ تائين.

ٽيڪنالوجي تاريخ ڪيئن ڪم ڪري ٿو نيورل نيٽ ورڪ ايوليڪشن

متن کان ڳالھائڻ ۾ اهم تصورات

جديد ڳالهائڻ جي سنسڪرت جي ٺاھيندڙن کي سمجھڻ

TTS جو مطلب ڇا آهي؟

TTS جي معنيٰ Text-to-Speech آهي - اها ٽيڪنالاجي جيڪا لکيل متن کي ڪمپيوٽر ذريعي پيدا ڪيل آوازن جي استعمال سان ڳالهائيندڙ آڊيو ۾ تبديل ڪري ٿي.

نيورال TTS ڪيئن ڪم ڪري ٿو

جديد TTS ڊپٽي نيورل نيٽ ورڪ استعمال ڪري ٿو متن جو جائزو وٺڻ، ڳالهائڻ جي نمونن جو اندازو لڳائڻ، ۽ آڊيو ويڪيوم فارم پيدا ڪرڻ لاءِ جيڪي قابل ذڪر طور تي انساني آواز آهن.

ڳالھائڻ جي سنسڪرت جي تاريخ

1960ع واري ڏهاڪي کان 1990ع واري ڏهاڪي تائين ڳنڍيل سنسڪرت کان اڄ جي نيورل ماڊل تائين - TTS ڇهن ڏهاڪن ۾ ڪيئن ترقي ڪئي.

جديد AI ماڊل

اڄڪلهه جا ماڊل جهڙوڪ ڪوڪورو، بارڪ، ۽ ڪوسي واءِس 2 انسان جي سطح تي ڳالهائڻ جي معيار کي حاصل ڪرڻ لاءِ ٽرانسميٽرز، ڊفائيشن، ۽ مختلف نتيجن کي استعمال ڪندا آهن.

عام پروگرام

TTS اسڪرين پڙهندڙن، GPS نيٽ ورڪنگ، ورچوئل اسسٽنٽس، آڊيو ڪتابن، گراهڪ سروس بوتس، اي-لرننگ پليٽ فارمز، ۽ مواد جي پيدائش کي طاقت ڏئي ٿو.

اوپن سورس

اوپن سورس ماڊل (MIT، Apache 2.0) مفت، پاڻمرادو TTS مهيا ڪن ٿا جڏهن ته تجارتي خدمتون SLAs ۽ مدد سان منظم APIs مهيا ڪن ٿيون.

TTS.ai تي دستياب TTS ماڊل

تيز ۽ هلڪو کان وٺي اسٽوڊيو- معياري نيورال آوازن تائين

KokoroKokoro

Free

Lightweight 82M parameter model delivering studio-quality speech with blazing-fast inference.

Fast 5/5

ھن لاءِ بهترين: State-of-the-art ننڍڙو ماڊل — ڏيکاري ٿو ته نيورال TTS ڪيترو پري آيو آهي

ڪوشش ڪريو Kokoro

BarkBark

Standard

Transformer-based text-to-audio model that generates realistic speech, music, and sound effects.

Slow 4/5

ھن لاءِ بهترين: ٽرانسميٽر تي ٻڌل ماڊل جيڪو ڳالهائڻ کانسواءِ آڊيو پيدا ڪرڻ کي ڏيکاريندو آھي

ڪوشش ڪريو Bark

CosyVoice 2CosyVoice 2

Standard

Alibaba's scalable streaming TTS with human-parity naturalness and near-zero latency.

Medium 5/5 آواز جو کلون

ھن لاءِ بهترين: انسان جي برابري جي معيار ۽ صفر-شوٽ ڪلوننگ سان TTS جي اسٽريمنگ

ڪوشش ڪريو CosyVoice 2

ChatterboxChatterbox

Premium

State-of-the-art zero-shot voice cloning with emotion control from Resemble AI.

Medium 5/5 آواز جو کلون

ھن لاءِ بهترين: Zero-shot آواز جي کلوننگ آواز جي سنٿسيٽ جي حدن کي ڏيکاريندي

ڪوشش ڪريو Chatterbox

Tortoise TTSTortoise TTS

Premium

Multi-voice text-to-speech focused on quality with autoregressive architecture.

Slow 5/5 آواز جو کلون

ھن لاءِ بهترين: پاڻمرادو واپسي وارو فن تعمير وڌ کان وڌ آڊيو معيار کي ترجيح ڏئي ٿو

ڪوشش ڪريو Tortoise TTS

نيورال TTS ڪيئن ڪم ڪري ٿو

چار قدمن ۾ جديد ڳالهائڻ جي سنٿسيٽ پائپ لائن

1

بنيادن کي سمجھو

TTS لکيل متن کي ڳالهائيندڙ آڊيو ۾ تبديل ڪري ٿو. جديد سسٽم نيورل نيٽ ورڪ استعمال ڪري ٿو جيڪي انسان جي ڳالهائڻ جي رڪارڊنگ جي هزارين ڪلاڪن تي تربيت ڏنل آهن.

2

مختلف ماڊل ڳوليو

هر ٽي ٽي ايس ماڊل هڪ مختلف فن تعمير استعمال ڪري ٿو (ٽرانسميٽر، پکڙجڻ، تبديلي) رفتار، معيار ۽ خاصيتن ۾ منفرد قوتن سان.

3

پاڻ ڪوشش ڪريو

TTS کي سمجھڻ جو بهترين طريقو ان کي استعمال ڪرڻ آهي. مٿي ڏنل اسان جا مفت ماڊل آزمايو - ڪنهن به متن کي چٽيو ۽ ان کي سيڪنڊن ۾ ٻڌو.

4

پنھنجن منصوبن ۾ شامل ڪريو

جيڪڏھن توھان کي ھڪ ماڊل پسند اچي، اسان جي API استعمال ڪريو TTS کي توھان جي ايپليڪيشنن، مصنوعات، يا مواد جي پيدائش واري عمل ۾ شامل ڪرڻ لاءِ.

متن کان ڳالهائڻ جو مختصر تاريخ

ميخانياتي ڳالهائيندڙ مشينن کان نيورل نيٽ ورڪ تائين

شروعاتي ڏينهن (1950-1980)

پهريون ڪمپيوٽر-جڙيل ڳالهائڻ 1961ع ۾ ٿيو، جڏھن IBM

قابل ذڪر سسٽم: ويٽرڪس (1970ع)، ڊي سي ٽالڪ (1984ع، سٽيفن هاڪنگ استعمال ڪيو)، ايپل

ڳنڍيل سنٿس (1990s-2000s)

ڳنڍيل TTS هڪ سچي انسان جي آواز کي رڪارڊ ڪري ٿو جيڪو هزارين فونيمن جي گڏجاڻين کي ڳالهائيندو آهي، پوءِ رنٽائم تي صحيح حصن کي گڏ ڪري ٿو. ھن وڌيڪ قدرتي آواز واري ڳالھائي پيدا ڪئي پر وڏي ڊيٽابيس جي ضرورت هئي (گھڻا ڀيرا 10-20 ڪلاڪ رڪارڊنگ جي هر آواز لاءِ). معيار حصن جي وچ ۾ سادي گڏجاڻين کي ڳولڻ تي تمام گهڻو منحصر هو.

استعمال ٿيل: AT&T Natural Voices، Nuance Vocalizer، شروعاتي گوگل Translate TTS.

احصائي/پراميٽرڪ (2000-2010)

\ t\ t\ t\ t\ t\ t\ t\ t\ t\ t\ t\ t\ t\ t\ t\ t\ t\ t\ t\ t\ t\ t\ t\ t\ t\ t\ t\ t\ t\ t\ t\ t\ t\ t\ t\ t\ t\ t\ t\ t\ t\ t\ t\ t\ t\ t\ t\ t\ t\ t\ t\ t\ t\ t\ t\ t\ t\ t\ t\ t\ t\ t\ t\ t\ t\ t\ t\ t\ t\ t\ t

اهم ماڊل: HTS، Merlin، ابتدائي DNN-based سسٽم.

نيورال TTS (2016-ھاڻي)

جديد دور WaveNet (DeepMind, 2016) سان شروع ٿيو، جنهن ڊپ نيورل نيٽ ورڪ استعمال ڪندي نموني جي نموني سان آڊيو نمونو پيدا ڪيو. ان جي پٺيان Tacotron (Google, 2017) آيو، جنهن متن کي سڌو سنئون اسپيڪٽروگرامن تي نقشو ڪرڻ سکيو. اڄ

اهم ڪاميابيون: WaveNet، Tacotron، FastSpeech، VITS، Bark، Kokoro.

جديد نيورال TTS ڪيئن ڪم ڪري ٿو

مصنوعي ذهانت جي آوازن جي پويان ٺهيل

متن جو جائزو وٺڻ ۽ عام ڪرڻ

خام متن صاف ڪيو ويو ۽ عام ڪيو ويو: نمبرن کي لفظن ۾ تبديل ڪيو ويو (\

آوازي ماڊل (سپيڪتروگرام ۾ متن)

آوازي ماڊل (عام طور تي هڪ ٽرانسميٽر يا خودڪار واپسي وارو نيٽ ورڪ) فونيم جي سلسلي کي وٺي ٿو ۽ هڪ مل اسپيڪٽروگرام جو اندازو لڳائي ٿو - هڪ بصري نمائندگي ته آواز ڪيئن اچي ٿو.

وڪوڊر (سپيڪتروگرام کان آڊيو)

وڪوڊر مل اسپيڪٽروگرام کي حقيقي آڊيو ليڊ فارم ۾ تبديل ڪري ٿو. شروعاتي وڪوڊر جهڙوڪ Griffin-Lim روبوٽڪ آرٽيڪٽس ٺاهيندا هئا. جديد نيورال وڪوڊر (HiFi-GAN, BigVGAN, Vocos) اعليٰ درجي جا 24kHz يا 44.1kHz آڊيو پيدا ڪندا آهن جيڪي قدرتي ڳالهائڻ جي تفصيلن کي پڪڙيندا آهن، بشمول ساهه جون آوازون ۽ لپ جي نازڪ حرڪتون.

آخر کان آخر ماڊل

نئون ماڊل جهڙوڪ VITS، Kokoro، ۽ Bark ٻن مرحلن جي پائيپ لائن کي مڪمل طور تي ڇڏي ڏين ٿا. اهي هڪ نئورل نيٽ ورڪ ۾ متن کان آڊيو تائين سڌو وڃن ٿا، وڌيڪ قدرتي نتيجا گهٽ آرٽيڪٽس سان پيدا ڪن ٿا. ڪي ماڊل (جيئن Bark) نه ڳالهائيندڙ آواز به پيدا ڪري سگھن ٿا، کل، ۽ آواز سان گڏوگڏ موسيقي.

TTS طريقن جو مقابلو

TTS ٽيڪنالاجي جي چار نسلن جو مقابلو ڪيئن ڪجي

ويجھو دور فطرت لچڪ رفتار ڊيٽا گھرجي
فارمنٽ سنٿس
قواعد تي ٻڌل فريڪوئنسي ماڊلنگ
1960s-1990s ڪو نه
ڳنڍيل
ڳنڍيل آڊيو حصا
1990s-2010s ڪلاڪ
پيراميٽرڪ (HMM/DNN)
شمارياتي ڳالهائڻ جا ماڊل
2000s-2016 ڪلاڪ
نيورال انڊ-ٽو-انڊ
ڊيپ لرننگ (VITS, Kokoro, Bark)
2016-حاضر منٽن کي ڪلاڪن ۾

TTS جا عام استعمال

جتي متن کي ڳالھائڻ لاءِ اڄ استعمال ڪيو وڃي ٿو

رسائي

اسڪرين پڙهندڙ، مددگار ڊوائيسز، ۽ بصري نقصان يا پڙهڻ جي بيمارين وارن ماڻهن لاءِ اوزار TTS تي ڀروسو ڪن ٿا ته جيئن ڊجيٽل مواد سڀني لاءِ رسائي وارو بڻجي.

مواد جو ٺاھڻ

يوٽيوبرز، پوڊڪاسٽرز ۽ سماجي ميڊيا ٺاهيندڙ TTS کي وڊيوز، ڪهاڻين ۽ خودڪار مواد جي پيداوار لاءِ استعمال ڪندا آهن.

ورچوئل مددگار

Siri، Alexa، گوگل اسسٽنٽ، ۽ گراهڪ سروس چيٽ بوٽس سڀ TTS استعمال ڪن ٿا صارفين کي طبعي جوابن کي ڳالهائڻ لاءِ.

گھڻا پڇيا ويندا سوال

متن کان ڳالھائڻ واري ٽيڪنالاجيءَ بابت عام سوال

TTS جي معنيٰ Text-to-Speech آهي. اهو ان ٽيڪنالاجيءَ کي اشارو ڪري ٿو جيڪا لکيل متن کي ٻڌل ڳالهائيندڙ لفظن ۾ تبديل ڪري ٿي سنٿسائيزڊ يا AI-جڙيل آوازن جي استعمال سان. اها اصطلاح ٽيڪنالاجيءَ جي ادب ۾ "زبان جي سنٿسائيزيشن" سان متبادل طور استعمال ڪئي ويندي آهي.

جديد TTS سسٽم ٽين مرحلن ۾ ڪم ڪن ٿا: متن جو تجزيو (پارسنگ، نورمالائزيشن، فونيم تبديلي)، پروسوڊي اڳڪٿي (ريتم، پيچ، تنش ۽ وقفن جو اندازو لڳائڻ)، ۽ آڊيو سنٿس (حقيقي آواز جي ويڪرو شڪل پيدا ڪرڻ). نيورل ماڊل سڀئي ٽي مرحلا تربيت واري ڊيٽا مان سکندا آهن.

ڳنڍيل TTS اڳ ۾ رڪارڊ ڪيل ڳالهائڻ جي ٽڪرن کي گڏ ڪري ٿو، جيڪي تبديلين ۾ ڦاٽل ٿي سگھن ٿا. نيورال TTS ڳنڍيل TTS ڳنڍيل TTS ڳنڍيل TTS ڳنڍيل TTS ڳنڍيل TTS

SSML (Speech Synthesis Markup Language) ھڪ XML تي ٻڌل مارڪ اپ ٻولي آھي جيڪا توھان کي ڪنٽرول ڪرڻ جي اجازت ڏئي ٿي ته TTS سسٽم ڪھڙو متن پڙھندو آھي. توھان وقفا، زور، پڙھڻ، پيچ تبديليون، ۽ پڙھڻ جي شرح توھان جي متن جي داخلا ۾ SSML ٽيگ استعمال ڪندي بيان ڪري سگھو ٿا.

TTS کي رسائي لاءِ استعمال ڪيو ويندو آهي (بصري نقصان وارن استعمال ڪندڙن لاءِ اسڪرين پڙهندڙ)، ورچوئل اسسٽنٽس (Siri، Alexa، Google Assistant)، آڊيو بڪ پيداوار، اي-لرننگ، GPS نيويگيشن، گراهڪ سروس IVR سسٽم، مواد ٺاهڻ، ۽ ٻولي سکڻ جي ايپليڪيشنن لاءِ.

TTS 1960 جي ڏهاڪي ۾ روبوٽڪ قاعدن تي ٻڌل سسٽم کان 1990 جي ڏهاڪي ۾ concatenative synthesis تائين، 2000 جي ڏهاڪي ۾ احصائي Parametric synthesis تائين، 2016 ۾ WaveNet سان نيورال TTS تائين، اڄ جي ٽرانسميٽر ۽ پکڙجڻ واري ماڊل تائين ترقي ڪئي جيڪا انساني سطح جي معيار کي حاصل ڪري ٿي.

قدرتي آواز TTS صحيح prosody (ريتم، زور، intonation) جي ضرورت آهي، مناسب pacing، فونيمن جي وچ ۾ نرم منتقلي، ۽ مسلسل آواز جي شناخت. نيورل ماڊل هنن نمونن کي وڏين ڊيٽا سيٽن جي طبعي انساني ڳالهائڻ جي رڪارڊنگ کان سکي.

آوازن جي کلوننگ جا ماڊل جهڙوڪ چاٽر باڪس ۽ ڪوسي واءِس 2 5-30 سيڪنڊن جي ريفرنس آڊيو کان مخصوص آوازن جو نقل ڪري سگھن ٿا. ڪلون ٿيل آواز تيمبر، ڌڪ ۽ ڳالهائڻ جي انداز کي پڪڙي ٿو، جيتوڻيڪ اخلاقي ۽ قانوني خيال ٻين جي آوازن جي کلوننگ تي لاڳو ٿين ٿا.

جديد TTS ماڊل گڏيل طور تي 30 کان وڌيڪ ٻولين کي سپورٽ ڪن ٿا. ڪي ماڊل مخصوص ٻولين ۾ ماهر آهن جڏهن ته ٻيا ڪيترن ئي ٻولين وارا آهن. انگريزي ۾ سڀ کان وڌيڪ موجود ماڊل ۽ آواز آهن، پر چيني، جاپاني، ڪورين، اسپينش، ۽ يورپي ٻوليون سٺي طرح سپورٽ ڪيون ويون آهن.

TTS AI آواز پيدا ڪرڻ جو هڪ ڀاڱو آھي. TTS خاص طور تي متن جي داخلا کي ڳالهائڻ جي خروجي ۾ تبديل ڪندو آھي. AI آواز پيدا ڪرڻ هڪ وسيع اصطلاح آھي جنھن ۾ آواز جي کلوننگ، آواز جي تبديلي، ڳالهائڻ کان ڳالهائڻ، ۽ آواز جي اثر پيدا ڪرڻ به شامل آھي.

اھو توھان جي ضرورتن تي منحصر آھي. ڪوڪورو عام استعمال لاءِ رفتار ۽ معيار جو تمام سٺو متوازن پيش ڪري ٿو. چاٽربڪس آواز جي کلوننگ ۾ اڳواڻ آھي. اورفيوس جذباتي اظهار ۾ تمام سٺو آھي. StyleTTS 2 سڀ کان وڌيڪ قدرتي ھڪڙي ڳالھائيندڙ جو بيان پيدا ڪري ٿو. سڀني استعمال جي صورتن لاءِ ڪوبه "سٺو" ماڊل ڪونھي.

ها. TTS.ai تي سڀ ماڊل مفت آهن ۽ پاڻمرادو ميزبان ٿي سگهن ٿا. صرف سي پي يو ماڊل جهڙوڪ پيپر ڪنهن به ڪمپيوٽر تي هلندا آهن. GPU ماڊل جهڙوڪ ڪوڪورو ۽ بارڪ کي 2-8GB VRAM سان NVIDIA GPU جي ضرورت آهي. اسان جو پليٽ فارم پڻ ميزبان رسائي فراهم ڪري ٿو تنهنڪري توهان کي زير بنا جو انتظام ڪرڻ جي ضرورت ناهي.
5.0/5 (1)

پاڻ وٽ جديد TTS جو تجربو ڪريو

24+ state-of-the-art AI آواز جا ماڊل مفت ۾ آزمايو. ڏسو ته متن کان ڳالهائڻ ڪيترو پري آيو آهي.