متن کان ڳالھائڻ (TTS) ڇا آھي؟
لفظن مان ڳالھائڻ اها ٽيڪنالاجي آھي جيڪا لکيل لفظن کي مصنوعي ذهانت استعمال ڪندي ڳالھايل آڊيو ۾ تبديل ڪري ٿي. ابتدائي روبوٽڪ سنٿسيٽرز کان اڄ تائين.
متن کان ڳالھائڻ ۾ اهم تصورات
جديد ڳالهائڻ جي سنسڪرت جي ٺاھيندڙن کي سمجھڻ
TTS جو مطلب ڇا آهي؟
TTS جي معنيٰ Text-to-Speech آهي - اها ٽيڪنالاجي جيڪا لکيل متن کي ڪمپيوٽر ذريعي پيدا ڪيل آوازن جي استعمال سان ڳالهائيندڙ آڊيو ۾ تبديل ڪري ٿي.
نيورال TTS ڪيئن ڪم ڪري ٿو
جديد TTS ڊپٽي نيورل نيٽ ورڪ استعمال ڪري ٿو متن جو جائزو وٺڻ، ڳالهائڻ جي نمونن جو اندازو لڳائڻ، ۽ آڊيو ويڪيوم فارم پيدا ڪرڻ لاءِ جيڪي قابل ذڪر طور تي انساني آواز آهن.
ڳالھائڻ جي سنسڪرت جي تاريخ
1960ع واري ڏهاڪي کان 1990ع واري ڏهاڪي تائين ڳنڍيل سنسڪرت کان اڄ جي نيورل ماڊل تائين - TTS ڇهن ڏهاڪن ۾ ڪيئن ترقي ڪئي.
جديد AI ماڊل
اڄڪلهه جا ماڊل جهڙوڪ ڪوڪورو، بارڪ، ۽ ڪوسي واءِس 2 انسان جي سطح تي ڳالهائڻ جي معيار کي حاصل ڪرڻ لاءِ ٽرانسميٽرز، ڊفائيشن، ۽ مختلف نتيجن کي استعمال ڪندا آهن.
عام پروگرام
TTS اسڪرين پڙهندڙن، GPS نيٽ ورڪنگ، ورچوئل اسسٽنٽس، آڊيو ڪتابن، گراهڪ سروس بوتس، اي-لرننگ پليٽ فارمز، ۽ مواد جي پيدائش کي طاقت ڏئي ٿو.
اوپن سورس
اوپن سورس ماڊل (MIT، Apache 2.0) مفت، پاڻمرادو TTS مهيا ڪن ٿا جڏهن ته تجارتي خدمتون SLAs ۽ مدد سان منظم APIs مهيا ڪن ٿيون.
TTS.ai تي دستياب TTS ماڊل
تيز ۽ هلڪو کان وٺي اسٽوڊيو- معياري نيورال آوازن تائين
Kokoro
Free
Lightweight 82M parameter model delivering studio-quality speech with blazing-fast inference.
ھن لاءِ بهترين: State-of-the-art ننڍڙو ماڊل — ڏيکاري ٿو ته نيورال TTS ڪيترو پري آيو آهي
ڪوشش ڪريو Kokoro
Bark
Standard
Transformer-based text-to-audio model that generates realistic speech, music, and sound effects.
ھن لاءِ بهترين: ٽرانسميٽر تي ٻڌل ماڊل جيڪو ڳالهائڻ کانسواءِ آڊيو پيدا ڪرڻ کي ڏيکاريندو آھي
ڪوشش ڪريو Bark
CosyVoice 2
Standard
Alibaba's scalable streaming TTS with human-parity naturalness and near-zero latency.
ھن لاءِ بهترين: انسان جي برابري جي معيار ۽ صفر-شوٽ ڪلوننگ سان TTS جي اسٽريمنگ
ڪوشش ڪريو CosyVoice 2
Chatterbox
Premium
State-of-the-art zero-shot voice cloning with emotion control from Resemble AI.
ھن لاءِ بهترين: Zero-shot آواز جي کلوننگ آواز جي سنٿسيٽ جي حدن کي ڏيکاريندي
ڪوشش ڪريو Chatterbox
Tortoise TTS
Premium
Multi-voice text-to-speech focused on quality with autoregressive architecture.
ھن لاءِ بهترين: پاڻمرادو واپسي وارو فن تعمير وڌ کان وڌ آڊيو معيار کي ترجيح ڏئي ٿو
ڪوشش ڪريو Tortoise TTSنيورال TTS ڪيئن ڪم ڪري ٿو
چار قدمن ۾ جديد ڳالهائڻ جي سنٿسيٽ پائپ لائن
بنيادن کي سمجھو
TTS لکيل متن کي ڳالهائيندڙ آڊيو ۾ تبديل ڪري ٿو. جديد سسٽم نيورل نيٽ ورڪ استعمال ڪري ٿو جيڪي انسان جي ڳالهائڻ جي رڪارڊنگ جي هزارين ڪلاڪن تي تربيت ڏنل آهن.
مختلف ماڊل ڳوليو
هر ٽي ٽي ايس ماڊل هڪ مختلف فن تعمير استعمال ڪري ٿو (ٽرانسميٽر، پکڙجڻ، تبديلي) رفتار، معيار ۽ خاصيتن ۾ منفرد قوتن سان.
پاڻ ڪوشش ڪريو
TTS کي سمجھڻ جو بهترين طريقو ان کي استعمال ڪرڻ آهي. مٿي ڏنل اسان جا مفت ماڊل آزمايو - ڪنهن به متن کي چٽيو ۽ ان کي سيڪنڊن ۾ ٻڌو.
پنھنجن منصوبن ۾ شامل ڪريو
جيڪڏھن توھان کي ھڪ ماڊل پسند اچي، اسان جي API استعمال ڪريو TTS کي توھان جي ايپليڪيشنن، مصنوعات، يا مواد جي پيدائش واري عمل ۾ شامل ڪرڻ لاءِ.
متن کان ڳالهائڻ جو مختصر تاريخ
ميخانياتي ڳالهائيندڙ مشينن کان نيورل نيٽ ورڪ تائين
شروعاتي ڏينهن (1950-1980)
پهريون ڪمپيوٽر-جڙيل ڳالهائڻ 1961ع ۾ ٿيو، جڏھن IBM
قابل ذڪر سسٽم: ويٽرڪس (1970ع)، ڊي سي ٽالڪ (1984ع، سٽيفن هاڪنگ استعمال ڪيو)، ايپل
ڳنڍيل سنٿس (1990s-2000s)
ڳنڍيل TTS هڪ سچي انسان جي آواز کي رڪارڊ ڪري ٿو جيڪو هزارين فونيمن جي گڏجاڻين کي ڳالهائيندو آهي، پوءِ رنٽائم تي صحيح حصن کي گڏ ڪري ٿو. ھن وڌيڪ قدرتي آواز واري ڳالھائي پيدا ڪئي پر وڏي ڊيٽابيس جي ضرورت هئي (گھڻا ڀيرا 10-20 ڪلاڪ رڪارڊنگ جي هر آواز لاءِ). معيار حصن جي وچ ۾ سادي گڏجاڻين کي ڳولڻ تي تمام گهڻو منحصر هو.
استعمال ٿيل: AT&T Natural Voices، Nuance Vocalizer، شروعاتي گوگل Translate TTS.
احصائي/پراميٽرڪ (2000-2010)
\ t\ t\ t\ t\ t\ t\ t\ t\ t\ t\ t\ t\ t\ t\ t\ t\ t\ t\ t\ t\ t\ t\ t\ t\ t\ t\ t\ t\ t\ t\ t\ t\ t\ t\ t\ t\ t\ t\ t\ t\ t\ t\ t\ t\ t\ t\ t\ t\ t\ t\ t\ t\ t\ t\ t\ t\ t\ t\ t\ t\ t\ t\ t\ t\ t\ t\ t\ t\ t\ t\ t
اهم ماڊل: HTS، Merlin، ابتدائي DNN-based سسٽم.
نيورال TTS (2016-ھاڻي)
جديد دور WaveNet (DeepMind, 2016) سان شروع ٿيو، جنهن ڊپ نيورل نيٽ ورڪ استعمال ڪندي نموني جي نموني سان آڊيو نمونو پيدا ڪيو. ان جي پٺيان Tacotron (Google, 2017) آيو، جنهن متن کي سڌو سنئون اسپيڪٽروگرامن تي نقشو ڪرڻ سکيو. اڄ
اهم ڪاميابيون: WaveNet، Tacotron، FastSpeech، VITS، Bark، Kokoro.
جديد نيورال TTS ڪيئن ڪم ڪري ٿو
مصنوعي ذهانت جي آوازن جي پويان ٺهيل
متن جو جائزو وٺڻ ۽ عام ڪرڻ
خام متن صاف ڪيو ويو ۽ عام ڪيو ويو: نمبرن کي لفظن ۾ تبديل ڪيو ويو (\
آوازي ماڊل (سپيڪتروگرام ۾ متن)
آوازي ماڊل (عام طور تي هڪ ٽرانسميٽر يا خودڪار واپسي وارو نيٽ ورڪ) فونيم جي سلسلي کي وٺي ٿو ۽ هڪ مل اسپيڪٽروگرام جو اندازو لڳائي ٿو - هڪ بصري نمائندگي ته آواز ڪيئن اچي ٿو.
وڪوڊر (سپيڪتروگرام کان آڊيو)
وڪوڊر مل اسپيڪٽروگرام کي حقيقي آڊيو ليڊ فارم ۾ تبديل ڪري ٿو. شروعاتي وڪوڊر جهڙوڪ Griffin-Lim روبوٽڪ آرٽيڪٽس ٺاهيندا هئا. جديد نيورال وڪوڊر (HiFi-GAN, BigVGAN, Vocos) اعليٰ درجي جا 24kHz يا 44.1kHz آڊيو پيدا ڪندا آهن جيڪي قدرتي ڳالهائڻ جي تفصيلن کي پڪڙيندا آهن، بشمول ساهه جون آوازون ۽ لپ جي نازڪ حرڪتون.
آخر کان آخر ماڊل
نئون ماڊل جهڙوڪ VITS، Kokoro، ۽ Bark ٻن مرحلن جي پائيپ لائن کي مڪمل طور تي ڇڏي ڏين ٿا. اهي هڪ نئورل نيٽ ورڪ ۾ متن کان آڊيو تائين سڌو وڃن ٿا، وڌيڪ قدرتي نتيجا گهٽ آرٽيڪٽس سان پيدا ڪن ٿا. ڪي ماڊل (جيئن Bark) نه ڳالهائيندڙ آواز به پيدا ڪري سگھن ٿا، کل، ۽ آواز سان گڏوگڏ موسيقي.
TTS طريقن جو مقابلو
TTS ٽيڪنالاجي جي چار نسلن جو مقابلو ڪيئن ڪجي
| ويجھو | دور | فطرت | لچڪ | رفتار | ڊيٽا گھرجي |
|---|---|---|---|---|---|
| فارمنٽ سنٿس قواعد تي ٻڌل فريڪوئنسي ماڊلنگ |
1960s-1990s | ڪو نه | |||
| ڳنڍيل ڳنڍيل آڊيو حصا |
1990s-2010s | ڪلاڪ | |||
| پيراميٽرڪ (HMM/DNN) شمارياتي ڳالهائڻ جا ماڊل |
2000s-2016 | ڪلاڪ | |||
| نيورال انڊ-ٽو-انڊ ڊيپ لرننگ (VITS, Kokoro, Bark) |
2016-حاضر | منٽن کي ڪلاڪن ۾ |
TTS جا عام استعمال
جتي متن کي ڳالھائڻ لاءِ اڄ استعمال ڪيو وڃي ٿو
رسائي
اسڪرين پڙهندڙ، مددگار ڊوائيسز، ۽ بصري نقصان يا پڙهڻ جي بيمارين وارن ماڻهن لاءِ اوزار TTS تي ڀروسو ڪن ٿا ته جيئن ڊجيٽل مواد سڀني لاءِ رسائي وارو بڻجي.
مواد جو ٺاھڻ
يوٽيوبرز، پوڊڪاسٽرز ۽ سماجي ميڊيا ٺاهيندڙ TTS کي وڊيوز، ڪهاڻين ۽ خودڪار مواد جي پيداوار لاءِ استعمال ڪندا آهن.
ورچوئل مددگار
Siri، Alexa، گوگل اسسٽنٽ، ۽ گراهڪ سروس چيٽ بوٽس سڀ TTS استعمال ڪن ٿا صارفين کي طبعي جوابن کي ڳالهائڻ لاءِ.
گھڻا پڇيا ويندا سوال
متن کان ڳالھائڻ واري ٽيڪنالاجيءَ بابت عام سوال
پاڻ وٽ جديد TTS جو تجربو ڪريو
24+ state-of-the-art AI آواز جا ماڊل مفت ۾ آزمايو. ڏسو ته متن کان ڳالهائڻ ڪيترو پري آيو آهي.