نوسراو بۆ قسەکردن چیە؟
نوسراو بۆ قسەکردن تەکنەلۆجیایەکە کە نوسراوەکان دەگۆڕێت بۆ دەنگ بە بەکارهێنانی زیرەکی دروستکراو. لە سەرەتای سینتێزەرە ڕۆبۆتیکەکانەوە بۆ ئەمڕۆ
چەمکەکانی سەرەکی لە نوسین بۆ قسەکردن
تێگەیشتن لە بنچینەکانی کۆکردنەوەی قسەی مۆدێرن
TTS مانای چیە
TTS بریتییە لە نوسراو بۆ قسەکردن - تەکنەلۆژیاکە کە نوسراوەکان دەگۆڕێت بۆ دەنگی قسەکردن بە بەکارهێنانی دەنگی دروستکراوی کۆمپیتەر.
چۆنیەتی کارکردنی TTSی مێشک
TTSـی مۆدێرن تۆڕی دەماری قووڵ بەکاردەهێنێت بۆ شیکردنەوەی نوسراو، پێشبینی شێوەی قسەکردن، و دروستکردنی شەپۆلی دەنگ کە بە شێوەیەکی سەرنجڕاکێش دەنگی مرۆڤە.
مێژووی تێکەڵکردنی قسەکردن
لە سیستمەکانی 1960 لەسەر بنەمای یاساکان بۆ ساڵی 1990 پێکهاتەی گرێدراو بۆ مۆدێلی دەمارەکانی ئەمڕۆ - چۆن TTS گەشەی کرد لە ماوەی شەش دەیەی رابردوودا.
مۆدێلی نوێی AI
مۆدێلەکانی ئەمڕۆ وەک کۆکۆرۆ، بارک، و کۆسی ڤۆیس ٢ بەکارهێنەران بەکاردەهێنن، بڵاوکردنەوە، و لێکدانەوەی جیاواز بۆ بەدەستهێنانی ئاستی بەرزی گوفتاری مرۆڤ.
_پێناسە:
TTS توانای خوێندنەوەی ڕوونما، گەڕانی جی پی ئێس، یارمەتیدەری ڕاستی، کتێبی دەنگیی، خزمەتگوزاری خزمەتگوزاری، پلاتفۆرمی فێربوونی ئەلیکترۆنی، و دروستکردنی ناوەڕۆک دەدات.
سەرچاوەی کراوە بەرامبەر بازرگانی
مۆدێلی سەرچاوەی کراوە (MIT, Apache 2.0) خزمەتگوزاری ئازاد، خۆبەخشانەی TTS پێشکەش دەکات لەکاتێکدا خزمەتگوزاری بازرگانی خزمەتگوزاری بەڕێوەبردنی API بە SLA و پشتگیری پێشکەش دەکات.
مۆدێلی TTS لە TTS.ai
لە خێرا و سبەینێ بۆ دەنگەکانی دەمارەکانی ستادیۆ
Kokoro
Free
Lightweight 82M parameter model delivering studio-quality speech with blazing-fast inference.
باشترین بۆ: مۆدێلێکی بچوک لە ئاستێکی بەرزدا نیشان دەدات کە تا چەند دەماری TTS بەرەو پێش چووە
هەوڵبدە Kokoro
Bark
Standard
Transformer-based text-to-audio model that generates realistic speech, music, and sound effects.
باشترین بۆ: مۆدێلی پشت بەستن بە گۆڕێنەر کە بەرهەمهێنانی دەنگ نیشان دەدات جگە لە قسەکردن
هەوڵبدە Bark
CosyVoice 2
Standard
Alibaba's scalable streaming TTS with human-parity naturalness and near-zero latency.
باشترین بۆ: ڕەوانەکردنی TTS بە بایەخی هاوشێوەی مرۆڤ و دووبارە دروستکردنەوە
هەوڵبدە CosyVoice 2
Chatterbox
Premium
State-of-the-art zero-shot voice cloning with emotion control from Resemble AI.
باشترین بۆ: دووبارە دروستکردنی دەنگی بێ وێنە کە سنووری پێکهاتەی دەنگی نیشان دەدات
هەوڵبدە Chatterbox
Tortoise TTS
Premium
Multi-voice text-to-speech focused on quality with autoregressive architecture.
باشترین بۆ: ئاڵوگۆڕی خۆکارانەی ئاڵوگۆڕی خۆکارانەی بایەخی زۆرترین بایەخی دەنگ
هەوڵبدە Tortoise TTSچۆنیەتی کارکردنی TTSی مێشک
چوار قۆناغ بۆ پێناسەکردنی گفتوگۆ
بنەماکان فێرببە
TTS نوسراوەکان دەگۆڕێت بۆ دەنگی قسەکردن. سیستەمە نوێیەکان تۆڕی دەماری بەکاردەهێنن کە لە هەزاران کاتژمێر تۆمارکردنی قسەی مرۆڤ فێرکراون.
مۆدێلی جیاواز تاقی بکەەوە
هەر مۆدێلێکی TTS شێوازی دروستکردنی جیاواز بەکاردەهێنێت (گۆڕانکاری، بڵاوبوونەوە، گۆڕانکاری) لەگەڵ هێزی تایبەت لە خێرایی، باڵادەستی، و تایبەتمەندییەکان.
خۆت تاقی بکەەوە
باشترین ڕێگا بۆ تێگەیشتن لە TTS بەکارهێنانیە. نمونەکانی خۆمان تاقی بکەنەوە لە سەرەوە - هەر نوسراوێک دابنێ و لە چەند چرکەیەکدا گوێی لێبگرە.
پڕۆژەکەت پێک بهێنە
کاتێک مۆدێلێک دۆزییەوە کە حەزت لێیە، ئەپی ئێمە بەکاربهێنە بۆ بەستنەوەی TTS بۆ ئەپلیکەیشنەکانت، بەرهەمەکانت، یان دروستکردنی ناوەڕۆک.
مێژوویەکی کورت لە نووسین بۆ قسەکردن
لە ئامێرە قسەکەرەکانی میکانیکیەوە بۆ تۆڕی دەماری
ڕۆژانی سەرەتا (١٩٥٠-١٩٨٠)
یەکەم قسەی دروستکراو لەلایەن کۆمپیتەرەوە دەگەڕێتەوە بۆ ساڵی 1961 ، کاتێک IBM
سیستەمە بەناوبانگەکان: ڤۆتڕاکس (١٩٧٠)، دی ئێک تۆڵک (١٩٨٤، لەلایەن ستیفەن هاوکینگەوە بەکارهاتووە)، ئەپڵ
کۆنتاکتیڤ سینتێز (١٩٩٠-٢٠٠٠)
کۆنتێناتیڤ تی تی ئێس دەنگێکی ڕاستەقینەی مرۆڤ تۆمار دەکات کە هەزاران پێکهاتەی دەنگ دەدوێت، پاشان بەشەکانی ڕاست پێکەوە دەبەستێتەوە لە کاتی جێبەجێکردندا. ئەمە دەنگێکی زیاتری سروشتی بەرهەمدەهێنێت بەڵام پێویستی بە بنکەی زانیاری گەورە هەیە (زۆرجار ١٠-٢٠ کاتژمێر تۆمارکردن بۆ هەر دەنگێک). بایەخی زۆر بەستراوەتەوە بە دۆزینەوەی پێکەوە بەستنەوەی ئاسان لە نێوان بەشەکاندا.
بەکارهاتووە لە لایەن: AT&T Natural Voices, Nuance Vocalizer, Google Translate TTS.
ئامار/پێرامێتری (٢٠٠٠-٢٠١٠)
لە جیاتی تۆمارکردنی تۆمارەکان، مۆدێلەکانی پارامەتری فێربوون نیشاندانی ستانداردی قسەکردن. مۆدێلی مارکۆفە نهێنیەکان (HMMs) و دواتر شەبکە دەمارییەکانی قووڵ پارامەترەکانی قسەکردن بەرهەمدەهێنن (پیچ، درێژی، تایبەتمەندییەکانی شەپۆل) کە لەڕێگەی ڤۆکۆدەرەوە دەبەخشرێن. ئەمە ڕێگە دەدات بە وشە بێ سنوورەکان و دروستکردنی دەنگێکی ئاسانتر، بەڵام هەنگاوی ڤۆکۆدەر زۆرجار بەرهەمی دەردەهێنێت\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t
مۆدێلی سەرەکی: HTS، Merlin، سیستمی سەرەتایی DNN-based.
نەوراڵ TTS (2016- ئێستا)
سەردەمی مۆدێرن بە WaveNet (DeepMind, 2016) دەستی پێکرد، کە نمونەی دەنگ بە نمونە بەرهەم دەهێنا بە بەکارهێنانی تۆڕە دەمارییەکانی قووڵ. ئەمەش لەلایەن Tacotron (Google, 2017)ەوە شوێنی کەوت، کە فێربووی نەخشەکێشانی نوسراوەکان ڕاستەوخۆ بۆ سپێکترۆگرامەکان. ئەمڕۆ
پێشکەوتنە گرنگەکان: WaveNet, Tacotron, FastSpeech, VITS, Bark, Kokoro.
چۆنیەتی کارکردنی TTS ی مێشک
شێوازی دروست کردنی دەنگی ئەلیکترۆنی
لێکۆڵینەوەو ئاسایکردنەوەی نوسراو
ناونیشانی خام پاک دەکرێتەوە و ئاسایی دەکرێتەوە: ژمارەکان دەبنە وشەکان (\
مۆدێلی دەنگ (نوسین بۆ سپێکتروگرام)
مۆدێلی دەنگی (زۆرجار گۆڕێنەر یان تۆڕی خۆ-گەڕانەوە) زنجیرەی دەنگی وەردەگرێت و پێشبینی سپێکتروگرامی دەنگی دەکات - نمایشێکی بینراو کە چۆن دەنگی دێت.
کۆدکەرەوەی دەنگ (سپێکتروگرام بۆ دەنگ)
ڤۆکۆدەر سپێکترۆگرامی مێل دەگۆڕێت بۆ شەپۆلی ڕاستەقینەی دەنگ. ڤۆکۆدەرە سەرەتاییەکان وەک گریفین-لیم بەرهەمی ڕۆبۆتی بەرهەمدەهێنن. ڤۆکۆدەرە دەمارییەکانی مۆدێرن (هێفی-گان، بیگ ڤگان، ڤۆکۆس) بەرهەمی ٢٤ کیلۆهێرتز یان ٤٤.١ کیلۆهێرتز دەهێنن کە وردەکارییە جوانەکانی قسەی سروشتی دەستنیشان دەکەن، لەوانە دەنگەکانی هەناسەدان و جوڵەکانی دەم و چاو.
مۆدێلی کۆتایی-بۆ-کۆتایی
نوێترین مۆدێلەکان وەک VITS, Kokoro, و Bark بەتەواوەتی دوو قۆناغەکە بەجێدەهێڵن. ڕاستەوخۆ لە نوسراوەوە دەگەڕێنەوە بۆ دەنگ لە یەک تۆڕی دەماریدا، ئەنجامی سروشتی زیاتر بەرهەمدەهێنن بە کەمترین بەرهەم. هەندێک مۆدێل (وەک Bark) دەتوانن تەنانەت دەنگێکی بێدەنگی دروست بکەن، پێکەنین، و مۆسیقا لەگەڵ قسەکردن.
بەراوردکردنی شێوازەکانی TTS
چۆن چوار نەوەی تەکنەلۆژیای TTS بەراورد دەکرێن
| نزیکبوونەوە | سەردەم | سروشتی | ئاڵۆزی | خێرایی | زانیاری پێویست |
|---|---|---|---|---|---|
| فۆرمانت سینتێز مۆدێلکردنی خێرایی لەسەر بنەمای یاساکان |
1960s-1990s | هیچ | |||
| پێکەوەبەستن بەشەکانی دەنگ تێکەڵکراون |
1990s-2010s | کاتژمێر | |||
| پارامێتری (HMM/DNN) مۆدێلی قسەکردن |
2000s-2016 | ١-٥ کاتژمێر | |||
| لە کۆتاییەوە بۆ کۆتایی فێربوونی قووڵ (VITS, Kokoro, Bark) |
2016-ئێستا | خولەک بۆ کاتژمێر |
پڕۆگرامی ئاسایی TTS
ئەو شوێنەی کە تێبینی بۆ قسەکردن بەکاردەهێنرێت
ئامرازەکانی گەیشتن
خوێندنەوەی ڕوونما، ئامێری یارمەتیدەر، و ئامرازەکان بۆ کەسانی کەم بینا یان کەمخوێندەوار پشت بە TTS دەبەستن بۆ ئەوەی شتەکانی دیجیتاڵی بۆ هەموو کەسێک بگوازنەوە.
دروستکردنی ناوەرۆک
بەکارهێنەرانی یوتیوب، پۆدکاستەکان، و دروستکەرانی میدیای کۆمەڵایەتی TTS بەکاردەهێنن بۆ دەنگی دەنگی، باسکردن، و بەرهەمهێنانی ناوەڕۆکی ئۆتۆماتیکی لە ئاستێکی بەرزدا.
پشتیوانانی ڕاستەوخۆ
Siri, Alexa, Google Assistant, و خزمەتگوزاری چاتبۆتەکانی بەکارهێنەران هەموویان TTS بەکاردەهێنن بۆ وەڵامدانەوەی سروشتی بەکارهێنەران.
پرسیاری زۆر کراوە
پرسیارە باوەکان دەربارەی تەکنەلۆژیای نوسین بۆ قسەکردن
خۆت ئەزموونێکی نوێی TTS بکە
24+ مۆدێلی دەنگی ئەی ئای بەبێ پارە تاقی بکەرەوە. تەماشابکە تا چ ڕادەیەک نوسراوە بۆ قسەکردن گەیشتووە.