نوسراو بۆ قسەکردن چیە؟

نوسراو بۆ قسەکردن تەکنەلۆجیایەکە کە نوسراوەکان دەگۆڕێت بۆ دەنگ بە بەکارهێنانی زیرەکی دروستکراو. لە سەرەتای سینتێزەرە ڕۆبۆتیکەکانەوە بۆ ئەمڕۆ

تەکنەلۆژیا مێژوویی چۆن کاردەکات تۆڕی دەمارەکان ئەڤۆلوشن

چەمکەکانی سەرەکی لە نوسین بۆ قسەکردن

تێگەیشتن لە بنچینەکانی کۆکردنەوەی قسەی مۆدێرن

TTS مانای چیە

TTS بریتییە لە نوسراو بۆ قسەکردن - تەکنەلۆژیاکە کە نوسراوەکان دەگۆڕێت بۆ دەنگی قسەکردن بە بەکارهێنانی دەنگی دروستکراوی کۆمپیتەر.

چۆنیەتی کارکردنی TTSی مێشک

TTSـی مۆدێرن تۆڕی دەماری قووڵ بەکاردەهێنێت بۆ شیکردنەوەی نوسراو، پێشبینی شێوەی قسەکردن، و دروستکردنی شەپۆلی دەنگ کە بە شێوەیەکی سەرنجڕاکێش دەنگی مرۆڤە.

مێژووی تێکەڵکردنی قسەکردن

لە سیستمەکانی 1960 لەسەر بنەمای یاساکان بۆ ساڵی 1990 پێکهاتەی گرێدراو بۆ مۆدێلی دەمارەکانی ئەمڕۆ - چۆن TTS گەشەی کرد لە ماوەی شەش دەیەی رابردوودا.

مۆدێلی نوێی AI

مۆدێلەکانی ئەمڕۆ وەک کۆکۆرۆ، بارک، و کۆسی ڤۆیس ٢ بەکارهێنەران بەکاردەهێنن، بڵاوکردنەوە، و لێکدانەوەی جیاواز بۆ بەدەستهێنانی ئاستی بەرزی گوفتاری مرۆڤ.

_پێناسە:

TTS توانای خوێندنەوەی ڕوونما، گەڕانی جی پی ئێس، یارمەتیدەری ڕاستی، کتێبی دەنگیی، خزمەتگوزاری خزمەتگوزاری، پلاتفۆرمی فێربوونی ئەلیکترۆنی، و دروستکردنی ناوەڕۆک دەدات.

سەرچاوەی کراوە بەرامبەر بازرگانی

مۆدێلی سەرچاوەی کراوە (MIT, Apache 2.0) خزمەتگوزاری ئازاد، خۆبەخشانەی TTS پێشکەش دەکات لەکاتێکدا خزمەتگوزاری بازرگانی خزمەتگوزاری بەڕێوەبردنی API بە SLA و پشتگیری پێشکەش دەکات.

مۆدێلی TTS لە TTS.ai

لە خێرا و سبەینێ بۆ دەنگەکانی دەمارەکانی ستادیۆ

KokoroKokoro

Free

Lightweight 82M parameter model delivering studio-quality speech with blazing-fast inference.

Fast 5/5

باشترین بۆ: مۆدێلێکی بچوک لە ئاستێکی بەرزدا نیشان دەدات کە تا چەند دەماری TTS بەرەو پێش چووە

هەوڵبدە Kokoro

BarkBark

Standard

Transformer-based text-to-audio model that generates realistic speech, music, and sound effects.

Slow 4/5

باشترین بۆ: مۆدێلی پشت بەستن بە گۆڕێنەر کە بەرهەمهێنانی دەنگ نیشان دەدات جگە لە قسەکردن

هەوڵبدە Bark

CosyVoice 2CosyVoice 2

Standard

Alibaba's scalable streaming TTS with human-parity naturalness and near-zero latency.

Medium 5/5 دووبارە دروستکردنی دەنگی

باشترین بۆ: ڕەوانەکردنی TTS بە بایەخی هاوشێوەی مرۆڤ و دووبارە دروستکردنەوە

هەوڵبدە CosyVoice 2

ChatterboxChatterbox

Premium

State-of-the-art zero-shot voice cloning with emotion control from Resemble AI.

Medium 5/5 دووبارە دروستکردنی دەنگی

باشترین بۆ: دووبارە دروستکردنی دەنگی بێ وێنە کە سنووری پێکهاتەی دەنگی نیشان دەدات

هەوڵبدە Chatterbox

Tortoise TTSTortoise TTS

Premium

Multi-voice text-to-speech focused on quality with autoregressive architecture.

Slow 5/5 دووبارە دروستکردنی دەنگی

باشترین بۆ: ئاڵوگۆڕی خۆکارانەی ئاڵوگۆڕی خۆکارانەی بایەخی زۆرترین بایەخی دەنگ

هەوڵبدە Tortoise TTS

چۆنیەتی کارکردنی TTSی مێشک

چوار قۆناغ بۆ پێناسەکردنی گفتوگۆ

1

بنەماکان فێرببە

TTS نوسراوەکان دەگۆڕێت بۆ دەنگی قسەکردن. سیستەمە نوێیەکان تۆڕی دەماری بەکاردەهێنن کە لە هەزاران کاتژمێر تۆمارکردنی قسەی مرۆڤ فێرکراون.

2

مۆدێلی جیاواز تاقی بکەەوە

هەر مۆدێلێکی TTS شێوازی دروستکردنی جیاواز بەکاردەهێنێت (گۆڕانکاری، بڵاوبوونەوە، گۆڕانکاری) لەگەڵ هێزی تایبەت لە خێرایی، باڵادەستی، و تایبەتمەندییەکان.

3

خۆت تاقی بکەەوە

باشترین ڕێگا بۆ تێگەیشتن لە TTS بەکارهێنانیە. نمونەکانی خۆمان تاقی بکەنەوە لە سەرەوە - هەر نوسراوێک دابنێ و لە چەند چرکەیەکدا گوێی لێبگرە.

4

پڕۆژەکەت پێک بهێنە

کاتێک مۆدێلێک دۆزییەوە کە حەزت لێیە، ئەپی ئێمە بەکاربهێنە بۆ بەستنەوەی TTS بۆ ئەپلیکەیشنەکانت، بەرهەمەکانت، یان دروستکردنی ناوەڕۆک.

مێژوویەکی کورت لە نووسین بۆ قسەکردن

لە ئامێرە قسەکەرەکانی میکانیکیەوە بۆ تۆڕی دەماری

ڕۆژانی سەرەتا (١٩٥٠-١٩٨٠)

یەکەم قسەی دروستکراو لەلایەن کۆمپیتەرەوە دەگەڕێتەوە بۆ ساڵی 1961 ، کاتێک IBM

سیستەمە بەناوبانگەکان: ڤۆتڕاکس (١٩٧٠)، دی ئێک تۆڵک (١٩٨٤، لەلایەن ستیفەن هاوکینگەوە بەکارهاتووە)، ئەپڵ

کۆنتاکتیڤ سینتێز (١٩٩٠-٢٠٠٠)

کۆنتێناتیڤ تی تی ئێس دەنگێکی ڕاستەقینەی مرۆڤ تۆمار دەکات کە هەزاران پێکهاتەی دەنگ دەدوێت، پاشان بەشەکانی ڕاست پێکەوە دەبەستێتەوە لە کاتی جێبەجێکردندا. ئەمە دەنگێکی زیاتری سروشتی بەرهەمدەهێنێت بەڵام پێویستی بە بنکەی زانیاری گەورە هەیە (زۆرجار ١٠-٢٠ کاتژمێر تۆمارکردن بۆ هەر دەنگێک). بایەخی زۆر بەستراوەتەوە بە دۆزینەوەی پێکەوە بەستنەوەی ئاسان لە نێوان بەشەکاندا.

بەکارهاتووە لە لایەن: AT&T Natural Voices, Nuance Vocalizer, Google Translate TTS.

ئامار/پێرامێتری (٢٠٠٠-٢٠١٠)

لە جیاتی تۆمارکردنی تۆمارەکان، مۆدێلەکانی پارامەتری فێربوون نیشاندانی ستانداردی قسەکردن. مۆدێلی مارکۆفە نهێنیەکان (HMMs) و دواتر شەبکە دەمارییەکانی قووڵ پارامەترەکانی قسەکردن بەرهەمدەهێنن (پیچ، درێژی، تایبەتمەندییەکانی شەپۆل) کە لەڕێگەی ڤۆکۆدەرەوە دەبەخشرێن. ئەمە ڕێگە دەدات بە وشە بێ سنوورەکان و دروستکردنی دەنگێکی ئاسانتر، بەڵام هەنگاوی ڤۆکۆدەر زۆرجار بەرهەمی دەردەهێنێت\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t

مۆدێلی سەرەکی: HTS، Merlin، سیستمی سەرەتایی DNN-based.

نەوراڵ TTS (2016- ئێستا)

سەردەمی مۆدێرن بە WaveNet (DeepMind, 2016) دەستی پێکرد، کە نمونەی دەنگ بە نمونە بەرهەم دەهێنا بە بەکارهێنانی تۆڕە دەمارییەکانی قووڵ. ئەمەش لەلایەن Tacotron (Google, 2017)ەوە شوێنی کەوت، کە فێربووی نەخشەکێشانی نوسراوەکان ڕاستەوخۆ بۆ سپێکترۆگرامەکان. ئەمڕۆ

پێشکەوتنە گرنگەکان: WaveNet, Tacotron, FastSpeech, VITS, Bark, Kokoro.

چۆنیەتی کارکردنی TTS ی مێشک

شێوازی دروست کردنی دەنگی ئەلیکترۆنی

لێکۆڵینەوەو ئاسایکردنەوەی نوسراو

ناونیشانی خام پاک دەکرێتەوە و ئاسایی دەکرێتەوە: ژمارەکان دەبنە وشەکان (\

مۆدێلی دەنگ (نوسین بۆ سپێکتروگرام)

مۆدێلی دەنگی (زۆرجار گۆڕێنەر یان تۆڕی خۆ-گەڕانەوە) زنجیرەی دەنگی وەردەگرێت و پێشبینی سپێکتروگرامی دەنگی دەکات - نمایشێکی بینراو کە چۆن دەنگی دێت.

کۆدکەرەوەی دەنگ (سپێکتروگرام بۆ دەنگ)

ڤۆکۆدەر سپێکترۆگرامی مێل دەگۆڕێت بۆ شەپۆلی ڕاستەقینەی دەنگ. ڤۆکۆدەرە سەرەتاییەکان وەک گریفین-لیم بەرهەمی ڕۆبۆتی بەرهەمدەهێنن. ڤۆکۆدەرە دەمارییەکانی مۆدێرن (هێفی-گان، بیگ ڤگان، ڤۆکۆس) بەرهەمی ٢٤ کیلۆهێرتز یان ٤٤.١ کیلۆهێرتز دەهێنن کە وردەکارییە جوانەکانی قسەی سروشتی دەستنیشان دەکەن، لەوانە دەنگەکانی هەناسەدان و جوڵەکانی دەم و چاو.

مۆدێلی کۆتایی-بۆ-کۆتایی

نوێترین مۆدێلەکان وەک VITS, Kokoro, و Bark بەتەواوەتی دوو قۆناغەکە بەجێدەهێڵن. ڕاستەوخۆ لە نوسراوەوە دەگەڕێنەوە بۆ دەنگ لە یەک تۆڕی دەماریدا، ئەنجامی سروشتی زیاتر بەرهەمدەهێنن بە کەمترین بەرهەم. هەندێک مۆدێل (وەک Bark) دەتوانن تەنانەت دەنگێکی بێدەنگی دروست بکەن، پێکەنین، و مۆسیقا لەگەڵ قسەکردن.

بەراوردکردنی شێوازەکانی TTS

چۆن چوار نەوەی تەکنەلۆژیای TTS بەراورد دەکرێن

نزیکبوونەوە سەردەم سروشتی ئاڵۆزی خێرایی زانیاری پێویست
فۆرمانت سینتێز
مۆدێلکردنی خێرایی لەسەر بنەمای یاساکان
1960s-1990s هیچ
پێکەوەبەستن
بەشەکانی دەنگ تێکەڵکراون
1990s-2010s کاتژمێر
پارامێتری (HMM/DNN)
مۆدێلی قسەکردن
2000s-2016 ١-٥ کاتژمێر
لە کۆتاییەوە بۆ کۆتایی
فێربوونی قووڵ (VITS, Kokoro, Bark)
2016-ئێستا خولەک بۆ کاتژمێر

پڕۆگرامی ئاسایی TTS

ئەو شوێنەی کە تێبینی بۆ قسەکردن بەکاردەهێنرێت

ئامرازەکانی گەیشتن

خوێندنەوەی ڕوونما، ئامێری یارمەتیدەر، و ئامرازەکان بۆ کەسانی کەم بینا یان کەمخوێندەوار پشت بە TTS دەبەستن بۆ ئەوەی شتەکانی دیجیتاڵی بۆ هەموو کەسێک بگوازنەوە.

دروستکردنی ناوەرۆک

بەکارهێنەرانی یوتیوب، پۆدکاستەکان، و دروستکەرانی میدیای کۆمەڵایەتی TTS بەکاردەهێنن بۆ دەنگی دەنگی، باسکردن، و بەرهەمهێنانی ناوەڕۆکی ئۆتۆماتیکی لە ئاستێکی بەرزدا.

پشتیوانانی ڕاستەوخۆ

Siri, Alexa, Google Assistant, و خزمەتگوزاری چاتبۆتەکانی بەکارهێنەران هەموویان TTS بەکاردەهێنن بۆ وەڵامدانەوەی سروشتی بەکارهێنەران.

پرسیاری زۆر کراوە

پرسیارە باوەکان دەربارەی تەکنەلۆژیای نوسین بۆ قسەکردن

TTS بریتییە لە نوسراو بۆ قسەکردن. ئاماژە بەوە دەکات کە تەکنەلۆژیاکە نوسراوەکان دەگۆڕێت بۆ وشە قسەکراوەکان بە بەکارهێنانی دەنگی دروستکراو یان دەنگی دروستکراوی AI. ئەم وشە بەکاردەهێنرێت لەگەڵ "دەنگی دروستکراو" لە ئەدەبیاتی تەکنیکیدا.

سیستەمە نوێیەکانی TTS لە سێ قۆناغدا کاردەکەن: لێکۆڵینەوەی نوسراو (خوێندنەوە، ئاساییکردنەوە، گۆڕینی دەنگی)، پێشبینی پرۆسۆدی ( دیاریکردنی ڕێژەی دەنگ، بەرزی دەنگ، فشار، و ڕاگرتنی دەنگ) و پێکهاتەی دەنگ ( دروستکردنی شەپۆلی ڕاستەقینەی دەنگ). مۆدێلی دەماری هەموو سێ قۆناغەکە فێر دەبێت لە زانیاری ڕاهێنان.

کۆنتێناتیڤ تی تی ئێس بەشەکانی قسەی پێش تۆمارکراو پێکەوە دەبەستێتەوە، کە لەوانەیە لە کاتی گواستنەوەیدا ببێتە دەنگێکی ناخۆش. مێشک تی تی ئێس لە بنەڕەتەوە قسە دروست دەکات بە بەکارهێنانی فێربوونی قووڵ، بەرهەمهێنانی دەنگێکی ئاسایی و ئاسایی بە دەنگێکی باشتر و هەستێکی باشتر.

SSML (Speech Synthesis Markup Language) زمانێکی نیشاندانە لەسەر بنەمای XML کە ڕێگەت پێدەدات کۆنتڕۆڵ بکەیت کە چۆن سیستەمی TTS نوسراوەکان دەردەبڕێت. دەتوانیت دیاری بکەیت کە چەند کاتژمێرێک ڕابوەستیت، گرنگی بدەیت، دەردەبڕیت، گۆڕانکاری لە دەنگدا بکەیت، و ڕێژەی قسەکردن بەکاربهێنیت بە بەکارھێنانی تاگەکانی SSML لە ناو نوسراوەکانتدا.

TTS بۆ ئاسانکاری بەکاردەهێنرێت (خوێندنەوەی ڕوونما بۆ بەکارهێنەرانی کەم بینا)، یارمەتیدەری ڕاستەقینە (سیری، ئەلێکسا، گوگڵ ئاسیستەنت)، بەرهەمهێنانی کتێبی دەنگیی، فێربونی ئەلکترۆنی، گواستنەوەی جی پی ئێس، خزمەتگوزاریی خزمەتگوزاریی IVR، دروستکردنی ناوەڕۆک، و ئەپلیکەیشنەکانی فێربوونی زمان.

TTS گەشەی کرد لە سیستەمی روبۆتیکە لەسەر بنەمای یاسا لە ساڵانی 1960دا، بۆ پێکهاتەی گرێدراو لە ساڵانی 1990دا، بۆ پێکهاتەی پارامەتری ستاندارد لە ساڵانی 2000دا، بۆ TTSی دەماری لەگەڵ وێبنێت لە ساڵی 2016دا، بۆ مۆدێلی گۆڕاو و بڵاوبونەوەی ئەمڕۆکە کە بە باشی ئاستی مرۆڤ بەدەستدەهێنێت.

بۆ ئەوەی TTS بە شێوەیەکی سروشتی دەنگی هەبێت، پێویستی بە پرۆسۆدی ڕاستەوخۆ هەیە (ڕیتم، فشار، دەنگی بەرز)، خێرایی پێویست، گواستنەوەی سادە لەنێوان دەنگی دەنگەکان و ناسنامەی دەنگی یەکگرتوو.

مۆدێلەکانی دووبارە دروستکردنی دەنگی وەک چاتەرباکس و کۆسی ڤۆیس ٢ دەتوانن دەنگی دیاریکراو دووبارە دروستبکەنەوە لە ماوەی ٥-٣٠ چرکەدا. دەنگی دووبارە دروستکراو دەنگی دەنگی، دەنگی و شێوازی قسەکردن تۆمار دەکات، هەرچەندە بیرکردنەوەیەکی ئەخلاقی و یاسایی هەیە بۆ دووبارە دروستکردنی دەنگی کەسانی تر.

مۆدێلی نوێی TTS پشتگیری زیاتر لە ٣٠ زمان دەکات. هەندێک لە مۆدێلەکان تایبەتن بە زمانێکی دیاریکراو لەکاتێکدا هەندێکی تر زۆر زمانن. ئینگلیزی زۆرترین مۆدێل و دەنگی هەیە، بەڵام چینی، ژاپۆنی، کۆری، ئیسپانی، و زمانە ئەوروپاییەکان پشتگیری دەکرێن.

TTS بەشێکە لە دروستکردنی دەنگی ئەلیکترۆنی. TTS بە تایبەتی دەق دەگۆڕێت بۆ دەرئەنجامی قسەکردن. دروستکردنی دەنگی ئەلیکترۆنی وشەیەکی فراوانترە کە هەروەها بریتییە لە دووبارە دروستکردنی دەنگی، گۆڕینی دەنگی، قسەکردن بۆ قسەکردن و دروستکردنی کاریگەری دەنگی.

ئەوە دەکەوێتە سەر پێویستیەکانت. کۆکۆرۆ باشترین هاوسەنگی خێرایی و باڵادەستی بۆ بەکارهێنانی گشتی پێشکەش دەکات. چاتەربۆکس پێشڕەوی دەکات لە دووبارە دروستکردنی دەنگی. ئۆرفیۆس سەرکەوتووە لە دەربڕینی هەستەکان. ستایلی تی تی ئێس ٢ سروشتیترین باسکردنی یەک قسەکەر بەرهەمدەهێنێت. هیچ "باشترین" مۆدێلێک نییە بۆ هەموو حاڵەتەکانی بەکارهێنان.

بەڵێ. هەموو مۆدێلەکان لەسەر TTS.ai سەرچاوەی کراوەن و دەتوانن خۆیان دابین بکەن. تەنها مۆدێلەکانی CPU وەک Piper لەسەر هەر کۆمپیوتەرێک کاردەکەن. مۆدێلەکانی GPU وەک Kokoro و Bark پێویستیان بە NVIDIA GPU هەیە لەگەڵ 2-8GB VRAM. پلاتفۆرمەکەمان هەروەها دابینکردنی دابینکردنی دابینکردنی دابینکردنی دابینکردنی دابینکردنی دابینکردنی دابینکردنی دابینکردنی دابینکردن.
5.0/5 (1)

خۆت ئەزموونێکی نوێی TTS بکە

24+ مۆدێلی دەنگی ئەی ئای بەبێ پارە تاقی بکەرەوە. تەماشابکە تا چ ڕادەیەک نوسراوە بۆ قسەکردن گەیشتووە.