تېكىستتىن سۆزگە (TTS) قانداق پروگرامما؟
تېكىستتىن سۆزگە ئۆزگەرتكۈچ(Text-to-speech) تېخنىكىسى يېزىقلىق تېكىستنى ماشىنا تەپەككۇر ئارقىلىق سۆزلەنگەن ئاۋازغا ئۆزگەرتىدۇ. بۇ تېخنىكا دەسلەپكى ماشىنا تەپەككۇر قىلغۇچلاردىن ھازىرقى كۈنگىچە داۋاملاشماقتا.
تېكىستتىن سۆزگە ئالماشتۇرۇشتىكى مۇھىم قاراشلار
زامانىۋى سۆز بىرىكتۈرگۈچنىڭ قۇرۇلمىسىنى چۈشىنىش
TTS دېگەن نېمە؟
TTS (Text-to-Speech) نىڭ قىسقارتىلمىسى بولۇپ، كومپيۇتېر تەرىپىدىن ھاسىل قىلىنغان ئاۋازلارنى ئىشلىتىپ يېزىلغان تېكىستنى سۆزلەنگەن ئاۋازغا ئايلاندۇرىدىغان تېخنىكا.
Neural TTS قانداق ئىشلەيدۇ
زامانىۋى TTS تېكىستنى ئانالىز قىلىش ئۈچۈن چوڭقۇر نېرۋا تورىنى ئىشلىتىدۇ، سۆزلىشىش ئۇسلۇبىنى ئالدىن كۆرىدۇ، ۋە ئادەمگە ئوخشاپ كېتىدىغان ئاۋاز دولقۇنلىرىنى پەيدا قىلىدۇ.
سۆز بىرىكتۈرگۈچنىڭ تارىخى
1960-يىللارنىڭ ئاخىرىدىن 1990-يىللارنىڭ باشلىرىغىچە بولغان ئارىلىقتا، 1960-يىللارنىڭ ئاخىرىدىن 1990-يىللارنىڭ باشلىرىغىچە بولغان ئارىلىقتا، 1960-يىللارنىڭ ئاخىرىدىن 1990-يىللارنىڭ باشلىرىغىچە بولغان ئارىلىقتا، 1960-يىللارنىڭ ئاخىرىدىن 1990-يىللارنىڭ باشلىرىغىچە بولغان ئارىلىقتا، 1960-يىللارنىڭ ئاخىرىدىن 1990-يىللارنىڭ باشلىرىغىچە بولغان ئارىلىقتا، 1960-يىللارنىڭ ئاخىرىدىن 1990-يىللارنىڭ ئاخىرىغىچە بولغان ئارىلىقتا.
زامانىۋى AI مودىللىرى
كوكورو، Bark ۋە CosyVoice 2 قاتارلىق بۈگۈنكى مودېللار ئىنسان دەرىجىلىك سۆزلەش سۈپىتىگە ئېرىشىش ئۈچۈن ترانسفېر، دىيفىۋسىيە ۋە ۋارىيانتلىق چۈشەنچىنى ئىشلىتىدۇ.
ئاددىي پروگرامما
TTS ئېكران ئوقۇغۇچ، GPS يولباشلىغۇچى، مەۋھۇم ياردەمچى، ئاۋازلىق كىتاب، خېرىدار مۇلازىمەت بوتى، ئېلېكتىرونلۇق ئۆگىنىش پلاتفورمىسى ۋە مەزمۇن يارىتىشنى كۈچەيتىدۇ.
ئوچۇق مەنبە VS تىجارەتلىك
ئوچۇق مەنبەلىك مودىللار (MIT، Apache 2.0) ھەقسىز، ئۆز-ئۆزىنى باشقۇرىدىغان TTS نى تەمىنلەيدۇ، تىجارىي خىزمەتلەر SLA ۋە قوللاش بىلەن باشقۇرۇلىدىغان API نى تەمىنلەيدۇ.
TTS.ai دىكى TTS مودېللىرى
تېز ۋە يېنىكتىن ستۇدىيو دەرىجىلىك نېرۋا ئاۋازلىرىغىچە
Kokoro
Free
Lightweight 82M parameter model delivering studio-quality speech with blazing-fast inference.
ئەڭ ياخشىسى: زامانىۋى كىچىك مودېل — نېرۋا TTS نىڭ نەقەدەر تەرەققىي قىلغانلىقىنى كۆرسىتىدۇ
سىناش Kokoro
Bark
Standard
Transformer-based text-to-audio model that generates realistic speech, music, and sound effects.
ئەڭ ياخشىسى: سۆزدىن تاشقىرى ئاۋاز ھاسىل قىلىشنى كۆرسىتىدىغان ئۆزگەرتكۈچ ئاساسىدىكى مودېل
سىناش Bark
CosyVoice 2
Standard
Alibaba's scalable streaming TTS with human-parity naturalness and near-zero latency.
ئەڭ ياخشىسى: ئىنسانغا ئوخشاش سۈپەتلىك ۋە زاپاس كۆچۈرۈش بىلەن TTS نى تارقىتىش پروگراممىسى
سىناش CosyVoice 2
Chatterbox
Premium
State-of-the-art zero-shot voice cloning with emotion control from Resemble AI.
ئەڭ ياخشىسى: ئاۋاز بىرىكتۈرگۈچنىڭ يېڭىلىقلىرىنى كۆرسىتىپ بېرىدىغان Zero-shot ئاۋاز بىرىكتۈرگۈچ
سىناش Chatterbox
Tortoise TTS
Premium
Multi-voice text-to-speech focused on quality with autoregressive architecture.
ئەڭ ياخشىسى: ئەڭ يۇقىرى ئۈن سۈپىتىگە ئەھمىيەت بېرىدىغان ئاپتوماتىك قايتىش قۇرۇلمىسى
سىناش Tortoise TTSNeural TTS قانداق ئىشلەيدۇ
تۆت باسقۇچلۇق زامانىۋى سۆز بىرىكتۈرگۈچ
ئاساسلارنى چۈشىنىش
TTS يېزىلغان مەزمۇننى سۆزلەنگەن ئاۋازغا ئايلاندۇرىدۇ. زامانىۋى سىستېمىلار مىڭلارچە سائەتلىك ئىنسانلارنىڭ سۆزلىرىنى ئاڭلاش ئارقىلىق تەربىيەلەنگەن نېرۋا تورىنى ئىشلىتىدۇ.
ئوخشىمىغان مودىللارنى تەكشۈرۈش پروگراممىسى
ھەر بىر TTS مودېلى ھەر خىل قۇرۇلما (transformer، diffusion، variational) نى ئىشلىتىپ، تېزلىك، سۈپەت ۋە ئالاھىدىلىك جەھەتتىن ئالاھىدە كۈچكە ئىگە.
ئۆزىڭىز سىناپ بېقىڭ
TTS نى چۈشىنىشنىڭ ئەڭ ياخشى ئۇسۇلى ئۇنى ئىشلىتىشتۇر. ئۈستىدىكى بىخەتەر نۇسخىمىزنى سىناپ بېقىڭ — مەيلى قايسى مەزمۇننى چاپلىسىڭىزمۇ ئۇنى بىر نەچچە سېكۇنت ئىچىدە ئاڭلايسىز.
قۇرۇلۇشىڭىزغا بىرلەشتۈرۈش
ياقتۇرىدىغان بىر نەرسە تاپقاندىن كېيىن، بىزنىڭ API نى ئىشلىتىپ TTS نى پروگراممىڭىزغا، مەھسۇلاتىڭىزغا ياكى مەزمۇنلارنى ياساش جەريانىڭىزغا كىرگۈزۈڭ.
تېكىستتىن سۆزگە ئۆزگەرتىشنىڭ قىسقىچە تارىخى
مېخانىكىلىق سۆزلىشىدىغان ماشىنىلاردىن نېرۋا تورلىرىغىچە
دەسلەپكى كۈنلەر (1950-1980-يىللار)
1961 - يىلى IBM كومپيۇتېرىدا تۇنجى قېتىم كومپيۇتېر تەرىپىدىن ھاسىل قىلىنغان سۆز
مەشھۇر سىستېما: Votrax (1970-يىللار)، DECtalk (1984-يىل، Stephen Hawking تەرىپىدىن ئىشلىتىلگەن)، Apple
Concatenative Synthesis (1990-2000-يىللار)
Concatenative TTS نەچچە مىڭلىغان ئاۋازلارنى بىرلەشتۈرگەن ھەقىقىي ئىنسان ئاۋازىنى خاتىرىلەيدۇ، ئاندىن مەشغۇلات جەريانىدا توغرا قىسىملارنى بىرلەشتۈرىدۇ. بۇ تېخىمۇ تەبىئىي ئاۋازنى ھاسىل قىلىدۇ، لېكىن چوڭ سانلىق-مەلۇمات بانكىلىرىنى (ھەر بىر ئاۋازغا 10-20 سائەت خاتىرىلەش) تەلەپ قىلىدۇ. سۈپەت قىسىملار ئارىسىدىكى مۇۋاپىق مۇناسىۋەتنى تېپىش بىلەن مۇناسىۋەتلىك ئىدى.
AT&T Natural Voices، Nuance Vocalizer، Google Translate TTS قاتارلىقلار تەرىپىدىن ئىشلىتىلىدۇ.
ستاتىستىكا/پارامېتىر (2000-2010)
ئاۋازنى يېزىپ چىقىشنىڭ ئورنىغا، پارامېتىرلىق مودېللار سۆزنىڭ ستاتىستىكىلىق تەقسىماتىنى ئۆگىنىدۇ. يوشۇرۇن ماركوۋ مودېللىرى (HMMs) ۋە كېيىنكى چوڭقۇر نېرۋا تورلىرى سۆزنىڭ پارامېتىرلىرىنى (ئاۋازنىڭ ئېگىزلىكى، ئۇزۇنلۇقى، سىمۋوللۇق ئالاھىدىلىكلىرى) تولدۇرۇپ، ئاۋاز ياساش پروگراممىسىغا يوللايدۇ. بۇ سىستېما ئاۋاز ياساش پروگراممىسىنى ئاسانلاشتۇرىدۇ، لېكىن ئاۋاز ياساش پروگراممىسىنىڭ ھەر بىر باسقۇچىدا ئاۋاز ياساش پروگراممىسىنىڭ ئاۋاز ياساش پروگراممىسىنىڭ ئاۋاز ياساش پروگراممىسىنىڭ ئاۋاز ياساش پروگراممىسىنىڭ ئاۋاز ياساش پروگراممىسىنىڭ ئاۋاز ياساش پروگراممىسىنىڭ ئاۋاز ياساش پروگراممىسىنىڭ ئاۋاز ياساش پروگراممىسىنىڭ ئاۋاز ياساش پروگراممىسىنىڭ ئاۋاز ياساش پروگراممىسىنىڭ ئاۋاز ياساش پروگراممىسىنىڭ ئاۋاز ياساش پروگراممىسىنىڭ ئاۋاز ياساش پروگراممىسىنىڭ ئاۋاز ياساش پروگراممىسىنىڭ ئاۋاز ياساش پروگراممىسىنىڭ ئاۋاز ياساش پروگراممىسىنىڭ ئاۋاز ياساش پروگراممىسىنىڭ ئاۋاز ياساش پروگراممىسىنىڭ ئاۋاز ياساش پروگراممىسىنىڭ ئاۋاز ياساش پروگراممىسىنىڭ ئاۋاز ياساش پروگراممىسىنىڭ ئاۋاز ياساش پروگراممىسىنىڭ ئاۋاز ياساش پروگراممىسىنىڭ ئاۋاز ياساش پروگراممىسىنىڭ ئاۋاز ياساش پروگراممىسىنىڭ ئاۋاز ياساش پروگراممىسىنىڭ ئاۋاز ياساش پروگراممىسىنىڭ ئاۋاز ياساش پروگراممىسىنىڭ ئاۋاز ياساش پروگراممىسىنىڭ ئاۋاز ياساش پروگراممىسىنىڭ ئاۋاز ياساش پروگراممىسىنىڭ ئاۋاز ياساش پروگراممىسىنىڭ ئاۋاز ياساش پروگراممىسىنىڭ ئاۋاز ياساش پروگراممىسىنىڭ ئاۋاز ياساش پروگراممىسىنىڭ ئاۋاز ياساش پروگراممىسىنىڭ ئاۋاز ياساش پروگراممىسىنىڭ ئاۋاز ياساش پروگراممىسىنىڭ ئاۋاز ياساش پروگراممىسىنىڭ ئاۋاز ياساش پروگراممىسىنىڭ ئاۋاز ياساش
ئاساسلىق مودېللار: HTS، Merlin، دەسلەپكى DNN ئاساسىدىكى سىستېما.
Neural TTS (2016-يىلدىن ھازىرغىچە)
زامانىۋى دەۋر WaveNet (DeepMind، 2016) بىلەن باشلانغان بولۇپ، ئۇ چوڭقۇر نېرۋا تورىنى ئىشلىتىپ ئاۋاز نۇسخىسىنى بىر نۇسخىدىن بىر نۇسخىغا يەتكۈزىدۇ. ئۇنىڭدىن كېيىن Tacotron (Google، 2017) كېلىپ، تېكىستنى سۈپۈرگىلەرگە يېزىشنى ئۆگەندى. بۈگۈن
ئاساسلىق يېڭىلىقلار: WaveNet، Tacotron، FastSpeech، VITS، Bark، Kokoro.
زامانىۋى نېرۋا TTS قانداق ئىشلەيدۇ
تەبىئىي ئاۋازلىق AI ئاۋازنىڭ ئارقا كۆرۈنۈشى
تېكىست تەھلىل قىلىش ۋە نورماللاشتۇرۇش
خام مەزمۇن تازىلىنىپ نورماللاشتۇرۇلدى: سانلار سۆزلەرگە ئايلاندى (\
ئاۋازلىق مودېل (تېكىستتىن سىمۋولغا)
ئاۋازلىق مودېل (ئۆزىنى ئۆزگەرتكۈچى ياكى ئاپتورېگرېسسىيىلىك تور) ئاۋازلار تىزىمىنى ئېلىپ، ئاۋازنىڭ قانداق چىقىرىلغانلىقىنى كۆرسەتكۈچى mel سىمۋولىنى تەقەززا قىلىدۇ.
ئاۋاز كودلىغۇچ (Spectrogram دىن ئاۋازغا)
ۋىكودېر mel spektrogram نى ھەقىقىي ئاۋاز دولقۇن شەكلىگە ئايلاندۇرىدۇ. Griffin-Lim دەك دەسلەپكى ۋىكودېرلار ماشىنا ياساپ چىقىرىدۇ. زامانىۋى نېرۋا ۋىكودېرلىرى (HiFi-GAN، BigVGAN، Vocos) يۇقىرى سۈپەتلىك 24kHz ياكى 44.1kHz ئاۋاز ياساپ چىقىرىدۇ، بۇ ئاۋازلار تەبىئىي سۆزلەشنىڭ تەپسىلاتلىرىنى ئۆز ئىچىگە ئالىدۇ، نەپەس ئېلىش ئاۋازلىرى ۋە چىراي ھەرىكەتلىرىنىمۇ ئۆز ئىچىگە ئالىدۇ.
ئاخىردىن ئاخىرغىچە بولغان مودىللار
VITS، Kokoro ۋە Bark قاتارلىق ئەڭ يېڭى مودېللار ئىككى باسقۇچلۇق پىۋپلىننى پۈتۈنلەي تاشلاپ قويدى. ئۇلار تېكىستتىن ئوڭۇشلۇق ھالدا ئاۋازغا ئۆتۈش ئۈچۈن بىرلا سىگنال تارماق تورىنى ئىشلىتىدۇ، بۇ ئارقىلىق تېخىمۇ تەبىئىي ئاۋازنى تېخىمۇ ئاز ئارتېفاكتلار بىلەن ئىشلەپچىقىرىدۇ. Bark قاتارلىق بىر قىسىم مودېللار سۆز بىلەن بىللە سۆزسىز ئاۋازلارنى، خۇشاللىقنى ۋە مۇزىكا ئاۋازلىرىنىمۇ ئىشلەپچىقىرالايدۇ.
TTS ئۇسۇللىرىنىڭ سېلىشتۇرمىسى
TTS تېخنىكىسىنىڭ تۆت ئەۋلادىنىڭ سېلىشتۇرمىسى
| يېقىنلاشتۇرۇش | دەۋر | تەبىئىيلىك | چىدامچانلىق | تېزلىك | سانلىق-مەلۇماتلار كېرەك |
|---|---|---|---|---|---|
| Formant بىرىكتۈرگۈچ قائىدە-تۈزۈمگە ئاساسلانغان تېزلىك مودېلى |
1960s-1990s | يوق | |||
| مۇناسىۋەتلىك بىرلەشتۈرۈلگەن ئاۋاز قىسمى |
1990s-2010s | 10-20+ سائەت | |||
| پارامېتىرلىق (HMM/DNN) ستاتىستىكا سۆزلەش مودېلى |
2000s-2016 | 1-5 سائەت | |||
| Neural End-to-End چوڭقۇر ئۆگىنىش (VITS، Kokoro، Bark) |
2016-ھازىر | مىنۇتتىن سائەتكە |
TTS نىڭ ئومۇمىي پروگراممىلىرى
تېكىستنى سۆزگە ئايلاندۇرۇش ھازىر قايسى يەردە ئىشلىتىلىدۇ
قولايلىق
ئېكران ئوقۇغۇچلار، ياردەمچى ئۈسكۈنىلەر ۋە كۆز ئىقتىدارى ئاجىز ياكى ئوقۇش ئىقتىدارى ئاجىز كىشىلەر ئۈچۈن ئىشلىتىلىدىغان قوراللار TTS نى ئاساس قىلىپ، رەقەملىك مەزمۇنلارنى ھەممىگە قولايلىق قىلىپ بېرىدۇ.
مەزمۇن قۇرۇش
YouTubers، podcasters، ۋە ئىجتىمائىي تاراتقۇ ياراتقۇچىلىرى TTS نى ئاۋازلىق سۆزلەش، سۆزلەش، ۋە ئاپتوماتىك مەزمۇن ئىشلەپچىقىرىش ئۈچۈن ئىشلىتىدۇ.
مەۋھۇم ياردەمچىلەر
Siri، Alexa، Google Assistant ۋە خېرىدارلار مۇلازىمىتى chatbots ھەممىسى TTS نى ئىشلەتكۈچىلەرگە تەبىئىي جاۋابلارنى سۆزلەش ئۈچۈن ئىشلىتىدۇ.
كۆپ سورالغان سوئاللار
تېكىستتىن سۆزگە تېخنىكىسى ھەققىدە كۆپ سورالغان سوئاللار
زامانىۋى TTS نى ئۆزىڭىز سىناپ بېقىڭ
24+ زامانىۋى AI ئاۋاز مودېلىنى ھەقسىز سىناپ بېقىڭ. تېكىستتىن سۆزگە ئۆزگىرىشنىڭ قانداق بولغانلىقىنى كۆرۈڭ.