װאָס איז טעקסט־צו־ספּראַך (TTS)?
טעקסט־צו־שפּראַך איז אַ טעכנאָלאָגיע װאָס װײַזט אױס געשריבענע טעקסטן װי געשריבענע אוודיאָ־טעקסטן, ניצנדיק קינסטלעכע אינטעלעקטואַליטעט. פֿון די ערשטן ראָבאָטישע סינטעזערס ביז הײַנט
טעקסט פֿאַרבtext-to-speech
פֿאַרשטײן די בנין־בלאָקס פֿון מאָדערנע שפּראַך־סינטעז
װאָס TTS שטײט פֿאַר
TTS שטייט פֿאַר Text-to-Speech — די טעכנאָלאָגיע וואָס ענדערט געשריבענע טעקסטן אין געזאָגטע אוודיאָ ניצן קאָמפּיוטער-געשאַפֿענע שפּראַכן.
װי נעוראַל TTS אַרבעט
די יידישע ליטעראַטור איז די ליטעראַטור פֿון די יידישע לענדער, די ליטעראַטור פֿון די יידישע שפּראַכן, און די ליטעראַטור פֿון די יידישע שפּראַכן.
געשיכטע פֿון שפּראַך־סינטעז
אין די 1960ער און 1970ער יארן איז די יידישע קולטור אנגעהויבן צו אַנטוויקלען זיך, און אין די 1990ער יארן איז די יידישע קולטור אנגעהויבן צו אַנטוויקלען זיך.
מאָדערנע AI מאָדעלס
די עלעמענטן פון דער ערד, אַזאַ ווי וואַסער, זויערשטאָף, גאַז, און ערדציטערנישן, האָבן אַ וויכטיק ראָלע אין דער געשיכטע פון דער ערד.
פּראָגראַמען
TTS שטיצט עקראַן לייענער, GPS נאוויגאַציע, ווירטועלע אַסיסטענטן, אוודיאָ־בוך, קונה־סערוויס־באָטן, אינטערנעט־לערער־פּלאַטפֿאָרמען, און אינהאַלט־שאַפֿונג.
עפֿנטלעכער קאָד קעגן קאָמערציעלע
2000 - 2001: 2002: 2003: 2004: 2005: 2006: 2007: 2008: 2009: 2010: 2011: 2012: 2013: 2014: 2015: 2016: 2017: 2018: 2019: 2020: 2021: 2022: 2023: 2024: 2025: 2026: 2027: 2028: 2029: 2030: 2031: 2032: 2033: 2034: 2035: 2036: 2037: 2038: 2039: 2040: 2041: 2042: 2043: 2044: 2045: 2046: 2047: 2049: 2050: 2051: 2052: 2053: 2053: 2054: 2055: 2056: 2057: 2058: 2059: 2059: 2059: 2059: 2059: 2059: 2059: 2059: 2059: 2059: 2059: 2059: 2059: 2059: 2059: 2059: 2059: 2059: 2059: 2059: 2059: 2059: 2059: 2059: 2059: 2059:
TTS מאָדעלס בנימצא אויף TTS.ai
פֿון שנעל און לייכט צו סטודיאָ־קוואַליטעט נעוראַלע שפּראַכן
Kokoro
Free
Lightweight 82M parameter model delivering studio-quality speech with blazing-fast inference.
בעסטער פֿאַר: מאָדערנע קלענערע מאָדעל — װײַזט ווי ווייַט די נערווישע TTS איז געװען
דורכפֿאַל Kokoro
Bark
Standard
Transformer-based text-to-audio model that generates realistic speech, music, and sound effects.
בעסטער פֿאַר: טראַנספֿאָרמירונג־באזירטע מאָדעל װאָס װײַזט אױדיאָ־געװײנטלעכונג אױף װײַט פֿון שפּראַך
דורכפֿאַל Bark
CosyVoice 2
Standard
Alibaba's scalable streaming TTS with human-parity naturalness and near-zero latency.
בעסטער פֿאַר: סטרימינג TTS מיט מענטשלעכער קװאַליטעט און ניטל־שאָט־קלאָנינג
דורכפֿאַל CosyVoice 2
Chatterbox
Premium
State-of-the-art zero-shot voice cloning with emotion control from Resemble AI.
בעסטער פֿאַר: Zero-shot שפּראַך־קלאָנירונג װאָס װײַזט די גרענעצן פֿון שפּראַך־סינטעז
דורכפֿאַל Chatterbox
Tortoise TTS
Premium
Multi-voice text-to-speech focused on quality with autoregressive architecture.
בעסטער פֿאַר: אויטאָ־רעגרעסיװער ארכיטעקטור מיט מאַקסימום אודיו־קוואַליטעט
דורכפֿאַל Tortoise TTSװי נעוראַל TTS אַרבעט
דער מאָדערנער שפּראַך־סינטעז־פּײַפּאַל אין פֿיר שריט
קלײַב אַלץ אױסundo-type
TTS װײַזט אױס געשריבענע טעקסטן װי װאָס מען רעדט. מאָדערנע סיסטעמען ניצן נערוועזע נעץװײַזונגען אױסגעלערנט אין טויזנטער שעה פֿון מענטשלעכער שפּראַך־אַרײַנשרײַבונג
קלײַב אַלץ אױסview-action
יעדער TTS מאָדעל ניצט אן אנדער ארכיטעקטור (טראַנספֿאָרמער, דיפפוסיאָן, װאַריאַציע) מיט אייגענע שטארקקייטן אין שנעלקייט, קוואַליטעט און פֿונקציעס.
פֿאָרשלאָגן זיך
דער בעסטער אופֿן צו פֿאַרשטיין TTS איז צו ניצן עס. פּרובירן אונדזערע פרייע מאָדעלן אויבן — פּאַפּ קיין טעקסט און הערן עס געזאָגט אין סעקונדעס
פֿאָרױסװײַזprojects-action
ווען איר האָט געפֿונען אַ מאָדעל וואָס איר ווילט, ניצט אונדזער API צו אַרײַנשטעלן TTS אין אייער אַפּליקאַציעס, פּראָדוקטן אָדער אינהאַלט־שאַפֿונג־אַרבעטספֿלאָ.
אַ קורצע געשיכטע פֿון טעקסט צו שפּראַך
פֿון מעקאַניזירטע שפּראַך־מאַשינען צו נערוועזע נעטוואָרקס
פֿריִערדיקע טעג (1950ער־1980ער)
די ערשטע קאָמפּיוטער־געשאַפֿענע שפּראַך איז פֿון 1961, ווען IBM
באַרימטע סיסטעמען: Votrax (1970ער), DECtalk (1984, געניצט פֿון Stephen Hawking), Apple
קאָנקאַטענאַטיווע סינטעז (1990ער־2000ער)
טעקסט פֿאַרבconcatenate TTS records an real human voice speaking thousands of phoneme combinations, then stitches together the right segments at runtime. This produced more natural-sounding speech but required massive databases (often 10-20 hours of recordings per voice).
װיקיפּעדיע:װיקיפּעדיע:װיקיפּעדיע:װיקיפּעדיע:װיקיפּעדיע:װיקיפּעדיע:װיקיפּעדיע:װיקיפּעדיע:װיקיפּעדיע:װיקיפּעדיע:װיקיפּעדיע:װיקיפּעדיע:װיקיפּעדיע
סטאַטיסטישע/פּאַראַמעטערישע (2000ער־2010ער)
טעקסט פֿאַרבtext-tool-action
די הויפּט־מאָדלן: HTS, Merlin, פריערדיקע DNN-באזירטע סיסטעמען.
נעוראַל TTS (2016־הײַנט)
די מאָדערנע צײַט האָט זיך אָנגעהויבן מיט WaveNet (DeepMind, 2016), װאָס האָט געשאַפֿן אַודיאָ־פֿאַרבײַטונגען דורך פֿאַבריק־פֿאַרבײַטונגען ניצנדיק טיפֿע נעוראָנאַלע נעץװײַזן. דאָס איז געװאָרן דערנאָך Tacotron (Google, 2017), װאָס האָט זיך געלערנט צו פֿאַרבײַטן טעקסט ישׂראל
די גרעסטע שטעט זײַנען: ניו־יאָרק, וואַשינגטאָן, ניו־יאָרק, ניו־יאָרק, ניו־יאָרק.
װי דער מאָדערנער נעוראַלער TTS אַרבעט
דער ארכיטעקטור הינטער נאַטירלעך־קלאַנגנדיקע AI שפּראַכן
טעקסט אַנאַליסיס און נאָרמאַליזאַציע
רױער טעקסט איז אָפּגעטײלט און נאָרמאַליזירט: נומערן ווערן ווערטער (\
טעקסט פֿאַרבtext-to-spectrum
דער אַקוסטיקער מודל (פֿאַר רוב אַ טראַנספֿאָרמער אָדער אַ אויטאָרעגרעסיווער נעץ) נעמט דעם פֿאָנעם־פֿאָרעם און זאָגט אַ מל־ספּעקטראָגראַם — אַ וויזשאַוואַלע רעפּרעזענטאַציע פֿון ווי דער אויטאָמאָביל פֿאָרמירט זיך
װאָקאָדער (ספּעקטראָגראַם צו אוודיאָ)
דער װאָקאָדער װײַזט אױס די מל־ספּעקטראָגראַם אין אמת־אויער־װײַב־פֿאָרמען. פֿריִערדיקע װאָקאָדערס װי Griffin-Lim האָבן אױסגעפֿירט ראָבאָטיק־אַרטעפֿאַקטן. מאָדערנע נעוראָנישע װאָקאָדערס (HiFi-GAN, BigVGAN, Vocos) װײַזן אױס אַ הײך־פֿירלעכער 24kHz אָדער 44.1kHz אויער, װאָס נעמט אױס די קלײנע דעטאַילס פֿון נאַטירלעכער שפּראַך, אַרײַנגערעכנט אײַנשרײַב־לײַטן און קלײנע ליפן־באַוועגונגען.
End-to-End מאָדעלס
די נײַעסטע מאָדעלן װי VITS, Kokoro, און Bark לאָזן אױף די צוויי־שטײגיקע פּאַפּיר־פֿאַרבינדונג. זײ װעלן גלייך פֿון טעקסט צו אַודיאָ אין אײן נײַוראַלן נעץ, װאָס גיט מער נאַטירלעכע רעזולטאטן מיט קלענערע אַרטעפֿאַקטן. עטלעכע מאָדעלן (װי Bark) װעלן אױף דער זעלבער צײַט שאַפֿן ניט־ספּראַך־קלײַבן, לײַכטערן, און מוזיק צוזאַמען מיט ספּראַך.
איבער־פֿאַרקער
װי די צװײ װעלטװײַטע TTS־טעכנאָלאָגיע־גרענעצן זיך פֿאַרבינדן
| אַרײַנשרײַבundo-type | קלײַב אַלץ אױס | נאַטירלעכקייט | שריפֿט גרײס | גיכקייט | דאַטן נייטיק |
|---|---|---|---|---|---|
| פֿאָרמאַנט סינטעז כּללים־באזירטע פֿרײַטיק־מאָדלירונג |
1960s-1990s | קײן ניט | |||
| קאָפּצעטלundo-type קלײַב אַלץ אױסselect-action |
1990s-2010s | 10־20 שעה | |||
| פּאַראַמעטער (HMM/DNN) סטאַטיסטישע שפּראַך־מאָדלן |
2000s-2016 | 1־5 שעה | |||
| End-to-End טיף לערנען (VITS, Kokoro, Bark) |
2016-הײַנט | מינוט צו שעה |
טעקסט פֿאַרבtransform-type
װוּ טעקסט־צו־רעדעניש איז הײַנט געניצט
צוגעלייגט
סקרין לייענער, הילף מכשירים, און מכשירים פֿאַר מענטשן מיט וויזשאַוואַל דיסאָרדערס אָדער לייענען דיסאָרדערס פֿאַרלאָזן זיך אויף TTS צו מאַכן דיגיטאַל אינהאַלט צוטריטלעך פֿאַר אַלעמען.
אױסגלײַכונג
YouTubers, podcasters, און געזעלשאַפטלעך מעדיע קריייטערז נוצן TTS פֿאַר שפּראַך, דערציילונג, און אויטאָמאַטיש אינהאַלט פּראָדוקציע אויף סקאַל.
ווירטועלע הילף
Siri, Alexa, Google Assistant, און קונה סערוויס טשאַטבאָץ אַלע נוצן TTS צו רעדן ענטפֿערס נאַטירלעך צו ניצערס.
פֿראַגעס און ענטפֿערס
אַלגעמיינע פֿראַגעס וועגן טעקסט־צו־ספּראַך טעכנאָלאָגיע
דערפאַרונג מאָדערנע TTS זיך
פֿאָרשלאָגן 24+ מאָדערנע AI שפּראַך־מאָדלן פֿאַר פֿרייַ. זען ווי ווייַט טעקסט צו שפּראַך איז געקומען