Ի՞նչ է տեքստը խոսքի (TTS) վերածումը։
Տեքստից խոսքի վերածումը տեխնոլոգիա է, որը փոխակերպում է գրված տեքստերը խոսող ձայնի՝ օգտագործելով արհեստական բանականություն։ Առաջին ռոբոտային սինթեզիտորներից մինչև այսօրվա նյարդային ցանցերը, որոնք ձայնային տարբերություն չունեն մարդկանցից, TTS- ը փոխել է այն, թե ինչպես ենք մենք փոխազդում տեխնոլոգիայի հետ, օգտագործում ենք բովանդակությունը և հասանելի դարձնում տեղեկատվությունը։
Տեքստից խոսելու հիմնական հասկացությունները
Գիտեք ժամանակակից խոսքի սինթեզի հիմքերը
Ի՞նչ է նշանակում TTS
TTS (անգլ.՝ Text-to-Speech) — տեխնոլոգիա, որը փոխակերպում է գրված տեքստը խոսող ձայնի, օգտագործելով համակարգչային ձայներ.
Ինչպես աշխատում է Neural TTS
Նորագույն TTS-ը օգտագործում է խորը նյարդային ցանցեր՝ վերլուծելու տեքստը, կանխատեսելու խոսքի ձևերը և ստեղծելու ձայնային ալիքների ձևեր, որոնք հիանալի մարդկային են հնչում։
Խոսքի սինթեզի պատմություն
1960-ական թվականների վերջից մինչև 1990-ական թվականների սկիզբը Ֆրանսիայում աճել է սոցիալական աջակցության համակարգի արդյունավետությունը։ 1990-ական թվականներին Ֆրանսիայում աճել է սոցիալական աջակցության համակարգի արդյունավետությունը.
Դասական AI մոդելներ
2000-ական թվականներին, օրինակ՝ Kokoro, Bark, CosyVoice 2-ը օգտագործում են փոխակերպիչներ, դիֆուզիա և տարբերակական եզրակացություն՝ հասնելու համար մարդու մակարդակի խոսքի որակին։
Հիմնական ծրագրեր
TTS-ը կարող է օգտագործվել էկրանային կարդացողների, GPS նավարկության, վիրտուալ օգնականների, ձայնային գրքերի, հաճախորդների սպասարկման բոտերի, էլեկտրոնային ուսուցման պլատֆորմների և բովանդակության ստեղծման համար։
Ազատ կոդ vs առևտրային
Open-source մոդելները (MIT, Apache 2.0) ապահովում են անվճար, self-hosted TTS, իսկ առևտրային ծառայությունները առաջարկում են կառավարվող API-ներ SLA-ներով և աջակցությամբ.
TTS մոդելները հասանելի են TTS.ai կայքում
արագ և թեթև ձայներից մինչև ստուդիական որակի նյարդային ձայներ
Kokoro
Free
Lightweight 82M parameter model delivering studio-quality speech with blazing-fast inference.
Լավագույնը ՝ Նորագույն փոքր մոդելը ցույց է տալիս, թե որքան հեռու է հասել նյարդային TTS- ը :
Փորձել Kokoro
Bark
Standard
Transformer-based text-to-audio model that generates realistic speech, music, and sound effects.
Լավագույնը ՝ Տրանսֆորմացիայի վրա հիմնված մոդել, որը ցույց է տալիս ձայնի ստեղծումը խոսելուց հետո
Փորձել Bark
CosyVoice 2
Standard
Alibaba's scalable streaming TTS with human-parity naturalness and near-zero latency.
Լավագույնը ՝ TTS-ի հոսք՝ մարդկային-պարիական որակով և zero-shot կլոինգով
Փորձել CosyVoice 2
Chatterbox
Premium
State-of-the-art zero-shot voice cloning with emotion control from Resemble AI.
Լավագույնը ՝ Zero-shot ձայնի կլոնավորում, որը ցույց է տալիս ձայնի սինթեզի սահմանները
Փորձել Chatterbox
Tortoise TTS
Premium
Multi-voice text-to-speech focused on quality with autoregressive architecture.
Լավագույնը ՝ Ավտոռեգրեսիվ ճարտարապետություն՝ առավելագույն ձայնային որակով
Փորձել Tortoise TTSԻնչպես աշխատում է Neural TTS
Ժամանակակից ձայնի սինթեզի 4-քայլի ընթացակարգ
Գիտեք հիմքերը
TTS- ը փոխակերպում է գրված տեքստը խոսված ձայնային տվյալների։ Նորագույն համակարգերը օգտագործում են նյարդային ցանցեր, որոնք պատրաստվել են հազարավոր ժամերի ընթացքում մարդկային խոսքի ձայնագրության հիման վրա։
Գտնել տարբեր մոդելներ
Յուրաքանչյուր TTS մոդել օգտագործում է տարբեր ճարտարապետություն (transformer, diffusion, variational) արագության, որակի և հատկությունների յուրահատուկ ուժերով.
Փորձեք ինքներդ
TTS-ը հասկանալու լավագույն միջոցը օգտագործելն է։ Փորձեք վերևում ներկայացված անվճար մոդելները՝ կպցրեք ցանկացած տեքստ և մի քանի վայրկյանում կլսեք այն։
Ինտեգրել ձեր նախագծերում
Երբ գտնեք ձեզ դուր եկած մոդելը, օգտագործեք մեր API-ն TTS-ը ձեր ծրագրերում, արտադրանքում կամ բովանդակության ստեղծման գործընթացում ներառելու համար։
Տեքստից խոսքի վերածման կարճ պատմություն
Մեխանիկական խոսող մեքենաներից մինչև նյարդային ցանցեր :
Առաջին օրերը (1950-1980 թթ.)
Առաջին համակարգչով ստեղծված ելույթը թվագրվում է 1961 թվական, երբ IBM-ը
Նշանավոր համակարգեր՝ Votrax (1970-ականներ), DECtalk (1984, օգտագործվել է Սթիվեն Հոքինգի կողմից), Apple
Սերգեյ Սմբատյան (1990-2000 թթ.)
Հաջորդական TTS- ը ձայնագրում է իրական մարդու ձայնը, որը խոսում է հազարավոր ֆոնեմների համադրություններով, ապա միացնում է ճիշտ հատվածները գործարկման ժամանակ։ Սա ավելի բնական հնչողությամբ խոսում է, բայց պահանջում է հսկայական տվյալների բազա (շատ հաճախ 10- 20 ժամ ձայնագրություն ձայնի համար)։ Կանոնավոր կապերի գտնումը հատվածների միջև շատ էր կախված որակից։
Օգտագործվում է AT&T Natural Voices, Nuance Vocalizer, early Google Translate TTS.
Տվյալների վիճակագրություն/Պարամետրեր (2000-2010 թթ.)
Instead of stitching recordings, parametric models learned statistical representations of speech. Hidden Markov Models (HMMs) and later deep neural networks generated speech parameters (pitch, duration, spectral features) that were fed through a vocoder. This allowed unlimited vocabulary and easier voice creation, but the vocoder step often produced a "buzzy" quality.
Հիմնական մոդելներ: HTS, Merlin, early DNN-based systems.
Նյուռալ TTS (2016-այժմ)
Ժամանակակից դարաշրջանը սկսվել է WaveNet-ից (DeepMind, 2016), որը ստեղծում է ձայնային նմուշներ՝ օգտագործելով խորը նյարդային ցանցեր։ Հաջորդել է Tacotron-ը (Google, 2017), որը սովորել է տեքստը ուղղակիորեն պատկերել սպեկտրոգրամներում։ Այսօր
Հիմնական նվաճումները՝ WaveNet, Tacotron, FastSpeech, VITS, Bark, Kokoro.
Ինչպես է աշխատում ժամանակակից նյարդային TTS-ը
Ճարտարապետությունը բնական հնչողությամբ ՁԻ ձայների հետևում
Տեքստի վերլուծություն և նորմալացում
Չոր տեքստը մաքրված և նորմալացված է: թիվերը դառնում են բառեր (\
Ակուստիկ մոդել (Սպեկտրոգրամային տեքստը)
Ակուստիկ մոդելը (շատ հաճախ տրանսֆորմատոր կամ ավտոռեգրեսիվ ցանց) վերցնում է ֆոնեմների հաջորդականությունը և կանխատեսում է mel սպեկտրոգրամը — տեսողական ներկայացում, թե ինչպես է հնչում ձայնը
Vocoder (Սպեկտրոգրամից ձայն)
Վոկոդերը վերածում է mel սպեկտրոգրամը իրական ձայնային ալիքների ձևերի։ Առաջին վիկոդերները, ինչպիսիք են Griffin-Lim-ը, ստեղծում են ռոբոտային արվեստագործական գործիքներ։ Նորագույն նյարդային վիկոդերները (HiFi-GAN, BigVGAN, Vocos) ստեղծում են բարձր ճշգրտությամբ 24kHz կամ 44.1kHz ձայն, որը գրավում է բնական խոսակցության մանրամասնությունները, ներառյալ շնչառության ձայները և ականջների նուրբ շարժումները։
Օգտագործված մոդելներ
Վերջին մոդելները, ինչպիսիք են VITS- ը, Kokoro- ն և Bark- ը, ամբողջովին բաց են թողնում երկու փուլերի ընթացքը։ Նրանք ուղղակիորեն անցնում են տեքստից հնչյունի մեկ նեյրոնային ցանցով, որն ավելի բնական արդյունքներ է տալիս ավելի քիչ արտեֆակտներով։ Որոշ մոդելներ (ինչպիսին է Bark- ը) կարող են նույնիսկ գեներացնել ոչ խոսող ձայներ, ծիծաղ և երաժշտություն խոսելիս։
TTS մոտեցումների համեմատություն
Ինչպես են համեմատվում TTS տեխնոլոգիայի չորս սերունդները :
| Մոտեցում | Ժամանակ | Բնականություն | Լարվածություն | արագություն | Պահանջվող տվյալներ |
|---|---|---|---|---|---|
| Ֆորմանտային սինթեզ Օրենքների վրա հիմնված հաճախականության մոդելավորում |
1960s-1990s | Ոչինչ | |||
| Ընդհանուր Ստեղծված ձայնային հատվածներ |
1990s-2010s | Ժամ | |||
| Պարամետրային (HMM/DNN) Խոսքի վիճակագրական մոդելներ |
2000s-2016 | Ժամանակ | |||
| Նյարդային End-to-End Խորը ուսուցում (VITS, Kokoro, Bark) |
2016-Ներկայացնել | րոպեներ |
TTS- ի սովորական կիրառումներ
Որտեղ է այսօր օգտագործվում տեքստը ձայնագրելու համար
Մատչելիացում
Էկրանային կարդացողներ, օգտակար սարքավորումներ և տեսողական խնդիրներ ունեցող մարդկանց համար նախատեսված գործիքներ, որոնք հիմնված են TTS-ի վրա, թույլ են տալիս թվային բովանդակությունը հասանելի դարձնել բոլորին։
Ընդգրկվածության ստեղծում
YouTube-ի, podcast-ի և սոցիալական մեդիայի ստեղծողները օգտագործում են TTS-ը ձայնագրությունների, պատմությունների և ավտոմատացված բովանդակության արտադրության համար։
Վիրտուալ օգնականներ
Siri, Alexa, Google Assistant, և հաճախորդների սպասարկման chatbots բոլորը օգտագործում են TTS բնականորեն խոսել պատասխանները օգտատերերին.
Հաճախ տրվող հարցեր
Ընդհանուր հարցեր տեխնոլոգիայի մասին
Ի՞նչ կարող ենք բարելավել: Ձեր կարծիքը օգնում է մեզ լուծել խնդիրները:
Փորձեք ինքներդ ժամանակակից TTS-ը
Պարզապես փորձեք 20-ից ավելի AI ձայնային մոդելներ անվճար։ Դիտեք, թե որքան հեռու է հասել տեքստը խոսքի վերածումը։