Ի՞նչ է տեքստը խոսքի (TTS) վերածումը։

Տեքստից խոսքի վերածումը տեխնոլոգիա է, որը փոխակերպում է գրված տեքստերը խոսող ձայնի՝ օգտագործելով արհեստական բանականություն։ Առաջին ռոբոտային սինթեզիտորներից մինչև այսօրվա նյարդային ցանցերը, որոնք ձայնային տարբերություն չունեն մարդկանցից, TTS- ը փոխել է այն, թե ինչպես ենք մենք փոխազդում տեխնոլոգիայի հետ, օգտագործում ենք բովանդակությունը և հասանելի դարձնում տեղեկատվությունը։

Տեխնոլոգիա Պատմություն Ինչպես է այն աշխատում Նյարդային ցանցեր Evolution-ի մասին

Տեքստից խոսելու հիմնական հասկացությունները

Գիտեք ժամանակակից խոսքի սինթեզի հիմքերը

Ի՞նչ է նշանակում TTS

TTS (անգլ.՝ Text-to-Speech) — տեխնոլոգիա, որը փոխակերպում է գրված տեքստը խոսող ձայնի, օգտագործելով համակարգչային ձայներ.

Ինչպես աշխատում է Neural TTS

Նորագույն TTS-ը օգտագործում է խորը նյարդային ցանցեր՝ վերլուծելու տեքստը, կանխատեսելու խոսքի ձևերը և ստեղծելու ձայնային ալիքների ձևեր, որոնք հիանալի մարդկային են հնչում։

Խոսքի սինթեզի պատմություն

1960-ական թվականների վերջից մինչև 1990-ական թվականների սկիզբը Ֆրանսիայում աճել է սոցիալական աջակցության համակարգի արդյունավետությունը։ 1990-ական թվականներին Ֆրանսիայում աճել է սոցիալական աջակցության համակարգի արդյունավետությունը.

Դասական AI մոդելներ

2000-ական թվականներին, օրինակ՝ Kokoro, Bark, CosyVoice 2-ը օգտագործում են փոխակերպիչներ, դիֆուզիա և տարբերակական եզրակացություն՝ հասնելու համար մարդու մակարդակի խոսքի որակին։

Հիմնական ծրագրեր

TTS-ը կարող է օգտագործվել էկրանային կարդացողների, GPS նավարկության, վիրտուալ օգնականների, ձայնային գրքերի, հաճախորդների սպասարկման բոտերի, էլեկտրոնային ուսուցման պլատֆորմների և բովանդակության ստեղծման համար։

Ազատ կոդ vs առևտրային

Open-source մոդելները (MIT, Apache 2.0) ապահովում են անվճար, self-hosted TTS, իսկ առևտրային ծառայությունները առաջարկում են կառավարվող API-ներ SLA-ներով և աջակցությամբ.

TTS մոդելները հասանելի են TTS.ai կայքում

արագ և թեթև ձայներից մինչև ստուդիական որակի նյարդային ձայներ

KokoroKokoro

Free

Lightweight 82M parameter model delivering studio-quality speech with blazing-fast inference.

Fast 5/5

Լավագույնը ՝ Նորագույն փոքր մոդելը ցույց է տալիս, թե որքան հեռու է հասել նյարդային TTS- ը :

Փորձել Kokoro

BarkBark

Standard

Transformer-based text-to-audio model that generates realistic speech, music, and sound effects.

Slow 4/5

Լավագույնը ՝ Տրանսֆորմացիայի վրա հիմնված մոդել, որը ցույց է տալիս ձայնի ստեղծումը խոսելուց հետո

Փորձել Bark

CosyVoice 2CosyVoice 2

Standard

Alibaba's scalable streaming TTS with human-parity naturalness and near-zero latency.

Medium 5/5 Ձայնի կլոնավորում

Լավագույնը ՝ TTS-ի հոսք՝ մարդկային-պարիական որակով և zero-shot կլոինգով

Փորձել CosyVoice 2

ChatterboxChatterbox

Premium

State-of-the-art zero-shot voice cloning with emotion control from Resemble AI.

Medium 5/5 Ձայնի կլոնավորում

Լավագույնը ՝ Zero-shot ձայնի կլոնավորում, որը ցույց է տալիս ձայնի սինթեզի սահմանները

Փորձել Chatterbox

Tortoise TTSTortoise TTS

Premium

Multi-voice text-to-speech focused on quality with autoregressive architecture.

Slow 5/5 Ձայնի կլոնավորում

Լավագույնը ՝ Ավտոռեգրեսիվ ճարտարապետություն՝ առավելագույն ձայնային որակով

Փորձել Tortoise TTS

Ինչպես աշխատում է Neural TTS

Ժամանակակից ձայնի սինթեզի 4-քայլի ընթացակարգ

1

Գիտեք հիմքերը

TTS- ը փոխակերպում է գրված տեքստը խոսված ձայնային տվյալների։ Նորագույն համակարգերը օգտագործում են նյարդային ցանցեր, որոնք պատրաստվել են հազարավոր ժամերի ընթացքում մարդկային խոսքի ձայնագրության հիման վրա։

2

Գտնել տարբեր մոդելներ

Յուրաքանչյուր TTS մոդել օգտագործում է տարբեր ճարտարապետություն (transformer, diffusion, variational) արագության, որակի և հատկությունների յուրահատուկ ուժերով.

3

Փորձեք ինքներդ

TTS-ը հասկանալու լավագույն միջոցը օգտագործելն է։ Փորձեք վերևում ներկայացված անվճար մոդելները՝ կպցրեք ցանկացած տեքստ և մի քանի վայրկյանում կլսեք այն։

4

Ինտեգրել ձեր նախագծերում

Երբ գտնեք ձեզ դուր եկած մոդելը, օգտագործեք մեր API-ն TTS-ը ձեր ծրագրերում, արտադրանքում կամ բովանդակության ստեղծման գործընթացում ներառելու համար։

Տեքստից խոսքի վերածման կարճ պատմություն

Մեխանիկական խոսող մեքենաներից մինչև նյարդային ցանցեր :

Առաջին օրերը (1950-1980 թթ.)

Առաջին համակարգչով ստեղծված ելույթը թվագրվում է 1961 թվական, երբ IBM-ը

Նշանավոր համակարգեր՝ Votrax (1970-ականներ), DECtalk (1984, օգտագործվել է Սթիվեն Հոքինգի կողմից), Apple

Սերգեյ Սմբատյան (1990-2000 թթ.)

Հաջորդական TTS- ը ձայնագրում է իրական մարդու ձայնը, որը խոսում է հազարավոր ֆոնեմների համադրություններով, ապա միացնում է ճիշտ հատվածները գործարկման ժամանակ։ Սա ավելի բնական հնչողությամբ խոսում է, բայց պահանջում է հսկայական տվյալների բազա (շատ հաճախ 10- 20 ժամ ձայնագրություն ձայնի համար)։ Կանոնավոր կապերի գտնումը հատվածների միջև շատ էր կախված որակից։

Օգտագործվում է AT&T Natural Voices, Nuance Vocalizer, early Google Translate TTS.

Տվյալների վիճակագրություն/Պարամետրեր (2000-2010 թթ.)

Instead of stitching recordings, parametric models learned statistical representations of speech. Hidden Markov Models (HMMs) and later deep neural networks generated speech parameters (pitch, duration, spectral features) that were fed through a vocoder. This allowed unlimited vocabulary and easier voice creation, but the vocoder step often produced a "buzzy" quality.

Հիմնական մոդելներ: HTS, Merlin, early DNN-based systems.

Նյուռալ TTS (2016-այժմ)

Ժամանակակից դարաշրջանը սկսվել է WaveNet-ից (DeepMind, 2016), որը ստեղծում է ձայնային նմուշներ՝ օգտագործելով խորը նյարդային ցանցեր։ Հաջորդել է Tacotron-ը (Google, 2017), որը սովորել է տեքստը ուղղակիորեն պատկերել սպեկտրոգրամներում։ Այսօր

Հիմնական նվաճումները՝ WaveNet, Tacotron, FastSpeech, VITS, Bark, Kokoro.

Ինչպես է աշխատում ժամանակակից նյարդային TTS-ը

Ճարտարապետությունը բնական հնչողությամբ ՁԻ ձայների հետևում

Տեքստի վերլուծություն և նորմալացում

Չոր տեքստը մաքրված և նորմալացված է: թիվերը դառնում են բառեր (\

Ակուստիկ մոդել (Սպեկտրոգրամային տեքստը)

Ակուստիկ մոդելը (շատ հաճախ տրանսֆորմատոր կամ ավտոռեգրեսիվ ցանց) վերցնում է ֆոնեմների հաջորդականությունը և կանխատեսում է mel սպեկտրոգրամը — տեսողական ներկայացում, թե ինչպես է հնչում ձայնը

Vocoder (Սպեկտրոգրամից ձայն)

Վոկոդերը վերածում է mel սպեկտրոգրամը իրական ձայնային ալիքների ձևերի։ Առաջին վիկոդերները, ինչպիսիք են Griffin-Lim-ը, ստեղծում են ռոբոտային արվեստագործական գործիքներ։ Նորագույն նյարդային վիկոդերները (HiFi-GAN, BigVGAN, Vocos) ստեղծում են բարձր ճշգրտությամբ 24kHz կամ 44.1kHz ձայն, որը գրավում է բնական խոսակցության մանրամասնությունները, ներառյալ շնչառության ձայները և ականջների նուրբ շարժումները։

Օգտագործված մոդելներ

Վերջին մոդելները, ինչպիսիք են VITS- ը, Kokoro- ն և Bark- ը, ամբողջովին բաց են թողնում երկու փուլերի ընթացքը։ Նրանք ուղղակիորեն անցնում են տեքստից հնչյունի մեկ նեյրոնային ցանցով, որն ավելի բնական արդյունքներ է տալիս ավելի քիչ արտեֆակտներով։ Որոշ մոդելներ (ինչպիսին է Bark- ը) կարող են նույնիսկ գեներացնել ոչ խոսող ձայներ, ծիծաղ և երաժշտություն խոսելիս։

TTS մոտեցումների համեմատություն

Ինչպես են համեմատվում TTS տեխնոլոգիայի չորս սերունդները :

Մոտեցում Ժամանակ Բնականություն Լարվածություն արագություն Պահանջվող տվյալներ
Ֆորմանտային սինթեզ
Օրենքների վրա հիմնված հաճախականության մոդելավորում
1960s-1990s Ոչինչ
Ընդհանուր
Ստեղծված ձայնային հատվածներ
1990s-2010s Ժամ
Պարամետրային (HMM/DNN)
Խոսքի վիճակագրական մոդելներ
2000s-2016 Ժամանակ
Նյարդային End-to-End
Խորը ուսուցում (VITS, Kokoro, Bark)
2016-Ներկայացնել րոպեներ

TTS- ի սովորական կիրառումներ

Որտեղ է այսօր օգտագործվում տեքստը ձայնագրելու համար

Մատչելիացում

Էկրանային կարդացողներ, օգտակար սարքավորումներ և տեսողական խնդիրներ ունեցող մարդկանց համար նախատեսված գործիքներ, որոնք հիմնված են TTS-ի վրա, թույլ են տալիս թվային բովանդակությունը հասանելի դարձնել բոլորին։

Ընդգրկվածության ստեղծում

YouTube-ի, podcast-ի և սոցիալական մեդիայի ստեղծողները օգտագործում են TTS-ը ձայնագրությունների, պատմությունների և ավտոմատացված բովանդակության արտադրության համար։

Վիրտուալ օգնականներ

Siri, Alexa, Google Assistant, և հաճախորդների սպասարկման chatbots բոլորը օգտագործում են TTS բնականորեն խոսել պատասխանները օգտատերերին.

Հաճախ տրվող հարցեր

Ընդհանուր հարցեր տեխնոլոգիայի մասին

TTS- ը նշանակում է Text- to- Speech (տեքստը խոսքի է վերածվում)։ Այն վերաբերում է տեխնոլոգիային, որը գրված տեքստը փոխակերպում է լսելի խոսքի՝ օգտագործելով սինթետիկ կամ արհեստական բանականությամբ ստեղծված ձայներ։ Տեխնիկական գրականության մեջ այս տերմինը փոխարինվում է « խոսքի սինթեզի » հետ։

Ժամանակակից TTS համակարգերը աշխատում են երեք փուլով՝ տեքստի վերլուծություն (վերլուծություն, նորմալացում, ֆոնեմների փոխակերպում), պրոսոդիայի կանխատեսում (ռիթմի, բարձրության, ճնշման և ընդմիջումների որոշում) և ձայնային սինթեզի (ձայնային ալիքի իրական ձևի ստեղծում)։ Նյարդային մոդելները սովորում են բոլոր երեք փուլերը ուսուցման տվյալներից։

Ստեղծողական TTS- ը միավորում է նախօրոք ձայնագրված խոսքի կտորները, որոնք կարող են անցումների ժամանակ խճճված հնչել։ Նյարդային TTS- ը ստեղծում է խոսքը սկզբից՝ օգտագործելով խորը ուսուցում, ստեղծելով ավելի մաքուր, ավելի բնական հնչողության ձայն՝ ավելի լավ պրոսոդիայով և զգացմունքներով։

SSML- ը (Speech Synthesis Markup Language) XML- ի վրա հիմնված նշագրման լեզու է, որը թույլ է տալիս ձեզ վերահսկել, թե ինչպես են TTS համակարգերը արտասանում տեքստը։ Դուք կարող եք նշել ընդմիջումները, շեշտը, արտասանությունը, ձայնի բարձրության փոփոխությունները և արտասանության արագությունը՝ օգտագործելով SSML տեգերը ձեր տեքստի մուտքագրման մեջ։

TTS-ը օգտագործվում է հասանելիության համար (տեսողական խնդիրներ ունեցող մարդկանց համար էկրանային կարդացողներ), վիրտուալ օգնականներ (Siri, Alexa, Google Assistant), ձայնագրված գրքերի արտադրություն, էլեկտրոնային ուսուցում, GPS նավարկություն, հաճախորդների ծառայության IVR համակարգեր, բովանդակության ստեղծում և լեզվի ուսուցման ծրագրեր։

TTS-ը զարգացել է 1960-ական թվականներին ռոբոտային կանոնների վրա հիմնված համակարգերից, 1990-ական թվականներին՝ կապակցված սինթեզի, 2000-ական թվականներին՝ վիճակագրական պարամետրային սինթեզի, 2016 թվականին՝ WaveNet-ի հետ նյարդային TTS-ից մինչև այսօրվա տրանսպորտեր և դիֆուզիայի մոդելներ, որոնք հասնում են մարդկային մակարդակի որակին.

Բնական հնչողությամբ TTS- ը պահանջում է ճշգրիտ պրոսոդիա (ռիթմ, ճնշում, ինտոնացիա), համապատասխան արագություն, ֆոնեմների միջև մաքուր անցումներ և համապատասխան ձայնային ինքնություն։ Նյարդային մոդելները սովորում են այս մոդելները մարդու բնական խոսակցության ձայնագրությունների մեծ տվյալների հավաքներից։

Ձայնի կլոնավորման մոդելները, ինչպիսիք են Chatterbox և CosyVoice 2-ը, կարող են կրկնօրինակել որոշակի ձայն 5-30 վայրկյան տևողությամբ ձայնային տվյալներից։ Կլոնավորված ձայնը պահպանում է ձայնի տեմպը, արտասանությունը և խոսելու ոճը, չնայած որ այլ ձայների կլոնավորման համար գործում են բարոյական և իրավական կանոններ։

Համակարգչային լեզվաբանական մոդելները համատեղ աջակցում են 30+ լեզուների։ Որոշ մոդելներ մասնագիտացված են որոշակի լեզուների վրա, իսկ մյուսները բազմլեզու են։ Անգլերենն ունի առավել հասանելի մոդելներ և ձայներ, սակայն Չիներեն, Ճապոներեն, Կորեերեն, Իսպաներեն և Եվրոպական լեզուները լավ աջակցվում են։

TTS- ը AI ձայնի ստեղծման ենթախումբ է։ TTS- ը հատկապես փոխակերպում է տեքստի մուտքագրումը խոսքի ելք։ AI ձայնի ստեղծումը ավելի լայն տերմին է, որը նաև ներառում է ձայնի կլոնավորում, ձայնի փոխակերպում, խոսքից խոսքի և ձայնային էֆեկտների ստեղծում։

Դա կախված է ձեր կարիքներից։ Kokoro- ն առաջարկում է արագության և որակի լավագույն հավասարակշռությունը ընդհանուր օգտագործման համար։ Chatterbox- ը առաջնորդում է ձայնի կլոնավորման մեջ։ Orpheus- ը գերազանց է զգացմունքային արտահայտման մեջ։ StyleTTS 2- ն արտադրում է միակ խոսողի ամենաբնական պատմվածքը։ Ոչ մի « լավագույն » մոդել չկա բոլոր օգտագործման դեպքերի համար։

Այո։ TTS.ai-ի բոլոր մոդելները բաց կոդով են և կարող են ինքնուրույն ապահովվել։ Միայն CPU-ով մոդելները, ինչպիսին է Piper-ը, կարող են աշխատել ցանկացած համակարգչում։ GPU մոդելները, ինչպիսիք են Kokoro-ն և Bark-ը, պահանջում են NVIDIA GPU-ներ 2-8 ԳԲ VRAM-ով։ Մեր պլատֆորմը նաև ապահովում է ապահովված մուտք, այնպես որ դուք չեք պետք է կառավարեք ինֆրակառուցվածքը։
5.0/5 (1)

Ի՞նչ կարող ենք բարելավել: Ձեր կարծիքը օգնում է մեզ լուծել խնդիրները:

Փորձեք ինքներդ ժամանակակից TTS-ը

Պարզապես փորձեք 20-ից ավելի AI ձայնային մոդելներ անվճար։ Դիտեք, թե որքան հեռու է հասել տեքստը խոսքի վերածումը։