Տեղեկացնել սխալի / հատկության մասին

Ի՞նչ է տեքստը խոսքի (TTS) վերածումը։

Տեքստից խոսքի վերածումը տեխնոլոգիա է, որը փոխակերպում է գրված տեքստերը խոսող ձայնի՝ օգտագործելով արհեստական բանականություն։ Առաջին ռոբոտային սինթեզիտորներից մինչև այսօրվա նյարդային ցանցերը, որոնք ձայնային տարբերություն չունեն մարդկանցից, TTS- ը փոխել է այն, թե ինչպես ենք մենք փոխազդում տեխնոլոգիայի հետ, օգտագործում ենք բովանդակությունը և հասանելի դարձնում տեղեկատվությունը։

Տեխնոլոգիա Պատմություն Ինչպես է այն աշխատում Նյարդային ցանցեր Evolution-ի մասին

Սկսել անվճար Ցույց տալ գները

Տեքստից խոսելու հիմնական հասկացությունները

Գիտեք ժամանակակից խոսքի սինթեզի հիմքերը

Ի՞նչ է նշանակում TTS

TTS (անգլ.՝ Text-to-Speech) — տեխնոլոգիա, որը փոխակերպում է գրված տեքստը խոսող ձայնի, օգտագործելով համակարգչային ձայներ.

Ինչպես աշխատում է Neural TTS

Նորագույն TTS-ը օգտագործում է խորը նյարդային ցանցեր՝ վերլուծելու տեքստը, կանխատեսելու խոսքի ձևերը և ստեղծելու ձայնային ալիքների ձևեր, որոնք հիանալի մարդկային են հնչում։

Խոսքի սինթեզի պատմություն

1960-ական թվականների վերջից մինչև 1990-ական թվականների սկիզբը Ֆրանսիայում աճել է սոցիալական աջակցության համակարգի արդյունավետությունը։ 1990-ական թվականներին Ֆրանսիայում աճել է սոցիալական աջակցության համակարգի արդյունավետությունը.

Դասական AI մոդելներ

2000-ական թվականներին, օրինակ՝ Kokoro, Bark, CosyVoice 2-ը օգտագործում են փոխակերպիչներ, դիֆուզիա և տարբերակական եզրակացություն՝ հասնելու համար մարդու մակարդակի խոսքի որակին։

Հիմնական ծրագրեր

TTS-ը կարող է օգտագործվել էկրանային կարդացողների, GPS նավարկության, վիրտուալ օգնականների, ձայնային գրքերի, հաճախորդների սպասարկման բոտերի, էլեկտրոնային ուսուցման պլատֆորմների և բովանդակության ստեղծման համար։

Ազատ կոդ vs առևտրային

Open-source մոդելները (MIT, Apache 2.0) ապահովում են անվճար, self-hosted TTS, իսկ առևտրային ծառայությունները առաջարկում են կառավարվող API-ներ SLA-ներով և աջակցությամբ.

TTS մոդելները հասանելի են TTS.ai կայքում

արագ և թեթև ձայներից մինչև ստուդիական որակի նյարդային ձայներ

Kokoro

Free

Lightweight 82M parameter model delivering studio-quality speech with blazing-fast inference.

Օգտագործել 5/5

Լավագույնը ՝ Նորագույն փոքր մոդելը ցույց է տալիս, թե որքան հեռու է հասել նյարդային TTS- ը :

Փորձել Kokoro

Bark

Standard

Transformer-based text-to-audio model that generates realistic speech, music, and sound effects.

Դադար 4/5

Լավագույնը ՝ Տրանսֆորմացիայի վրա հիմնված մոդել, որը ցույց է տալիս ձայնի ստեղծումը խոսելուց հետո

Փորձել Bark

CosyVoice 2

Standard

Alibaba's scalable streaming TTS with human-parity naturalness and near-zero latency.

Ընդհանուր 5/5 Ձայնի կլոնավորում

Լավագույնը ՝ TTS-ի հոսք՝ մարդկային-պարիական որակով և zero-shot կլոինգով

Փորձել CosyVoice 2

Chatterbox

Premium

State-of-the-art zero-shot voice cloning with emotion control from Resemble AI.

Ընդհանուր 5/5 Ձայնի կլոնավորում

Լավագույնը ՝ Zero-shot ձայնի կլոնավորում, որը ցույց է տալիս ձայնի սինթեզի սահմանները

Փորձել Chatterbox

Tortoise TTS

Premium

Multi-voice text-to-speech focused on quality with autoregressive architecture.

Դադար 5/5 Ձայնի կլոնավորում

Լավագույնը ՝ Ավտոռեգրեսիվ ճարտարապետություն՝ առավելագույն ձայնային որակով

Փորձել Tortoise TTS

Ինչպես աշխատում է Neural TTS

Ժամանակակից ձայնի սինթեզի 4-քայլի ընթացակարգ

Գիտեք հիմքերը

TTS- ը փոխակերպում է գրված տեքստը խոսված ձայնային տվյալների։ Նորագույն համակարգերը օգտագործում են նյարդային ցանցեր, որոնք պատրաստվել են հազարավոր ժամերի ընթացքում մարդկային խոսքի ձայնագրության հիման վրա։

Գտնել տարբեր մոդելներ

Յուրաքանչյուր TTS մոդել օգտագործում է տարբեր ճարտարապետություն (transformer, diffusion, variational) արագության, որակի և հատկությունների յուրահատուկ ուժերով.

Փորձեք ինքներդ

TTS-ը հասկանալու լավագույն միջոցը օգտագործելն է։ Փորձեք վերևում ներկայացված անվճար մոդելները՝ կպցրեք ցանկացած տեքստ և մի քանի վայրկյանում կլսեք այն։

Ինտեգրել ձեր նախագծերում

Երբ գտնեք ձեզ դուր եկած մոդելը, օգտագործեք մեր API-ն TTS-ը ձեր ծրագրերում, արտադրանքում կամ բովանդակության ստեղծման գործընթացում ներառելու համար։

Տեքստից խոսքի վերածման կարճ պատմություն

Մեխանիկական խոսող մեքենաներից մինչև նյարդային ցանցեր :

Առաջին օրերը (1950-1980 թթ.)

Առաջին համակարգչով ստեղծված ելույթը թվագրվում է 1961 թվական, երբ IBM-ը

Նշանավոր համակարգեր՝ Votrax (1970-ականներ), DECtalk (1984, օգտագործվել է Սթիվեն Հոքինգի կողմից), Apple

Սերգեյ Սմբատյան (1990-2000 թթ.)

Հաջորդական TTS- ը ձայնագրում է իրական մարդու ձայնը, որը խոսում է հազարավոր ֆոնեմների համադրություններով, ապա միացնում է ճիշտ հատվածները գործարկման ժամանակ։ Սա ավելի բնական հնչողությամբ խոսում է, բայց պահանջում է հսկայական տվյալների բազա (շատ հաճախ 10- 20 ժամ ձայնագրություն ձայնի համար)։ Կանոնավոր կապերի գտնումը հատվածների միջև շատ էր կախված որակից։

Օգտագործվում է AT&T Natural Voices, Nuance Vocalizer, early Google Translate TTS.

Տվյալների վիճակագրություն/Պարամետրեր (2000-2010 թթ.)

ձայնագրությունների միացման փոխարեն, պարամետրային մոդելները սովորում էին խոսելու վիճակագրական ներկայացումները։ Կապույտ Մարկովի մոդելները (HMMs) և ավելի ուշ խորը նյարդային ցանցերը գեներացնում էին խոսելու պարամետրերը (հնչյունի բարձրությունը, տևողությունը, սպեկտրալաները), որոնք սնուցվում էին վիկոդերով։ Սա թույլ էր տալիս անթիվ բառապաշար և հեշտ ձայն ստեղծել, բայց վիկոդերը հաճախ \\\

Հիմնական մոդելներ: HTS, Merlin, early DNN-based systems.

Նյուռալ TTS (2016-այժմ)

Ժամանակակից դարաշրջանը սկսվել է WaveNet-ից (DeepMind, 2016), որը ստեղծում է ձայնային նմուշներ՝ օգտագործելով խորը նյարդային ցանցեր։ Հաջորդել է Tacotron-ը (Google, 2017), որը սովորել է տեքստը ուղղակիորեն պատկերել սպեկտրոգրամներում։ Այսօր

Հիմնական նվաճումները՝ WaveNet, Tacotron, FastSpeech, VITS, Bark, Kokoro.

Փորձեք ժամանակակից Neural TTS

Ինչպես է աշխատում ժամանակակից նյարդային TTS-ը

Ճարտարապետությունը բնական հնչողությամբ ՁԻ ձայների հետևում

Տեքստի վերլուծություն և նորմալացում

Չոր տեքստը մաքրված և նորմալացված է: թիվերը դառնում են բառեր (\

Ակուստիկ մոդել (Սպեկտրոգրամային տեքստը)

Ակուստիկ մոդելը (շատ հաճախ տրանսֆորմատոր կամ ավտոռեգրեսիվ ցանց) վերցնում է ֆոնեմների հաջորդականությունը և կանխատեսում է mel սպեկտրոգրամը — տեսողական ներկայացում, թե ինչպես է հնչում ձայնը

Vocoder (Սպեկտրոգրամից ձայն)

Վոկոդերը վերածում է mel սպեկտրոգրամը իրական ձայնային ալիքների ձևերի։ Առաջին վիկոդերները, ինչպիսիք են Griffin-Lim-ը, ստեղծում են ռոբոտային արվեստագործական գործիքներ։ Նորագույն նյարդային վիկոդերները (HiFi-GAN, BigVGAN, Vocos) ստեղծում են բարձր ճշգրտությամբ 24kHz կամ 44.1kHz ձայն, որը գրավում է բնական խոսակցության մանրամասնությունները, ներառյալ շնչառության ձայները և ականջների նուրբ շարժումները։

Օգտագործված մոդելներ

Վերջին մոդելները, ինչպիսիք են VITS- ը, Kokoro- ն և Bark- ը, ամբողջովին բաց են թողնում երկու փուլերի ընթացքը։ Նրանք ուղղակիորեն անցնում են տեքստից հնչյունի մեկ նեյրոնային ցանցով, որն ավելի բնական արդյունքներ է տալիս ավելի քիչ արտեֆակտներով։ Որոշ մոդելներ (ինչպիսին է Bark- ը) կարող են նույնիսկ գեներացնել ոչ խոսող ձայներ, ծիծաղ և երաժշտություն խոսելիս։

Ձեր սեփական փորձը

TTS մոտեցումների համեմատություն

Ինչպես են համեմատվում TTS տեխնոլոգիայի չորս սերունդները :

Մոտեցում	Ժամանակ	Պահանջվող տվյալներ
Ֆորմանտային սինթեզ Օրենքների վրա հիմնված հաճախականության մոդելավորում	1960s-1990s	Ոչինչ
Ընդհանուր Ստեղծված ձայնային հատվածներ	1990s-2010s	Ժամ
Պարամետրային (HMM/DNN) Խոսքի վիճակագրական մոդելներ	2000s-2016	Ժամանակ
Նյարդային End-to-End Խորը ուսուցում (VITS, Kokoro, Bark)	2016-Ներկայացնել	րոպեներ

Փորձեք Neural TTS Free

TTS- ի սովորական կիրառումներ

Որտեղ է այսօր օգտագործվում տեքստը ձայնագրելու համար

Մատչելիացում

Էկրանային կարդացողներ, օգտակար սարքավորումներ և տեսողական խնդիրներ ունեցող մարդկանց համար նախատեսված գործիքներ, որոնք հիմնված են TTS-ի վրա, թույլ են տալիս թվային բովանդակությունը հասանելի դարձնել բոլորին։

Ընդգրկվածության ստեղծում

YouTube-ի, podcast-ի և սոցիալական մեդիայի ստեղծողները օգտագործում են TTS-ը ձայնագրությունների, պատմությունների և ավտոմատացված բովանդակության արտադրության համար։

Վիրտուալ օգնականներ

Siri, Alexa, Google Assistant, և հաճախորդների սպասարկման chatbots բոլորը օգտագործում են TTS բնականորեն խոսել պատասխանները օգտատերերին.

Ստեղծել ձայնագրություն

Հաճախ տրվող հարցեր

Ընդհանուր հարցեր տեխնոլոգիայի մասին

TTS- ը նշանակում է Text- to- Speech (տեքստը խոսքի է վերածվում)։ Այն վերաբերում է տեխնոլոգիային, որը գրված տեքստը փոխակերպում է լսելի խոսքի՝ օգտագործելով սինթետիկ կամ արհեստական բանականությամբ ստեղծված ձայներ։ Տեխնիկական գրականության մեջ այս տերմինը փոխարինվում է « խոսքի սինթեզի » հետ։

Ժամանակակից TTS համակարգերը աշխատում են երեք փուլով՝ տեքստի վերլուծություն (վերլուծություն, նորմալացում, ֆոնեմների փոխակերպում), պրոսոդիայի կանխատեսում (ռիթմի, բարձրության, ճնշման և ընդմիջումների որոշում) և ձայնային սինթեզի (ձայնային ալիքի իրական ձևի ստեղծում)։ Նյարդային մոդելները սովորում են բոլոր երեք փուլերը ուսուցման տվյալներից։

Ստեղծողական TTS- ը միավորում է նախօրոք ձայնագրված խոսքի կտորները, որոնք կարող են անցումների ժամանակ խճճված հնչել։ Նյարդային TTS- ը ստեղծում է խոսքը սկզբից՝ օգտագործելով խորը ուսուցում, ստեղծելով ավելի մաքուր, ավելի բնական հնչողության ձայն՝ ավելի լավ պրոսոդիայով և զգացմունքներով։

SSML- ը (Speech Synthesis Markup Language) XML- ի վրա հիմնված նշագրման լեզու է, որը թույլ է տալիս ձեզ վերահսկել, թե ինչպես են TTS համակարգերը արտասանում տեքստը։ Դուք կարող եք նշել ընդմիջումները, շեշտը, արտասանությունը, ձայնի բարձրության փոփոխությունները և արտասանության արագությունը՝ օգտագործելով SSML տեգերը ձեր տեքստի մուտքագրման մեջ։

TTS-ը օգտագործվում է հասանելիության համար (տեսողական խնդիրներ ունեցող մարդկանց համար էկրանային կարդացողներ), վիրտուալ օգնականներ (Siri, Alexa, Google Assistant), ձայնագրված գրքերի արտադրություն, էլեկտրոնային ուսուցում, GPS նավարկություն, հաճախորդների ծառայության IVR համակարգեր, բովանդակության ստեղծում և լեզվի ուսուցման ծրագրեր։

TTS-ը զարգացել է 1960-ական թվականներին ռոբոտային կանոնների վրա հիմնված համակարգերից, 1990-ական թվականներին՝ կապակցված սինթեզի, 2000-ական թվականներին՝ վիճակագրական պարամետրային սինթեզի, 2016 թվականին՝ WaveNet-ի հետ նյարդային TTS-ից մինչև այսօրվա տրանսպորտեր և դիֆուզիայի մոդելներ, որոնք հասնում են մարդկային մակարդակի որակին.

Բնական հնչողությամբ TTS- ը պահանջում է ճշգրիտ պրոսոդիա (ռիթմ, ճնշում, ինտոնացիա), համապատասխան արագություն, ֆոնեմների միջև մաքուր անցումներ և համապատասխան ձայնային ինքնություն։ Նյարդային մոդելները սովորում են այս մոդելները մարդու բնական խոսակցության ձայնագրությունների մեծ տվյալների հավաքներից։

Ձայնի կլոնավորման մոդելները, ինչպիսիք են Chatterbox և CosyVoice 2-ը, կարող են կրկնօրինակել որոշակի ձայն 5-30 վայրկյան տևողությամբ ձայնային տվյալներից։ Կլոնավորված ձայնը պահպանում է ձայնի տեմպը, արտասանությունը և խոսելու ոճը, չնայած որ այլ ձայների կլոնավորման համար գործում են բարոյական և իրավական կանոններ։

Համակարգչային լեզվաբանական մոդելները համատեղ աջակցում են 30+ լեզուների։ Որոշ մոդելներ մասնագիտացված են որոշակի լեզուների վրա, իսկ մյուսները բազմլեզու են։ Անգլերենն ունի առավել հասանելի մոդելներ և ձայներ, սակայն Չիներեն, Ճապոներեն, Կորեերեն, Իսպաներեն և Եվրոպական լեզուները լավ աջակցվում են։

TTS- ը AI ձայնի ստեղծման ենթախումբ է։ TTS- ը հատկապես փոխակերպում է տեքստի մուտքագրումը խոսքի ելք։ AI ձայնի ստեղծումը ավելի լայն տերմին է, որը նաև ներառում է ձայնի կլոնավորում, ձայնի փոխակերպում, խոսքից խոսքի և ձայնային էֆեկտների ստեղծում։

Դա կախված է ձեր կարիքներից։ Kokoro- ն առաջարկում է արագության և որակի լավագույն հավասարակշռությունը ընդհանուր օգտագործման համար։ Chatterbox- ը առաջնորդում է ձայնի կլոնավորման մեջ։ Orpheus- ը գերազանց է զգացմունքային արտահայտման մեջ։ StyleTTS 2- ն արտադրում է միակ խոսողի ամենաբնական պատմվածքը։ Ոչ մի « լավագույն » մոդել չկա բոլոր օգտագործման դեպքերի համար։

Այո։ TTS.ai-ի բոլոր մոդելները բաց կոդով են և կարող են ինքնուրույն ապահովվել։ Միայն CPU-ով մոդելները, ինչպիսին է Piper-ը, կարող են աշխատել ցանկացած համակարգչում։ GPU մոդելները, ինչպիսիք են Kokoro-ն և Bark-ը, պահանջում են NVIDIA GPU-ներ 2-8 ԳԲ VRAM-ով։ Մեր պլատֆորմը նաև ապահովում է ապահովված մուտք, այնպես որ դուք չեք պետք է կառավարեք ինֆրակառուցվածքը։

5.0/5 (1)

Փորձեք ինքներդ ժամանակակից TTS-ը

Պարզապես փորձեք 20-ից ավելի AI ձայնային մոդելներ անվճար։ Դիտեք, թե որքան հեռու է հասել տեքստը խոսքի վերածումը։

Անվճար գրանցում Ցույց տալ գները

Ի՞նչ է տեքստը խոսքի (TTS) վերածումը։

Տեքստից խոսելու հիմնական հասկացությունները

Ի՞նչ է նշանակում TTS

Ինչպես աշխատում է Neural TTS

Խոսքի սինթեզի պատմություն

Դասական AI մոդելներ

Հիմնական ծրագրեր

Ազատ կոդ vs առևտրային

TTS մոդելները հասանելի են TTS.ai կայքում

Kokoro

Bark

CosyVoice 2

Chatterbox

Tortoise TTS

Ինչպես աշխատում է Neural TTS

Գիտեք հիմքերը

Գտնել տարբեր մոդելներ

Փորձեք ինքներդ

Ինտեգրել ձեր նախագծերում

Տեքստից խոսքի վերածման կարճ պատմություն

Առաջին օրերը (1950-1980 թթ.)

Սերգեյ Սմբատյան (1990-2000 թթ.)

Տվյալների վիճակագրություն/Պարամետրեր (2000-2010 թթ.)

Նյուռալ TTS (2016-այժմ)

Ինչպես է աշխատում ժամանակակից նյարդային TTS-ը

Տեքստի վերլուծություն և նորմալացում

Ակուստիկ մոդել (Սպեկտրոգրամային տեքստը)

Vocoder (Սպեկտրոգրամից ձայն)

Օգտագործված մոդելներ

TTS մոտեցումների համեմատություն

TTS- ի սովորական կիրառումներ

Մատչելիացում

Ընդգրկվածության ստեղծում

Վիրտուալ օգնականներ

Հաճախ տրվող հարցեր

Ի՞նչ է նշանակում TTS-ը։

Ինչպե՞ս է աշխատում տեքստը խոսքի վերածելը։

Ո՞րն է տարբերությունը նյարդային TTS- ի և կապված TTS- ի միջև։

Ի՞նչ է SSML- ը և ինչպես է այն օգտագործվում TTS- ի հետ։

Ո՞րն է TTS տեխնոլոգիայի հիմնական գործածությունը։

Ինչպե՞ս է TTS տեխնոլոգիան զարգացել ժամանակի ընթացքում։

Ինչո՞վ է TTS ձայնը բնական հնչում։

Կարո՞ղ է TTS-ը կրկնօրինակել ցանկացած մարդկային ձայն։

Ո՞ր լեզուներն է աջակցում TTS- ը։

TTS-ն նույնն է, ինչ AI ձայնի ստեղծումը։

Ո՞րն է այսօրվա լավագույն TTS մոդելը։

Կարո՞ղ եմ աշխատեցնել TTS մոդելները իմ սեփական համակարգչում։

Փորձեք ինքներդ ժամանակակից TTS-ը