Што такое пераўтварэнне тэксту ў мову (TTS)?

Праграма пераўтварэння тэксту ў мову - гэта тэхналогія, якая пераўтварае напісаны тэкст у гукавы гук з дапамогай штучнага інтэлекту. Ад першых робатаў-сінтэзатараў да сённяшняга дня

Тэхналогія Гісторыя Як гэта працуе Нейронныя сеткіName Адрас электроннай пошты:

Ключавыя паняцці пераўтварэння тэксту ў мовуName

Паразуменьне будынкавых блокаў сучаснага сінтэзу мовы

Што азначае TTS

TTS (англ.: Text-to-Speech) — тэхналогія, якая пераўтварае пісьмовы тэкст у гукавы з выкарыстаннем камп'ютарных галасоў.

Як працуе Neural TTS

Сучасны TTS выкарыстоўвае глыбокія нейронныя сеткі для аналізу тэксту, прагназавання маўлення і генерацыі гукавых хваль, якія гучаць неверагодна чалавечна.

Гісторыя сінтэзу мовыName

З 1960-х гадоў сістэмы, заснаваныя на правілах, да 1990-х гадоў канкатэнатыўнага сінтэзу да сучасных нейронных мадэляў — як TTS развіваўся на працягу 60 гадоў.

Сучасныя мадэлі штучнага інтэлекту

Сучасныя мадэлі, такія як Kokoro, Bark і CosyVoice 2 выкарыстоўваюць трансфарматары, дыфузію і варыяцыйную выснова для дасягнення якасці мовы на ўзроўні чалавека.

Агульныя праграмы

TTS падтрымлівае экранныя чытальнікі, GPS-навігацыю, віртуальныя асістэнты, аудіакнігі, боты абслугоўвання кліентаў, платформы электроннага навучання і стварэнне кантэнту.

Адкрыты код супраць камерцыйнага

Мадэлі з адкрытым зыходным кодам (MIT, Apache 2.0) забяспечваюць бясплатны, самастойны хостынг TTS, у той час як камерцыйныя сэрвісы прапануюць кіруемыя API з SLA і падтрымкай.

Шаблон:ТТС-мадэлі на TTS.ai

Ад хуткіх і лёгкіх да студыйных нейронных галасоў

KokoroKokoro

Free

Lightweight 82M parameter model delivering studio-quality speech with blazing-fast inference.

Fast 5/5

Лепшы для: Найноўшая малая мадэль — паказвае, наколькі далёка дайшоў нейронны TTS

Спроба Kokoro

BarkBark

Standard

Transformer-based text-to-audio model that generates realistic speech, music, and sound effects.

Slow 4/5

Лепшы для: Трансфарматарная мадэль, якая дэманструе генерацыю гуку за межамі мовы

Спроба Bark

CosyVoice 2CosyVoice 2

Standard

Alibaba's scalable streaming TTS with human-parity naturalness and near-zero latency.

Medium 5/5 Клонаванне голасу

Лепшы для: Трансляцыя TTS з якасьцю, блізкай да чалавечай, і нулявым клонаваньнем

Спроба CosyVoice 2

ChatterboxChatterbox

Premium

State-of-the-art zero-shot voice cloning with emotion control from Resemble AI.

Medium 5/5 Клонаванне голасу

Лепшы для: Клонаваньне голасу Zero-shot, якое паказвае межы сінтэзу голасу

Спроба Chatterbox

Tortoise TTSTortoise TTS

Premium

Multi-voice text-to-speech focused on quality with autoregressive architecture.

Slow 5/5 Клонаванне голасу

Лепшы для: Аўтарэгрэсіўная архітэктура з максімальнай якасцю гуку

Спроба Tortoise TTS

Як працуе Neural TTS

Сучасны канвеер сінтэзу мовы ў чатырох кроках

1

Асновы

TTS пераўтварае пісьмовы тэкст у гукавы гук. Сучасныя сістэмы выкарыстоўваюць нейронныя сеткі, навучаныя на тысячах гадзінаў запісу чалавечай мовы.

2

Даследаваць розныя мадэлі

Кожная мадэль TTS выкарыстоўвае розную архітэктуру (трансфарматарную, дыфузную, варыяцыйную) з унікальнымі перавагамі ў хуткасці, якасці і функцыях.

3

Паспрабуйце самастойна

Лепшы спосаб зразумець TTS - гэта выкарыстоўваць яго. Паспрабуйце нашы бясплатныя мадэлі вышэй - устаўце любы тэкст і пачуйце яго за некалькі секунд.

4

Інтэграцыя ў вашыя праекты

Як толькі вы знойдзеце мадэль, якая вам падабаецца, выкарыстайце наш API для інтэграцыі TTS у вашыя праграмы, прадукты або працэс стварэння кантэнту.

Кароткая гісторыя пераўтварэння тэксту ў мовуName

Ад механічных размаўляючых машын да нейронных сетак

Першыя дні (1950-я - 1980-я)

Першая камп'ютарная гаворка была створана ў 1961 годзе, калі IBM

Знакамітыя сістэмы: Votrax (1970-я), DECtalk (1984, выкарыстоўваўся Стывенам Хокінгам), Apple

Злучаны сінтэз (1990- 2000- я)

Злучальны TTS запісвае рэальны чалавечы голас, які выказвае тысячы фонемных камбінацый, а затым злучае правільныя сегменты падчас выканання. Гэта дае больш натуральна гучаючую мову, але патрабуе вялікіх баз дадзеных (часта 10- 20 гадзін запісу на голас). Якасць у значнай ступені залежыць ад пошуку гладкіх злучэнняў паміж сегментамі.

Выкарыстоўваецца: AT&T Natural Voices, Nuance Vocalizer, ранні Google Translate TTS.

Статыстыка/Параметры (2000-2010-я гады)

Замест злучэння запісаў, параметрычныя мадэлі вывучалі статыстычныя прадстаўленні гаворкі. Прыхаваныя мадэлі Маркава (HMM) і пазней глыбокія нейронныя сеткі генеравалі параметры гаворкі (інтэнсіўнасць, працягласць, спектральныя характарыстыкі), якія перадаваліся праз вокадэр. Гэта дазваляла неабмежаваны слоўнікавы запас і прасцейшае стварэнне голасу, але крок вокадара часта прыводзіў да \

Ключавыя мадэлі: HTS, Merlin, раннія DNN-базаваныя сістэмы.

Неўральны TTS (з 2016 года)

Сучасная эра пачалася з WaveNet (DeepMind, 2016), які генераваў аўдыёсэмплі па семплях з дапамогай глыбокіх нейронных сетак. За ім пайшоў Tacotron (Google, 2017), які навучыўся адлюстроўваць тэкст прама на спектраграмах. Сёння

Ключавыя прарывы: WaveNet, Tacotron, FastSpeech, VITS, Bark, Kokoro.

Як працуе сучасны нейронны TTS

Архітэктура натуральна гучачых галасоў штучнага інтэлекту

Аналіз і нармалізацыя тэкстуName

Неапрацаваны тэкст ачышчаецца і нармалізуецца: лікі ператвараюцца ў словы (\

Акустычная мадэль (тэкст у спектраграму) Name

Акустычная мадэль (часта Трансфарматар або аўтарэгрэсіўная сетка) бярэ паслядоўнасць фонем і прадказвае спектраграму мела — візуальнае прадстаўленне таго, як гук

Вокадэр (спектраграма ў аўдыё) Name

Вокадэр пераўтварае mel- спектраграму ў рэальныя гукавыя хвалі. Раннія вокадары, такія як Griffin- Lim, выраблялі робатычныя артэфакты. Сучасныя нейронныя вокадары (HiFi- GAN, BigVGAN, Vocos) генеруюць аўдыё высокай якасці 24 кГц або 44, 1 кГц, якое захоплівае дробныя дэталі натуральнай мовы, уключаючы гукі дыхання і тонкія рухі губ.

Мадэлі End- to- End

Апошнія мадэлі, такія як VITS, Kokoro і Bark, цалкам прапускаюць двухступенчаты канвеер. Яны пераходзяць прама з тэксту ў гук у адной нейроннай сетцы, ствараючы больш натуральныя вынікі з меншымі артэфактамі. Некаторыя мадэлі (напрыклад, Bark) могуць нават генераваць негукавыя гукі, смех і музыку разам з мовай.

Параўнанне метадаў TTSName

Як параўноўваюцца чатыры пакаленні тэхналогіі TTS

Прыбліжэнне Эра Натуральнасць Гнуткасць Хуткасць Неабходныя дадзеныя
Формантны сінтэз
Рэгулярнае мадэляваньне частаты
1960s-1990s Адсутнічае
Злучэнне
Злучаныя гукавыя сегменты
1990s-2010s Гадзіны
Параметрычны (HMM/DNN)
Статыстычныя мадэлі гаворкі
2000s-2016 1-5 гадзін
Неўральны End- to- End
Глыбокае навучанне (VITS, Kokoro, Bark)
2016-Наяўны Хвіліны ў гадзіны

Звычайныя прыкладанні TTS

Дзе сёння выкарыстоўваецца пераўтварэнне тэксту ў мову

Даступнасць

Экранныя чытачы, дапаможныя прылады і інструменты для людзей з парушэннямі зроку або парушэннямі чытання выкарыстоўваюць TTS, каб зрабіць лічбавы кантэнт даступным для ўсіх.

Стварэнне зместу

YouTubers, podcasters, і стваральнікі сацыяльных медыя выкарыстоўваюць TTS для аўдыёзапісаў, апавяданняў і аўтаматызаванай вытворчасці кантэнту ў шырокім маштабе.

Віртуальныя памочнікіName

Siri, Alexa, Google Assistant і чат-боты па абслугоўванні кліентаў выкарыстоўваюць TTS для натуральнага выказвання адказаў карыстальнікам.

Частыя пытанні

Частыя пытаньні пра тэхналогію пераўтварэньня тэксту ў мову

TTS азначае Text- to- Speech. Гэта тэхналогія пераўтварэння напісанага тэксту ў гукавыя словы з выкарыстаннем сінтэзаваных або штучных галасоў. У тэхнічнай літаратуры гэты тэрмін часта выкарыстоўваецца замест "сінтэзу мовы".

Сучасныя сістэмы TTS працуюць у тры этапы: аналіз тэксту (апрацоўка, нармалізацыя, пераўтварэнне фонем), прагназаванне празодыі (вызначэнне рытму, вышыні, націску і перапынкаў) і сінтэз гуку (генерацыя рэальнай формы гукавой хвалі). Нейронныя мадэлі вывучаюць усе тры этапы з даных трэніроўкі.

Канкатэнатыўнае TTS злучае разам папярэдне запісаныя фрагменты гаворкі, якія могуць гучаць няроўна падчас пераходаў. Нейроннае TTS генеруе гаворку з нуля з дапамогай глыбокага навучання, ствараючы больш гладкае, больш натуральнае гучанне з лепшай прасодыяй і эмоцыямі.

SSML (Speech Synthesis Markup Language) - гэта мова разметкі, заснаваная на XML, якая дазваляе кантраляваць, як сістэмы TTS вымаўляюць тэкст. Вы можаце вызначыць pauzes, акцэнт, вымаўленне, змены гучнасці і хуткасць вымаўлення з дапамогай тэгаў SSML у вашым тэксце.

TTS выкарыстоўваецца для даступнасці (экранныя чытачы для карыстальнікаў з парушэннем зроку), віртуальных асістэнтаў (Siri, Alexa, Google Assistant), вытворчасці аўдыёкніг, электроннага навучання, GPS-навігацыі, сістэм абслугоўвання кліентаў IVR, стварэння кантэнту і прыкладанняў для навучання мовам.

У 1960-я гады TTS развіваўся з робататэхнічных сістэм, заснаваных на правілах, у 1990-я гады да канкатэнатыўнага сінтэзу, у 2000-я гады да статыстычнага параметрычнага сінтэзу, у 2016 годзе да нейроннага TTS з WaveNet, да сённяшніх трансфармацыйных і дыфузных мадэляў, якія дасягаюць якасці на ўзроўні чалавека.

Натуральнае гучанне TTS патрабуе дакладнай празодыі (рытм, націск, інтанацыя), адпаведнага тэмпу, гладкіх пераходаў паміж фонемамі і паслядоўнай ідэнтычнасці голасу. Нейронныя мадэлі вывучаюць гэтыя шаблоны з вялікіх набораў дадзеных натуральных запісаў чалавечай мовы.

Мадэлі клонавання голасу, такія як Chatterbox і CosyVoice 2, могуць паўтарыць пэўны голас з 5-30 секундаў аўдыёзапісу. Клонаваны голас захоплівае тэмбр, акцэнт і стыль гаворкі, хоць да клонавання іншых голасаў адносяцца этычныя і юрыдычныя пытанні.

Сучасныя мадэлі TTS сумесна падтрымліваюць больш за 30 моў. Некаторыя мадэлі спецыялізуюцца на пэўных мовах, а іншыя шматмоўныя. Англійская мае большасць даступных мадэляў і галасоў, але кітайская, японская, карэйская, іспанская і еўрапейскія мовы добра падтрымліваюцца.

TTS з' яўляецца падмноствам AI генерацыі голасу. TTS спецыяльна пераўтварае тэкставы ўвод у гукавы вывад. AI генерацыя голасу - гэта шырэйшы тэрмін, які таксама ўключае ў сябе клонаванне голасу, пераўтварэнне голасу, размову ў размову і генерацыю гукавых эфектаў.

Гэта залежыць ад вашых патрэбаў. Kokoro прапануе найлепшы баланс хуткасці і якасці для агульнага выкарыстання. Chatterbox лідзіруе ў галіне клонавання голасу. Orpheus пераўзыходзіць у эмацыянальным выражэнні. StyleTTS 2 стварае найбольш натуральную гутарку з адным голасам. Не існуе адной "лепшай" мадэлі для ўсіх выпадкаў выкарыстання.

Так. Усе мадэлі на TTS.ai з адкрытым зыходным кодам і могуць працаваць самастойна. Мадэлі толькі з працэсарам, такія як Piper, могуць працаваць на любым кампутары. Мадэлі з графічным працэсарам, такія як Kokoro і Bark, патрабуюць графічнага працэсара NVIDIA з 2-8 ГБ VRAM. Наша платформа таксама забяспечвае хоставаны доступ, так што вам не трэба кіраваць інфраструктурай.
5.0/5 (1)

Даведайцеся пра сучасны TTS самі

Паспрабуйце 24+ найноўшых мадэляў голасу штучнага інтэлекту бясплатна. Паглядзіце, як далёка тэхналогія пераўтварэньня тэксту ў мову пайшла.