Мәтінді сөйлеуге (TTS) аудару дегеніміз не?

Мәтіннен сөйлеуге көшіру - бұл жасанды интеллект арқылы жазылған мәтіндерді сөйлеу аудиосына айналдыратын технология. Бастапқы робот синтезаторларынан бастап, қазіргі кезде адамнан ажырата алмайтын нейрондық желілерге дейін, TTS технологиямен қалай қарым-қатынас жасайтынымызды, мазмұнды қалай тұтынатынымызды және ақпаратты қалай қолжетімді ететінімізді өзгертті.

ТехнологияName Журнал Не істеп тұр Нейрондық желілерName Evolution-ді қайта жүктеу

Мәтінді сөйлеуге айналдырудың негізгі түсініктері

Қазіргі сөйлеу синтезаторының құрылыс блоктарын түсінуName

TTS деген не

TTS (Text-to-Speech) — компьютерлік дыбыстарды қолдана отырып, жазбаша мәтінді сөйлемге айналдыратын технология.

Нейрондық TTS қалай жұмыс істейді

Қазіргі заманғы TTS мәтінді талдау үшін терең нейрондық желілерді пайдаланады, сөйлеу үлгілерін болжайды және адамға ұқсайтын дыбыс толқындарын шығарады.

Сөйлеу синтезі журналыName

1960-шы жылдары КСРО-да атом энергетикасы дамуының жаңа кезеңі басталды, 1990-шы жылдары атом энергетикасы қайта жанданды.

Жаңа AI модельдері

Қазіргі кезде Kokoro, Bark, CosyVoice 2 сияқты модельдер трансформаторлар, диффузия және вариациялық индукцияны қолданып, адам деңгейіндегі сөйлеу сапасын қамтамасыз етеді.

Жалпы қолданбаларName

TTS экран оқытқыштар, GPS навигация, виртуалды ассистенттер, аудио кітаптар, клиенттерді қызмет көрсету боттары, электронды оқыту платформалары және мазмұнды құру үшін қолданылады.

Ашық және коммерциялық

Ашық кодты модельдер (MIT, Apache 2.0) тегін, өздігінен хостталатын TTS-ті ұсынады, ал коммерциялық қызметтер SLA-мен және қолдаумен басқарылатын API-лерді ұсынады.

TTS моделі TTS.ai сайтында қол жетімді

Жедел және жеңілден студиялық сапалы нейрондық дауысқа дейінName

KokoroKokoro

Free

Lightweight 82M parameter model delivering studio-quality speech with blazing-fast inference.

Fast 5/5

Келесіге ең қолайлы: Соңғы үлгідегі кіші модель — нейрондық ТТС- нің жетістіктерін көрсетеді

Сынау Kokoro

BarkBark

Standard

Transformer-based text-to-audio model that generates realistic speech, music, and sound effects.

Slow 4/5

Келесіге ең қолайлы: Трансформер негізіндегі сөйлеуден тыс дыбыс шығару моделіName

Сынау Bark

CosyVoice 2CosyVoice 2

Standard

Alibaba's scalable streaming TTS with human-parity naturalness and near-zero latency.

Medium 5/5 Дыбысты көшіру

Келесіге ең қолайлы: Тіл-сөзді трансляциялау, адамдық сапасы мен клондаусыз

Сынау CosyVoice 2

ChatterboxChatterbox

Premium

State-of-the-art zero-shot voice cloning with emotion control from Resemble AI.

Medium 5/5 Дыбысты көшіру

Келесіге ең қолайлы: Диалогтық синтездің шекарасын көрсететін дыбыстарды клондау

Сынау Chatterbox

Tortoise TTSTortoise TTS

Premium

Multi-voice text-to-speech focused on quality with autoregressive architecture.

Slow 5/5 Дыбысты көшіру

Келесіге ең қолайлы: Аудио сапасын жоғарылату үшін авторегрессиялық архитектура

Сынау Tortoise TTS

Нейрондық TTS қалай жұмыс істейді

Төрт қадамды заманауи сөйлеу синтезіName

1

Нені түсіну керек

TTS жазылған мәтіндерді сөйлеу дыбысына айналдырады. Қазіргі жүйелер мыңдаған сағат адамның сөйлеуін жазып үйренген нейрондық желілерді қолданады.

2

Түрлі үлгілерді қарау

Әрбір TTS моделі басқа архитектураны (трансформатор, диффузия, вариациялық) қолданады, жылдамдық, сапа және қасиеттер бойынша ерекше күші бар.

3

Өзің сынап көр

ТТС- ні түсінудің ең жақсы жолы - оны қолдану. Жоғардағы тегін үлгілерді қолданып көріңіз - кез келген мәтіннің көшірмесін жасап, оны секундтар ішінде тыңдаңыз.

4

Жобаларға біріктіру

Сізге ұнайтын модельді тапқаннан кейін, біздің API-ні қолданбаңызға, өніміңізге немесе мазмұнды құру жұмыс үрдісіне TTS-ті интеграциялау үшін қолданыңыз.

Мәтінді сөйлеуге айналдырудың қысқаша тарихыName

Механикалық сөйлеу машиналарынан нейрондық желілерге дейін

Бастапқы жылдар (1950- 1980)

Алғашқы компьютерлік сөйлеу 1961 жылы IBM компаниясы жасаған.

Атақты жүйелер: Votrax (1970-жылдар), DECtalk (1984, Стивен Хокинг қолданған), Apple

Конкатенативті синтез (1990- 2000- жылдар)

Тіл- дыбыс аудару арқылы мыңдаған фонема комбинацияларын айтып тұрған шын адам дауысын жазып алып, орындау кезінде дұрыс сегменттерді біріктіреді. Бұл табиғи дауысты шығарады, бірақ үлкен деректер қорын қажет етеді (әдетте бір дауыс үшін 10- 20 сағаттық жазба қажет). Сапа сегменттер арасындағы тегіс қосылуды табуға байланысты.

AT&T Natural Voices, Nuance Vocalizer, early Google Translate TTS қолданады.

Статистикалық/Параметрлік (2000-2010)

Жазбаларды біріктірудің орнына, параметрлік модельдер сөйлеудің статистикалық бейнесін үйренді. Жасырын Марков үлгілері (HMM) және кейінгі терең нейрондық желілер сөйлеу параметрлерін (тон, ұзақтығы, спектрлік қасиеттері) vocoder арқылы берді. Бұл сөздік қорды шексіз етіп, дауысты құруды жеңілдетті, бірақ vocoder қадамы жиі \ t

Ключевые модели: HTS, Merlin, ранние DNN-базированные системы.

Неуралды ТТС (2016 жылдан бастап)

Жаңа дәуір WaveNet (DeepMind, 2016) арқылы басталды, ол терең нейрондық желілерді пайдаланып, үлгі бойынша аудио үлгіні құрды. Содан кейін Tacotron (Google, 2017) мәтінді тікелей спектрограммаларға сәйкестендіруді үйренді. Бүгін

Басты жетістіктері: WaveNet, Tacotron, FastSpeech, VITS, Bark, Kokoro.

Қазіргі нейрондық TTS қалай жұмыс істейді

Табиғи дауыспен сөйлей алатын ДЖ- нің архитектурасы

Мәтінді талдау және қалыпқа келтіруName

Қарапайым мәтін тазартылып, қалыпқа келтіріледі: сандары сөзге айналады (\

Акустикалық модель (мәтінді спектрограммаға) Name

Акустикалық модель (әдетте Трансформатор немесе авторегрессивтік желі) фонема тізбегін алып, мел спектрограммасын болжайды - дыбыстың қалай естілетінін визуалды түрде көрсетеді

Вокодтау (спектрограммадан аудиоға) Name

Вокодер mel спектрограммасын нақты дыбыс толқынына айналдырады. Griffin- Lim секілді алғашқы вокодерлер роботтарды шығарды. Қазіргі нейрондық вокодерлер (HiFi- GAN, BigVGAN, Vocos) жоғары сапалы 24кГц немесе 44. 1кГц дыбысын шығарады, бұл дыбыс табиғи сөйлеудің егжей- тегжейін, соның ішінде тыныс алу дыбыстарын және ауыздың жұмсақ қозғалысын қамтиды.

Толық үлгілер

VITS, Kokoro, және Bark сияқты соңғы үлгілер екі сатылы конвейерді мүлдем өткізіп жібереді. Олар бір нейрондық желі арқылы мәтіннен дыбысқа тікелей өтіп, одан да табиғи нәтижелер мен аз артефактілерді шығарады. Кейбір модельдер (мысалы, Bark) сөйлеумен қатар сөйлеу емес дыбыстарды, күлкі мен музыканы да шығара алады.

TTS тәсілдерінің салыстыруы

TTS технологиясының төрт буыны қалай салыстырылады

Жұмыс Ере Табиғилық Екі жақты Жылдамдығы Деректер керек
Формант синтезі
Ережеге негізделген жиілікті модельдеу
1960s-1990s Ештеңе
Біріктіру
Аудио сегменттерін біріктіру
1990s-2010s 10- 20 сағат
Параметрлік (HMM/DNN)
Статистикалық сөйлеу үлгілері
2000s-2016 1- 5 сағат
Нейрондық аяқтан аяғына дейін
Терең оқыту (VITS, Kokoro, Bark) Name
2016-Қазіргі Минуттардан сағаттарға

Тілдегіден- сөзге аударудың жалпы қолданбалары

Мәтінді сөйлеуге аудару бүгін қай жерде қолданылады

Арнайы мүмкіндіктер

Экран оқулықтары, көмекші құрылғылар және көру қабілеті нашар немесе оқу қабілеті нашар адамдарға арналған құралдар цифрлық мазмұнды әркімге қолжетімді ету үшін TTS-ке сүйенеді.

Мазмұнды құру

YouTube-та, подкасттарда және әлеуметтік медиада TTS-ті дыбыс жазу, баяндау және автоматтандырылған контент өндіру үшін қолданады.

Виртуалды көмекшілерName

Siri, Alexa, Google Assistant және клиенттерге қызмет көрсету чатботтары TTS-ті пайдаланушыларға жауап беру үшін қолданады.

Жиі қойылатын сұрақтар

Мәтінді сөйлеуге аудару технологиясы туралы жиі қойылатын сұрақтар

TTS деген сөзден- сөзге дегенді білдіреді. Бұл жазылған мәтіндерді синтетикалық немесе ДК- ның жасаған дауысымен дыбыстайтын технология. Бұл термин техникалық әдебиетте "сөз синтезі" дегенді білдіреді.

Заманауи ТТЖ жүйелері үш сатыда жұмыс істейді: мәтін талдау (парслау, қалыптастыру, фонема түрлендіру), прозодия болжау (ритмді, дыбыс биіктігін, тербелістерді, үзілістерді анықтау) және дыбыс синтезі (ақиқат дыбыс толқынын құру). Нейрондық модельдер барлық үш сатыны даярлау деректерінен үйренеді.

Конкатенативті TTS алдын- ала жазылған сөйлеу фрагменттерін біріктіреді, бұл ауысу кезінде үзілуі мүмкін. Нейрондық TTS терең оқытуды қолдана отырып, сөзді жаңадан құрады, нәтижесінде ыңғайлы, табиғи естілетін дыбыс, жақсы прозодия мен эмоция пайда болады.

SSML (Speech Synthesis Markup Language) - бұл XML- негіздеген мәтіннің айтылуын басқаруға арналған жазу тілі. Мәтіннің ішіне SSML тегтерін енгізіп, тоқтату, баса айту, дыбыс шығару, дыбыс деңгейін өзгерту және сөйлеу қарқынын анықтауға болады.

TTS қолжетімділік (көру қабілеті нашар пайдаланушылар үшін экран оқырмандар), виртуалды ассистенттер (Siri, Alexa, Google Assistant), аудиокітап шығару, электронды оқыту, GPS навигация, клиенттерге қызмет көрсету IVR жүйелері, контент құру және тіл үйрену бағдарламалары үшін қолданылады.

ТТС 1960-шы жылдары роботтық ережеге негізделген жүйелерден 1990-шы жылдары конкатенативті синтезге, 2000-шы жылдары статистикалық параметрлік синтезге, 2016 жылы WaveNet-пен нейрондық ТТС-ке, қазіргі заманғы трансформатор мен диффузия моделіне дейін дамыды.

Тіл- жазудың табиғи дыбысы үшін дұрыс прозодия (ритм, интонация, интонациялық күш), дұрыс темп, фонемалардың бір- біріне ыңғайлы ауысуы, дауыс ерекшелігі керек. Нейрондық модельдер бұл үлгілерді табиғи сөйлеудің үлкен деректер қорынан үйренеді.

Chatterbox және CosyVoice 2 сияқты дауысты клондау үлгілері 5- 30 секундтық сілтемелік аудиодан нақты дауысты клондай алады. Клондалған дауыс тембрі, акценті және сөйлеу стилін қамтиды, бірақ басқалардың дауысын клондауға этикалық және заңды талаптар қолданылады.

Қазіргі TTS үлгілері 30- дан астам тілдерді қолдайды. Кейбір үлгілері белгілі бір тілдерге арналса, ал басқалары көп тілді. Ағылшын тілінде ең көп модельдер мен дауыстар бар, бірақ қытай, жапон, корей, испан және еуропа тілдері жақсы қолдау табады.

TTS - бұл ДК дыбысын құрудың бір бөлігі. TTS мәтінді кірістіруді дыбыс шығаруға айналдырады. ДК дыбысын құру - бұл дыбысты клондау, дыбысты аудару, сөйлеуден сөйлеуге және дыбыс эффектін жасауды қамтитын кеңірек ұғым.

Мұның бәрі сіздің қажеттіліктеріңізге байланысты. Kokoro жылдамдық пен сапа арасындағы ең жақсы балансты ұсынады. Chatterbox дауысты клондауда көшбасшы. Orpheus эмоцияларды жеткізуде мықты. StyleTTS 2 бір сөйлеушінің ең табиғи баяндауын жасайды. Барлық жағдайлар үшін бір ғана "ең жақсы" үлгі жоқ.

Иә. TTS.ai-дегі барлық модельдер ашық кодты және өздігінен хостталатын. Piper сияқты тек процессормен жұмыс істейтін модельдер кез келген компьютерде жұмыс істейді. Kokoro және Bark сияқты GPU модельдері үшін 2-8 ГБ VRAM-ды NVIDIA GPU қажет. Біздің платформамыз хостталатын қатынауды да ұсынады, сондықтан сіз инфрақұрылымды басқаруға қажеті жоқ.
5.0/5 (1)

Нені жақсартуға болады? Сіздің пікіріңіз бізге қателерді түзетуге көмектеседі.

Қазіргі TTS-ті өзіңіз көріңіз

20-дан астам заманауи ДЖ дыбыс үлгісін тегін сынап көріңіз. Мәтінді сөйлеуге айналдырудың қаншалықты дамып келе жатқанын көріңіз.