Report Bug / Feature Request

Матн ба гуфтор (TTS) чист?

Матн ба гуфтугӯ технологияест, ки матни навишташударо ба садои гуфташуда бо истифодаи ақлу хиради сунъӣ табдил медиҳад. Аз синтезаторҳои роботӣ то шабакаҳои нейронии имрӯза, ки садои онҳоро аз одамон фарқ кардан мумкин нест, TTS тарзи муносибати моро бо технология, истеъмоли мундариҷа ва дастрасии иттилоотро тағйир дод.

ТехнологияName Таърих Чӣ тавр кор мекунад Шабакаҳои нейронӣName Тағйири номи Evolution

Матн ба гуфторName

Фаъолсозии синтезатори гуфтугӯи муосирName

Чӣ маъно дорад TTS

TTS (англ. Text-to-Speech) — технологияи барои табдил додани матни навишташуда ба овози гуфтугӯӣ бо истифода аз овози компютерӣ.

Чӣ тавр Neural TTS кор мекунад

Atari ST (англ. Atari ST) — як ҳавогарди сохтаи Atari дар кишвари Иёлоти Муттаҳидаи Амрико аст. ин ҳавогарди сохтаи Atari аст.

Таърихи синтези сухан

Дар солҳои 1960-ум дар асоси системаи 10-битӣ (10-битӣ) системаи 16-битӣ (16-битӣ) ба вуҷуд омад.

Намунаҳои AI- и муосир

Дар ин давра, барои эҷоди оҳангҳои форсӣ, форсии тоҷикӣ, форсии узбекӣ, форсии тоҷикӣ ва ғайра, 2000-2002, барои оҳангҳои мусиқии классикӣ ва муосир кор кардааст.

Барномаҳои маъмул

Инчунин, дар ин ҷо барномаҳои навигатсионӣ, барномаҳои барои дарёфти макон, барномаҳои барои дарёфти манзил, барномаҳои барои дарёфти маълумот, барномаҳои барои дарёфти маълумот, барномаҳои барои дарёфти маълумот ва ғайра мавҷуданд.

Манбаъи кушод ва тиҷоратӣ

Apache 2.0 (англ. Apache 2.0) — як ҳавогарди сохтаи Apache Corporation дар кишвари Иёлоти Муттаҳидаи Амрико аст.

Намунаҳои TTS дар TTS.ai дастрасанд

Аз овозҳои тез ва сабук то овозҳои нейронии сифати студия

KokoroKokoro

Free

Lightweight 82M parameter model delivering studio-quality speech with blazing-fast inference.

Fast 5/5

Беҳтарин барои: Модели хурди муосири муосир - нишон медиҳад, ки чӣ қадар TTS-и нейронӣ расидааст

Кӯшиш кунед Kokoro

BarkBark

Standard

Transformer-based text-to-audio model that generates realistic speech, music, and sound effects.

Slow 4/5

Беҳтарин барои: Намунаи асосӣ ба трансформатор, ки эҷоди аудиоро аз гуфтугӯи берун нишон медиҳад

Кӯшиш кунед Bark

CosyVoice 2CosyVoice 2

Standard

Alibaba's scalable streaming TTS with human-parity naturalness and near-zero latency.

Medium 5/5 Тасвири овоз

Беҳтарин барои: Транслатсия кардани TTS бо сифати инсонӣ ва нусхабардории Zero-shot

Кӯшиш кунед CosyVoice 2

ChatterboxChatterbox

Premium

State-of-the-art zero-shot voice cloning with emotion control from Resemble AI.

Medium 5/5 Тасвири овоз

Беҳтарин барои: Тасвири овози Zero-shot, ки марзи синтези овозро нишон медиҳад

Кӯшиш кунед Chatterbox

Tortoise TTSTortoise TTS

Premium

Multi-voice text-to-speech focused on quality with autoregressive architecture.

Slow 5/5 Тасвири овоз

Беҳтарин барои: Архитектураи худ- регрессивӣ бо сифати аудиои максималӣ

Кӯшиш кунед Tortoise TTS

Чӣ тавр Neural TTS кор мекунад

Синтезатори гуфтугӯи муосир дар чаҳор қадам

1

Оянда

TTS матни навишташударо ба садои гуфташуда табдил медиҳад. Системаҳои муосир шабакаҳои нейрониро истифода мебаранд, ки дар ҳазорҳо соатҳои сабти сухани инсонӣ омӯзиш ёфтаанд.

2

Таҳқиқи намунаҳои гуногун

Ҳар як намуди механика (механикаи механикӣ, механикаи механикӣ, механикаи механикӣ, механикаи механикӣ, механикаи механикӣ, механикаи механикӣ, механикаи механикӣ, механикаи механикӣ, механикаи механикӣ, механикаи механикӣ, механикаи механикӣ, механикаи механикӣ, механикаи механикӣ, механикаи механикӣ, механикаи механикӣ, механикаи механикӣ) аз якчанд намудҳо иборат аст.

3

Худ кӯшиш кунед

Беҳтарин роҳ барои фаҳмидани TTS истифодаи он аст. Намунаҳои ройгони моро дар боло санҷед — матнро дар як сония ворид кунед ва онро шунед.

4

Дар лоиҳаҳои худ якҷоя кунед

Вақте ки шумо моделеро, ки ба шумо писанд аст, пайдо мекунед, API-и моро барои якҷоя кардани TTS ба барномаҳои худ, маҳсулот ё ҷараёни кори эҷоди мундариҷа истифода баред.

Таърихи кӯтоҳи матн ба суханName

Аз мошинҳои механикии сухангӯӣ то шабакаҳои нейронӣ

Рӯзи аввали (1950-1980)

Аввалин суханронии компютерӣ дар соли 1961, вақте ки IBM

Системаҳои машҳур: Votrax (1970-ум), DECtalk (1984, аз ҷониби Стивен Хокинг истифода шудааст), Apple

Синтезатори пайвасткунанда (1990-2000)

Конкатенативный TTS записывает голос человека, который говорит тысячи фонемных комбинаций, а затем соединяет правильные сегменты во время выполнения. Это даёт более естественный звук речи, но требует больших баз данных (часто 10- 20 часов записи для каждого голоса). Качество сильно зависит от нахождения гладких соединений между сегментами.

Google Translate (англ. Google Translate) — як барномаи тарҷумаи забони англисӣ ба забони тоҷикӣ мебошад.

Статистика/Параметрҳо (2000-2010)

Дар ҷои сабтҳои пайвастшуда, моделҳои параметрӣ ба омӯзиши намоишҳои статистикии сухан машғул буданд. Намунаҳои Маркови пинҳонӣ (HMM) ва баъдтар шабакаҳои нейронии чуқур параметрҳои суханро (баландӣ, давомнокӣ, хусусиятҳои спектралӣ) эҷод мекарданд, ки аз vocoder ворид мешуданд. Ин луғатҳои беохир ва эҷоди овози осонро иҷозат медод, аммо қадами vocoder аксар вақт \ t

1991 - «Системаи механикӣ», «Системаи механикӣ», «Системаи механикӣ».

Нерал TTS (2016-ҳоло)

Эраи муосир бо WaveNet (DeepMind, 2016) оғоз ёфт, ки бо истифода аз шабакаҳои нейронии чуқур намунаи аудиоро ба намунаҳо мефиристод. Баъд аз он Tacotron (Google, 2017) омад, ки ба спектрографияҳо матнро бевосита нишон доданро омӯхт. Today

Key breakthroughs: WaveNet, Tacotron, FastSpeech, VITS, Bark, Kokoro.

Чӣ тавр TTS- и нейронии муосир кор мекунад

Архитектураи пушти овозҳои табиии AI

Таҳлили матн ва нормализатсия

Матни хом тоза карда шуда ва нормализатсия карда шудааст: рақамҳо ба калимаҳо табдил меёбанд (\

Намунаи акустикӣ (матн ба спектрография) Name

Модули акустикӣ (одатан трансформатор ё шабакаи ауторегресивӣ) пай дар пайи фонемаро мегирад ва спектрографияи мелро пешгӯӣ мекунад — тасвири визуалии он ки чӣ гуна садо ба вуҷуд меояд

Вокодировщик (спектрограмма ба аудио)

Вокодер спектрографияи mel- ро ба шаклҳои мавҷҳои аудиоӣ табдил медиҳад. Вокодерҳои аввал, ба монанди Griffin- Lim, артефактҳои роботӣ истеҳсол мекунанд. Вокодерҳои нейронии муосир (HiFi- GAN, BigVGAN, Vocos) садои 24kHz ё 44. 1kHz- ро бо сифати баланд истеҳсол мекунанд, ки тафсилоти хуби суханронии табииро, аз ҷумла садоҳои нафаскашӣ ва ҳаракатҳои лабҳои майдаро дар бар мегирад.

Намунаҳои аз охир то охир

Намунаҳои навтарин, ба монанди VITS, Kokoro ва Bark, ду марҳилаи каналро пурра аз назар мегузаронанд. Онҳо бевосита аз матн ба аудио дар як шабакаи нейронӣ мегузаранд, ки натиҷаҳои табииро бо камтар артефактҳо истеҳсол мекунанд. Баъзе намунаҳо (ба монанди Bark) ҳатто метавонанд садоҳои ғайри гуфтугӯиро, табассум ва мусиқӣ дар якҷоягӣ бо суханро эҷод кунанд.

Муқоисаи TTS

Чӣ тавр чор насли технологияи TTS муқоиса мекунанд

Нақши ибтидоӣ & Вақт Натуралӣ Интихоб Суръат Маълумот лозим аст
Синтезатори Формант
Моделсозии частотаи асосӣ
1960s-1990s Ҳеҷ чиз
& Ҷудо кардан
Сегментҳои аудиоии пайвастшуда
1990s-2010s 10- 20+ соат
Параметри (HMM/DNN)
Намунаҳои гуфтори статикӣ
2000s-2016 1- 5 соат
Нервал аз охир то охир
Омӯзиши чуқур (VITS, Kokoro, Bark)
2016-Имрӯз Дақиқаҳо ба соатҳо

Барномаҳои маъмули TTS

Дар куҷо матн ба гуфтугӯи имрӯз истифода мешавад

Дастрасӣ

Инчунин, дар ин ҷо барои гузаронидани тадқиқотҳои илмӣ, тадқиқоти илмӣ-техникӣ, тадқиқоти илмӣ-техникӣ, тадқиқоти илмӣ-техникӣ ва ғайра истифода бурда мешавад.

Эҷоди мундариҷа

YouTubers, podcasters, and social media creators use TTS for voiceovers, narration, and automated content production at scale.

Ёрдамчии виртуалӣ

Alexa, Google Assistant, Siri ва дигар барномаҳои мобилӣ, ки ба таври автоматӣ ба забони англисӣ ҷавоб медиҳанд, аз ин технология истифода мебаранд.

Саволҳои пурсидашаванда

Саволҳои маъмул дар бораи технологияи матн ба сухан

TTS барои Матн- ба- Забон аст. Ин технологияе мебошад, ки матни навишташударо ба калимаҳои шунидашавандаи гуфтугӯӣ бо истифодаи овозҳои синтезшуда ё AI- эҷодшуда табдил медиҳад. Ин ибора дар адабиёти техникӣ бо "синтезкунии сухан" иваз карда мешавад.

Системаҳои муосири TTS дар се марҳила кор мекунанд: таҳлили матн (парсинг, нормализатсия, табдилдиҳии фонема), пешгӯии просодия (муайянкунии ритми, баландӣ, шиддат ва таваққуфҳо) ва синтези аудио (эҷоди шакли мавҷҳои садои воқеӣ). Намунаҳои нейронӣ ҳамаи се марҳиларо аз маълумоти омӯзишӣ меомӯзанд.

ТТС- и пайвасткунанда қисмҳои аз пеш сабтшудаи суханро ба ҳам мепайвандад, ки дар гузаришҳо номунтазам садо медиҳанд. ТТС- и нейронӣ суханро аз ибтидо бо истифодаи омӯзиши чуқур эҷод мекунад, ки садои равонтар, табиӣтар ва бо просодия ва эҳсосоти беҳтарро истеҳсол мекунад.

SSML (Speech Synthesis Markup Language) - ин забони нишонгузорӣ дар асоси XML мебошад, ки ба шумо имкон медиҳад, ки тарзи талаффузи матнро дар системаҳои TTS идора кунед. Шумо метавонед таъхирот, таъкид, талаффуз, тағйироти баландӣ ва суръати талаффузро бо истифодаи тегҳои SSML дар матни воридшуда муайян кунед.

ТТС барои дастрасӣ (хонандагони экран барои истифодабарандагони нобино), ёрдамчии виртуалӣ (Siri, Alexa, Google Assistant), истеҳсоли аудиокитоб, e-organisation, GPS навигатсия, системаҳои IVR хидматрасонии муштариён, эҷоди мундариҷа ва барномаҳои омӯзиши забон истифода мешавад.

Дар солҳои 1960-ум дар соҳаи технологияи иттилоотӣ ва алоқаи радиотехникӣ, дар солҳои 1970-ум дар соҳаи технологияи иттилоотӣ ва алоқаи мобилӣ, дар солҳои 1980-ум дар соҳаи технологияи иттилоотӣ ва алоқаи радиотехникӣ, дар солҳои 1990-ум дар соҳаи технологияи иттилоотӣ ва алоқаи мобилӣ кор кардааст.

Барои садои табиӣ TTS просодияи дақиқ (ритм, фишори овоз, интонатсия), суръати мувофиқ, гузаришҳои равон байни фонемаҳо ва шиносоии овози устуворро талаб мекунад. Намунаҳои нейронӣ ин намунаҳоро аз маҷмӯи маълумотҳои калони сабти овози табиии инсон меомӯзанд.

Моделҳои клонкунии овоз, аз қабили Chatterbox ва CosyVoice 2, метавонанд овози муайянро аз 5-30 сонияҳои аудиои истинод нусхабардорӣ кунанд. Садои клоншуда оҳанг, акцент ва услуби суханронӣ мегирад, гарчанде ки барои клонкунии овозҳои дигар масъалаҳои этикӣ ва ҳуқуқӣ татбиқ карда мешаванд.

Модельҳои муосири TTS дар маҷмӯъ 30+ забонро дастгирӣ мекунанд. Баъзе моделҳо дар забонҳои муайян махсусанд, дар ҳоле ки дигарон бисёрзабонанд. Англисӣ моделҳои ва овозҳои дастрастаринро дорад, аммо забонҳои хитоӣ, японӣ, корейсӣ, испанӣ ва аврупоӣ хуб дастгирӣ мешаванд.

TTS зергурӯҳи эҷоди овози AI мебошад. TTS махсусан воридоти матнро ба хурӯҷи сухан табдил медиҳад. Эҷоди овози AI мафҳуми васеътарест, ки инчунин клонкунии овоз, табдилдиҳии овоз, гуфтугӯ ба гуфтугӯ ва эҷоди таъсирҳои садоро дар бар мегирад.

Ин аз эҳтиёҷоти шумо вобаста аст. Kokoro мувозинати беҳтарини суръат ва сифати истифодаи умумӣ пешниҳод мекунад. Chatterbox дар клонинги овоз пешсаф аст. Orpheus дар ифодаи эҳсосотӣ бартарӣ дорад. StyleTTS 2 нақлкунии табиии як овозхонро истеҳсол мекунад. Як "беҳтарин" модел барои ҳамаи ҳолатҳои истифода вуҷуд надорад.

Бале. Ҳамаи моделҳои TTS.ai дорои манбаи кушод мебошанд ва метавонанд худашон идора карда шаванд. Моделҳои танҳо CPU-и монанди Piper дар ҳар як компютер кор мекунанд. Моделҳои GPU-и монанди Kokoro ва Bark ба GPU-и NVIDIA бо 2-8GB VRAM ниёз доранд. Платформаи мо инчунин дастрасии идорашавандаро таъмин мекунад, то ки шумо ба идоракунии инфрасохтор ниёз надошта бошед.
5.0/5 (1)

Чӣ чизро метавонем беҳтар кунем? Бозгашти шумо ба мо дар ислоҳи мушкилиҳо кӯмак мекунад.

Бо TTS-и муосир худ таҷриба кунед

20+ намунаи овози AI-и муосирро ройгон санҷед. Бингаред, ки матн ба сухан чӣ қадар дур рафтааст.