Хэл ярианы текст (TTS) гэж юу вэ?
Хэлнээс текст рүү нь хиймэл оюун ухаан ашиглан бичсэн текстийг ярьсан дуу болгон хувиргадаг технологи юм. Эртний робот синтезатороос өнөөдрийн хүний дуунаас ялгагдахгүй сонсогдох нейрон сүлжээ хүртэл, TTS нь бидний технологийн харилцаа, агуулга хэрэглэж, мэдээллийг хүртээмжтэй болгох арга барилыг өөрчилсөн.
Үгнээс текст- рүүName
Шинэ үеийн ярианы синтезийн үндсийг ойлгох
TTS нь юу гэсэн үг вэ
TTS (Text-to-Speech) нь бичсэн текстийг компьютерээр боловсруулсан дуугаар ярьсан дуу болгон хувиргах технологи юм.
Нейрон TTS хэрхэн ажилладаг вэ
Шинэ үеийн TTS нь гүн нейрон сүлжээг текстийг анализ хийх, ярианы хэв маягийг урьдчилан таамаглах, гайхалтай хүн шиг сонсогдох аудио долгион үүсгэхэд ашигладаг.
Сонсох синтезийн түүх
1960-аад оны дүрэмд суурилсан системээс 1990-ээд оны холбогч синтез хүртэл өнөөгийн нейрон модель хүртэл - TTS-ийн 60 жилийн хөгжлийн түүх.
Шинэ AI загварууд
Өнөөдөр Kokoro, Bark, CosyVoice2гэж нэрлэгддэг загварууд нь трансформатор, диффузи, хувиралын дүгнэлтийг ашиглан хүний түвшний ярианы чанарыг хангадаг.
Хамгийн түгээмэл програмууд
TTS нь дэлгэц унших, GPS навигаци, виртуал туслах, аудио ном, хэрэглэгчийн үйлчилгээний бот, цахим сургалтын платформ, контент бүтээх зэрэгт ашиглагддаг.
Нээлттэй эхийн эсрэг Худалдааны
Нээлттэй эхийн загварууд (MIT, Apache 2.0) нь үнэгүй, өөрийн хосттой TTS-ийг санал болгодог бол худалдааны үйлчилгээ нь SLA болон дэмжлэг бүхий удирдсан API-г санал болгодог.
TTS.ai дээрх TTS загварууд
Хурдан, хөнгөн, студийн чанартай мэдрэлийн дуунууд
Kokoro
Free
Lightweight 82M parameter model delivering studio-quality speech with blazing-fast inference.
Хамгийн тохиромжтой: Шинэ үеийн жижиг загвар — мэдрэлийн ТТС-ийн хөгжлийн түвшинг харуулна
Хийх Kokoro
Bark
Standard
Transformer-based text-to-audio model that generates realistic speech, music, and sound effects.
Хамгийн тохиромжтой: Трансформатор дээр суурилсан загвар нь ярианаас гадна аудио үүсгэх чадварыг харуулна
Хийх Bark
CosyVoice 2
Standard
Alibaba's scalable streaming TTS with human-parity naturalness and near-zero latency.
Хамгийн тохиромжтой: Хүний адил чанартай, нууцлалгүйгээр клонлох TTS-ийг дамжуулах
Хийх CosyVoice 2
Chatterbox
Premium
State-of-the-art zero-shot voice cloning with emotion control from Resemble AI.
Хамгийн тохиромжтой: Хэлний синтезийн шинэ түвшинг харуулсан Zero-shot дууны клон
Хийх Chatterbox
Tortoise TTS
Premium
Multi-voice text-to-speech focused on quality with autoregressive architecture.
Хамгийн тохиромжтой: Аудио чанарыг хамгийн их болгодог авто регрессийн архитектур
Хийх Tortoise TTSНейрон TTS хэрхэн ажилладаг вэ
Хоёр шаттай орчин үеийн ярианы синтез
Үндсийг ойлгох
TTS нь бичсэн текстийг ярьсан дуу болгон хөрвүүлдэг. Шинэ үеийн системүүд олон мянган цагийн хүний ярианы бичлэг дээр суурилсан нейрон сүлжээг ашигладаг.
Өөр өөр загваруудыг судлах
Бүх TTS загварууд өөр өөр архитектур (трансформатор, диффузи, вариацийн) ашигладаг бөгөөд хурд, чанар, шинж чанарын хувьд онцгой давуу талтай.
Өөрөөр нь турш
ТТС- ийг ойлгох хамгийн сайн арга бол ашиглах юм. Доорх үнэгүй загваруудаа туршаад үз — ямар ч текстийг хавчуулаад секундэд сонсож болно.
Төсөлтэй нэгтгэх
Та өөрийн дуртай загварыг олж авсан бол бидний API-г ашиглан TTS-ийг програм, бүтээгдэхүүн, эсвэл контент бүтээх ажлын явцад нэгтгэх боломжтой.
Үгнээс текст- рүүName
Механик ярих машинуудаас нейрон сүлжээ хүртэл
Эхний өдрүүд (1950-1980-аад он)
Компьютерээр бүтээсэн анхны яриа 1961 онд IBM
Сонирхол татахуйц системүүд: Votrax (1970-аад он), DECtalk (1984, Стивен Хокинг ашигласан), Apple
Конкатенатив синтез (1990-2000)
Конкатенатив TTS нь хүний дуу хоолойг хэдэн мянган фонемийн хослолоор бичдэг бөгөөд дараа нь гүйцэтгэх үед зөв хэсгүүдийг нэгтгэж байдаг. Энэ нь илүү нарийн сонсогдох дуу хоолойг гаргадаг боловч том хэмжээний өгөгдлийн санд (ихэвчлэн нэг дууны 10- 20 цагийн бичлэг) шаарддаг. чанар нь хэсгүүдийн хооронд нийцтэй холболтыг олоход ихээхэн хамааралтай байдаг.
AT&T Natural Voices, Nuance Vocalizer, Google Translate TTS зэрэг компаниуд ашигладаг.
Статистик/Параметрик (2000-2010)
Хуудас 10
Үндсэн загварууд: HTS, Merlin, эртний DNN-д суурилсан системүүд.
Нейрон TTS (2016-одоо)
Шинэ эрин үе нь WaveNet (DeepMind, 2016), гүн нейрон сүлжээ ашиглан аудио дээжийг дээж бүрээр нь үүсгэдэг. Үүний дараа Tacotron (Google, 2017), текстийг шууд спектрограмм руу хөрвүүлэхийг сурсан. Өнөөдөр
Хамгийн чухал нээлтүүд: WaveNet, Tacotron, FastSpeech, VITS, Bark, Kokoro.
Modern Neural TTS хэрхэн ажилладаг вэ
Тодорхойлогдсон дууны өнгөний загвар
Үгний анализ ба хэвийн болгохName
Тохиргооны цонхны өнгө:
Акустик загвар (Спектрограм руу текст)
Акустик загвар (ихэвчлэн Трансформатор эсвэл ауторегрессив сүлжээ) фонемийн дарааллыг авч mel спектрограммыг урьдчилан таамаглана. Энэ нь чимээ хэрхэн сонсогдож байгааг дүрслэн харуулдаг.
Вокодер (Спектрограммаас дуу)
Вокодер нь mel спектрограмыг бодит дууны долгион болгон хувиргаж өгдөг. Griffin- Lim- ийн анхны вокодерууд робот хийцтэй байсан. Шинэ үеийн нейрон вокодерууд (HiFi- GAN, BigVGAN, Vocos) өндөр чанартай 24kHz эсвэл 44. 1kHz дууг гаргаж өгдөг бөгөөд энэ нь амьсгалын чимээ болон амны хөндийн хөдөлгөөнийг багтаасан байгалийн ярианы нарийн ширийн зүйлсийг хадгалдаг.
Бүх талаараа
VITS, Kokoro, Bark зэрэг сүүлийн үеийн загварууд хоёр үе шаттай хоолойг бүхэлд нь орхидог. Тэд зөвхөн нэг нейрон сүлжээгээр шууд текстээс дуу руу шилжиж, бага зэргийн алдаатай, илүү байгалийн үр дүнг гаргадаг. Зарим загварууд (Bark гэх мэт) яриа, инээмсэглэл, хөгжим зэрэг яриа биш дууг ч гаргаж чаддаг.
TTS арга зүйн харьцуулалт
Дөрөв дэх үеийн TTS технологийн харьцуулалт
| Тохирох | Эрэ | Натурал | Тогтвортой байдал | Хурд | Мэдээлэл шаардагдана |
|---|---|---|---|---|---|
| Формантын синтез Хуулийн үндсэн давтамжийн загварчлал |
1960s-1990s | Үгүй | |||
| Хоёрдогч Аудио хэсгүүдийг нэгтгэх |
1990s-2010s | 10- 20+ цаг | |||
| Параметр (HMM/DNN) Статистик ярианы загварууд |
2000s-2016 | 1-5цаг | |||
| Нейроны төгсгөлөөс төгсгөл хүртэл гүн суралцах (VITS, Kokoro, Bark) |
2016-Өнөөгийн | Минутаас цаг |
ТТС-ийн түгээмэл хэрэглээ
Өнөөдөр текстээс яриа руу шилжихэд ашиглагддаг
Хэрэглэгдэхүүн
Экран унших, туслах төхөөрөмж, харааны бэрхшээлтэй хүмүүст зориулсан хэрэгсэл, унших бэрхшээлтэй хүмүүст зориулсан хэрэгсэл нь TTS-ийг бүх хүнд хүртээмжтэй болгохын тулд ашигладаг.
Зөвхөн агуулгыг бүтээх
YouTuber, podcaster, болон нийгмийн сүлжээний бүтээгчид TTS-ийг дуу хоолой, яриа, автомат контент үйлдвэрлэл зэрэгт ашигладаг.
Виртуал туслах
Siri, Alexa, Google Assistant, болон хэрэглэгчийн үйлчилгээний чатботууд бүгд TTS-ийг хэрэглэгчдэд хариулт өгөхөд ашигладаг.
Заримдаа асуудаг асуултууд
Мэдээллийг ярианд хөрвүүлэх технологитой холбоотой түгээмэл асуултууд
Бид юуг сайжруулах ёстой вэ? Таны санал бодол бидэнд асуудал шийдвэрлэхэд тусалдаг.
Шинэ үеийн TTS-ийг туршиж үзээрэй
20+ шилдэг хиймэл оюун ухааны дууны загварыг үнэгүй туршиж үзээрэй. Хэлнээс текст рүү хэрхэн шилжиж байгааг харна уу.