Хэл ярианы текст (TTS) гэж юу вэ?

Хэлнээс текст рүү нь хиймэл оюун ухаан ашиглан бичсэн текстийг ярьсан дуу болгон хувиргадаг технологи юм. Эртний робот синтезатороос өнөөдрийн хүний дуунаас ялгагдахгүй сонсогдох нейрон сүлжээ хүртэл, TTS нь бидний технологийн харилцаа, агуулга хэрэглэж, мэдээллийг хүртээмжтэй болгох арга барилыг өөрчилсөн.

Технологи Өгүүллэг Яаж ажилладаг вэ Нейрон сүлжээ Эволюц

Үгнээс текст- рүүName

Шинэ үеийн ярианы синтезийн үндсийг ойлгох

TTS нь юу гэсэн үг вэ

TTS (Text-to-Speech) нь бичсэн текстийг компьютерээр боловсруулсан дуугаар ярьсан дуу болгон хувиргах технологи юм.

Нейрон TTS хэрхэн ажилладаг вэ

Шинэ үеийн TTS нь гүн нейрон сүлжээг текстийг анализ хийх, ярианы хэв маягийг урьдчилан таамаглах, гайхалтай хүн шиг сонсогдох аудио долгион үүсгэхэд ашигладаг.

Сонсох синтезийн түүх

1960-аад оны дүрэмд суурилсан системээс 1990-ээд оны холбогч синтез хүртэл өнөөгийн нейрон модель хүртэл - TTS-ийн 60 жилийн хөгжлийн түүх.

Шинэ AI загварууд

Өнөөдөр Kokoro, Bark, CosyVoice2гэж нэрлэгддэг загварууд нь трансформатор, диффузи, хувиралын дүгнэлтийг ашиглан хүний түвшний ярианы чанарыг хангадаг.

Хамгийн түгээмэл програмууд

TTS нь дэлгэц унших, GPS навигаци, виртуал туслах, аудио ном, хэрэглэгчийн үйлчилгээний бот, цахим сургалтын платформ, контент бүтээх зэрэгт ашиглагддаг.

Нээлттэй эхийн эсрэг Худалдааны

Нээлттэй эхийн загварууд (MIT, Apache 2.0) нь үнэгүй, өөрийн хосттой TTS-ийг санал болгодог бол худалдааны үйлчилгээ нь SLA болон дэмжлэг бүхий удирдсан API-г санал болгодог.

TTS.ai дээрх TTS загварууд

Хурдан, хөнгөн, студийн чанартай мэдрэлийн дуунууд

KokoroKokoro

Free

Lightweight 82M parameter model delivering studio-quality speech with blazing-fast inference.

Fast 5/5

Хамгийн тохиромжтой: Шинэ үеийн жижиг загвар — мэдрэлийн ТТС-ийн хөгжлийн түвшинг харуулна

Хийх Kokoro

BarkBark

Standard

Transformer-based text-to-audio model that generates realistic speech, music, and sound effects.

Slow 4/5

Хамгийн тохиромжтой: Трансформатор дээр суурилсан загвар нь ярианаас гадна аудио үүсгэх чадварыг харуулна

Хийх Bark

CosyVoice 2CosyVoice 2

Standard

Alibaba's scalable streaming TTS with human-parity naturalness and near-zero latency.

Medium 5/5 Хөгжүүлэгч

Хамгийн тохиромжтой: Хүний адил чанартай, нууцлалгүйгээр клонлох TTS-ийг дамжуулах

Хийх CosyVoice 2

ChatterboxChatterbox

Premium

State-of-the-art zero-shot voice cloning with emotion control from Resemble AI.

Medium 5/5 Хөгжүүлэгч

Хамгийн тохиромжтой: Хэлний синтезийн шинэ түвшинг харуулсан Zero-shot дууны клон

Хийх Chatterbox

Tortoise TTSTortoise TTS

Premium

Multi-voice text-to-speech focused on quality with autoregressive architecture.

Slow 5/5 Хөгжүүлэгч

Хамгийн тохиромжтой: Аудио чанарыг хамгийн их болгодог авто регрессийн архитектур

Хийх Tortoise TTS

Нейрон TTS хэрхэн ажилладаг вэ

Хоёр шаттай орчин үеийн ярианы синтез

1

Үндсийг ойлгох

TTS нь бичсэн текстийг ярьсан дуу болгон хөрвүүлдэг. Шинэ үеийн системүүд олон мянган цагийн хүний ярианы бичлэг дээр суурилсан нейрон сүлжээг ашигладаг.

2

Өөр өөр загваруудыг судлах

Бүх TTS загварууд өөр өөр архитектур (трансформатор, диффузи, вариацийн) ашигладаг бөгөөд хурд, чанар, шинж чанарын хувьд онцгой давуу талтай.

3

Өөрөөр нь турш

ТТС- ийг ойлгох хамгийн сайн арга бол ашиглах юм. Доорх үнэгүй загваруудаа туршаад үз — ямар ч текстийг хавчуулаад секундэд сонсож болно.

4

Төсөлтэй нэгтгэх

Та өөрийн дуртай загварыг олж авсан бол бидний API-г ашиглан TTS-ийг програм, бүтээгдэхүүн, эсвэл контент бүтээх ажлын явцад нэгтгэх боломжтой.

Үгнээс текст- рүүName

Механик ярих машинуудаас нейрон сүлжээ хүртэл

Эхний өдрүүд (1950-1980-аад он)

Компьютерээр бүтээсэн анхны яриа 1961 онд IBM

Сонирхол татахуйц системүүд: Votrax (1970-аад он), DECtalk (1984, Стивен Хокинг ашигласан), Apple

Конкатенатив синтез (1990-2000)

Конкатенатив TTS нь хүний дуу хоолойг хэдэн мянган фонемийн хослолоор бичдэг бөгөөд дараа нь гүйцэтгэх үед зөв хэсгүүдийг нэгтгэж байдаг. Энэ нь илүү нарийн сонсогдох дуу хоолойг гаргадаг боловч том хэмжээний өгөгдлийн санд (ихэвчлэн нэг дууны 10- 20 цагийн бичлэг) шаарддаг. чанар нь хэсгүүдийн хооронд нийцтэй холболтыг олоход ихээхэн хамааралтай байдаг.

AT&T Natural Voices, Nuance Vocalizer, Google Translate TTS зэрэг компаниуд ашигладаг.

Статистик/Параметрик (2000-2010)

Хуудас 10

Үндсэн загварууд: HTS, Merlin, эртний DNN-д суурилсан системүүд.

Нейрон TTS (2016-одоо)

Шинэ эрин үе нь WaveNet (DeepMind, 2016), гүн нейрон сүлжээ ашиглан аудио дээжийг дээж бүрээр нь үүсгэдэг. Үүний дараа Tacotron (Google, 2017), текстийг шууд спектрограмм руу хөрвүүлэхийг сурсан. Өнөөдөр

Хамгийн чухал нээлтүүд: WaveNet, Tacotron, FastSpeech, VITS, Bark, Kokoro.

Modern Neural TTS хэрхэн ажилладаг вэ

Тодорхойлогдсон дууны өнгөний загвар

Үгний анализ ба хэвийн болгохName

Тохиргооны цонхны өнгө:

Акустик загвар (Спектрограм руу текст)

Акустик загвар (ихэвчлэн Трансформатор эсвэл ауторегрессив сүлжээ) фонемийн дарааллыг авч mel спектрограммыг урьдчилан таамаглана. Энэ нь чимээ хэрхэн сонсогдож байгааг дүрслэн харуулдаг.

Вокодер (Спектрограммаас дуу)

Вокодер нь mel спектрограмыг бодит дууны долгион болгон хувиргаж өгдөг. Griffin- Lim- ийн анхны вокодерууд робот хийцтэй байсан. Шинэ үеийн нейрон вокодерууд (HiFi- GAN, BigVGAN, Vocos) өндөр чанартай 24kHz эсвэл 44. 1kHz дууг гаргаж өгдөг бөгөөд энэ нь амьсгалын чимээ болон амны хөндийн хөдөлгөөнийг багтаасан байгалийн ярианы нарийн ширийн зүйлсийг хадгалдаг.

Бүх талаараа

VITS, Kokoro, Bark зэрэг сүүлийн үеийн загварууд хоёр үе шаттай хоолойг бүхэлд нь орхидог. Тэд зөвхөн нэг нейрон сүлжээгээр шууд текстээс дуу руу шилжиж, бага зэргийн алдаатай, илүү байгалийн үр дүнг гаргадаг. Зарим загварууд (Bark гэх мэт) яриа, инээмсэглэл, хөгжим зэрэг яриа биш дууг ч гаргаж чаддаг.

TTS арга зүйн харьцуулалт

Дөрөв дэх үеийн TTS технологийн харьцуулалт

Тохирох Эрэ Натурал Тогтвортой байдал Хурд Мэдээлэл шаардагдана
Формантын синтез
Хуулийн үндсэн давтамжийн загварчлал
1960s-1990s Үгүй
Хоёрдогч
Аудио хэсгүүдийг нэгтгэх
1990s-2010s 10- 20+ цаг
Параметр (HMM/DNN)
Статистик ярианы загварууд
2000s-2016 1-5цаг
Нейроны төгсгөлөөс төгсгөл хүртэл
гүн суралцах (VITS, Kokoro, Bark)
2016-Өнөөгийн Минутаас цаг

ТТС-ийн түгээмэл хэрэглээ

Өнөөдөр текстээс яриа руу шилжихэд ашиглагддаг

Хэрэглэгдэхүүн

Экран унших, туслах төхөөрөмж, харааны бэрхшээлтэй хүмүүст зориулсан хэрэгсэл, унших бэрхшээлтэй хүмүүст зориулсан хэрэгсэл нь TTS-ийг бүх хүнд хүртээмжтэй болгохын тулд ашигладаг.

Зөвхөн агуулгыг бүтээх

YouTuber, podcaster, болон нийгмийн сүлжээний бүтээгчид TTS-ийг дуу хоолой, яриа, автомат контент үйлдвэрлэл зэрэгт ашигладаг.

Виртуал туслах

Siri, Alexa, Google Assistant, болон хэрэглэгчийн үйлчилгээний чатботууд бүгд TTS-ийг хэрэглэгчдэд хариулт өгөхөд ашигладаг.

Заримдаа асуудаг асуултууд

Мэдээллийг ярианд хөрвүүлэх технологитой холбоотой түгээмэл асуултууд

TTS нь Text- to- Speech гэсэн үг юм. Энэ нь бичсэн текстийг синтез эсвэл хиймэл оюун ухаанаар үүсгэсэн дуугаар сонсогдох үг болгон хувиргах технологи юм. Энэ нэр томъёо нь техникийн ном зохиолд "амьд яриа" гэсэн үгтэй адилаар хэрэглэгддэг.

Шинэ үеийн TTS системүүд3үе шаттай ажилладаг: текстийн анализ (тодорхойлох, хэвийн болгох, фонем хувиргах), үгийн утга таамаглах (ритм, хэмнэл, давтамж, завсарлагыг тодорхойлох), дууны синтез (шинэ дууны долгион үүсгэх). Нейрон загварууд3үе шатыг бүгдийг нь сургалтын мэдээллээс суралцдаг.

Конкатенатив TTS нь өмнө нь бичсэн ярианы хэсгүүдийг хооронд нь холбож өгдөг бөгөөд энэ нь шилжилтийн үед эвгүй сонсогдож болох юм. Нейрон TTS нь гүн суралцах аргаар эхлээд яриаг үүсгэдэг бөгөөд энэ нь илүү зөөлөн, илүү нарийн сонсогдох, илүү сайн хэмнэл, мэдрэмжийг өгдөг.

SSML (Speech Synthesis Markup Language) нь XML дээр суурилсан тэмдэглэгээний хэл бөгөөд TTS системийн бичлэгийг хэрхэн унших талаар танд зааж өгдөг. Та SSML тэмдгийг ашиглан текстийн оруулалтанд түр зогсолт, онцлог, унших, дууны өндөр өөрчлөх, ярих хурд зэргийг зааж өгөх боломжтой.

TTS нь хүртээмжтэй байдал (харанхуй хэрэглэгчдэд зориулсан дэлгэц унших), виртуал туслах (Siri, Alexa, Google Assistant), аудио номын үйлдвэрлэл, цахим сургалт, GPS навигаци, хэрэглэгчийн үйлчилгээний IVR систем, контент бүтээх, хэл сурах програмуудад ашиглагддаг.

TTS нь 1960-аад онд роботын дүрэмд суурилсан системээс 1990-ээд онд конкатенатив синтез, 2000-аад онд статистик параметрийн синтез, 2016 онд WaveNet-тэй нейрон TTS, өнөөдрийн трансформатор болон хүний түвшний чанарыг хангах диффузын загварууд хүртэл хөгжиж ирсэн.

Тодорхойлогдсон хэмнэл, фонем хоорондын зөөлөн шилжилт, дууны илэрхийлэл, хэмнэл, хэмнэл, хэмнэл, хэмнэл, хэмнэл, хэмнэл, хэмнэл, хэмнэл, хэмнэл, хэмнэл, хэмнэл, хэмнэл, хэмнэл, хэмнэл, хэмнэл, хэмнэл, хэмнэл, хэмнэл, хэмнэл, хэмнэл, хэмнэл, хэмнэл, хэмнэл, хэмнэл, хэмнэл, хэмнэл, хэмнэл, хэмнэл, хэмнэл, хэмнэл, хэмнэл, хэмнэл, хэмнэл, хэмнэл, хэмнэл, хэмнэл, хэмнэл, хэмнэл, хэмнэл, хэмнэл, хэмнэл, хэмнэл, хэмнэл, хэмнэл, хэмнэл, хэмнэл, хэмнэл, хэмнэл, хэмнэл, хэмнэл, хэмнэл, хэмнэл, хэмнэл, хэмнэл, хэмнэл, хэмнэл, хэмнэл, хэмнэл, хэмнэл, хэмнэл, хэмнэл, хэмнэл, хэмнэл, хэмнэл, хэмнэл, хэмнэл, хэмнэл, хэмнэл, хэмнэл, хэмнэл, хэмнэл, хэмнэл, хэмнэл, хэмнэл, хэмнэл, хэмнэл, хэмнэл, хэмнэл, хэмнэл, хэмнэл, хэмнэл, хэмнэл, хэмнэл, хэмнэл, хэмнэл, хэмнэл, хэмнэл, хэмнэл, хэмнэл, хэмнэл, хэмнэл, хэмнэл, хэмнэл, хэмнэл, хэмнэл, хэмнэл, хэмнэ

Chatterbox болон CosyVoice 2-ийн дуу хоолойг дуурайх загварууд 5-30 секундын дотор тодорхой дуу хоолойг репликацилж чадна. Дуу хоолойн репликаци нь дууны өнгө, аялгуу, ярианы хэв маягийг хадгална. Гэхдээ бусад дуу хоолойг дуурайхад ёс зүйн болон хууль ёсны асуудал гардаг.

Шинэ үеийн TTS загварууд нийтдээ 30+ хэлийг дэмждэг. Зарим загварууд тодорхой хэл дээр мэргэшсэн бол зарим нь олон хэл дээр. Англи хэл нь хамгийн олон загвар, дууг дэмждэг боловч Хятад, Япон, Солонгос, Испани, Европын хэлүүд сайн дэмждэг.

TTS нь хиймэл оюун ухааны дууны үүсгүүрийн нэг хэсэг юм. TTS нь өгөгдсөн текстийг ярианы өгөгдөл болгон хөрвүүлдэг. AI дууны үүсгүүр нь илүү өргөн ойлголт бөгөөд дууны клончлол, дууны хөрвүүлэлт, ярианаас яриа болон дууны эффектийг бий болгохыг багтаадаг.

Энэ нь таны хэрэгцээнээс хамаарна. Kokoro нь нийтлэг хэрэглээний хувьд хурд, чанарын хамгийн сайн тэнцвэрийг санал болгодог. Chatterbox нь дуу хоолойг дуурайлгахад тэргүүлдэг. Orpheus нь сэтгэл хөдлөлийн илэрхийлэлд гайхалтай. StyleTTS 2 нь хамгийн байгалийн нэг дуут яриаг гаргадаг. Бүх хэрэглээний хувьд нэг л "хамгийн сайн" загвар байдаггүй.

Тийм ээ. TTS.ai-ийн бүх загварууд нь нээлттэй эхийн бөгөөд өөрсдөө хостлуулж болно. Piper-ийн CPU-ийн загварууд нь ямар ч компьютер дээр ажилладаг. Kokoro болон Bark-ийн GPU загварууд нь 2-8GB VRAM-тай NVIDIA GPU шаарддаг. Манай платформ нь мөн хостлуулсан нэвтрэлтийг санал болгодог тул та дэд бүтцийг удирдах шаардлагагүй болно.
5.0/5 (1)

Бид юуг сайжруулах ёстой вэ? Таны санал бодол бидэнд асуудал шийдвэрлэхэд тусалдаг.

Шинэ үеийн TTS-ийг туршиж үзээрэй

20+ шилдэг хиймэл оюун ухааны дууны загварыг үнэгүй туршиж үзээрэй. Хэлнээс текст рүү хэрхэн шилжиж байгааг харна уу.