Бусад

Хэл ярианы текст (TTS) гэж юу вэ?

Хэлнээс текст рүү нь хиймэл оюун ухаан ашиглан бичсэн текстийг ярьсан дуу болгон хувиргадаг технологи юм. Эртний робот синтезатороос өнөөдрийн хүний дуунаас ялгагдахгүй сонсогдох нейрон сүлжээ хүртэл, TTS нь бидний технологийн харилцаа, агуулга хэрэглэж, мэдээллийг хүртээмжтэй болгох арга барилыг өөрчилсөн.

Технологи Өгүүллэг Яаж ажилладаг вэ Нейрон сүлжээ Эволюц

Үнэгүй эхлүүлэх Үнэ үзэх

Үгнээс текст- рүүName

Шинэ үеийн ярианы синтезийн үндсийг ойлгох

TTS нь юу гэсэн үг вэ

TTS (Text-to-Speech) нь бичсэн текстийг компьютерээр боловсруулсан дуугаар ярьсан дуу болгон хувиргах технологи юм.

Нейрон TTS хэрхэн ажилладаг вэ

Шинэ үеийн TTS нь гүн нейрон сүлжээг текстийг анализ хийх, ярианы хэв маягийг урьдчилан таамаглах, гайхалтай хүн шиг сонсогдох аудио долгион үүсгэхэд ашигладаг.

Сонсох синтезийн түүх

1960-аад оны дүрэмд суурилсан системээс 1990-ээд оны холбогч синтез хүртэл өнөөгийн нейрон модель хүртэл - TTS-ийн 60 жилийн хөгжлийн түүх.

Шинэ AI загварууд

Өнөөдөр Kokoro, Bark, CosyVoice2гэж нэрлэгддэг загварууд нь трансформатор, диффузи, хувиралын дүгнэлтийг ашиглан хүний түвшний ярианы чанарыг хангадаг.

Хамгийн түгээмэл програмууд

TTS нь дэлгэц унших, GPS навигаци, виртуал туслах, аудио ном, хэрэглэгчийн үйлчилгээний бот, цахим сургалтын платформ, контент бүтээх зэрэгт ашиглагддаг.

Нээлттэй эхийн эсрэг Худалдааны

Нээлттэй эхийн загварууд (MIT, Apache 2.0) нь үнэгүй, өөрийн хосттой TTS-ийг санал болгодог бол худалдааны үйлчилгээ нь SLA болон дэмжлэг бүхий удирдсан API-г санал болгодог.

TTS.ai дээрх TTS загварууд

Хурдан, хөнгөн, студийн чанартай мэдрэлийн дуунууд

Kokoro

Free

Lightweight 82M parameter model delivering studio-quality speech with blazing-fast inference.

Хурдан 5/5

Хамгийн тохиромжтой: Шинэ үеийн жижиг загвар — мэдрэлийн ТТС-ийн хөгжлийн түвшинг харуулна

Хийх Kokoro

Bark

Standard

Transformer-based text-to-audio model that generates realistic speech, music, and sound effects.

Удаан 4/5

Хамгийн тохиромжтой: Трансформатор дээр суурилсан загвар нь ярианаас гадна аудио үүсгэх чадварыг харуулна

Хийх Bark

CosyVoice 2

Standard

Alibaba's scalable streaming TTS with human-parity naturalness and near-zero latency.

Хэмжээ 5/5 Хөгжүүлэгч

Хамгийн тохиромжтой: Хүний адил чанартай, нууцлалгүйгээр клонлох TTS-ийг дамжуулах

Хийх CosyVoice 2

Chatterbox

Premium

State-of-the-art zero-shot voice cloning with emotion control from Resemble AI.

Хэмжээ 5/5 Хөгжүүлэгч

Хамгийн тохиромжтой: Хэлний синтезийн шинэ түвшинг харуулсан Zero-shot дууны клон

Хийх Chatterbox

Tortoise TTS

Premium

Multi-voice text-to-speech focused on quality with autoregressive architecture.

Удаан 5/5 Хөгжүүлэгч

Хамгийн тохиромжтой: Аудио чанарыг хамгийн их болгодог авто регрессийн архитектур

Хийх Tortoise TTS

Нейрон TTS хэрхэн ажилладаг вэ

Хоёр шаттай орчин үеийн ярианы синтез

Үндсийг ойлгох

TTS нь бичсэн текстийг ярьсан дуу болгон хөрвүүлдэг. Шинэ үеийн системүүд олон мянган цагийн хүний ярианы бичлэг дээр суурилсан нейрон сүлжээг ашигладаг.

Өөр өөр загваруудыг судлах

Бүх TTS загварууд өөр өөр архитектур (трансформатор, диффузи, вариацийн) ашигладаг бөгөөд хурд, чанар, шинж чанарын хувьд онцгой давуу талтай.

Өөрөөр нь турш

ТТС- ийг ойлгох хамгийн сайн арга бол ашиглах юм. Доорх үнэгүй загваруудаа туршаад үз — ямар ч текстийг хавчуулаад секундэд сонсож болно.

Төсөлтэй нэгтгэх

Та өөрийн дуртай загварыг олж авсан бол бидний API-г ашиглан TTS-ийг програм, бүтээгдэхүүн, эсвэл контент бүтээх ажлын явцад нэгтгэх боломжтой.

Үгнээс текст- рүүName

Механик ярих машинуудаас нейрон сүлжээ хүртэл

Эхний өдрүүд (1950-1980-аад он)

Компьютерээр бүтээсэн анхны яриа 1961 онд IBM

Сонирхол татахуйц системүүд: Votrax (1970-аад он), DECtalk (1984, Стивен Хокинг ашигласан), Apple

Конкатенатив синтез (1990-2000)

Конкатенатив TTS нь хүний дуу хоолойг хэдэн мянган фонемийн хослолоор бичдэг бөгөөд дараа нь гүйцэтгэх үед зөв хэсгүүдийг нэгтгэж байдаг. Энэ нь илүү нарийн сонсогдох дуу хоолойг гаргадаг боловч том хэмжээний өгөгдлийн санд (ихэвчлэн нэг дууны 10- 20 цагийн бичлэг) шаарддаг. чанар нь хэсгүүдийн хооронд нийцтэй холболтыг олоход ихээхэн хамааралтай байдаг.

AT&T Natural Voices, Nuance Vocalizer, Google Translate TTS зэрэг компаниуд ашигладаг.

Статистик/Параметрик (2000-2010)

Хуудас 10

Үндсэн загварууд: HTS, Merlin, эртний DNN-д суурилсан системүүд.

Нейрон TTS (2016-одоо)

Шинэ эрин үе нь WaveNet (DeepMind, 2016), гүн нейрон сүлжээ ашиглан аудио дээжийг дээж бүрээр нь үүсгэдэг. Үүний дараа Tacotron (Google, 2017), текстийг шууд спектрограмм руу хөрвүүлэхийг сурсан. Өнөөдөр

Хамгийн чухал нээлтүүд: WaveNet, Tacotron, FastSpeech, VITS, Bark, Kokoro.

Шинэ үеийн нейрон TTS туршиж үзэх

Modern Neural TTS хэрхэн ажилладаг вэ

Тодорхойлогдсон дууны өнгөний загвар

Үгний анализ ба хэвийн болгохName

Тохиргооны цонхны өнгө:

Акустик загвар (Спектрограм руу текст)

Акустик загвар (ихэвчлэн Трансформатор эсвэл ауторегрессив сүлжээ) фонемийн дарааллыг авч mel спектрограммыг урьдчилан таамаглана. Энэ нь чимээ хэрхэн сонсогдож байгааг дүрслэн харуулдаг.

Вокодер (Спектрограммаас дуу)

Вокодер нь mel спектрограмыг бодит дууны долгион болгон хувиргаж өгдөг. Griffin- Lim- ийн анхны вокодерууд робот хийцтэй байсан. Шинэ үеийн нейрон вокодерууд (HiFi- GAN, BigVGAN, Vocos) өндөр чанартай 24kHz эсвэл 44. 1kHz дууг гаргаж өгдөг бөгөөд энэ нь амьсгалын чимээ болон амны хөндийн хөдөлгөөнийг багтаасан байгалийн ярианы нарийн ширийн зүйлсийг хадгалдаг.

Бүх талаараа

VITS, Kokoro, Bark зэрэг сүүлийн үеийн загварууд хоёр үе шаттай хоолойг бүхэлд нь орхидог. Тэд зөвхөн нэг нейрон сүлжээгээр шууд текстээс дуу руу шилжиж, бага зэргийн алдаатай, илүү байгалийн үр дүнг гаргадаг. Зарим загварууд (Bark гэх мэт) яриа, инээмсэглэл, хөгжим зэрэг яриа биш дууг ч гаргаж чаддаг.

Өөрөөр нь турш

TTS арга зүйн харьцуулалт

Дөрөв дэх үеийн TTS технологийн харьцуулалт

Тохирох	Эрэ	Мэдээлэл шаардагдана
Формантын синтез Хуулийн үндсэн давтамжийн загварчлал	1960s-1990s	Үгүй
Хоёрдогч Аудио хэсгүүдийг нэгтгэх	1990s-2010s	10- 20+ цаг
Параметр (HMM/DNN) Статистик ярианы загварууд	2000s-2016	1-5цаг
Нейроны төгсгөлөөс төгсгөл хүртэл гүн суралцах (VITS, Kokoro, Bark)	2016-Өнөөгийн	Минутаас цаг

Нейроны TTS-ийг үнэгүй туршиж үзэх

ТТС-ийн түгээмэл хэрэглээ

Өнөөдөр текстээс яриа руу шилжихэд ашиглагддаг

Хэрэглэгдэхүүн

Экран унших, туслах төхөөрөмж, харааны бэрхшээлтэй хүмүүст зориулсан хэрэгсэл, унших бэрхшээлтэй хүмүүст зориулсан хэрэгсэл нь TTS-ийг бүх хүнд хүртээмжтэй болгохын тулд ашигладаг.

Зөвхөн агуулгыг бүтээх

YouTuber, podcaster, болон нийгмийн сүлжээний бүтээгчид TTS-ийг дуу хоолой, яриа, автомат контент үйлдвэрлэл зэрэгт ашигладаг.

Виртуал туслах

Siri, Alexa, Google Assistant, болон хэрэглэгчийн үйлчилгээний чатботууд бүгд TTS-ийг хэрэглэгчдэд хариулт өгөхөд ашигладаг.

Одоо текстээс яриа руу

Заримдаа асуудаг асуултууд

Мэдээллийг ярианд хөрвүүлэх технологитой холбоотой түгээмэл асуултууд

TTS нь Text- to- Speech гэсэн үг юм. Энэ нь бичсэн текстийг синтез эсвэл хиймэл оюун ухаанаар үүсгэсэн дуугаар сонсогдох үг болгон хувиргах технологи юм. Энэ нэр томъёо нь техникийн ном зохиолд "амьд яриа" гэсэн үгтэй адилаар хэрэглэгддэг.

Шинэ үеийн TTS системүүд3үе шаттай ажилладаг: текстийн анализ (тодорхойлох, хэвийн болгох, фонем хувиргах), үгийн утга таамаглах (ритм, хэмнэл, давтамж, завсарлагыг тодорхойлох), дууны синтез (шинэ дууны долгион үүсгэх). Нейрон загварууд3үе шатыг бүгдийг нь сургалтын мэдээллээс суралцдаг.

Конкатенатив TTS нь өмнө нь бичсэн ярианы хэсгүүдийг хооронд нь холбож өгдөг бөгөөд энэ нь шилжилтийн үед эвгүй сонсогдож болох юм. Нейрон TTS нь гүн суралцах аргаар эхлээд яриаг үүсгэдэг бөгөөд энэ нь илүү зөөлөн, илүү нарийн сонсогдох, илүү сайн хэмнэл, мэдрэмжийг өгдөг.

SSML (Speech Synthesis Markup Language) нь XML дээр суурилсан тэмдэглэгээний хэл бөгөөд TTS системийн бичлэгийг хэрхэн унших талаар танд зааж өгдөг. Та SSML тэмдгийг ашиглан текстийн оруулалтанд түр зогсолт, онцлог, унших, дууны өндөр өөрчлөх, ярих хурд зэргийг зааж өгөх боломжтой.

TTS нь хүртээмжтэй байдал (харанхуй хэрэглэгчдэд зориулсан дэлгэц унших), виртуал туслах (Siri, Alexa, Google Assistant), аудио номын үйлдвэрлэл, цахим сургалт, GPS навигаци, хэрэглэгчийн үйлчилгээний IVR систем, контент бүтээх, хэл сурах програмуудад ашиглагддаг.

TTS нь 1960-аад онд роботын дүрэмд суурилсан системээс 1990-ээд онд конкатенатив синтез, 2000-аад онд статистик параметрийн синтез, 2016 онд WaveNet-тэй нейрон TTS, өнөөдрийн трансформатор болон хүний түвшний чанарыг хангах диффузын загварууд хүртэл хөгжиж ирсэн.

Тодорхойлогдсон хэмнэл, фонем хоорондын зөөлөн шилжилт, дууны илэрхийлэл, хэмнэл, хэмнэ

Chatterbox болон CosyVoice 2-ийн дуу хоолойг дуурайх загварууд 5-30 секундын дотор тодорхой дуу хоолойг репликацилж чадна. Дуу хоолойн репликаци нь дууны өнгө, аялгуу, ярианы хэв маягийг хадгална. Гэхдээ бусад дуу хоолойг дуурайхад ёс зүйн болон хууль ёсны асуудал гардаг.

Шинэ үеийн TTS загварууд нийтдээ 30+ хэлийг дэмждэг. Зарим загварууд тодорхой хэл дээр мэргэшсэн бол зарим нь олон хэл дээр. Англи хэл нь хамгийн олон загвар, дууг дэмждэг боловч Хятад, Япон, Солонгос, Испани, Европын хэлүүд сайн дэмждэг.

TTS нь хиймэл оюун ухааны дууны үүсгүүрийн нэг хэсэг юм. TTS нь өгөгдсөн текстийг ярианы өгөгдөл болгон хөрвүүлдэг. AI дууны үүсгүүр нь илүү өргөн ойлголт бөгөөд дууны клончлол, дууны хөрвүүлэлт, ярианаас яриа болон дууны эффектийг бий болгохыг багтаадаг.

Энэ нь таны хэрэгцээнээс хамаарна. Kokoro нь нийтлэг хэрэглээний хувьд хурд, чанарын хамгийн сайн тэнцвэрийг санал болгодог. Chatterbox нь дуу хоолойг дуурайлгахад тэргүүлдэг. Orpheus нь сэтгэл хөдлөлийн илэрхийлэлд гайхалтай. StyleTTS 2 нь хамгийн байгалийн нэг дуут яриаг гаргадаг. Бүх хэрэглээний хувьд нэг л "хамгийн сайн" загвар байдаггүй.

Тийм ээ. TTS.ai-ийн бүх загварууд нь нээлттэй эхийн бөгөөд өөрсдөө хостлуулж болно. Piper-ийн CPU-ийн загварууд нь ямар ч компьютер дээр ажилладаг. Kokoro болон Bark-ийн GPU загварууд нь 2-8GB VRAM-тай NVIDIA GPU шаарддаг. Манай платформ нь мөн хостлуулсан нэвтрэлтийг санал болгодог тул та дэд бүтцийг удирдах шаардлагагүй болно.

5.0/5 (1)

Шинэ үеийн TTS-ийг туршиж үзээрэй

20+ шилдэг хиймэл оюун ухааны дууны загварыг үнэгүй туршиж үзээрэй. Хэлнээс текст рүү хэрхэн шилжиж байгааг харна уу.

Үнэгүй бүртгүүлэх Үнэ үзэх

Хэл ярианы текст (TTS) гэж юу вэ?

Үгнээс текст- рүүName

TTS нь юу гэсэн үг вэ

Нейрон TTS хэрхэн ажилладаг вэ

Сонсох синтезийн түүх

Шинэ AI загварууд

Хамгийн түгээмэл програмууд

Нээлттэй эхийн эсрэг Худалдааны

TTS.ai дээрх TTS загварууд

Kokoro

Bark

CosyVoice 2

Chatterbox

Tortoise TTS

Нейрон TTS хэрхэн ажилладаг вэ

Үндсийг ойлгох

Өөр өөр загваруудыг судлах

Өөрөөр нь турш

Төсөлтэй нэгтгэх

Үгнээс текст- рүүName

Эхний өдрүүд (1950-1980-аад он)

Конкатенатив синтез (1990-2000)

Статистик/Параметрик (2000-2010)

Нейрон TTS (2016-одоо)

Modern Neural TTS хэрхэн ажилладаг вэ

Үгний анализ ба хэвийн болгохName

Акустик загвар (Спектрограм руу текст)

Вокодер (Спектрограммаас дуу)

Бүх талаараа

TTS арга зүйн харьцуулалт

ТТС-ийн түгээмэл хэрэглээ

Хэрэглэгдэхүүн

Зөвхөн агуулгыг бүтээх

Виртуал туслах

Заримдаа асуудаг асуултууд

TTS гэж юу вэ?

Яг яаж ажилладаг вэ?

Нейрон TTS ба холбогч TTS хоорондын ялгаа юу вэ?

SSML гэж юу вэ, TTS-тэй хэрхэн ашиглах вэ?

ТТС технологийн гол хэрэглээ юу вэ?

ТТС технологи нь цаг хугацааны туршид хэрхэн өөрчлөгдсөн бэ?

TTS дуугаралт юугаараа байгалийн чимээ болдог вэ?

TTS ямар ч хүний дууг дуурайж чадах уу?

Ямар хэлийг TTS дэмждэг вэ?

TTS нь хиймэл оюун ухааны дуу үүсгэхтэй адилхан уу?

Өнөөдөр хамгийн сайн TTS загвар юу вэ?

Би өөрийн компьютер дээрээ TTS загваруудыг ажиллуулж болох уу?

Шинэ үеийн TTS-ийг туршиж үзээрэй