Що таке Текст мовлення (TTS)?

Текст до мовлення - це технологія, яка перетворює текст на розмовний аудіо за допомогою штучного інтелекту. Від ранніх роботів- синтезаторів до сучасних нейронних мереж, які видаються нерівними від людей, TTS змінює спосіб взаємодії з технологіями, споживання змісту і робить інформацію доступною.

Технологія Журнал Як це працює Нервові мережі Evolution

Ключові думки в тексті для мовлення

Розуміння будівельних блоків сучасного синтезу мовлення

Для чого існують синтези мовлення

TTS означає "SI-to-Speech," технологія, яка перетворює текст на усний аудіо за допомогою комп'ютерних голосів.

Як працює нейронна ТД

Сучасні TTS використовують глибокі нейронні мережі, щоб аналізувати текст, передбачати орфографічні візерунки та створювати звукові хвилі, які видаються на диво людськими.

Історія синтезу мовлення

З 1960-х систем, заснованих на правилах, до 1990-х, констебльного синтезу сучасних нервових моделей ♫ як TTS еволюціонували за шість десятиліть.

Сучасні моделі комп' ютерного гравця

Сучасні моделі, як - от Кокоро, Барк і Коси 2, використовують трансформатори, поширення та варіативні висновки для досягнення якості мови людського рівня.

Загальні програми

Програма TTS для читання екранів, навігації GPS, віртуальні помічники, аудіокнижки, сервіси клієнтів, електронні платформи для вивчення та створення контентів.

Open Source vs Commercial

Моделі з відкритим кодом (МТІ, Apache 2. 0) забезпечують безкоштовне, самопідтримане TTS, а комерційні служби пропонують керувати API з підтримкою SLAs і підтримкою.

Моделі TTS доступні на TTS.ai

Від швидкого і легкого до якісних нейронних голосів

KokoroKokoro

Free

Lightweight 82M parameter model delivering studio-quality speech with blazing-fast inference.

Fast 5/5

Найкраще для: Стан-о-арт-малень маленька модель } показує, як далеко прийшов нейронний TTS

Спробувати Kokoro

BarkBark

Standard

Transformer-based text-to-audio model that generates realistic speech, music, and sound effects.

Slow 4/5

Найкраще для: Модель перетворення, яка демонструє створення звукових даних поза мовлення

Спробувати Bark

CosyVoice 2CosyVoice 2

Standard

Alibaba's scalable streaming TTS with human-parity naturalness and near-zero latency.

Medium 5/5 Клонування голосу

Найкраще для: TTS потоками з якістю людяності і нульовим клонуванням

Спробувати CosyVoice 2

ChatterboxChatterbox

Premium

State-of-the-art zero-shot voice cloning with emotion control from Resemble AI.

Medium 5/5 Клонування голосу

Найкраще для: Нульовий голосовий клонування, що показує межу синтезу голосу

Спробувати Chatterbox

Tortoise TTSTortoise TTS

Premium

Multi-voice text-to-speech focused on quality with autoregressive architecture.

Slow 5/5 Клонування голосу

Найкраще для: Авторегресивна архітектура, що визначає максимальну якість звуку

Спробувати Tortoise TTS

Як працює нейронна ТД

Сучасний трубопровод синтезу мовлення за чотири кроки.

1

Зрозуміти основи

TTS перетворює текст на вимовлений звук. Сучасні системи використовують нейронні мережі, які тренуються тисячі годин у записах людських мовлення.

2

Виділяйте різні моделі

Кожна модель TTS використовує різну архітектуру (продаж, розповсюдження, варіаційність) з унікальною швидкістю, якістю і особливостями.

3

Спробуйте самі

Спробуйте наші вільні моделі, що знаходяться вище ведьми будь-якого тексту і слухайте його, що він говорив у секундах.

4

Вкорінюйтесь у свої проекти

Після того, як ви знайдете модель, яка вам сподобається, скористайтеся нашим API для інтеграції TTS до ваших програм, продуктів або створення вмісту.

Коротка історія мови

Від механічних розмовних машин до нейронних мереж

Перші дні (1950- 1980 роки)

Перша мова, створена комп' ютером, датується 1961 роком, коли IBM

Системи, придатні для уваги: Votrax (1970s), DECtalk (1984), використовується Стівеном Гокінсом), Apple

Конкатенатний синтезатор (1990s- 2000s)

Закоментована TTS записує справжні людські голоси, що говорять про тисячі комбінацій фонем, а потім з' єднує відповідні сегменти під час виконання роботи. Таким чином було створено більш природнішу мову, але потрібні масивні бази даних (часто 10- 20 годин запису на голос). Якість залежала від пошуку плавних об' єднань між сегментами.

Used by: AT&T Natural Sounds, Nunance Vocalizer, Start Google Translate TTS.

Статистичні/параметричні (2000- 2010s)

Замість зшивання записів, параметричні моделі опанували статистичне представлення мови. Приховані моделі Markow (HMM) і пізніші нейронні мережі створили параметри мовлення (пітч, тривалість, спектральні характеристики), які були створені за допомогою вукодера. Таким чином можна було створити необмежений словник і простий голос, але крок вокодера часто створював\

Модель ключів: HTS, Merlin, ранні засновані на DN системи.

Невербальне TTS (2016- пред' єднання)

Сучасна ера почалася з WaveNet (DeepMind, 2016), яка генерувала звукові зразки за допомогою глибоких нейронних мереж. За нею йшов Takoron (Google, 2017), який навчився приписувати текст безпосередньо до спектрограм.

Прориви ключових слів: WaveNet, Tacoron, Fast Speech, VITS, Bark, Kokro.

Як діє сучасна небіблійна тактика

Архітектура за голосами комп' ютера з природним звуком

Аналіз тексту і нормалізація

Сирий текст очищується і нормалізується: числа стають словами (\

Акустична модель (Текст для Spectrogram)

Акустична модель (часто Перетворювач або автоматична мережа) бере фонему послідовність і прогнозує мелеву спектрограму, візуальне представлення того, як звучить звук.

Vocoder (Spectrogram to Audio)

Vocoder перетворює mel спектрограму на справжні звукові хвилі. Ранні вукодери, на зразок Гріффін- Лам, створили роботизовані артефакти. Сучасні нейронні комунікатори (HiFi- GAN, BigVGAN, Vococo) створюють високоякісні звукові дані 24kГц або 44.1kГц, які вловлюють чудові деталі природної мови, зокрема звуки дихання і витончені рухи губ.

Моделі кінця і кінця

Останні моделі, на зразок VITS, Kokro і Bark, повністю пропускають двостулковий трубопровод. Вони переходять безпосередньо від тексту до звукових даних у одній нейронній мережі, створюючи природніші результати з меншою кількістю артефактів. Деякі моделі (наприклад, барки) навіть можуть створювати звуки, які не можна вимовляти, сміх і музику поруч з мовленням.

TTS наближення Порівняно

Як порівнюються чотири покоління технології TTS

Підйом Ера Природність Гнучкість Швидкість Потрібні дані
Formant Synthesis
Моделювання частот, заснованих на правилах
1960s-1990s Немає
Катенативний
Відрізки звукових даних
1990s-2010s 10- 20+ годин
Parameric (HMM/DN)
Статистичні моделі мовлення
2000s-2016 1- 5 годин
Непрямий кінець- кінець- кінець- кінець
Глибоке навчання (VITS, Kokro, Bark)
2016-Теперішній Хвилини до годин

Загальні програми TTS

Де сьогодні використовується текст до мовлення

Доступність

Читачам, допоміжним пристроям та інструментам для людей з порушенням зору або непрацездатністю читання можна скористатися завдяки TTS, щоб зробити цифровий контент доступним для кожного.

Створення вмісту

YouTubers, транслятори та творці соціальних медіа використовують TTS для голосування, записування та автоматизованого виробництва на шкалі.

Віртуальні помічники

Siri, Alexa, Google Помічник, і Service chatbots всі використовують TTS для вимовляння відповідей природно для користувачів.

Часті запитання

Поширені питання про текст у мовній технології

TTS призначено для синтезу мовлення з тексту. Цей термін стосується технології, за допомогою якої вимовлений текст перетворюватиметься на слова, які вимовляються, використовуючи синтезовані або створені комп' ютером голоси. Цей термін використовується взаємозамінно з " синтезом мовлення " у технічній літературі.

Сучасні системи синтезу мовлення працюють у три етапи: аналіз тексту (парсинг, нормалізація, перетворення фонеми), передбачення просодії (визначення ритму, тону, стресу і паузи) та аудіосинтезу (за допомогою фактичної звукової хвилі). Неверсії вчаться з тренувальних даних всі три етапи.

Конкатна TTS сплутує попередньо записані фрагменти мовлення, які можуть звучати відрубано під час переходів. Нейротичне TTS створює мовлення з нуля за допомогою глибокого навчання, створює плавніший, природніший звук з кращими прозодіями та емоціями.

SSML (мовна мова розмітки розмітки синтезу мовлення) - це мова XML, заснована на розмітці, яка надає вам змогу керувати тим, як системи синтезу мовлення вимовляють текст. Ви можете вказати призупинки, наголос, вимову, зміни тону і частоту мовлення за допомогою міток SSML у тексті.

TTS використовується для доступності (свіжих читачів для користувачів з вадами зору), віртуальних помічників (Сері, Алекса, Google-допомогу), для роботи з аудіокнигом, е-навчання, навігації GPS, систем IVR клієнтів, створення вмісту та використання програм для вивчення мови.

TTS еволюціонували від систем, заснованих на робототехніці, у 1960-х роках, до констебляційного синтезу у 1990-х, статистичного параметричного синтезу у 2000-х роках, нейронного TTS з WaveNet у 2016-х, до сучасних моделей трансформатора та дифузій, які досягають якості людського рівня.

Для природнього звуку TTS потрібні точні просодії (rhythm, напруга, інтонація), відповідне базікання, плавні переходи між фонеми і послідовна особистість голосу. Нервові моделі вивчають ці шаблони з великих наборів даних з натуральних людських мовних записів.

Моделі клонування голосів на зразок Chatterbox і Cosy Leody 2 можуть відтворювати специфічний голос з 5- 30 секунд від еталонного звуку. Клонований голос захоплює тембр, акцент і стиль мовлення, хоча етичні та юридичні міркування застосовуються для клонування голосів інших.

Сучасні моделі TTS разом підтримують 30+ мов. Деякі моделі, що спеціалізуються на певних мовах, у той час як інші мови є багатомовними. Англійська має найдоступніші моделі і голоси, але китайські, японські, корейські, іспанські та європейські мови добре підтримуються.

TTS - це підсистема створення голосів AI. TTS спеціально перетворює вхідні тексти на вивід мовлення. Створення голосу AI - це ширший термін, який включає створення клонування голосу, перетворення голосу, синтез мовлення з тексту і створення звукових ефектів.

Це залежить від ваших потреб. Kokro надає вам найкращий баланс швидкості і якості для загального використання. Список балачки призводить до клонування голосів. Orpheus перевищить емоційний вираз. StyleTTS 2 створює найприроднішу для одного зі слів. Немає єдиної моделі для всіх випадків використання.

Так. Всі моделі на TTS.ai мають відкриті коди і можуть бути самоуправлені. Моделі, призначені лише для ЦП, такі як Piper на будь- якому комп' ютері. Моделі GPU на зразок Kokro і Bark потребують NVIDIA GPU з 2- 8GB VRAM. Крім того, наша платформа надає доступ до системи, отже вам не потрібно керувати інфраструктурою.
5.0/5 (1)

Ваші відгуки допомагають нам вирішити проблеми.

Досвід у наш час

Спробуйте 20- бітову модель голосів комп' ютерного гравця. Подивіться, як далеко прийшов текст до мовлення.