Що таке Текст мовлення (TTS)?
Текст до мовлення - це технологія, яка перетворює текст на розмовний аудіо за допомогою штучного інтелекту. Від ранніх роботів- синтезаторів до сучасних нейронних мереж, які видаються нерівними від людей, TTS змінює спосіб взаємодії з технологіями, споживання змісту і робить інформацію доступною.
Ключові думки в тексті для мовлення
Розуміння будівельних блоків сучасного синтезу мовлення
Для чого існують синтези мовлення
TTS означає "SI-to-Speech," технологія, яка перетворює текст на усний аудіо за допомогою комп'ютерних голосів.
Як працює нейронна ТД
Сучасні TTS використовують глибокі нейронні мережі, щоб аналізувати текст, передбачати орфографічні візерунки та створювати звукові хвилі, які видаються на диво людськими.
Історія синтезу мовлення
З 1960-х систем, заснованих на правилах, до 1990-х, констебльного синтезу сучасних нервових моделей ♫ як TTS еволюціонували за шість десятиліть.
Сучасні моделі комп' ютерного гравця
Сучасні моделі, як - от Кокоро, Барк і Коси 2, використовують трансформатори, поширення та варіативні висновки для досягнення якості мови людського рівня.
Загальні програми
Програма TTS для читання екранів, навігації GPS, віртуальні помічники, аудіокнижки, сервіси клієнтів, електронні платформи для вивчення та створення контентів.
Open Source vs Commercial
Моделі з відкритим кодом (МТІ, Apache 2. 0) забезпечують безкоштовне, самопідтримане TTS, а комерційні служби пропонують керувати API з підтримкою SLAs і підтримкою.
Моделі TTS доступні на TTS.ai
Від швидкого і легкого до якісних нейронних голосів
Kokoro
Free
Lightweight 82M parameter model delivering studio-quality speech with blazing-fast inference.
Найкраще для: Стан-о-арт-малень маленька модель } показує, як далеко прийшов нейронний TTS
Спробувати Kokoro
Bark
Standard
Transformer-based text-to-audio model that generates realistic speech, music, and sound effects.
Найкраще для: Модель перетворення, яка демонструє створення звукових даних поза мовлення
Спробувати Bark
CosyVoice 2
Standard
Alibaba's scalable streaming TTS with human-parity naturalness and near-zero latency.
Найкраще для: TTS потоками з якістю людяності і нульовим клонуванням
Спробувати CosyVoice 2
Chatterbox
Premium
State-of-the-art zero-shot voice cloning with emotion control from Resemble AI.
Найкраще для: Нульовий голосовий клонування, що показує межу синтезу голосу
Спробувати Chatterbox
Tortoise TTS
Premium
Multi-voice text-to-speech focused on quality with autoregressive architecture.
Найкраще для: Авторегресивна архітектура, що визначає максимальну якість звуку
Спробувати Tortoise TTSЯк працює нейронна ТД
Сучасний трубопровод синтезу мовлення за чотири кроки.
Зрозуміти основи
TTS перетворює текст на вимовлений звук. Сучасні системи використовують нейронні мережі, які тренуються тисячі годин у записах людських мовлення.
Виділяйте різні моделі
Кожна модель TTS використовує різну архітектуру (продаж, розповсюдження, варіаційність) з унікальною швидкістю, якістю і особливостями.
Спробуйте самі
Спробуйте наші вільні моделі, що знаходяться вище ведьми будь-якого тексту і слухайте його, що він говорив у секундах.
Вкорінюйтесь у свої проекти
Після того, як ви знайдете модель, яка вам сподобається, скористайтеся нашим API для інтеграції TTS до ваших програм, продуктів або створення вмісту.
Коротка історія мови
Від механічних розмовних машин до нейронних мереж
Перші дні (1950- 1980 роки)
Перша мова, створена комп' ютером, датується 1961 роком, коли IBM
Системи, придатні для уваги: Votrax (1970s), DECtalk (1984), використовується Стівеном Гокінсом), Apple
Конкатенатний синтезатор (1990s- 2000s)
Закоментована TTS записує справжні людські голоси, що говорять про тисячі комбінацій фонем, а потім з' єднує відповідні сегменти під час виконання роботи. Таким чином було створено більш природнішу мову, але потрібні масивні бази даних (часто 10- 20 годин запису на голос). Якість залежала від пошуку плавних об' єднань між сегментами.
Used by: AT&T Natural Sounds, Nunance Vocalizer, Start Google Translate TTS.
Статистичні/параметричні (2000- 2010s)
Замість зшивання записів, параметричні моделі опанували статистичне представлення мови. Приховані моделі Markow (HMM) і пізніші нейронні мережі створили параметри мовлення (пітч, тривалість, спектральні характеристики), які були створені за допомогою вукодера. Таким чином можна було створити необмежений словник і простий голос, але крок вокодера часто створював\
Модель ключів: HTS, Merlin, ранні засновані на DN системи.
Невербальне TTS (2016- пред' єднання)
Сучасна ера почалася з WaveNet (DeepMind, 2016), яка генерувала звукові зразки за допомогою глибоких нейронних мереж. За нею йшов Takoron (Google, 2017), який навчився приписувати текст безпосередньо до спектрограм.
Прориви ключових слів: WaveNet, Tacoron, Fast Speech, VITS, Bark, Kokro.
Як діє сучасна небіблійна тактика
Архітектура за голосами комп' ютера з природним звуком
Аналіз тексту і нормалізація
Сирий текст очищується і нормалізується: числа стають словами (\
Акустична модель (Текст для Spectrogram)
Акустична модель (часто Перетворювач або автоматична мережа) бере фонему послідовність і прогнозує мелеву спектрограму, візуальне представлення того, як звучить звук.
Vocoder (Spectrogram to Audio)
Vocoder перетворює mel спектрограму на справжні звукові хвилі. Ранні вукодери, на зразок Гріффін- Лам, створили роботизовані артефакти. Сучасні нейронні комунікатори (HiFi- GAN, BigVGAN, Vococo) створюють високоякісні звукові дані 24kГц або 44.1kГц, які вловлюють чудові деталі природної мови, зокрема звуки дихання і витончені рухи губ.
Моделі кінця і кінця
Останні моделі, на зразок VITS, Kokro і Bark, повністю пропускають двостулковий трубопровод. Вони переходять безпосередньо від тексту до звукових даних у одній нейронній мережі, створюючи природніші результати з меншою кількістю артефактів. Деякі моделі (наприклад, барки) навіть можуть створювати звуки, які не можна вимовляти, сміх і музику поруч з мовленням.
TTS наближення Порівняно
Як порівнюються чотири покоління технології TTS
| Підйом | Ера | Природність | Гнучкість | Швидкість | Потрібні дані |
|---|---|---|---|---|---|
| Formant Synthesis Моделювання частот, заснованих на правилах |
1960s-1990s | Немає | |||
| Катенативний Відрізки звукових даних |
1990s-2010s | 10- 20+ годин | |||
| Parameric (HMM/DN) Статистичні моделі мовлення |
2000s-2016 | 1- 5 годин | |||
| Непрямий кінець- кінець- кінець- кінець Глибоке навчання (VITS, Kokro, Bark) |
2016-Теперішній | Хвилини до годин |
Загальні програми TTS
Де сьогодні використовується текст до мовлення
Доступність
Читачам, допоміжним пристроям та інструментам для людей з порушенням зору або непрацездатністю читання можна скористатися завдяки TTS, щоб зробити цифровий контент доступним для кожного.
Створення вмісту
YouTubers, транслятори та творці соціальних медіа використовують TTS для голосування, записування та автоматизованого виробництва на шкалі.
Віртуальні помічники
Siri, Alexa, Google Помічник, і Service chatbots всі використовують TTS для вимовляння відповідей природно для користувачів.
Часті запитання
Поширені питання про текст у мовній технології
Ваші відгуки допомагають нам вирішити проблеми.
Досвід у наш час
Спробуйте 20- бітову модель голосів комп' ютерного гравця. Подивіться, як далеко прийшов текст до мовлення.