Надіслати звіт про помилку / запит на можливості

Що таке Текст мовлення (TTS)?

Текст до мовлення - це технологія, яка перетворює текст на розмовний аудіо за допомогою штучного інтелекту. Від ранніх роботів- синтезаторів до сучасних нейронних мереж, які видаються нерівними від людей, TTS змінює спосіб взаємодії з технологіями, споживання змісту і робить інформацію доступною.

Технологія Журнал Як це працює Нервові мережі Evolution

Розпочинати звільнитися Перегляд Приоритет

Ключові думки в тексті для мовлення

Розуміння будівельних блоків сучасного синтезу мовлення

Для чого існують синтези мовлення

TTS означає "SI-to-Speech," технологія, яка перетворює текст на усний аудіо за допомогою комп'ютерних голосів.

Як працює нейронна ТД

Сучасні TTS використовують глибокі нейронні мережі, щоб аналізувати текст, передбачати орфографічні візерунки та створювати звукові хвилі, які видаються на диво людськими.

Історія синтезу мовлення

З 1960-х систем, заснованих на правилах, до 1990-х, констебльного синтезу сучасних нервових моделей ♫ як TTS еволюціонували за шість десятиліть.

Сучасні моделі комп' ютерного гравця

Сучасні моделі, як - от Кокоро, Барк і Коси 2, використовують трансформатори, поширення та варіативні висновки для досягнення якості мови людського рівня.

Загальні програми

Програма TTS для читання екранів, навігації GPS, віртуальні помічники, аудіокнижки, сервіси клієнтів, електронні платформи для вивчення та створення контентів.

Open Source vs Commercial

Моделі з відкритим кодом (МТІ, Apache 2. 0) забезпечують безкоштовне, самопідтримане TTS, а комерційні служби пропонують керувати API з підтримкою SLAs і підтримкою.

Моделі TTS доступні на TTS.ai

Від швидкого і легкого до якісних нейронних голосів

Kokoro

Free

Lightweight 82M parameter model delivering studio-quality speech with blazing-fast inference.

Швидка 5/5

Найкраще для: Стан-о-арт-малень маленька модель } показує, як далеко прийшов нейронний TTS

Спробувати Kokoro

Bark

Standard

Transformer-based text-to-audio model that generates realistic speech, music, and sound effects.

Повільно 4/5

Найкраще для: Модель перетворення, яка демонструє створення звукових даних поза мовлення

Спробувати Bark

CosyVoice 2

Standard

Alibaba's scalable streaming TTS with human-parity naturalness and near-zero latency.

Середній 5/5 Клонування голосу

Найкраще для: TTS потоками з якістю людяності і нульовим клонуванням

Спробувати CosyVoice 2

Chatterbox

Premium

State-of-the-art zero-shot voice cloning with emotion control from Resemble AI.

Середній 5/5 Клонування голосу

Найкраще для: Нульовий голосовий клонування, що показує межу синтезу голосу

Спробувати Chatterbox

Tortoise TTS

Premium

Multi-voice text-to-speech focused on quality with autoregressive architecture.

Повільно 5/5 Клонування голосу

Найкраще для: Авторегресивна архітектура, що визначає максимальну якість звуку

Спробувати Tortoise TTS

Як працює нейронна ТД

Сучасний трубопровод синтезу мовлення за чотири кроки.

Зрозуміти основи

TTS перетворює текст на вимовлений звук. Сучасні системи використовують нейронні мережі, які тренуються тисячі годин у записах людських мовлення.

Виділяйте різні моделі

Кожна модель TTS використовує різну архітектуру (продаж, розповсюдження, варіаційність) з унікальною швидкістю, якістю і особливостями.

Спробуйте самі

Спробуйте наші вільні моделі, що знаходяться вище ведьми будь-якого тексту і слухайте його, що він говорив у секундах.

Вкорінюйтесь у свої проекти

Після того, як ви знайдете модель, яка вам сподобається, скористайтеся нашим API для інтеграції TTS до ваших програм, продуктів або створення вмісту.

Коротка історія мови

Від механічних розмовних машин до нейронних мереж

Перші дні (1950- 1980 роки)

Перша мова, створена комп' ютером, датується 1961 роком, коли IBM

Системи, придатні для уваги: Votrax (1970s), DECtalk (1984), використовується Стівеном Гокінсом), Apple

Конкатенатний синтезатор (1990s- 2000s)

Закоментована TTS записує справжні людські голоси, що говорять про тисячі комбінацій фонем, а потім з' єднує відповідні сегменти під час виконання роботи. Таким чином було створено більш природнішу мову, але потрібні масивні бази даних (часто 10- 20 годин запису на голос). Якість залежала від пошуку плавних об' єднань між сегментами.

Used by: AT&T Natural Sounds, Nunance Vocalizer, Start Google Translate TTS.

Статистичні/параметричні (2000- 2010s)

Замість зшивання записів, параметричні моделі опанували статистичне представлення мови. Приховані моделі Markow (HMM) і пізніші нейронні мережі створили параметри мовлення (пітч, тривалість, спектральні характеристики), які були створені за допомогою вукодера. Таким чином можна було створити необмежений словник і простий голос, але крок вокодера часто створював\

Модель ключів: HTS, Merlin, ранні засновані на DN системи.

Невербальне TTS (2016- пред' єднання)

Сучасна ера почалася з WaveNet (DeepMind, 2016), яка генерувала звукові зразки за допомогою глибоких нейронних мереж. За нею йшов Takoron (Google, 2017), який навчився приписувати текст безпосередньо до спектрограм.

Прориви ключових слів: WaveNet, Tacoron, Fast Speech, VITS, Bark, Kokro.

Спробуйте використовувати сучасні нелюдські TTS

Як діє сучасна небіблійна тактика

Архітектура за голосами комп' ютера з природним звуком

Аналіз тексту і нормалізація

Сирий текст очищується і нормалізується: числа стають словами (\

Акустична модель (Текст для Spectrogram)

Акустична модель (часто Перетворювач або автоматична мережа) бере фонему послідовність і прогнозує мелеву спектрограму, візуальне представлення того, як звучить звук.

Vocoder (Spectrogram to Audio)

Vocoder перетворює mel спектрограму на справжні звукові хвилі. Ранні вукодери, на зразок Гріффін- Лам, створили роботизовані артефакти. Сучасні нейронні комунікатори (HiFi- GAN, BigVGAN, Vococo) створюють високоякісні звукові дані 24kГц або 44.1kГц, які вловлюють чудові деталі природної мови, зокрема звуки дихання і витончені рухи губ.

Моделі кінця і кінця

Останні моделі, на зразок VITS, Kokro і Bark, повністю пропускають двостулковий трубопровод. Вони переходять безпосередньо від тексту до звукових даних у одній нейронній мережі, створюючи природніші результати з меншою кількістю артефактів. Деякі моделі (наприклад, барки) навіть можуть створювати звуки, які не можна вимовляти, сміх і музику поруч з мовленням.

Досвід сам

TTS наближення Порівняно

Як порівнюються чотири покоління технології TTS

Підйом	Ера	Потрібні дані
Formant Synthesis Моделювання частот, заснованих на правилах	1960s-1990s	Немає
Катенативний Відрізки звукових даних	1990s-2010s	10- 20+ годин
Parameric (HMM/DN) Статистичні моделі мовлення	2000s-2016	1- 5 годин
Непрямий кінець- кінець Глибоке навчання (VITS, Kokro, Bark)	2016-Теперішній	Хвилини до годин

Спробувати небіблійну TTS безкоштовно

Загальні програми TTS

Де сьогодні використовується текст до мовлення

Доступність

Читачам, допоміжним пристроям та інструментам для людей з порушенням зору або непрацездатністю читання можна скористатися завдяки TTS, щоб зробити цифровий контент доступним для кожного.

Створення вмісту

YouTubers, транслятори та творці соціальних медіа використовують TTS для голосування, записування та автоматизованого виробництва на шкалі.

Віртуальні помічники

Siri, Alexa, Google Помічник, і Service chatbots всі використовують TTS для вимовляння відповідей природно для користувачів.

Спробувати синтез мовлення з тексту тепер

Часті запитання

Поширені питання про текст у мовній технології

TTS призначено для синтезу мовлення з тексту. Цей термін стосується технології, за допомогою якої вимовлений текст перетворюватиметься на слова, які вимовляються, використовуючи синтезовані або створені комп' ютером голоси. Цей термін використовується взаємозамінно з " синтезом мовлення " у технічній літературі.

Сучасні системи синтезу мовлення працюють у три етапи: аналіз тексту (парсинг, нормалізація, перетворення фонеми), передбачення просодії (визначення ритму, тону, стресу і паузи) та аудіосинтезу (за допомогою фактичної звукової хвилі). Неверсії вчаться з тренувальних даних всі три етапи.

Конкатна TTS сплутує попередньо записані фрагменти мовлення, які можуть звучати відрубано під час переходів. Нейротичне TTS створює мовлення з нуля за допомогою глибокого навчання, створює плавніший, природніший звук з кращими прозодіями та емоціями.

SSML (мовна мова розмітки розмітки синтезу мовлення) - це мова XML, заснована на розмітці, яка надає вам змогу керувати тим, як системи синтезу мовлення вимовляють текст. Ви можете вказати призупинки, наголос, вимову, зміни тону і частоту мовлення за допомогою міток SSML у тексті.

TTS використовується для доступності (свіжих читачів для користувачів з вадами зору), віртуальних помічників (Сері, Алекса, Google-допомогу), для роботи з аудіокнигом, е-навчання, навігації GPS, систем IVR клієнтів, створення вмісту та використання програм для вивчення мови.

TTS еволюціонували від систем, заснованих на робототехніці, у 1960-х роках, до констебляційного синтезу у 1990-х, статистичного параметричного синтезу у 2000-х роках, нейронного TTS з WaveNet у 2016-х, до сучасних моделей трансформатора та дифузій, які досягають якості людського рівня.

Для природнього звуку TTS потрібні точні просодії (rhythm, напруга, інтонація), відповідне базікання, плавні переходи між фонеми і послідовна особистість голосу. Нервові моделі вивчають ці шаблони з великих наборів даних з натуральних людських мовних записів.

Моделі клонування голосів на зразок Chatterbox і Cosy Leody 2 можуть відтворювати специфічний голос з 5- 30 секунд від еталонного звуку. Клонований голос захоплює тембр, акцент і стиль мовлення, хоча етичні та юридичні міркування застосовуються для клонування голосів інших.

Сучасні моделі TTS разом підтримують 30+ мов. Деякі моделі, що спеціалізуються на певних мовах, у той час як інші мови є багатомовними. Англійська має найдоступніші моделі і голоси, але китайські, японські, корейські, іспанські та європейські мови добре підтримуються.

TTS - це підсистема створення голосів AI. TTS спеціально перетворює вхідні тексти на вивід мовлення. Створення голосу AI - це ширший термін, який включає створення клонування голосу, перетворення голосу, синтез мовлення з тексту і створення звукових ефектів.

Це залежить від ваших потреб. Kokro надає вам найкращий баланс швидкості і якості для загального використання. Список балачки призводить до клонування голосів. Orpheus перевищить емоційний вираз. StyleTTS 2 створює найприроднішу для одного зі слів. Немає єдиної моделі для всіх випадків використання.

Так. Всі моделі на TTS.ai мають відкриті коди і можуть бути самоуправлені. Моделі, призначені лише для ЦП, такі як Piper на будь- якому комп' ютері. Моделі GPU на зразок Kokro і Bark потребують NVIDIA GPU з 2- 8GB VRAM. Крім того, наша платформа надає доступ до системи, отже вам не потрібно керувати інфраструктурою.

5.0/5 (1)

Досвід у наш час

Спробуйте 20- бітову модель голосів комп' ютерного гравця. Подивіться, як далеко прийшов текст до мовлення.

Вільний підпис Перегляд Приоритет

Що таке Текст мовлення (TTS)?

Ключові думки в тексті для мовлення

Для чого існують синтези мовлення

Як працює нейронна ТД

Історія синтезу мовлення

Сучасні моделі комп' ютерного гравця

Загальні програми

Open Source vs Commercial

Моделі TTS доступні на TTS.ai

Kokoro

Bark

CosyVoice 2

Chatterbox

Tortoise TTS

Як працює нейронна ТД

Зрозуміти основи

Виділяйте різні моделі

Спробуйте самі

Вкорінюйтесь у свої проекти

Коротка історія мови

Перші дні (1950- 1980 роки)

Конкатенатний синтезатор (1990s- 2000s)

Статистичні/параметричні (2000- 2010s)

Невербальне TTS (2016- пред' єднання)

Як діє сучасна небіблійна тактика

Аналіз тексту і нормалізація

Акустична модель (Текст для Spectrogram)

Vocoder (Spectrogram to Audio)

Моделі кінця і кінця

TTS наближення Порівняно

Загальні програми TTS

Доступність

Створення вмісту

Віртуальні помічники

Часті запитання

Що означає TTS?

Як працює мовлення з тексту?

Яка різниця між нейронними TTS і консатенативними TTS?

Що таке SSML і як вона використовується у TTS?

Які основні застосування технології TTS?

Як розвивалася технологія TTS з часом?

Чому ТТХ - це голос, який звучить природно?

Чи може TTS відтворити будь-який людський голос?

Які мови підтримує ТТВ?

Чи є TTS тим самим, що і створення комп'ютерного голосу?

Яка найкраща модель TTS доступна сьогодні?

Чи можу я запустити моделі TTS на моєму власному комп'ютері?

Досвід у наш час