Report Bug / Feature Request

Вимовляння тексту комп' ютерного гравця

Перетворювати текст на натуральну мовлення з моделями комп' ютерного гравця з відкритим кодом. Вільно користуватися, без рахунка.

Вільний підпис

0/500 символи · Sign up for 5,000 per generation →

Підписатися обмеження на 5,000 символів

Режим SSML (Мова розмітки синтезу мовлення для доброго керування)

Переносити ваш текст до міток SSML для точного керування:

<speak><prosody rate="slow">Slow speech</prosody></speak>

Мітки емоцій/ стилю

Додати позначки емоцій до до доставки впливу (відносна підтримка model):

Словник вимови

Визначити нетипові вимови (слово = вимова):

Тон 0

-12 +12

Модель комп' ютера

Голос

Мова

Формат виводу

Швидкість 1.0x

0.5x 2.0x

Вільно з Пайпером, VITS, Melotts

Тут з' явиться створений вами звуковий файл. Оберіть модель, введіть текст і натисніть кнопку Створити.

Подробиці моделі

Kitten TTS

Free

Kitten TTS by KittenML is an ultra-lightweight text-to-speech model built on ONNX. With variants from 15M to 80M parameters (25-80 MB on disk), it delivers high-quality voice synthesis on CPU without requiring a GPU. Features 8 built-in voices, adjustable speech speed, and built-in text preprocessing for numbers, currencies, and units. Ideal for edge deployment and low-latency applications.

Розробник:	KittenML
Ліцензія:	Apache 2.0
Швидкість	Fast
Якість:
мови	1 мова
ВРАМ	0GB
Клонування голосу	Не підтримується

Можливості:

CPU-only inference Under 80MB model size 8 built-in voices Speed control ONNX-based 24kHz output

Найкраще для:: Fast lightweight TTS, edge deployment, low-latency applications

Поради для кращих результатів

Використовуйте розділовий знак для природних паузи та інтонації.
Вимовляти номери і абревіатури для чіткішої вимови
Додати коми, щоб створити короткі паузи між фразами
Використовувати еліпс (...) для довших драматичних призупинок
Спробуйте Kokro або Cosy Lead 2 для найбільш природних результатів
Використовувати Dia для діалогового вікна багатомовця та вмісту трансляції

Використання символів

Тір	Вартість символів 1K
Вільно	0 кредитів (необмежено)
Стандартний	Коштовності / 1К- символи
Премій	4 Позики / 1K- символи

Отримати більше символів

Як працює текст комп'ютера

Створіть професійно якісний голос за трьома простими кроками, без жодних технічних знань.

Крок 1

Введіть ваш текст

Введіть, вставте або вивантажуйте текст, який ви бажаєте перетворити на мовлення. Підтримується до 5000 символів у кожному поколінні для користувачів, що увійшли до системи. Використовуйте звичайний текст або додайте мітки SSML для додаткового керування вимовою, призупинкою і наголосом.

Крок 2

Виберіть модель і голос

Виберіть з 20+ AI моделей у трьох тирах. Виберіть голос, що відповідає вашому вмісту, виберіть мову призначення, змініть швидкість відтворення від 0, 5x до 2. 0x і виберіть бажаний формат виводу (MP3, WAV, OGG або FLAC).

Крок 3

Створити & звантаження

Натисніть кнопку Створити, і ваш звуковий файл буде готовий у секундах. Попередній перегляд з вбудованим гравцем, звантаження у вибраному вами форматі або копіювання спільного посилання. Скористайтеся API для пакетної обробки і інтеграції з вашим комп' ютером.

Випадки використання тексту для мовлення

ШІ, що має силу синтезувати, споживати і взаємодіяти з аудіозаписом у десятках індустрій.

Звукові книги

Перетворити всі книги на натуральні аудіокнижки з якісним записом студії. Підтримка багатомовця з Dia для діалогового вікна символів.

Відеоголоси

Створіть професійні право голосу для YouTube, TikTok, Instagram Reels і Shorts. 100+ голосів або клонуйте ваші власні.

Радіотрансляції

Створювати епізоди трансляції зі скриптів з декількома голосами комп' ютера. Скористайтеся Dia для натуральних двомовних розмов.

Приборкування

Комп' ютерний голос, що грає для ігор інди, візуальних романів та інтерактивної фантастики. Діалогове вікно NPC, голосів розрізників, 30+ мов.

Вивчення

Перетворювати матеріали майданчиків, лекції та зміст тренування на аудіо. Підтримка багатьма мовами для загальних платформ.

Доступність

Робить доступ до веб- сайтів, документів і програм. Інтеграція з програмним інтерфейсом для читання з екрана і перетворення статей на аудіозапис.

& Телефонні системи IVR

Система IVR, телефонні меню та служба клієнта з природними голосами комп' ютера. Недоліки для центрів викликів.

Соціальний медіа

Розписи TikTok, Instagram Reels, коментарі Twitter/X, YouTube Shorts. Швидке створення з вільними моделями.

Потік

Повідомлення Twitch TTS, talk- to- voice, I- вузоли і Discord Bots. Низька кількість голосів, 100+, сумісні з ZoutElements. Name

Ринок

Голосування, відеодиспетчерів, демонстрацій товарів та продажів, масштабування аудіо-продукції через кампанії.

Витерти & локалізацію

Переклад і об' єм відео на 30 мов+ з комп' ютерним інтерфейсом, що відповідає за голос. Автоматичне визначення скриптів і виявлення звуку.

Роздуми і розважність

Проведення медитацій, сонні історії, вправи на дихання та підтвердження спокійними, заспокійливими голосами комп'ютера.

Перегляд всіх випадків використання і інструментів

Всі текстові моделі мовлення

Докладні специфікації для кожної моделі I, доступ до якої можна отримати за допомогою TTS.ai. Порівняйте якість, швидкість, підтримку мови та можливості, щоб знайти ідеальну модель для вашого проекту.

Kokoro

Free

Kokro - це модель параметра text- to- special, що має 82 мільйони параметрів, яка значно перевищує його вазі. Незважаючи на його крихітний розмір, він видає надзвичайно природну і виразну мову. Kokro підтримує декілька мов, зокрема англійську, японську, китайську та корейську з різноманітною кількістю голосів. Програма виконується неймовірно швидко, майже у 100x швидше за реальний час у GPU.

Розробник::
Hexgrad

Ліцензія::
Apache 2.0

Швидкість:
Fast

Якість::

мови:
en, ja, zh, fr, it, pt, es, hi

ВРАМ:
1.5GB

Клонування голосу:
Ні

Вартість символів 1K:
Вільно

Параметри 82M Ультра- швидкий Виразні голоси Багатомовний Підтримка потоку

Найкраще для:: Високої якості TTS з мінімальною пізнотою, поточною програмою

Спробувати Kokoro

Piper

Free

Piper - це невибагливий рушій синтезу мовлення з тексту, розроблений Raspy, який використовує архітектуру VITS і гортань. Він працює повністю на процесорі, робить його ідеальним для пристроїв ребер, домашніх автоматизації і програм, які потребують автономного синтезу мовлення. З понад 100 голосів на 30+ мовах, Piper виголошує натуральну звукову мову з реальною швидкістю навіть на Raspberry Pi 4.

Розробник::
Rhasspy

Ліцензія::
MIT

Швидкість:
Fast

Якість::

мови:
en, de, fr, es, it, pt, nl, pl, ru, zh, ar, cs, da, fi, el, hu, is, ka, kk, ne, no, ro, sk, sr, sv, sw, tr, uk, vi

ВРАМ:
0 (CPU only)

Клонування голосу:
Ні

Вартість символів 1K:
Вільно

Дружній до ЦП Можливість автономного зв' язкуName 100+ голосів 30+ Мови Підтримка SSML

Найкраще для:: Швидкий перегляд, доступність та вбудовані програми

Спробувати Piper

VITS

Free

VITS (Variational Inference with adersial learn for end- to- end Text- Speech) - паралельний метод TTS, який створює природніший звук, ніж поточні двостулкові моделі. Він приймає варіативні підсумки, збільшені зі нормалізуючими потоками та адвернаційним процесом тренування, що значно покращує природність.

Розробник::
Jaehyeon Kim et al.

Ліцензія::
MIT

Швидкість:
Fast

Якість::

мови:
en, de, es, fr, pt, nl, fi, hu, bg, uk, pl

ВРАМ:
1GB

Клонування голосу:
Ні

Вартість символів 1K:
Вільно

Конфігурація від початку до кінця Природні пролодії Швидкі висновки Декілька промовців

Найкраще для:: Загальні текстові повідомлення з природними просодіями

Спробувати VITS

MeloTTS

Free

MeloTTS MySell.ai - це багатомовна бібліотека TTS, яка підтримує англійську (American, British, India, Australia), іспанська, французька, китайська, японська, і корейська. Текст дуже швидко обробляється на процесорі з майже реальною швидкістю. MloTTS розроблено для використання і підтримує як процесора, так і GPUCTS.

Розробник::
MyShell.ai

Ліцензія::
MIT

Швидкість:
Fast

Якість::

мови:
en, es, fr, zh, ja, ko

ВРАМ:
0.5GB (GPU optional)

Клонування голосу:
Ні

Вартість символів 1K:
Вільно

Оптимізація ЦП Багатомовний Декілька акцентів Виробництво- готове Низька спізнення

Найкраще для:: Програми для виробництва, які потребують швидкого, багатомовного TTS

Спробувати MeloTTS

Bark

Standard

Back за Suno - це заснована на програмі модель перетворення тексту, яка може створювати дуже реалістичні, багатомовні мовлення, а також інші звукові дані, такі як музика, фоновий шум і звукові ефекти. За допомогою цієї моделі можна створювати невербальний обмін інформацією, зокрема сміх, зітхання і плач. У Bark передбачено понад 100 наборів мов і 13+ мов.

Розробник::
Suno

Ліцензія::
MIT

Швидкість:
Slow

Якість::

мови:
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr

ВРАМ:
5GB

Клонування голосу:
Ні

Вартість символів 1K:
2x

Звукові ефекти Сміється/зітхає Створення музики 100+ гучномовці Багатомовний

Найкраще для:: Створений звуковий зміст, аудіокнижки з емоціями, звукові ефекти

Спробувати Bark

Bark Small

Standard

" Bark Nal " - це збірна версія моделі Back, яка змінює якість звуку для значно швидких швидкостей і низьких потреб пам'яті. Вона зберігає здатність Барка створювати мову з емоціями, сміхом та багатьма мовами.

Розробник::
Suno

Ліцензія::
MIT

Швидкість:
Medium

Якість::

мови:
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr

ВРАМ:
2GB

Клонування голосу:
Ні

Вартість символів 1K:
2x

Незначна Швидше, ніж повна колода Емоційна мова Багатомовний

Найкраще для:: Швидкий творчий звук, якщо повнофункціональний блок заповільно

Спробувати Bark Small

CosyVoice 2

Standard

CosyThream 2 by Alibaba' s Lab' s Tongyi Labyta отримує якість мовлення з дуже низькою пізною швидкістю, що робить його ідеальним для програм у режимі реального часу. Він використовує обмежений масштабований квантизований підхід для потоку синтезу і підтримує нульове кодування голосів, переплетення і контроль за емоційами. Він перевищив багато комерційних систем TTS у суб'єктивних оцінках.

Розробник::
Alibaba (Tongyi Lab)

Ліцензія::
Apache 2.0

Швидкість:
Medium

Якість::

мови:
en, zh, ja, ko, fr, de, it, es

ВРАМ:
4GB

Клонування голосу:
Так.

Вартість символів 1K:
2x

Потік Нульове клонування Поперечний Керування емоційками Співвідношення людини

Найкраще для:: Програми у режимі реального часу, поточно-технічні засоби, помічники голосових апаратів

Спробувати CosyVoice 2

Dia TTS

Standard

Dia by Nari Labs - це модель параметра 1. 6B для синтезу багатомовного діалогу. Ця модель може створювати натуральні розмови між двома промовцями з відповідними покроковими, просоціальними та емоційними виразами. Dia є ідеальною для створення конструкцій у стилі трансляції, діалогів у аудіокнизі та інтерактивних розмовних комп' ютерів.

Розробник::
Nari Labs

Ліцензія::
Apache 2.0

Швидкість:
Medium

Якість::

мови:
en

ВРАМ:
4GB

Клонування голосу:
Ні

Вартість символів 1K:
2x

Багатомовний гучномовець Створення діалогових вікон Природний хід Емоційне вираження Параметри 1. 6B

Найкраще для:: Подкати, діалоги з аудіокнигом, розмовний зміст

Спробувати Dia TTS

Parler TTS

Standard

Parler TTS - це модель синтезу мовлення з тексту, яка використовує описи природної мови для керування створенням мовлення. Замість вибору з конфігураційних голосів, ви описуєте бажаний голос (наприклад, " теплий жіночий голос з легким британським акцентом, повільно і чітко ") і Parler створює мовлення, що відповідає цьому опису. Таким чином, він робить його надзвичайно гнучким для творчих програм.

Розробник::
Hugging Face

Ліцензія::
Apache 2.0

Швидкість:
Medium

Якість::

мови:
en

ВРАМ:
4GB

Клонування голосу:
Ні

Вартість символів 1K:
2x

Опис голосу Керування природною мовою Гнучкість створення голосу Не потрібен набір голосів

Найкраще для:: Творчі програми, де вам потрібні нетипові характеристики голосу

Спробувати Parler TTS

GLM-TTS

Standard

GLM- TTS автором Zhipu AI є системою синтезу мовлення з тексту, збудованою на архітектурі Llama з збігом з потоком. Ця система досягає найнижчої швидкості помилок символів серед моделей TTS з відкритим кодом, що означає, що вона створює найточніше вимовляння. GLM- TTS підтримує англійську і китайську з клонуванням голосу з 3- 10 секундних зразків аудіо.

Розробник::
Zhipu AI

Ліцензія::
GLM-4 License

Швидкість:
Medium

Якість::

мови:
en, zh

ВРАМ:
4GB

Клонування голосу:
Так.

Вартість символів 1K:
2x

Найнижчий рівень помилок Клонування голосів Відповідність потоку Природні пролодії

Найкраще для:: Програми, які потребують максимальної точності вимови

Спробувати GLM-TTS

IndexTTS-2

Standard

IndexTTS- 2 - це додаткова система синтезу мовлення з тексту, яка значно перевершує нульовий голос з додатковим керуванням емоцій. Вона може створювати мовлення з особливим емоційним тоном, зокрема сумним, розлюченим або наляканим, без потреби у прив' язанні даних, специфічних для емоцій. Модель використовує вектори емоцій, щоб точно керувати емоційним виразом створеної мови.

Розробник::
Index Team

Ліцензія::
Bilibili Model License

Швидкість:
Medium

Якість::

мови:
en, zh

ВРАМ:
4GB

Клонування голосу:
Так.

Вартість символів 1K:
2x

Керування емоційками Нульовий Вектори емоцій Висловлювальна мова Тонкий контроль

Найкраще для:: Емоційно виражений зміст, аудіокнижки, віртуальні помічники

Спробувати IndexTTS-2

Spark TTS

Standard

Spark TTS за допомогою SparkAudio - це модель синтезу мовлення з тексту, яка поєднує клонування голосу з конструкцією емоцій і мовного стилю. За допомогою лише 5 секунд відліку вона може клонувати голос, а потім створювати мовлення з різними емоційками, швидкостями і стилями під час підтримки клонованого профілю голосу. Spark TTS використовує систему керування, засновану на виконанні запитів.

Розробник::
SparkAudio

Ліцензія::
CC BY-NC-SA 4.0

Швидкість:
Medium

Якість::

мови:
en, zh

ВРАМ:
4GB

Клонування голосу:
Так.

Вартість символів 1K:
2x

Клонування голосів Керування емоційками Керування стилями Запит на основі 5- секундне клонування

Найкраще для:: Створення вмісту з клонованим голосами та контролем емоцій

Спробувати Spark TTS

GPT-SoVITS

Standard

GPT- SoVITS об' єднує мову у стилі GPT з SoVITS (Підсилення голосу за допомогою Inference Version and Synthesis) з потужним клонуванням голосу, що з' являється у стилі GPT. За лічені 5 секунд відтворення звукових даних він може точно клонувати голос і створювати нову мову зі збереженням унікальних характеристик промовця. Цей інструмент чудово пасує і мовному синтезу голосу.

Розробник::
RVC-Boss

Ліцензія::
MIT

Швидкість:
Slow

Якість::

мови:
en, zh, ja, ko

ВРАМ:
6GB

Клонування голосу:
Так.

Вартість символів 1K:
2x

5- секундне клонування Співзвучний голос Незначне навчання Висока точність Поперечний

Найкраще для:: Голосове клонування, спів синтезування, створення контенту відтворення голосу

Спробувати GPT-SoVITS

Orpheus

Standard

Орфей - це велика модель синтезу мовлення з тексту, яка досягає емоційного виразу людського рівня. Навчені понад 100 000 годин різноманітних даних мовлення, вона перевершує мову, яка створює природні емоції, акцент і стилі мовлення. Орфей може створювати мовлення, які практично не відрізняються від людських записів.

Розробник::
Canopy Labs

Ліцензія::
Llama 3.2 Community

Швидкість:
Medium

Якість::

мови:
en

ВРАМ:
4GB

Клонування голосу:
Ні

Вартість символів 1K:
2x

Емоції рівня людини Тренування 100K годин Природний наголос Висловлювальна мова

Найкраще для:: Високоякісна емоційна мова, звукові книги, дія з голосами

Спробувати Orpheus

Chatterbox

Premium

Chatterbox за допомогою Resemble AI є моделем клонування ненульового голосу. За його допомогою можна відтворити будь- який голос з одного звукового зразка з дивовижною точністю, перехоплюючи не лише стиль timbre, але й talk та емоційні нюанси. Крім того, у Chatterbox передбачено високоякісний режим керування емоційами, що надасть вам змогу налаштувати емоційний тон створеної мови незалежно від особистості голосу.

Розробник::
Resemble AI

Ліцензія::
MIT

Швидкість:
Medium

Якість::

мови:
en

ВРАМ:
4GB

Клонування голосу:
Так.

Вартість символів 1K:
4x

Нульове клонування Керування емоційками Висока точність Перенесення стилю Однопрозоре клонування

Найкраще для:: Професійне клонування голосу з контролем емоцій, створення вмісту

Спробувати Chatterbox

Tortoise TTS

Premium

TTortoise TTS - це автоматична система синтезу мовлення з тексту, яка визначає якість звукових даних понад швидкістю. Програма використовує архітектуру DALL- E для створення дуже природної мови з відмінною схожістю просоції і оратора. Повільніше за багато альтернатив, Tortois створює одну з найбільш реалістичних синтетичних мов у екосистемі з відкритим кодом.

Розробник::
James Betker

Ліцензія::
Apache 2.0

Швидкість:
Slow

Якість::

мови:
en

ВРАМ:
8GB

Клонування голосу:
Так.

Вартість символів 1K:
4x

Найвища якість Багатоголосий Архітектура DALL- E Клонування голосів Авторегресивний

Найкраще для:: Звукові книги, підсумковий вміст, програми з якісною точністю

Спробувати Tortoise TTS

StyleTTS 2

Premium

StyleTTS 2 досягає синтезу мовлення з людського рівня, поєднуючи стиль дифузії з супроводжуючим тренуванням з використанням великих моделей мови. Ця програма створює найбільш природну резонансну мову між моделями одного мовлення, що суперничають з записами людських текстів. StyleTTS 2 використовує модель стилю, заснований на стилі дифузій, для того, щоб передати повний діапазон варіацій людської мови.

Розробник::
Columbia University

Ліцензія::
MIT

Швидкість:
Medium

Якість::

мови:
en

ВРАМ:
4GB

Клонування голосу:
Ні

Вартість символів 1K:
4x

Рівень людини Розсіювання стилю Вправа з ворожіннями Природна варіація Висока точність

Найкраще для:: Якість окремого синтезу мовлення, професійна історія

Спробувати StyleTTS 2

OpenVoice

Premium

Відкрита голосність MyShell.ai надає вам змогу миттєво клонувати голос з допомогою керування голосовим стилем, емоційним акцентом, ритмом, паузами і і інтонацією. Ця програма може клонувати голос з коротенького звукового кліпу і створювати мовлення у декількох мовах під час підтримання особистості промовця. Відкрити голос також працює як інструмент перетворення голосу, що надає можливість перетворення голосу у режимі реального часу.

Розробник::
MyShell.ai / MIT

Ліцензія::
MIT

Швидкість:
Medium

Якість::

мови:
en, zh, ja, ko, fr, es

ВРАМ:
4GB

Клонування голосу:
Так.

Вартість символів 1K:
4x

Негайне клонування Перетворення голосу Керування емоційками Керування Accent Багатомовний

Найкраще для:: Клонування голосів з акуратним керуванням у стилі, перетворення голосу

Спробувати OpenVoice

Qwen3 TTS

Standard

Qwen3- TTS - це 1. 7 мільярдів параметрів моделі синтезу мовлення з тексту з команди розробки тексту, яка складається з мови & libaba;. У програмі передбачено підтримку трьох режимів: конфігурацію голосів з контролем емоцій (9), клонування голосів лише з трьох секунд звуку і унікальний режим компонування голосу, у якому ви описуєте бажаний голос природною мовою. У програмі передбачено 10 мов з високою експресивністю та природним просодою.

Розробник::
Alibaba (Qwen)

Ліцензія::
Apache 2.0

Швидкість:
Medium

Якість::

мови:
en, zh, ja, ko, de, fr, ru, pt, es, it

ВРАМ:
7GB

Клонування голосу:
Так.

Вартість символів 1K:
2x

Клонування голосів 9 наборених голосів Компонування голосу з тексту Керування емоційками 10 мов

Найкраще для:: Багатомовний зміст з клонуванням голосу або нетиповим компонуванням голосу

Спробувати Qwen3 TTS

Sesame CSM

Premium

Sesame CSM (модель конверансуючої мови) - це модель параметрів, створена спеціально для створення розмовної мови. Вона моделює природні шаблони людської розмови, зокрема часові, зворотні реакції, емоційні реакції та розмовний потік. CSM створює звукові дані, які видаються як натуральна людська розмова, а не штучна мова.

Розробник::
Sesame

Ліцензія::
Apache 2.0

Швидкість:
Slow

Якість::

мови:
en

ВРАМ:
8GB

Клонування голосу:
Ні

Вартість символів 1K:
4x

Розмова Природний час Перемотування поворотів Зворотний канал Параметри 1B

Найкраще для:: Помічники комп' ютерного зв' язку, chatbots, програми для обміну повідомленнями

Спробувати Sesame CSM

Chatterbox Turbo

Standard

Chatterbox Turbo, автор Resemble AI, є параметром 350M, який оновлює значення параметра Chatterbox, який передає до 6x у реальному часі швидкість з суб- 200ms perncy. Він підтримує паралінгвістичні мітки на зразок [laugh], [caugh] і [chuckle] безпосередньо у тексті. Включає водяне позначення Перта для всіх створених звукових даних для перевірки.

Розробник::
Resemble AI

Ліцензія::
MIT

Швидкість:
Fast

Якість::

мови:
en

ВРАМ:
2GB

Клонування голосу:
Так.

Вартість символів 1K:
2x

Sub- 200 мс пізно@ info: credit Паралінгвістичні мітки 6x у режимі реального часу Клонування голосів Водні знаки

Найкраще для:: Голосові агенти реального часу, виразна мова з природними звуками

Спробувати Chatterbox Turbo

VoxCPM

Standard

VoxCPM 1. 5 - OpenBM - це нова модель без ключа TTS, яка працює у безперервному просторі, а не у дискретних ключах. Ця модель створює звукові дані з високою частотою 44. 1kГц, підтримує клонування звуку з нульовим показом з 3- 10 секунд, і підтримує послідовність між абзацами. Клікання англійською мовою надає вам змогу застосовувати англійський голос до китайської мови і навпаки.

Розробник::
OpenBMB

Ліцензія::
Apache 2.0

Швидкість:
Fast

Якість::

мови:
en, zh

ВРАМ:
4GB

Клонування голосу:
Так.

Вартість символів 1K:
2x

Звук 44. 1kГц Tokenizer-free Поперечний клонування Перевірка контексту Lora fight- tuning

Найкраще для:: Звук з високою частотою, аудіокнижки, довгоформовий вміст з послідовністю голосу

Спробувати VoxCPM

Kani TTS 2

Free

Kani- TTS- 2 by N 9NineSix - це ультралегка модель параметра 400M, побудована на рідкому AIMEM2 каркаса NVIDIA NanoCodes. Вона працює лише у 3GB VRAM і створює ~10 секунд мовлення у ~2 секундах на A100 (RTF 0. 2). Поточні громадські кораблі випуску для клонування, або Kocoro / MelTTS для не- Volume.

Розробник::
NineNineSix

Ліцензія::
Apache 2.0

Швидкість:
Fast

Якість::

мови:
en

ВРАМ:
3GB

Клонування голосу:
Ні

Вартість символів 1K:
Вільно

3GB VRAM Ультра- швидкий Незначна Нанокодекturkey. kgm Вільно

Найкраще для:: Швидке англійське створення на мало- VRAM обладнання, швидкий перегляд

Спробувати Kani TTS 2

OuteTTS

Free

OutTTS розширюють великі моделі мов з можливостями синтезу мовлення з тексту під час збереження оригінальної архітектури. У програмі передбачено підтримку декількох серверів, зокрема Larma. cpp (CPU/ GPU), Gbing Menerations, ExLlamaV2, VLLM і навіть переглядача application за допомогою Transformers. js. Можливості клонування голосів з нульовим показом за допомогою профілів speak, збережених як JSON.

Розробник::
OuteAI

Ліцензія::
Apache 2.0

Швидкість:
Fast

Якість::

мови:
en

ВРАМ:
2GB

Клонування голосу:
Так.

Вартість символів 1K:
Вільно

Підсумок ЦП Підсумок навігатора Клонування голосів Декілька серверів Профілі мовців

Найкраще для:: Випромінювання ребер, базовані на переглядачах TTS, малодоступні середовища

Спробувати OuteTTS

VibeVoice

Standard

VibeGOW за Microsoft постачається у два варіанти: 1. 5B- модель для довгоформового вмісту (до 90 хвилин, 4 - носіїв) і модель Realtime 0. 5B для потоку з ~200 мс першим аудіо скасуванням. Варіант 1,5B, який перевидається на трансляції і звукових книгах з послідовністю звуку протягом довгих уривків. Примітка: Microsoft видалено код TTS зі сховища і створений звуковий файл містить звукові дані, які передають звук AI.

Розробник::
Microsoft

Ліцензія::
MIT

Швидкість:
Fast

Якість::

мови:
en, zh

ВРАМ:
4GB

Клонування голосу:
Ні

Вартість символів 1K:
2x

Багатомовний гучномовець До 90 хв Створення радіотрансляції Послідовність мовця 200 мс потік

Найкраще для:: Радіотрансляції, аудіокнижки, багатоформовий багатомовний вміст

Спробувати VibeVoice

Pocket TTS

Free

Pocketooth TTS від Kyutai (створення тексту у Moshi) - це компактна модель параметра 100M для синтезу мовлення з тексту, яка значно перевищує його вагу. Вона ефективно працює у процесорі, підтримує клонування голосів нульовим звуком з окремої вибірки звуку і створює мову, яка звучить природно. Невеликий розмір моделі робить її ідеальною для середовища для синтезу меж і низькодоступних середовищ.

Розробник::
Kyutai

Ліцензія::
MIT

Швидкість:
Fast

Якість::

мови:
en, fr

ВРАМ:
1GB

Клонування голосу:
Так.

Вартість символів 1K:
Вільно

Параметри 100M Підсумок ЦП Клонування голосів Однопанцеве клонування Приготовлений до ребер

Найкраще для:: Невагома зміна, середовища, які можна використовувати лише для процесора, швидке клонування голосів

Спробувати Pocket TTS

Kitten TTS

Free

Розробник::
KittenML

Ліцензія::
Apache 2.0

Швидкість:
Fast

Якість::

мови:
en

ВРАМ:
0GB

Клонування голосу:
Ні

Вартість символів 1K:
Вільно

CPU-only inference Under 80MB model size 8 built-in voices Speed control ONNX-based 24kHz output

Найкраще для:: Fast lightweight TTS, edge deployment, low-latency applications

Спробувати Kitten TTS

CosyVoice3

Standard

CosyVoice3 is the latest evolution from Alibaba's FunAudioLLM team. It features bi-streaming inference with ~150ms latency, instruction-based control for emotion/speed/volume, and improved speaker similarity for zero-shot cloning. Supports 9 languages plus 18 Chinese dialects. RL-tuned variant delivers state-of-the-art prosody.

Розробник::
Alibaba (FunAudioLLM)

Ліцензія::
Apache 2.0

Швидкість:
Fast

Якість::

мови:
en, zh, ja, ko, de, es, fr, it, ru

ВРАМ:
4GB

Клонування голосу:
Так.

Вартість символів 1K:
2x

Bi-streaming Emotion control Voice cloning Speed/volume control Instruction following

Найкраще для:: Multilingual production TTS, real-time applications, voice cloning

Спробувати CosyVoice3

NAMAA Saudi TTS

Standard

Програма NAMAA SUBA TTS - це саудівська тонка арабська вимова Resembul' s ChatterboxMultivalualu. Научена пробілом NAMA для справжньої мови Saudia- dialect, вона створює натуральну стандартну арабську і саудівську коллекційну вимову, яка не може відповідати загальній peter- моделях. Успадковує нульове клонування і емоційне керування Chatterbox за допомогою звукових повідомлень. Перші відкриті значення арабських TTS, які було використано на TTS.ai.

Розробник::
NAMAA Space

Ліцензія::
MIT

Швидкість:
Medium

Якість::

мови:
ar

ВРАМ:
6GB

Клонування голосу:
Так.

Вартість символів 1K:
2x

Саудівський арабський діалект Сучасна стандартна арабська Клонування голосів з нульовим ударом Керування емоційками Рідна вимова

Найкраще для:: Обсяг арабської мови для глядачів Саудівської Аравії, читання MSA, голосових агентів Khaleeji-dialect, арабських аудіокнижок

Спробувати NAMAA Saudi TTS

Darwin TTS

Standard

Denger- TTS- 1. 7B- Cross за допомогою FINAL- Bench є дослідницьким варіантом QWen3- TTS- 1. 7B, де 84 диктори FFN (8. 6%) зливаються у значення " =3% " з відповідними тензорами з Qwen3- 1. 7B- Base. Змішування побудовано без повторного повторення і створює помітне подвійне клонування голосу у корейській, англійській, японській та китайській. Operes у режимі нульового рівня голосу (3 секунди посилання на аудіо).

Розробник::
FINAL-Bench

Ліцензія::
Apache 2.0

Швидкість:
Medium

Якість::

мови:
en, ko, ja, zh

ВРАМ:
7GB

Клонування голосу:
Так.

Вартість символів 1K:
2x

Клонування голосів Поперечний З' єднаний з FFN 4 основні мови Картка Qwen3

Найкраще для:: Cross- лінгвальний голос клонування між англійською / корейською / японською / китайською з одним довідковим голосом

Спробувати Darwin TTS

MOSS-TTSD

Standard

MOS- TTSD v0. 0 від OpenMOSS - це модель діалогу на 7B, яка продовжує обмін інформацією з коротких звукових повідомлень. Підтримує до 5 одночасних гучномовців за допомогою [S1] / [S2], нульове клонування голосів з 3- 10- х років, і до 60 хвилин послідовного діалогу з багато- поворотними даними на 20 мовах. Disinct from MOS- TTSD є спеціалізованим для роботи з трансляцією/ audiobook/ ddting.

Розробник::
OpenMOSS

Ліцензія::
Apache 2.0

Швидкість:
Medium

Якість::

мови:
en, zh

ВРАМ:
12GB

Клонування голосу:
Так.

Вартість символів 1K:
2x

Дієслово багатомовця До 5 промовців 60min З' єднаний звук Клонування голосів Оптимізовано радіотрансляцій

Найкраще для:: Подкати, аудіокнижки, прозвали діалог, розмовний зміст з декількома голосами

Спробувати MOSS-TTSD

Ming-Omni TTS

Free

Ming-omni- tts- 0. 5B через includeAI є компактною всемогутньою моделлю мовлення, збудованою на щільній поверхні BailyMM з вбудованим інструментом керування латкою за допомогою звукових декодерів. Вивід команди 44. 1kГц (довша якість КД), підтримує клонування звуку з 3+другого посилання і включає вбудовані емоції / діалект / BGM за допомогою інструкцій JSON. Висока стабільність дорівнює 0, 83% WER на китайських лавках.

Розробник::
inclusionAI

Ліцензія::
Apache 2.0

Швидкість:
Medium

Якість::

мови:
en, zh

ВРАМ:
3GB

Клонування голосу:
Так.

Вартість символів 1K:
Вільно

44. 1kГц Клонування голосів Керування емоційками Керування додзвоном Створення BGM Компактний 0. 5Б

Найкраще для:: Valer- Fability Virgin diseration, music- controlred voice activity, китайський аудіокнижковий контент

Спробувати Ming-Omni TTS

Kokoro

Вільно

Kokoro is an 82 million parameter text-to-speech model that punches well above its weight class. Despite its tiny size, it produces remarkably natural and expressive speech. Kokoro supports multiple languages including English, Japanese, Chinese, and Korean with a variety of expressive voices. It runs incredibly fast — generating audio nearly 100x faster than real-time on a GPU.

Розробник::
Hexgrad

Ліцензія::
Apache 2.0

Швидкість:
Fast

Якість::

мови: en, ja, zh, fr, it, pt, es, hi

Найкраще для:: High-quality TTS with minimal latency, streaming applications

Спробувати вільно

Piper

Вільно

Piper is a lightweight text-to-speech engine developed by Rhasspy that uses VITS and larynx architectures. It runs entirely on CPU, making it ideal for edge devices, home automation, and applications requiring offline TTS. With over 100 voices across 30+ languages, Piper delivers natural-sounding speech at real-time speeds even on a Raspberry Pi 4.

Розробник::
Rhasspy

Ліцензія::
MIT

Швидкість:
Fast

Якість::

мови: en, de, fr, es, it, pt, nl, pl, ru, zh, ar, cs, da, fi, el, hu, is, ka, kk, ne, no, ro, sk, sr, sv, sw, tr, uk, vi

Найкраще для:: Quick previews, accessibility, and embedded applications

Спробувати вільно

VITS

Вільно

VITS (Variational Inference with adversarial learning for end-to-end Text-to-Speech) is a parallel end-to-end TTS method that generates more natural sounding audio than current two-stage models. It adopts variational inference augmented with normalizing flows and an adversarial training process, achieving a significant improvement in naturalness.

Розробник::
Jaehyeon Kim et al.

Ліцензія::
MIT

Швидкість:
Fast

Якість::

мови: en, de, es, fr, pt, nl, fi, hu, bg, uk, pl

Найкраще для:: General-purpose text-to-speech with natural prosody

Спробувати вільно

MeloTTS

Вільно

MeloTTS by MyShell.ai is a multilingual TTS library supporting English (American, British, Indian, Australian), Spanish, French, Chinese, Japanese, and Korean. It is extremely fast, processing text at near real-time speed on CPU alone. MeloTTS is designed for production use and supports both CPU and GPU inference.

Розробник::
MyShell.ai

Ліцензія::
MIT

Швидкість:
Fast

Якість::

мови: en, es, fr, zh, ja, ko

Найкраще для:: Production applications needing fast, multilingual TTS

Спробувати вільно

Kani TTS 2

Вільно

Kani-TTS-2 by NineNineSix is an ultra-lightweight 400M parameter model built on a Liquid AI LFM2 backbone with NVIDIA NanoCodec. It runs in just 3GB VRAM and produces ~10 seconds of speech in ~2 seconds on an A100 (RTF 0.2). The current public release ships an English-only `kani-tts-2-en` checkpoint and does not expose the speaker-embedding hook needed for voice cloning — use Chatterbox / IndexTTS2 / F5-TTS for cloning, or Kokoro / MeloTTS for non-English.

Розробник::
NineNineSix

Ліцензія::
Apache 2.0

Швидкість:
Fast

Якість::

мови: en

Найкраще для:: Fast English generation on low-VRAM hardware, quick previews

Спробувати вільно

OuteTTS

Вільно

OuteTTS extends large language models with text-to-speech capabilities while preserving the original architecture. It supports multiple backends including llama.cpp (CPU/GPU), Hugging Face Transformers, ExLlamaV2, VLLM, and even browser inference via Transformers.js. Features zero-shot voice cloning through speaker profiles saved as JSON.

Розробник::
OuteAI

Ліцензія::
Apache 2.0

Швидкість:
Fast

Якість::

мови: en

Найкраще для:: Edge deployment, browser-based TTS, low-resource environments

Спробувати вільно

Pocket TTS

Вільно

Pocket TTS by Kyutai (creators of Moshi) is a compact 100M parameter text-to-speech model that punches well above its weight. It runs efficiently on CPU, supports zero-shot voice cloning from a single audio sample, and produces natural-sounding speech. The small model size makes it ideal for edge deployment and low-resource environments.

Розробник::
Kyutai

Ліцензія::
MIT

Швидкість:
Fast

Якість::

мови: en, fr

Найкраще для:: Lightweight deployment, CPU-only environments, quick voice cloning

Спробувати вільно

Kitten TTS

Вільно

Розробник::
KittenML

Ліцензія::
Apache 2.0

Швидкість:
Fast

Якість::

мови: en

Найкраще для:: Fast lightweight TTS, edge deployment, low-latency applications

Стандартний

Розробник::
Alibaba (FunAudioLLM)

Ліцензія::
Apache 2.0

Швидкість:
Fast

Якість::

мови:
en, zh, ja, ko, de, es, fr, it, ru

Клонування голосу:
Так.

Bi-streamingEmotion controlVoice cloningSpeed/volume controlInstruction following

Найкраще для:: Multilingual production TTS, real-time applications, voice cloning

Спробувати CosyVoice3

NAMAA Saudi TTS

Стандартний

NAMAA Saudi TTS is a Saudi Arabic fine-tune of Resemble AI's ChatterboxMultilingual. Trained by NAMAA Space on authentic Saudi-dialect speech, it produces natural Modern Standard Arabic and Saudi colloquial pronunciation that generic multilingual models cannot match. Inherits Chatterbox's zero-shot voice cloning and emotion control via reference audio prompts. The first open-weights Arabic TTS deployed on TTS.ai.

Розробник::
NAMAA Space

Ліцензія::
MIT

Швидкість:
Medium

Якість::

мови:
ar

Клонування голосу:
Так.

Saudi Arabic dialectModern Standard ArabicZero-shot voice cloningEmotion controlNative pronunciation

Найкраще для:: Arabic content for Saudi audiences, MSA narration, Khaleeji-dialect voice agents, Arabic audiobooks

Спробувати NAMAA Saudi TTS

Darwin TTS

Стандартний

Darwin-TTS-1.7B-Cross by FINAL-Bench is a research variant of Qwen3-TTS-1.7B where 84 talker-FFN tensors (8.6%) are blended at α=3% with the matching tensors from Qwen3-1.7B-Base. The blend is built without retraining and produces noticeably crisper cross-lingual voice cloning across Korean, English, Japanese, and Chinese. Operates in zero-shot voice-clone mode (3 seconds reference audio).

Розробник::
FINAL-Bench

Ліцензія::
Apache 2.0

Швидкість:
Medium

Якість::

мови:
en, ko, ja, zh

Клонування голосу:
Так.

Voice cloningCross-lingualFFN-blended4 core languagesQwen3 backbone

Найкраще для:: Cross-lingual voice cloning between English / Korean / Japanese / Chinese with a single reference voice

Модель	Розробник:	Тір	Швидкість	мови	ВРАМ	Ліцензія:	Позики
Kokoro	Hexgrad	Free	Fast	8	1.5GB	Apache 2.0	Вільно	Користування
Piper	Rhasspy	Free	Fast	29	0 (CPU only)	MIT	Вільно	Користування
VITS	Jaehyeon Kim et al.	Free	Fast	11	1GB	MIT	Вільно	Користування
MeloTTS	MyShell.ai	Free	Fast	6	0.5GB (GPU optional)	MIT	Вільно	Користування
Bark	Suno	Standard	Slow	13	5GB	MIT	2	Користування
Bark Small	Suno	Standard	Medium	13	2GB	MIT	2	Користування
CosyVoice 2	Alibaba (Tongyi Lab)	Standard	Medium	8	4GB	Apache 2.0	2	Користування
Dia TTS	Nari Labs	Standard	Medium	1	4GB	Apache 2.0	2	Користування
Parler TTS	Hugging Face	Standard	Medium	1	4GB	Apache 2.0	2	Користування
GLM-TTS	Zhipu AI	Standard	Medium	2	4GB	GLM-4 License	2	Користування
IndexTTS-2	Index Team	Standard	Medium	2	4GB	Bilibili Model License	2	Користування
Spark TTS	SparkAudio	Standard	Medium	2	4GB	CC BY-NC-SA 4.0	2	Користування
GPT-SoVITS	RVC-Boss	Standard	Slow	4	6GB	MIT	2	Користування
Orpheus	Canopy Labs	Standard	Medium	1	4GB	Llama 3.2 Community	2	Користування
Chatterbox	Resemble AI	Premium	Medium	1	4GB	MIT	4	Користування
Tortoise TTS	James Betker	Premium	Slow	1	8GB	Apache 2.0	4	Користування
StyleTTS 2	Columbia University	Premium	Medium	1	4GB	MIT	4	Користування
OpenVoice	MyShell.ai / MIT	Premium	Medium	6	4GB	MIT	4	Користування
Qwen3 TTS	Alibaba (Qwen)	Standard	Medium	10	7GB	Apache 2.0	2	Користування
Sesame CSM	Sesame	Premium	Slow	1	8GB	Apache 2.0	4	Користування
Chatterbox Turbo	Resemble AI	Standard	Fast	1	2GB	MIT	2	Користування
VoxCPM	OpenBMB	Standard	Fast	2	4GB	Apache 2.0	2	Користування
Kani TTS 2	NineNineSix	Free	Fast	1	3GB	Apache 2.0	Вільно	Користування
OuteTTS	OuteAI	Free	Fast	1	2GB	Apache 2.0	Вільно	Користування
VibeVoice	Microsoft	Standard	Fast	2	4GB	MIT	2	Користування
Pocket TTS	Kyutai	Free	Fast	2	1GB	MIT	Вільно	Користування
Kitten TTS	KittenML	Free	Fast	1	0GB	Apache 2.0	Вільно	Користування
CosyVoice3	Alibaba (FunAudioLLM)	Standard	Fast	9	4GB	Apache 2.0	2	Користування
NAMAA Saudi TTS	NAMAA Space	Standard	Medium	1	6GB	MIT	2	Користування
Darwin TTS	FINAL-Bench	Standard	Medium	4	7GB	Apache 2.0	2	Користування
MOSS-TTSD	OpenMOSS	Standard	Medium	2	12GB	Apache 2.0	2	Користування
Ming-Omni TTS	inclusionAI	Free	Medium	2	3GB	Apache 2.0	Вільно	Користування

Найзрозуміліший текст для мовної платформи

Чому вибрати TTS.ai для тексту?

TTS.ai зливаються з найкращими модельми з відкритим кодом на одній, легкому для користування платформі. На відміну від комерційних служб, які блокують вас у єдиний голосовий двигун, TTS.ai надає вам доступ до 20 моделей з провідних дослідницьких лабораторій, зокрема, Кокі, MyShell, Amplion, NVIDIA, Suno, Hbacking Face, Tsinghua, тощо.

Кожна модель є відкритим вихідним кодом у MIT, Apache 2. 0 або подібних доступних ліцензій, що забезпечують вам повні комерційні права на використання створеної звукової інформації у ваших проектах. Незалежно від потреби у швидкому, легкому синтезі для програм у режимі реального часу, або якості виводу студії для звукових книг і трансляції, TTS.ai має правильні моделі для кожного з випадків використання.

Вільні моделі, без обов'язкового рахунка

Розпочати негайно з трьома вільними моделями TTS: Piper (ультра- швидкий, легкий), VITS (високий нейронний синтез) і MelotTS (підтримка багатьма мовами). Без перевірки, без кредитної картки, без обмежень для поколінь. Вільні моделі підтримують англійську та багато інших мов, які можуть бути доступними для більшості програм.

Обробка процесора (GPU)

Всі моделі TTS працюють на відмінних NVIDIA GPU протягом швидкого, послідовного часу створення. Свободі моделі, зазвичай, створюють звукові дані протягом 2 секунд. Стандартні моделі, такі як Kokro, CosyGE 2 і Bark середні 3- 5 секунд. Моделі Premium з найвищою якістю, зокрема Tortoise і Chatterbox, працюють за 5- 15 секунд, залежно від тривалості тексту.

Підтримувані мови 30+

Створюйте мовлення понад 30 мовами, зокрема англійською, іспанською, французькою, німецькою, італійською, китайською, японською, корейською, арабською, мовою гінді, російською тощо. Декілька моделей підтримують міжмовний синтез, що означає, що ви можете створювати мову мовою, до якої ніколи не привчали оригінальний голос.

Розробник- Ready API

Integrate TTS.ai into your applications with our OpenAI-compatible REST API. One endpoint for all 20+ models. Python, JavaScript, cURL, and Go SDKs. Streaming support for real-time applications. Batch processing for large-scale content generation. Webhooks for async notifications. API access included on every plan including free.

Часті запитання

Текст до мовлення (TTS) - це технологія комп' ютерного зв' язку, яка перетворює написаний текст на природний звук. Сучасні моделі TTS на зразок Kokro, Chatterbox і CosyTOX 2 використовують глибоке навчання, щоб створювати мовлення, які видаються надзвичайно людськими, з природними просоціальними, емоційними та ритмами.

Це залежить від ваших потреб. Для швидкого попереднього перегляду скористайтеся Piper або MeloTTS (вільними, швидкими). Для високої якості спробуйте команду Kokro або CosyGome 2 (стандартний програвач). Для клонування голосів скористайтеся пунктом меню Chatterbox або GPT- SoviTS (primium). Для діалогового вікна/ tподкачаного вмісту спробуйте Dia TTS. Кожна з моделей має різні сильні сторони, щоб знайти найкращі підходи.

Так! TTS.ai пропонує безкоштовні текстові повідомлення з моделями Kokro, Piper, VITS і MelotTS. Не потрібен рахунок для 500 символів і 3 поколінь за годину. Підпишіться на безкоштовний рахунок, щоб отримати 15 кредитів і отримати доступ до всіх моделей.

Наші моделі TTS разом підтримують 30+1 мови, зокрема англійську, іспанську, французьку, італійську, італійську, португальську, китайську, корейську, арабську, російську, гінді тощо. Доступність до мови залежить від моделі.

Так, звук, який генерується через TTS.ai, можна комерційно використовувати. Всі наші моделі використовують ліцензії з відкритим кодом (МТІ, Apache 2. 0). Перевірте окремі ліцензії на окремі терміни. Рекомендуємо переглянути ліцензію специфічної моделі, яку ви використовуєте для вашого проекту.

TTS.ai підтримують формати виводу MP3, WAV, OGG і FLAC. MP3 є типовим для відтворення Тенет. Рекомендуємо вам використовувати WAV для подальшої обробки звукових даних. Ви можете перетворити дані у формати за допомогою нашого інструменту для перетворення звуку.

Клонування голосів використовує AI для відтворення певного голосу з коротенького звукового зразка (зазвичай, 5- 30 секунд). Вивантажити чіткий запис потрібного голосу, а моделі на зразок Chatterbox, GPT- SOVITS або OpenGore створять нову мовлення у цьому голосі. Якість покращується з чистішим, докладнішим еталонним звуком.

Вільні користувачі можуть створювати до 500 символів на запит. Зареєстровані користувачі отримують до 5000 символів на запит. Для довших текстів звук створюється у шматках і зшивається у автоматичному режимі. Користувачі API можуть обробляти до 10 000 символів за один запит.

Підтримка SSSML (Sythenty Synthesis Markup Language) може бути різною за моделлю. Piper та інші моделі підтримують базові теґи SSML для призупинки, наголосу і керування вимовлянням. Для моделей без рідної підтримки SSML ви можете скористатися природним розділовим розділом і перервами на лінії для впливу просодії.

Так, більшість моделей підтримують коригування швидкості від 0, 5x до 2. 0x. У деяких моделях, зокрема Bark і Parler, передбачено керування смолою і стилем. Ви можете встановити параметри швидкості на панелі додаткових параметрів або за допомогою параметра швидкості API.

Так, пакетна обробка доступна за допомогою нашого API. Ви можете надсилати декілька фрагментів тексту у окремому виклику або скрипті API, кожен з них буде оброблено і повернуто як окремі звукові файли. Таким чином можна скористатися для розділів аудіокниги, модулів для вивчення тексту або скриптів діалогів у грі.

Створіть ключ API з панелі керування обліковими записами, а потім надішліть запити POST до нашої точки кінця інтерфейсу REST з вашими текстовими, моделями і параметрами голосу. Ми наведемо приклади коду у Python, JavaScript і cURL. API сумісний з OpenAI, отже існуюча інтеграція працює з мінімальними змінами.

5.0/5 (4)

Почати перетворення тексту на мовлення зараз

Приєднатися до тисяч творців за допомогою TTS.ai. Отримати 15 000 вільних символів з новим обліковим записом. Вільні моделі доступні без підписки.

Вільний підпис Перегляд Приоритет

Вимовляння тексту комп' ютерного гравця

Любити TTS.ai?

Подробиці моделі

Kitten TTS

Поради для кращих результатів

Використання символів

Як працює текст комп'ютера

Введіть ваш текст

Виберіть модель і голос

Створити & звантаження

Випадки використання тексту для мовлення

Звукові книги

Відеоголоси

Радіотрансляції

Приборкування

Вивчення

Доступність

& Телефонні системи IVR

Соціальний медіа

Потік

Ринок

Витерти & локалізацію

Роздуми і розважність

Всі текстові моделі мовлення

Kokoro

Piper

VITS

MeloTTS

Bark

Bark Small

CosyVoice 2

Dia TTS

Parler TTS

GLM-TTS

IndexTTS-2

Spark TTS

GPT-SoVITS

Orpheus

Chatterbox

Tortoise TTS

StyleTTS 2

OpenVoice

Qwen3 TTS

Sesame CSM

Chatterbox Turbo

VoxCPM

Kani TTS 2

OuteTTS

VibeVoice

Pocket TTS

Kitten TTS

CosyVoice3

NAMAA Saudi TTS

Darwin TTS

MOSS-TTSD

Ming-Omni TTS

Kokoro

Piper

VITS

MeloTTS

Kani TTS 2

OuteTTS

Pocket TTS

Kitten TTS

Ming-Omni TTS

Bark

Bark Small

CosyVoice 2

Dia TTS

Parler TTS

GLM-TTS

IndexTTS-2

Spark TTS

GPT-SoVITS

Orpheus

Qwen3 TTS

Chatterbox Turbo

VoxCPM

VibeVoice

CosyVoice3