Вільний комп' ютер Текст для мовлення

20+ моделі з відкритим кодом, 107+ голоси, 32+ Не потрібен рахунок.

1K+
творці
2K+
forges
20+
Моделі комп' ютерного гравця
107+
голоси
0/500 символи Вільно
Як TTS.ai?

Усе, що потрібно для голосу

30+ інструменти, якими керують моделі AI з відкритим кодом

20+ Моделі голосу комп' ютерного гравця

Найрозширеніша збірка моделей TTS з відкритим кодом на одній платформі

KokoroKokoro Free

Kokro - це модель параметра text- to- special, що має 82 мільйони параметрів, яка значно перевищує його вазі. Незважаючи на його крихітний розмір, він видає надзвичайно природну і виразну мову. Kokro підтримує декілька мов, зокрема англійську, японську, китайську та корейську з різноманітною кількістю голосів. Програма виконується неймовірно швидко, майже у 100x швидше за реальний час у GPU.

Найкраще для: Високої якості TTS з мінімальною пізнотою, поточною програмою

Спробувати вільно

PiperPiper Free

Piper - це невибагливий рушій синтезу мовлення з тексту, розроблений Raspy, який використовує архітектуру VITS і гортань. Він працює повністю на процесорі, робить його ідеальним для пристроїв ребер, домашніх автоматизації і програм, які потребують автономного синтезу мовлення. З понад 100 голосів на 30+ мовах, Piper виголошує натуральну звукову мову з реальною швидкістю навіть на Raspberry Pi 4.

Найкраще для: Швидкий перегляд, доступність та вбудовані програми

Спробувати вільно

VITSVITS Free

VITS (Variational Inference with adersial learn for end- to- end Text- Speech) - паралельний метод TTS, який створює природніший звук, ніж поточні двостулкові моделі. Він приймає варіативні підсумки, збільшені зі нормалізуючими потоками та адвернаційним процесом тренування, що значно покращує природність.

Найкраще для: Загальні текстові повідомлення з природними просодіями

Спробувати вільно

MeloTTSMeloTTS Free

MeloTTS MySell.ai - це багатомовна бібліотека TTS, яка підтримує англійську (American, British, India, Australia), іспанська, французька, китайська, японська, і корейська. Текст дуже швидко обробляється на процесорі з майже реальною швидкістю. MloTTS розроблено для використання і підтримує як процесора, так і GPUCTS.

Найкраще для: Програми для виробництва, які потребують швидкого, багатомовного TTS

Спробувати вільно

BarkBark Standard

Transformer-based text-to-audio model that generates realistic speech, music, and sound effects.

Розробник: Suno · Ліцензія: MIT

Спробуй.

Bark SmallBark Small Standard

Легша версія Bark з швидшим використанням об' єму і нижнім використанням пам' яті.

Розробник: Suno · Ліцензія: MIT

Спробуй.

CosyVoice 2CosyVoice 2 Standard

Широкий потік TTS Алібаби з властивістю людини і майже нульовою пізнотою.

Розробник: Alibaba (Tongyi Lab) · Ліцензія: Apache 2.0

Спробуй.

Dia TTSDia TTS Standard

Модель створення діалогового вікна синтезу мовлення, яка створює натуральні розмови між промовцями.

Розробник: Nari Labs · Ліцензія: Apache 2.0

Спробуй.

Parler TTSParler TTS Standard

Опиши голос, який ви хочете почути рідною мовою, і Parler створює відповідну мову.

Розробник: Hugging Face · Ліцензія: Apache 2.0

Спробуй.

GLM-TTSGLM-TTS Standard

Оцінює найнижчий рівень помилок у кодах моделей TTS з відкритим кодом.

Розробник: Zhipu AI · Ліцензія: GLM-4 License

Спробуй.

IndexTTS-2IndexTTS-2 Standard

Нульовий TTS з акуратним контролем емоцій і високою експресивністю.

Розробник: Index Team · Ліцензія: Bilibili Model License

Спробуй.

Spark TTSSpark TTS Standard

Голосове клонування TTS з контрольованими емоційами та манерою мовлення за допомогою запитів.

Розробник: SparkAudio · Ліцензія: CC BY-NC-SA 4.0

Спробуй.

GPT-SoVITSGPT-SoVITS Standard

Небагато голосових клонувань TTS, які відтворюють будь-який голос лише з 5 секунд аудіо.

Розробник: RVC-Boss · Ліцензія: MIT

Спробуй.

OrpheusOrpheus Standard

Емоційна модель TTS людського рівня тренувалася за 100K годин мовних даних.

Розробник: Canopy Labs · Ліцензія: Llama 3.2 Community

Спробуй.

Qwen3 TTSQwen3 TTS Standard

Багатомовне TTS Алібаби з клонуванням голосу, конфігурацією голосів та дизайном голосу з тексту.

Розробник: Alibaba (Qwen) · Ліцензія: Apache 2.0

Спробуй.

ChatterboxChatterbox Premium

Державне непродуктивне клонування голосу з емоційною контролею Resemble AI.

Якість:

Спробуй.

Tortoise TTSTortoise TTS Premium

Багатоголосовий текстовий синтез фокусувався на якості з автоматичною архітектурою.

Якість:

Спробуй.

StyleTTS 2StyleTTS 2 Premium

Синтез мовлення людського рівня через поширення стилю та вороже тренування.

Якість:

Спробуй.

OpenVoiceOpenVoice Premium

Миттєве клонування голосу з гранулярним контролем над стилем, емоціями та акцентом.

Якість:

Спробуй.

Sesame CSMSesame CSM Premium

Взірець розмовної мови створює природний діалог з відповідним часом і емоціями.

Якість:

Спробуй.

CosyVoice 2CosyVoice 2

Широкий потік TTS Алібаби з властивістю людини і майже нульовою пізнотою.

Мови: en, zh, ja, ko, fr, de, it, es

Клонувати голос

GLM-TTSGLM-TTS

Оцінює найнижчий рівень помилок у кодах моделей TTS з відкритим кодом.

Мови: en, zh

Клонувати голос

IndexTTS-2IndexTTS-2

Нульовий TTS з акуратним контролем емоцій і високою експресивністю.

Мови: en, zh

Клонувати голос

Spark TTSSpark TTS

Голосове клонування TTS з контрольованими емоційами та манерою мовлення за допомогою запитів.

Мови: en, zh

Клонувати голос

GPT-SoVITSGPT-SoVITS

Небагато голосових клонувань TTS, які відтворюють будь-який голос лише з 5 секунд аудіо.

Мови: en, zh, ja, ko

Клонувати голос

ChatterboxChatterbox

Державне непродуктивне клонування голосу з емоційною контролею Resemble AI.

Мови: en

Клонувати голос

Tortoise TTSTortoise TTS

Багатоголосовий текстовий синтез фокусувався на якості з автоматичною архітектурою.

Мови: en

Клонувати голос

OpenVoiceOpenVoice

Миттєве клонування голосу з гранулярним контролем над стилем, емоціями та акцентом.

Мови: en, zh, ja, ko, fr, de, es, it

Клонувати голос

Qwen3 TTSQwen3 TTS

Багатомовне TTS Алібаби з клонуванням голосу, конфігурацією голосів та дизайном голосу з тексту.

Мови: en, zh, ja, ko, de, fr, ru, pt, es, it

Клонувати голос

Розробник- перший API

Сумісний з OpenAI API REST. Одна точка кінця, 22 моделі. Підтримка потоку для програм у режимі реального часу.

  • Сумісний з OpenAI формат
  • Потік TTS для програм у режимі реального часу
  • Пакетна обробка для великих завдань
  • Сповіщення веб- сторінокComment
Перегляд Дописи API
pip install ttsai npm install @ttsainpm/ttsai
Python
from tts_ai import TTSClient

client = TTSClient(api_key="sk-tts-xxx")
audio = client.generate(
    text="Hello from TTS.ai!",
    model="kokoro",
    voice="af_bella",
)
client.save(audio, "output.mp3")

Просте, прозоре розташування

Почніть вільно. Масштабуйте зі зростанням.

Вільно

$0

15 кредитів

  • Kokoro, Piper, VITS, MeloTTS
  • 500 меж символів
  • 3 gen/година (без облікового запису)
Вільний підпис

Започаткування

$9/моunit description in lists

500 кредитів/ місяців

  • Всі моделі 22+
  • 100,000 chars per generation
  • Клонування голосу
Розпочати
Найпоширеніша

Pro

$29/моunit description in lists

2000 кредитів/ місяців

  • Все в старті
  • Доступ до API
  • Обробка пріоритету
Отримати профі

Бізнес

$99/моunit description in lists

10 000 кредитів на місяць

  • Все в Pro
  • Місткий API
  • Черга пріоритету
Отримати бізнес

Перегляд всіх планів, зокрема пакунків символів →

Часті запитання

TTS.ai - це найбільш всебічна голосова платформа AI, яка пропонує 22+моделі синтезу мовлення, клонування голосів, текст мовлення і аудіо. Всі моделі є відкритим кодом без блокування постачальника.

Так! TTS.ai пропонує безкоштовні текстові повідомлення за допомогою моделей Kokro, Piper, VITS і Melotts. Не потрібно вказувати обліковий запис. Підпишіться, щоб отримати 15 000 вільних символів і отримати доступ до всіх моделей. Плани Paid починаються з 9/ місячних $.

Для пришвидшення скористайтеся Koro або Piper. Для того, щоб дізнатися про якість, спробуйте скористатися командою CosyTTS 2 або StyleTTS 2. Для клонування голосів скористайтеся пунктом Chatterbox або GPT- SoVITS. У діалоговому вікні скористайтеся пунктом Dia TTS. Спробуйте скористатися декількома моделями для порівняння одного тексту.

Так. Сумісний з OpenAI REST API для TTS, STT, клонування голосів і звукових інструментів. Доступні на планах Pro ($29/mo) і Explace (99/mo). Переглянути документацію за адресою tts. ai/api /.

Якість голосу залежить від моделі. Моделі Premium на зразок CosyTTS 2, StyleTTS 2, і Chatterbox створюють майже людську якість мовлення з природною інтонацією та емоціями. Вільні моделі на зразок Kokro надають чудову якість для більшості випадків використання.

TTS.ai підтримує 30+номерів по всій своїй моделі. Англійська має найширшу підтримку з моделей, але такі моделі, як CosyTore 2 покривають китайську, японську та корейську мови; GPT- SoviTS працюють з китайською, японською, корейською та англійською мовами; і MloTTS підтримують англійську, іспанську, французьку, французьку, китайську, японську та корейську мови.

Так. Всі обробки відбуваються на наших відмінних серверах GPU. Ми не зберігаємо ваші текстові дані і не створюємо звукові дані після доставки. Вивантажені зразки голосів для клонування використовуються лише для поточного сеансу і не зберігаються. Ми ніколи не ділимося вашими даними з третьою стороною і не використовуємо їх для вправних моделей.

Так. Всі звукові дані, створені на TTS.ai, належать вам до комерційних програм, зокрема для відео на YouTube, трансляції, звукових книг, програм, реклам та продуктів. Наші моделі є відкритим джерелом ліцензій (МТІ, Apache 2. 0). Не потрібно ніяких прав або пожертв.

TTS.ai створює звукові дані у форматі WAV типово для максимальної якості. Ви можете перетворити їх у MP3, FLAC, OGG або M4A за допомогою нашого вільного інструменту перетворювача звуку. У API передбачено підтримку визначення ваших форматів виводу напряму за запитом.

Вивантажити короткий зразок звуку (трошки не більше ніж 5 секунд) голосу, який ви бажаєте клонувати, а потім ввести будь- який текст для створення мовлення у цьому голосі. Моделі на зразок Chatterbox, GPT- SOVITS і KosyGore 2 підтримують клонування голосу. Клонований голос відображає тон, акцент і стиль мовлення.

Вільні моделі (Kokoro, Piper, VITS, MelotTS) не потребують жодних рахунків і не потребують нульових символів. Серед стандартних моделей (на основі 2000 символів/ 1K) є Bark, CosyGE 2, F5- TTS і Dia. Моделі Premium (4. 000 символів/ 1K): OpenSpeat, Chatterbox, StyleTTS 2, і Tortoise. Моделі Paid зазвичай пропонують вищу якість, більше голосів і додаткові можливості, зокрема клонування голосів.

Так. У API передбачено підтримку пакетної обробки для перетворення великих томів тексту на мовлення. Надсилати декілька запитів і отримувати результати синхронно з використанням завдань UUID. У бізнес- планах ($99/mo) передбачено доступ до черги пріоритетів для пришвидшеної пакетної обробки. Ідеально для розробки аудіокнижної книги, вмісту майданчика та широкомасштабних проектів з керування голосами.
4.0/5 (8)

Почати використання комп' ютерного голосу сьогодні

Приєднуйтеся до розробників, розробників і підприємств, використовуючи TTS.ai