Вільний комп' ютер Текст для мовлення

31+ моделі з відкритим кодом, 231+ голоси, 34+ Не потрібен рахунок.

8K+
творці
30K+
forges
31+
Моделі комп' ютерного гравця
231+
голоси
0/500 символи · Sign up for 5,000 per generation → Вільно
Любити TTS.ai?

Усе, що потрібно для голосу

30+ інструменти, якими керують моделі AI з відкритим кодом

31+ Моделі голосу комп' ютерного гравця

Найрозширеніша збірка моделей TTS з відкритим кодом на одній платформі

KokoroKokoro Free

Kokro - це модель параметра text- to- special, що має 82 мільйони параметрів, яка значно перевищує його вазі. Незважаючи на його крихітний розмір, він видає надзвичайно природну і виразну мову. Kokro підтримує декілька мов, зокрема англійську, японську, китайську та корейську з різноманітною кількістю голосів. Програма виконується неймовірно швидко, майже у 100x швидше за реальний час у GPU.

Найкраще для: Високої якості TTS з мінімальною пізнотою, поточною програмою

Спробувати вільно

PiperPiper Free

Piper - це невибагливий рушій синтезу мовлення з тексту, розроблений Raspy, який використовує архітектуру VITS і гортань. Він працює повністю на процесорі, робить його ідеальним для пристроїв ребер, домашніх автоматизації і програм, які потребують автономного синтезу мовлення. З понад 100 голосів на 30+ мовах, Piper виголошує натуральну звукову мову з реальною швидкістю навіть на Raspberry Pi 4.

Найкраще для: Швидкий перегляд, доступність та вбудовані програми

Спробувати вільно

VITSVITS Free

VITS (Variational Inference with adersial learn for end- to- end Text- Speech) - паралельний метод TTS, який створює природніший звук, ніж поточні двостулкові моделі. Він приймає варіативні підсумки, збільшені зі нормалізуючими потоками та адвернаційним процесом тренування, що значно покращує природність.

Найкраще для: Загальні текстові повідомлення з природними просодіями

Спробувати вільно

MeloTTSMeloTTS Free

MeloTTS MySell.ai - це багатомовна бібліотека TTS, яка підтримує англійську (American, British, India, Australia), іспанська, французька, китайська, японська, і корейська. Текст дуже швидко обробляється на процесорі з майже реальною швидкістю. MloTTS розроблено для використання і підтримує як процесора, так і GPUCTS.

Найкраще для: Програми для виробництва, які потребують швидкого, багатомовного TTS

Спробувати вільно

OuteTTSOuteTTS Free

OutTTS розширюють великі моделі мов з можливостями синтезу мовлення з тексту під час збереження оригінальної архітектури. У програмі передбачено підтримку декількох серверів, зокрема Larma. cpp (CPU/ GPU), Gbing Menerations, ExLlamaV2, VLLM і навіть переглядача application за допомогою Transformers. js. Можливості клонування голосів з нульовим показом за допомогою профілів speak, збережених як JSON.

Найкраще для: Випромінювання ребер, базовані на переглядачах TTS, малодоступні середовища

Спробувати вільно

Pocket TTSPocket TTS Free

Pocketooth TTS від Kyutai (створення тексту у Moshi) - це компактна модель параметра 100M для синтезу мовлення з тексту, яка значно перевищує його вагу. Вона ефективно працює у процесорі, підтримує клонування голосів нульовим звуком з окремої вибірки звуку і створює мову, яка звучить природно. Невеликий розмір моделі робить її ідеальною для середовища для синтезу меж і низькодоступних середовищ.

Найкраще для: Невагома зміна, середовища, які можна використовувати лише для процесора, швидке клонування голосів

Спробувати вільно

Kitten TTSKitten TTS Free

Kitten TTS by KittenML is an ultra-lightweight text-to-speech model built on ONNX. With variants from 15M to 80M parameters (25-80 MB on disk), it delivers high-quality voice synthesis on CPU without requiring a GPU. Features 8 built-in voices, adjustable speech speed, and built-in text preprocessing for numbers, currencies, and units. Ideal for edge deployment and low-latency applications.

Найкраще для: Fast lightweight TTS, edge deployment, low-latency applications

Спробувати вільно

BarkBark Standard

Модель перетворення, заснована на тексті, яка створює реалістичну мову, музику та звукові ефекти.

Розробник: Suno · Ліцензія: MIT

Спробуй.

Bark SmallBark Small Standard

Легша версія Bark з швидшим використанням об' єму і нижнім використанням пам' яті.

Розробник: Suno · Ліцензія: MIT

Спробуй.

CosyVoice 2CosyVoice 2 Standard

Широкий потік TTS Алібаби з властивістю людини і майже нульовою пізнотою.

Розробник: Alibaba (Tongyi Lab) · Ліцензія: Apache 2.0

Спробуй.

Dia TTSDia TTS Standard

Модель створення діалогового вікна синтезу мовлення, яка створює натуральні розмови між промовцями.

Розробник: Nari Labs · Ліцензія: Apache 2.0

Спробуй.

Parler TTSParler TTS Standard

Опиши голос, який ви хочете почути рідною мовою, і Parler створює відповідну мову.

Розробник: Hugging Face · Ліцензія: Apache 2.0

Спробуй.

GLM-TTSGLM-TTS Standard

Оцінює найнижчий рівень помилок у кодах моделей TTS з відкритим кодом.

Розробник: Zhipu AI · Ліцензія: GLM-4 License

Спробуй.

IndexTTS-2IndexTTS-2 Standard

Нульовий TTS з акуратним контролем емоцій і високою експресивністю.

Розробник: Index Team · Ліцензія: Bilibili Model License

Спробуй.

Spark TTSSpark TTS Standard

Голосове клонування TTS з контрольованими емоційами та манерою мовлення за допомогою запитів.

Розробник: SparkAudio · Ліцензія: CC BY-NC-SA 4.0

Спробуй.

GPT-SoVITSGPT-SoVITS Standard

Небагато голосових клонувань TTS, які відтворюють будь-який голос лише з 5 секунд аудіо.

Розробник: RVC-Boss · Ліцензія: MIT

Спробуй.

OrpheusOrpheus Standard

Емоційна модель TTS людського рівня тренувалася за 100K годин мовних даних.

Розробник: Canopy Labs · Ліцензія: Llama 3.2 Community

Спробуй.

Qwen3 TTSQwen3 TTS Standard

Багатомовне TTS Алібаби з клонуванням голосу, конфігурацією голосів та дизайном голосу з тексту.

Розробник: Alibaba (Qwen) · Ліцензія: Apache 2.0

Спробуй.

Chatterbox TurboChatterbox Turbo Standard

Швидше Chatterbox з запізнілими під200м і паралінгвістськими тегами для сміху, кашлю та інших.

Розробник: Resemble AI · Ліцензія: MIT

Спробуй.

Dia 2Dia 2 Standard

Потік-перший розмовний TTS з діалогом багатомовця і паралінгвістськими сигналами.

Розробник: Nari Labs · Ліцензія: Apache 2.0

Спробуй.

VoxCPMVoxCPM Standard

TTS без тонера, що створює 44. 1kГц аудіо з консистенцією абзаців з контекстом.

Розробник: OpenBMB · Ліцензія: Apache 2.0

Спробуй.

TADATADA Standard

TTS з нульовим вгамовуванням і подвійним вирівнюванням тексту, 5x швидше, ніж LLM TTS.

Розробник: Hume AI · Ліцензія: MIT

Спробуй.

VibeVoiceVibeVoice Standard

Microsoft Model для багатомовного вмісту багатомовця, зокрема трансляції і аудіокнижки.

Розробник: Microsoft · Ліцензія: MIT

Спробуй.

CosyVoice3CosyVoice3 Standard

Next-generation multilingual TTS with bi-streaming, emotion control, and zero-shot voice cloning.

Розробник: Alibaba (FunAudioLLM) · Ліцензія: Apache 2.0

Спробуй.

ChatterboxChatterbox Premium

Державне непродуктивне клонування голосу з емоційною контролею Resemble AI.

Якість:

Спробуй.

Tortoise TTSTortoise TTS Premium

Багатоголосовий текстовий синтез фокусувався на якості з автоматичною архітектурою.

Якість:

Спробуй.

StyleTTS 2StyleTTS 2 Premium

Синтез мовлення людського рівня через поширення стилю та вороже тренування.

Якість:

Спробуй.

OpenVoiceOpenVoice Premium

Миттєве клонування голосу з гранулярним контролем над стилем, емоціями та акцентом.

Якість:

Спробуй.

Sesame CSMSesame CSM Premium

Взірець розмовної мови створює природний діалог з відповідним часом і емоціями.

Якість:

Спробуй.

MOSS-TTSMOSS-TTS Premium

Ultra-long 20-language TTS supporting up to 1 hour of continuous generation with phoneme-level control.

Якість:

Спробуй.

MegaTTS3MegaTTS3 Premium

ByteDance's sparse alignment TTS with adjustable intelligibility vs. speaker similarity.

Якість:

Спробуй.

CosyVoice 2CosyVoice 2

Широкий потік TTS Алібаби з властивістю людини і майже нульовою пізнотою.

Мови: en, zh, ja, ko, fr, de, it, es

Клонувати голос

GLM-TTSGLM-TTS

Оцінює найнижчий рівень помилок у кодах моделей TTS з відкритим кодом.

Мови: en, zh

Клонувати голос

IndexTTS-2IndexTTS-2

Нульовий TTS з акуратним контролем емоцій і високою експресивністю.

Мови: en, zh

Клонувати голос

Spark TTSSpark TTS

Голосове клонування TTS з контрольованими емоційами та манерою мовлення за допомогою запитів.

Мови: en, zh

Клонувати голос

GPT-SoVITSGPT-SoVITS

Небагато голосових клонувань TTS, які відтворюють будь-який голос лише з 5 секунд аудіо.

Мови: en, zh, ja, ko

Клонувати голос

ChatterboxChatterbox

Державне непродуктивне клонування голосу з емоційною контролею Resemble AI.

Мови: en

Клонувати голос

Tortoise TTSTortoise TTS

Багатоголосовий текстовий синтез фокусувався на якості з автоматичною архітектурою.

Мови: en

Клонувати голос

OpenVoiceOpenVoice

Миттєве клонування голосу з гранулярним контролем над стилем, емоціями та акцентом.

Мови: en, zh, ja, ko, fr, de, es, it

Клонувати голос

Qwen3 TTSQwen3 TTS

Багатомовне TTS Алібаби з клонуванням голосу, конфігурацією голосів та дизайном голосу з тексту.

Мови: en, zh, ja, ko, de, fr, ru, pt, es, it

Клонувати голос

Chatterbox TurboChatterbox Turbo

Швидше Chatterbox з запізнілими під200м і паралінгвістськими тегами для сміху, кашлю та інших.

Мови: en

Клонувати голос

VoxCPMVoxCPM

TTS без тонера, що створює 44. 1kГц аудіо з консистенцією абзаців з контекстом.

Мови: en, zh

Клонувати голос

OuteTTSOuteTTS

Заснований на LLM TTS, які працюють на процесорі, GPU, або переглядачі за допомогою Lasa. cpp і Transformers.js.

Мови: en

Клонувати голос

Pocket TTSPocket TTS

Невимоглива модель параметрів 100M, створена Kyutai з клонуванням голосу з однієї вибірки.

Мови: en, fr

Клонувати голос

CosyVoice3CosyVoice3

Next-generation multilingual TTS with bi-streaming, emotion control, and zero-shot voice cloning.

Мови: en, zh, ja, ko, de, es, fr, it, ru

Клонувати голос

MOSS-TTSMOSS-TTS

Ultra-long 20-language TTS supporting up to 1 hour of continuous generation with phoneme-level control.

Мови: en, zh, de, es, fr, ja, it, hu, ko, ru, fa, ar, pl, pt, cs, da, sv, el, tr

Клонувати голос

MegaTTS3MegaTTS3

ByteDance's sparse alignment TTS with adjustable intelligibility vs. speaker similarity.

Мови: en, zh

Клонувати голос

Розробник- перший API

Сумісний з OpenAI API REST. Одна точка кінця, 22 моделі. Підтримка потоку для програм у режимі реального часу.

  • Сумісний з OpenAI формат
  • Потік TTS для програм у режимі реального часу
  • Пакетна обробка для великих завдань
  • Сповіщення веб- сторінокComment
Перегляд Дописи API
pip install ttsai npm install @ttsainpm/ttsai
Python
from tts_ai import TTSClient

client = TTSClient(api_key="sk-tts-xxx")
audio = client.generate(
    text="Hello from TTS.ai!",
    model="kokoro",
    voice="af_bella",
)
client.save(audio, "output.mp3")

Просте, прозоре розташування

Почніть вільно. Масштабуйте зі зростанням.

Вільно

$0

15 кредитів

  • Kokoro, Piper, VITS, MeloTTS
  • 500 меж символів
  • 3 gen/година (без облікового запису)
Вільний підпис

Започаткування

$9/моunit description in lists

500 кредитів/ місяців

  • Всі моделі 22+
  • 100 000 символів на покоління
  • Клонування голосу
Розпочати
Найпоширеніша

Pro

$29/моunit description in lists

2000 кредитів/ місяців

  • Все в старті
  • Доступ до API
  • Обробка пріоритету
Отримати профі

Бізнес

$99/моunit description in lists

10 000 кредитів на місяць

  • Все в Pro
  • Місткий API
  • Черга пріоритету
Отримати бізнес

Перегляд всіх планів, зокрема пакунків символів →

Часті запитання

TTS.ai - це найбільш всебічна голосова платформа AI, яка пропонує 22+моделі синтезу мовлення, клонування голосів, текст мовлення і аудіо. Всі моделі є відкритим кодом без блокування постачальника.

Так! TTS.ai пропонує безкоштовні текстові повідомлення за допомогою моделей Kokro, Piper, VITS і Melotts. Не потрібно вказувати обліковий запис. Підпишіться, щоб отримати 15 000 вільних символів і отримати доступ до всіх моделей. Плани Paid починаються з 9/ місячних $.

Для пришвидшення скористайтеся Koro або Piper. Для того, щоб дізнатися про якість, спробуйте скористатися командою CosyTTS 2 або StyleTTS 2. Для клонування голосів скористайтеся пунктом Chatterbox або GPT- SoVITS. У діалоговому вікні скористайтеся пунктом Dia TTS. Спробуйте скористатися декількома моделями для порівняння одного тексту.

Так. Сумісний з OpenAI REST API для TTS, STT, клонування голосів і звукових інструментів. Доступні на планах Pro ($29/mo) і Explace (99/mo). Переглянути документацію за адресою tts. ai/api /.

Якість голосу залежить від моделі. Моделі Premium на зразок CosyTTS 2, StyleTTS 2, і Chatterbox створюють майже людську якість мовлення з природною інтонацією та емоціями. Вільні моделі на зразок Kokro надають чудову якість для більшості випадків використання.

TTS.ai підтримують 30 мовами по всій моделі. Англійська має найширшу підтримку моделей, але такі моделі, як CosyWore 2, китайський, японський та корейський; GPT- SoviTS керує китайською, японською, корейською та англійською мовами; і MloTTS підтримують англійську, іспанську, французьку, китайську, японську та корейську мови.

Так. Всі обробки відбуваються на наших відмінних серверах GPU. Ми не зберігаємо ваші текстові дані і не створюємо звукові дані після доставки. Вивантажені зразки голосів для клонування використовуються лише для поточного сеансу і не зберігаються. Ми ніколи не ділимося вашими даними з третьою стороною і не використовуємо їх для вправних моделей.

Так. Всі звукові дані, створені на TTS.ai, належать вам до комерційних програм, зокрема для відео на YouTube, трансляції, звукових книг, програм, реклам та продуктів. Наші моделі є відкритим джерелом ліцензій (МТІ, Apache 2. 0). Не потрібно ніяких прав або пожертв.

TTS.ai створює звукові дані у форматі WAV типово для максимальної якості. Ви можете перетворити їх у MP3, FLAC, OGG або M4A за допомогою нашого інструменту вільного перетворювача звуку. У API передбачено підтримку визначення ваших форматів виводу напряму за запитом.

Вивантажити короткий зразок звуку (трошки не більше ніж 5 секунд) голосу, який ви бажаєте клонувати, а потім ввести будь- який текст для створення мовлення у цьому голосі. Моделі на зразок Chatterbox, GPT- SOVITS і KosyGore 2 підтримують клонування голосу. Клонований голос відображає тон, акцент і стиль мовлення.

Вільні моделі (Kokoro, Piper, VITS, MelotTS) не потребують жодних рахунків і не потребують нульових символів. Серед стандартних моделей (на основі 2000 символів/ 1K) є Bark, CosyGE 2, F5- TTS і Dia. Моделі Premium (4. 000 символів/ 1K): OpenSpeat, Chatterbox, StyleTTS 2, і Tortoise. Моделі Paid зазвичай пропонують вищу якість, більше голосів і додаткові можливості, зокрема клонування голосів.

Так. У API передбачено підтримку пакетної обробки для перетворення великих томів тексту на мовлення. Надсилати декілька запитів і отримувати результати синхронно з використанням завдань UUID. У бізнес- планах ($99/mo) передбачено доступ до черги пріоритетів для пришвидшеної пакетної обробки. Ідеально для розробки аудіокнижної книги, вмісту майданчика та широкомасштабних проектів з керування голосами.
4.1/5 (21)

Ваші відгуки допомагають нам вирішити проблеми.

Почати використання комп' ютерного голосу сьогодні

Приєднуйтеся до розробників, розробників і підприємств, використовуючи TTS.ai