Вільний комп' ютер Текст для мовлення

33+ моделі з відкритим кодом, 273+ голоси, 33+ Не потрібен рахунок.

17K+
творці
70K+
forges
33+
Моделі комп' ютерного гравця
273+
голоси
Любити TTS.ai?

Усе, що потрібно для голосу

30+ інструменти, якими керують моделі AI з відкритим кодом

33+ Моделі голосу комп' ютерного гравця

Найрозширеніша збірка моделей TTS з відкритим кодом на одній платформі

KokoroKokoro Вільно

Kokro - це модель параметра text- to- special, що має 82 мільйони параметрів, яка значно перевищує його вазі. Незважаючи на його крихітний розмір, він видає надзвичайно природну і виразну мову. Kokro підтримує декілька мов, зокрема англійську, японську, китайську та корейську з різноманітною кількістю голосів. Програма виконується неймовірно швидко, майже у 100x швидше за реальний час у GPU.

Найкраще для: Високої якості TTS з мінімальною пізнотою, поточною програмою

Спробувати вільно

PiperPiper Вільно

Piper - це невибагливий рушій синтезу мовлення з тексту, розроблений Raspy, який використовує архітектуру VITS і гортань. Він працює повністю на процесорі, робить його ідеальним для пристроїв ребер, домашніх автоматизації і програм, які потребують автономного синтезу мовлення. З понад 100 голосів на 30+ мовах, Piper виголошує натуральну звукову мову з реальною швидкістю навіть на Raspberry Pi 4.

Найкраще для: Швидкий перегляд, доступність та вбудовані програми

Спробувати вільно

VITSVITS Вільно

VITS (Variational Inference with adersial learn for end- to- end Text- Speech) - паралельний метод TTS, який створює природніший звук, ніж поточні двостулкові моделі. Він приймає варіативні підсумки, збільшені зі нормалізуючими потоками та адвернаційним процесом тренування, що значно покращує природність.

Найкраще для: Загальні текстові повідомлення з природними просодіями

Спробувати вільно

MeloTTSMeloTTS Вільно

MeloTTS MySell.ai - це багатомовна бібліотека TTS, яка підтримує англійську (American, British, India, Australia), іспанська, французька, китайська, японська, і корейська. Текст дуже швидко обробляється на процесорі з майже реальною швидкістю. MloTTS розроблено для використання і підтримує як процесора, так і GPUCTS.

Найкраще для: Програми для виробництва, які потребують швидкого, багатомовного TTS

Спробувати вільно

Kani TTS 2Kani TTS 2 Вільно

Kani- TTS- 2 by N 9NineSix - це ультралегка модель параметра 400M, побудована на рідкому AIMEM2 каркаса NVIDIA NanoCodes. Вона працює лише у 3GB VRAM і створює ~10 секунд мовлення у ~2 секундах на A100 (RTF 0. 2). Поточні громадські кораблі випуску для клонування, або Kocoro / MelTTS для не- Volume.

Найкраще для: Швидке англійське створення на мало- VRAM обладнання, швидкий перегляд

Спробувати вільно

OuteTTSOuteTTS Вільно

OutTTS розширюють великі моделі мов з можливостями синтезу мовлення з тексту під час збереження оригінальної архітектури. У програмі передбачено підтримку декількох серверів, зокрема Larma. cpp (CPU/ GPU), Gbing Menerations, ExLlamaV2, VLLM і навіть переглядача application за допомогою Transformers. js. Можливості клонування голосів з нульовим показом за допомогою профілів speak, збережених як JSON.

Найкраще для: Випромінювання ребер, базовані на переглядачах TTS, малодоступні середовища

Спробувати вільно

Pocket TTSPocket TTS Вільно

Pocketooth TTS від Kyutai (створення тексту у Moshi) - це компактна модель параметра 100M для синтезу мовлення з тексту, яка значно перевищує його вагу. Вона ефективно працює у процесорі, підтримує клонування голосів нульовим звуком з окремої вибірки звуку і створює мову, яка звучить природно. Невеликий розмір моделі робить її ідеальною для середовища для синтезу меж і низькодоступних середовищ.

Найкраще для: Невагома зміна, середовища, які можна використовувати лише для процесора, швидке клонування голосів

Спробувати вільно

Kitten TTSKitten TTS Вільно

Kiten TTS від KittenML - це надлегка модель синтезу мовлення з тексту, створена на основі ONNX. З варіантами від 15M до 80M параметрів (25- 80 МБ на диску), вона забезпечує високоякісне синтезування голосів на процесорі без потреби у GPU. Можливості 8 вбудованих голосів, придатні до налаштування швидкість мовлення і вбудоване текстове препроцесорування для чисел, валют та одиниць виміру. Ідеальний для програм для визначення меж і низької частоти.

Найкраще для: Швидкі легкі TTS, програми для визначення меж, малоплатформаційні програми

Спробувати вільно

Ming-Omni TTSMing-Omni TTS Вільно

Ming-omni- tts- 0. 5B через includeAI є компактною всемогутньою моделлю мовлення, збудованою на щільній поверхні BailyMM з вбудованим інструментом керування латкою за допомогою звукових декодерів. Вивід команди 44. 1kГц (довша якість КД), підтримує клонування звуку з 3+другого посилання і включає вбудовані емоції / діалект / BGM за допомогою інструкцій JSON. Висока стабільність дорівнює 0, 83% WER на китайських лавках.

Найкраще для: Valer- Fability Virgin diseration, music- controlred voice activity, китайський аудіокнижковий контент

Спробувати вільно

MOSS-TTS NanoMOSS-TTS Nano Вільно

MOS- TTS- Nano- 100M - це компактний варіант OpenMSS 100M- parameter для сім' ї MOS- TTS, що поділяє архітектуру, що передається через затримку. Обслуговує максимальну якість 8B моделі для значень у розмірах ~80x менших ваг і різко нижчої за одиницю VRAM, що робить її придатною для вільного і високопрозорого використання. Одної 20- мови можна отримати.

Найкраще для: Вільне TTS, високовольтове виробництво, інтерактивне використання з низькою частотою

Спробувати вільно

BarkBark Стандартний

Модель перетворення, заснована на тексті, яка створює реалістичну мову, музику та звукові ефекти.

Розробник: Suno · Ліцензія: MIT

Спробуй.

Bark SmallBark Small Стандартний

Легша версія Bark з швидшим використанням об' єму і нижнім використанням пам' яті.

Розробник: Suno · Ліцензія: MIT

Спробуй.

CosyVoice 2CosyVoice 2 Стандартний

Широкий потік TTS Алібаби з властивістю людини і майже нульовою пізнотою.

Розробник: Alibaba (Tongyi Lab) · Ліцензія: Apache 2.0

Спробуй.

Dia TTSDia TTS Стандартний

Модель створення діалогового вікна синтезу мовлення, яка створює натуральні розмови між промовцями.

Розробник: Nari Labs · Ліцензія: Apache 2.0

Спробуй.

Parler TTSParler TTS Стандартний

Опиши голос, який ви хочете почути рідною мовою, і Parler створює відповідну мову.

Розробник: Hugging Face · Ліцензія: Apache 2.0

Спробуй.

IndexTTS-2IndexTTS-2 Стандартний

Нульовий TTS з акуратним контролем емоцій і високою експресивністю.

Розробник: Index Team · Ліцензія: Bilibili Model License

Спробуй.

Spark TTSSpark TTS Стандартний

Голосове клонування TTS з контрольованими емоційами та манерою мовлення за допомогою запитів.

Розробник: SparkAudio · Ліцензія: CC BY-NC-SA 4.0

Спробуй.

GPT-SoVITSGPT-SoVITS Стандартний

Небагато голосових клонувань TTS, які відтворюють будь-який голос лише з 5 секунд аудіо.

Розробник: RVC-Boss · Ліцензія: MIT

Спробуй.

OrpheusOrpheus Стандартний

Емоційна модель TTS людського рівня тренувалася за 100K годин мовних даних.

Розробник: Canopy Labs · Ліцензія: Llama 3.2 Community

Спробуй.

Qwen3 TTSQwen3 TTS Стандартний

Багатомовне TTS Алібаби з конфігурованим голосом і конструкцією голосу з тексту.

Розробник: Alibaba (Qwen) · Ліцензія: Apache 2.0

Спробуй.

VieNeu-TTS-v2VieNeu-TTS-v2 Стандартний

В' єтнамська + Англійська мовою, що перемішує коди TTS з 7 наборними голосами і нульовим голосовим клонуванням. Лише ЦП, не потрібен GPU.

Розробник: Phạm Nguyễn Ngọc Bảo · Ліцензія: Apache 2.0

Спробуй.

Chatterbox TurboChatterbox Turbo Стандартний

Швидше Chatterbox з запізнілими під200м і паралінгвістськими тегами для сміху, кашлю та інших.

Розробник: Resemble AI · Ліцензія: MIT

Спробуй.

VoxCPMVoxCPM Стандартний

TTS без тонера, що створює 44. 1kГц аудіо з консистенцією абзаців з контекстом.

Розробник: OpenBMB · Ліцензія: Apache 2.0

Спробуй.

VibeVoiceVibeVoice Стандартний

Microsoft Model для багатомовного вмісту багатомовця, зокрема трансляції і аудіокнижки.

Розробник: Microsoft · Ліцензія: MIT

Спробуй.

CosyVoice3CosyVoice3 Стандартний

Наступного покоління багатомовне TTS з двобічним керуванням, емоційним контролем і нульовим голосовим клонуванням.

Розробник: Alibaba (FunAudioLLM) · Ліцензія: Apache 2.0

Спробуй.

NAMAA Saudi TTSNAMAA Saudi TTS Стандартний

Перший відкритий Саудівський-Аравічний TTS. Природний Саудівський діалект з високоякісним голосовим клонуванням Chatterbox.

Розробник: NAMAA Space · Ліцензія: MIT

Спробуй.

Darwin TTSDarwin TTS Стандартний

Поперечний варіант Qwen3- TTS з масою FFN, змішаний з моделлю мови Qwen3- 1. 7B для гострішого багатомовного клонування.

Розробник: FINAL-Bench · Ліцензія: Apache 2.0

Спробуй.

MOSS-TTSDMOSS-TTSD Стандартний

Дієслово багатомовця-повторювальна модель, що складається у стилі трансляційного зв'язку з п'ятьма гучномовцями і 60 хвилин зв'язаного аудіо.

Розробник: OpenMOSS · Ліцензія: Apache 2.0

Спробуй.

ChatterboxChatterbox Премій

Державне непродуктивне клонування голосу з емоційною контролею Resemble AI.

Якість:

Спробуй.

Tortoise TTSTortoise TTS Премій

Багатоголосовий текстовий синтез фокусувався на якості з автоматичною архітектурою.

Якість:

Спробуй.

StyleTTS 2StyleTTS 2 Премій

Синтез мовлення людського рівня через поширення стилю та вороже тренування.

Якість:

Спробуй.

OpenVoiceOpenVoice Премій

Миттєве клонування голосу з гранулярним контролем над стилем, емоціями та акцентом.

Якість:

Спробуй.

Sesame CSMSesame CSM Премій

Взірець розмовної мови створює природний діалог з відповідним часом і емоціями.

Якість:

Спробуй.

CosyVoice 2CosyVoice 2

Широкий потік TTS Алібаби з властивістю людини і майже нульовою пізнотою.

Мови: en, zh, ja, ko, fr, de, it, es

Клонувати голос

IndexTTS-2IndexTTS-2

Нульовий TTS з акуратним контролем емоцій і високою експресивністю.

Мови: en, zh

Клонувати голос

Spark TTSSpark TTS

Голосове клонування TTS з контрольованими емоційами та манерою мовлення за допомогою запитів.

Мови: en, zh

Клонувати голос

GPT-SoVITSGPT-SoVITS

Небагато голосових клонувань TTS, які відтворюють будь-який голос лише з 5 секунд аудіо.

Мови: en, zh, ja, ko

Клонувати голос

ChatterboxChatterbox

Державне непродуктивне клонування голосу з емоційною контролею Resemble AI.

Мови: en

Клонувати голос

Tortoise TTSTortoise TTS

Багатоголосовий текстовий синтез фокусувався на якості з автоматичною архітектурою.

Мови: en

Клонувати голос

OpenVoiceOpenVoice

Миттєве клонування голосу з гранулярним контролем над стилем, емоціями та акцентом.

Мови: en, zh, ja, ko, fr, es

Клонувати голос

VieNeu-TTS-v2VieNeu-TTS-v2

В' єтнамська + Англійська мовою, що перемішує коди TTS з 7 наборними голосами і нульовим голосовим клонуванням. Лише ЦП, не потрібен GPU.

Мови: vi, en

Клонувати голос

Chatterbox TurboChatterbox Turbo

Швидше Chatterbox з запізнілими під200м і паралінгвістськими тегами для сміху, кашлю та інших.

Мови: en

Клонувати голос

VoxCPMVoxCPM

TTS без тонера, що створює 44. 1kГц аудіо з консистенцією абзаців з контекстом.

Мови: en, zh

Клонувати голос

OuteTTSOuteTTS

Заснований на LLM TTS, які працюють на процесорі, GPU, або переглядачі за допомогою Lasa. cpp і Transformers.js.

Мови: en

Клонувати голос

Pocket TTSPocket TTS

Невимоглива модель параметрів 100M, створена Kyutai з клонуванням голосу з однієї вибірки.

Мови: en, fr

Клонувати голос

CosyVoice3CosyVoice3

Наступного покоління багатомовне TTS з двобічним керуванням, емоційним контролем і нульовим голосовим клонуванням.

Мови: en, zh, ja, ko, de, es, fr, it, ru

Клонувати голос

NAMAA Saudi TTSNAMAA Saudi TTS

Перший відкритий Саудівський-Аравічний TTS. Природний Саудівський діалект з високоякісним голосовим клонуванням Chatterbox.

Мови: ar

Клонувати голос

Darwin TTSDarwin TTS

Поперечний варіант Qwen3- TTS з масою FFN, змішаний з моделлю мови Qwen3- 1. 7B для гострішого багатомовного клонування.

Мови: en, ko, ja, zh

Клонувати голос

MOSS-TTSDMOSS-TTSD

Дієслово багатомовця-повторювальна модель, що складається у стилі трансляційного зв'язку з п'ятьма гучномовцями і 60 хвилин зв'язаного аудіо.

Мови: en, zh

Клонувати голос

Ming-Omni TTSMing-Omni TTS

Ущільнити 0,5Б всемогутню модель мовлення від включенняAI з високофіделічною виводом 44,1кГц і клонуванням голосів з нульовим ударом.

Мови: en, zh

Клонувати голос

MOSS-TTS NanoMOSS-TTS Nano

Tiny 100M MOS-TTS перевищує ту саму архітектуру, 80x меншу, безкоштовну спізнення.

Мови: en, zh, de, es, fr, ja, it, ko, ru, ar, pt

Клонувати голос

Розробник- перший API

Сумісний з OpenAI API REST. Одна точка кінця, 22 моделі. Підтримка потоку для програм у режимі реального часу.

  • Сумісний з OpenAI формат
  • Потік TTS для програм у режимі реального часу
  • Пакетна обробка для великих завдань
  • Сповіщення веб- сторінокComment
Перегляд Дописи API
pip install ttsai npm install @ttsainpm/ttsai
Python
from tts_ai import TTSClient

client = TTSClient(api_key="sk-tts-xxx")
audio = client.generate(
    text="Hello from TTS.ai!",
    model="kokoro",
    voice="af_bella",
)
client.save(audio, "output.mp3")

Просте, прозоре розташування

Почніть вільно. Масштабуйте зі зростанням.

Вільно

$0

15 000 символів + 5000/day

  • 7 вільних моделей, зокрема, Kokroo
  • 5000 символів на покоління
  • Включений доступ до API
Вільний підпис

Започаткування

$9/моunit description in lists

500 кредитів/ місяців

  • Всі моделі 22+
  • 100 000 символів на покоління
  • Клонування голосу
Розпочати
Найпоширеніша

Pro

$29/моunit description in lists

2000 кредитів/ місяців

  • Все в старті
  • Доступ до API
  • Обробка пріоритету
Отримати профі

Бізнес

$99/моunit description in lists

10 000 кредитів на місяць

  • Все в Pro
  • Місткий API
  • Черга пріоритету
Отримати бізнес

Перегляд всіх планів, зокрема пакунків символів →

Часті запитання

TTS.ai - це найбільш всебічна голосова платформа AI, яка пропонує 22+моделі синтезу мовлення, клонування голосів, текст мовлення і аудіо. Всі моделі є відкритим кодом без блокування постачальника.

Так! TTS.ai пропонує безкоштовні текстові повідомлення за допомогою моделей Kokro, Piper, VITS і Melotts. Не потрібно вказувати обліковий запис. Підпишіться, щоб отримати 15 000 вільних символів і отримати доступ до всіх моделей. Плани Paid починаються з 9/ місячних $.

Для пришвидшення скористайтеся Koro або Piper. Для того, щоб дізнатися про якість, спробуйте скористатися командою CosyTTS 2 або StyleTTS 2. Для клонування голосів скористайтеся пунктом Chatterbox або GPT- SoVITS. У діалоговому вікні скористайтеся пунктом Dia TTS. Спробуйте скористатися декількома моделями для порівняння одного тексту.

Так. Сумісний з OpenAI REST API для TTS, STT, клонування голосів і звукових інструментів. Серед них і будь- який план, зокрема безкоштовний, з обмеженнями швидкості, які масштабуються за допомогою letter (Free: 10 req/min, Lite: 20, Starter: 30, Pro: 60, Business: 300). Переглянути документацію за адресою tts.ai/api /.

Якість голосу залежить від моделі. Моделі Premium на зразок CosyTTS 2, StyleTTS 2, і Chatterbox створюють майже людську якість мовлення з природною інтонацією та емоціями. Вільні моделі на зразок Kokro надають чудову якість для більшості випадків використання.

TTS.ai підтримують 30 мовами по всій моделі. Англійська має найширшу підтримку моделей, але такі моделі, як CosyWore 2, китайський, японський та корейський; GPT- SoviTS керує китайською, японською, корейською та англійською мовами; і MloTTS підтримують англійську, іспанську, французьку, китайську, японську та корейську мови.

Так. Всі обробки відбуваються на наших відмінних серверах GPU. Ми не зберігаємо ваші текстові дані і не створюємо звукові дані після доставки. Вивантажені зразки голосів для клонування використовуються лише для поточного сеансу і не зберігаються. Ми ніколи не ділимося вашими даними з третьою стороною і не використовуємо їх для вправних моделей.

Так. Всі звукові дані, створені на TTS.ai, належать вам до комерційних програм, зокрема для відео на YouTube, трансляції, звукових книг, програм, реклам та продуктів. Наші моделі є відкритим джерелом ліцензій (МТІ, Apache 2. 0). Не потрібно ніяких прав або пожертв.

TTS.ai створює звукові дані у форматі WAV типово для максимальної якості. Ви можете перетворити їх у MP3, FLAC, OGG або M4A за допомогою нашого інструменту вільного перетворювача звуку. У API передбачено підтримку визначення ваших форматів виводу напряму за запитом.

Вивантажити короткий зразок звуку (трошки не більше ніж 5 секунд) голосу, який ви бажаєте клонувати, а потім ввести будь- який текст для створення мовлення у цьому голосі. Моделі на зразок Chatterbox, GPT- SOVITS і KosyGore 2 підтримують клонування голосу. Клонований голос відображає тон, акцент і стиль мовлення.

Вільні моделі (Kokoro, Piper, VITS, MelotTS) не потребують жодних рахунків і не потребують нульових символів. Серед стандартних моделей (на основі 2000 символів/ 1K) є Bark, CosyGE 2, F5- TTS і Dia. Моделі Premium (4. 000 символів/ 1K): OpenSpeat, Chatterbox, StyleTTS 2, і Tortoise. Моделі Paid зазвичай пропонують вищу якість, більше голосів і додаткові можливості, зокрема клонування голосів.

Так. У API передбачено підтримку пакетної обробки для перетворення великих об' ємів тексту на мовлення. Надсилати декілька запитів і отримувати результати синхронно з використанням завдань UUID. План бізнесу ($99/mo) і вищий доступ до черги пріоритетів для пришвидшеної пакетної обробки. Ідеально для виробництва аудіокнижної книги, вмісту, а також широкомасштабних проектів з керування голосами.
4.1/5 (42)

Ваші відгуки допомагають нам вирішити проблеми.

Почати використання комп' ютерного голосу сьогодні

Приєднуйтеся до розробників, розробників і підприємств, використовуючи TTS.ai