Вільний комп' ютер Текст для мовлення
33+ моделі з відкритим кодом, 273+ голоси, 33+ Не потрібен рахунок.
Усе, що потрібно для голосу
30+ інструменти, якими керують моделі AI з відкритим кодом
33+ Моделі голосу комп' ютерного гравця
Найрозширеніша збірка моделей TTS з відкритим кодом на одній платформі
Kokoro Вільно
Kokro - це модель параметра text- to- special, що має 82 мільйони параметрів, яка значно перевищує його вазі. Незважаючи на його крихітний розмір, він видає надзвичайно природну і виразну мову. Kokro підтримує декілька мов, зокрема англійську, японську, китайську та корейську з різноманітною кількістю голосів. Програма виконується неймовірно швидко, майже у 100x швидше за реальний час у GPU.
Найкраще для: Високої якості TTS з мінімальною пізнотою, поточною програмою
Спробувати вільно
Piper Вільно
Piper - це невибагливий рушій синтезу мовлення з тексту, розроблений Raspy, який використовує архітектуру VITS і гортань. Він працює повністю на процесорі, робить його ідеальним для пристроїв ребер, домашніх автоматизації і програм, які потребують автономного синтезу мовлення. З понад 100 голосів на 30+ мовах, Piper виголошує натуральну звукову мову з реальною швидкістю навіть на Raspberry Pi 4.
Найкраще для: Швидкий перегляд, доступність та вбудовані програми
Спробувати вільно
VITS Вільно
VITS (Variational Inference with adersial learn for end- to- end Text- Speech) - паралельний метод TTS, який створює природніший звук, ніж поточні двостулкові моделі. Він приймає варіативні підсумки, збільшені зі нормалізуючими потоками та адвернаційним процесом тренування, що значно покращує природність.
Найкраще для: Загальні текстові повідомлення з природними просодіями
Спробувати вільно
MeloTTS Вільно
MeloTTS MySell.ai - це багатомовна бібліотека TTS, яка підтримує англійську (American, British, India, Australia), іспанська, французька, китайська, японська, і корейська. Текст дуже швидко обробляється на процесорі з майже реальною швидкістю. MloTTS розроблено для використання і підтримує як процесора, так і GPUCTS.
Найкраще для: Програми для виробництва, які потребують швидкого, багатомовного TTS
Спробувати вільно
Kani TTS 2 Вільно
Kani- TTS- 2 by N 9NineSix - це ультралегка модель параметра 400M, побудована на рідкому AIMEM2 каркаса NVIDIA NanoCodes. Вона працює лише у 3GB VRAM і створює ~10 секунд мовлення у ~2 секундах на A100 (RTF 0. 2). Поточні громадські кораблі випуску для клонування, або Kocoro / MelTTS для не- Volume.
Найкраще для: Швидке англійське створення на мало- VRAM обладнання, швидкий перегляд
Спробувати вільно
OuteTTS Вільно
OutTTS розширюють великі моделі мов з можливостями синтезу мовлення з тексту під час збереження оригінальної архітектури. У програмі передбачено підтримку декількох серверів, зокрема Larma. cpp (CPU/ GPU), Gbing Menerations, ExLlamaV2, VLLM і навіть переглядача application за допомогою Transformers. js. Можливості клонування голосів з нульовим показом за допомогою профілів speak, збережених як JSON.
Найкраще для: Випромінювання ребер, базовані на переглядачах TTS, малодоступні середовища
Спробувати вільно
Pocket TTS Вільно
Pocketooth TTS від Kyutai (створення тексту у Moshi) - це компактна модель параметра 100M для синтезу мовлення з тексту, яка значно перевищує його вагу. Вона ефективно працює у процесорі, підтримує клонування голосів нульовим звуком з окремої вибірки звуку і створює мову, яка звучить природно. Невеликий розмір моделі робить її ідеальною для середовища для синтезу меж і низькодоступних середовищ.
Найкраще для: Невагома зміна, середовища, які можна використовувати лише для процесора, швидке клонування голосів
Спробувати вільно
Kitten TTS Вільно
Kiten TTS від KittenML - це надлегка модель синтезу мовлення з тексту, створена на основі ONNX. З варіантами від 15M до 80M параметрів (25- 80 МБ на диску), вона забезпечує високоякісне синтезування голосів на процесорі без потреби у GPU. Можливості 8 вбудованих голосів, придатні до налаштування швидкість мовлення і вбудоване текстове препроцесорування для чисел, валют та одиниць виміру. Ідеальний для програм для визначення меж і низької частоти.
Найкраще для: Швидкі легкі TTS, програми для визначення меж, малоплатформаційні програми
Спробувати вільно
Ming-Omni TTS Вільно
Ming-omni- tts- 0. 5B через includeAI є компактною всемогутньою моделлю мовлення, збудованою на щільній поверхні BailyMM з вбудованим інструментом керування латкою за допомогою звукових декодерів. Вивід команди 44. 1kГц (довша якість КД), підтримує клонування звуку з 3+другого посилання і включає вбудовані емоції / діалект / BGM за допомогою інструкцій JSON. Висока стабільність дорівнює 0, 83% WER на китайських лавках.
Найкраще для: Valer- Fability Virgin diseration, music- controlred voice activity, китайський аудіокнижковий контент
Спробувати вільно
MOSS-TTS Nano Вільно
MOS- TTS- Nano- 100M - це компактний варіант OpenMSS 100M- parameter для сім' ї MOS- TTS, що поділяє архітектуру, що передається через затримку. Обслуговує максимальну якість 8B моделі для значень у розмірах ~80x менших ваг і різко нижчої за одиницю VRAM, що робить її придатною для вільного і високопрозорого використання. Одної 20- мови можна отримати.
Найкраще для: Вільне TTS, високовольтове виробництво, інтерактивне використання з низькою частотою
Спробувати вільно
Bark Стандартний
Модель перетворення, заснована на тексті, яка створює реалістичну мову, музику та звукові ефекти.
Розробник: Suno · Ліцензія: MIT
Спробуй.
Bark Small Стандартний
Легша версія Bark з швидшим використанням об' єму і нижнім використанням пам' яті.
Розробник: Suno · Ліцензія: MIT
Спробуй.
CosyVoice 2 Стандартний
Широкий потік TTS Алібаби з властивістю людини і майже нульовою пізнотою.
Розробник: Alibaba (Tongyi Lab) · Ліцензія: Apache 2.0
Спробуй.
Dia TTS Стандартний
Модель створення діалогового вікна синтезу мовлення, яка створює натуральні розмови між промовцями.
Розробник: Nari Labs · Ліцензія: Apache 2.0
Спробуй.
Parler TTS Стандартний
Опиши голос, який ви хочете почути рідною мовою, і Parler створює відповідну мову.
Розробник: Hugging Face · Ліцензія: Apache 2.0
Спробуй.
IndexTTS-2 Стандартний
Нульовий TTS з акуратним контролем емоцій і високою експресивністю.
Розробник: Index Team · Ліцензія: Bilibili Model License
Спробуй.
Spark TTS Стандартний
Голосове клонування TTS з контрольованими емоційами та манерою мовлення за допомогою запитів.
Розробник: SparkAudio · Ліцензія: CC BY-NC-SA 4.0
Спробуй.
GPT-SoVITS Стандартний
Небагато голосових клонувань TTS, які відтворюють будь-який голос лише з 5 секунд аудіо.
Розробник: RVC-Boss · Ліцензія: MIT
Спробуй.
Orpheus Стандартний
Емоційна модель TTS людського рівня тренувалася за 100K годин мовних даних.
Розробник: Canopy Labs · Ліцензія: Llama 3.2 Community
Спробуй.
Qwen3 TTS Стандартний
Багатомовне TTS Алібаби з конфігурованим голосом і конструкцією голосу з тексту.
Розробник: Alibaba (Qwen) · Ліцензія: Apache 2.0
Спробуй.
VieNeu-TTS-v2 Стандартний
В' єтнамська + Англійська мовою, що перемішує коди TTS з 7 наборними голосами і нульовим голосовим клонуванням. Лише ЦП, не потрібен GPU.
Розробник: Phạm Nguyễn Ngọc Bảo · Ліцензія: Apache 2.0
Спробуй.
Chatterbox Turbo Стандартний
Швидше Chatterbox з запізнілими під200м і паралінгвістськими тегами для сміху, кашлю та інших.
Розробник: Resemble AI · Ліцензія: MIT
Спробуй.
VoxCPM Стандартний
TTS без тонера, що створює 44. 1kГц аудіо з консистенцією абзаців з контекстом.
Розробник: OpenBMB · Ліцензія: Apache 2.0
Спробуй.
VibeVoice Стандартний
Microsoft Model для багатомовного вмісту багатомовця, зокрема трансляції і аудіокнижки.
Розробник: Microsoft · Ліцензія: MIT
Спробуй.
CosyVoice3 Стандартний
Наступного покоління багатомовне TTS з двобічним керуванням, емоційним контролем і нульовим голосовим клонуванням.
Розробник: Alibaba (FunAudioLLM) · Ліцензія: Apache 2.0
Спробуй.
NAMAA Saudi TTS Стандартний
Перший відкритий Саудівський-Аравічний TTS. Природний Саудівський діалект з високоякісним голосовим клонуванням Chatterbox.
Розробник: NAMAA Space · Ліцензія: MIT
Спробуй.
Darwin TTS Стандартний
Поперечний варіант Qwen3- TTS з масою FFN, змішаний з моделлю мови Qwen3- 1. 7B для гострішого багатомовного клонування.
Розробник: FINAL-Bench · Ліцензія: Apache 2.0
Спробуй.
MOSS-TTSD Стандартний
Дієслово багатомовця-повторювальна модель, що складається у стилі трансляційного зв'язку з п'ятьма гучномовцями і 60 хвилин зв'язаного аудіо.
Розробник: OpenMOSS · Ліцензія: Apache 2.0
Спробуй.
CosyVoice 2
Широкий потік TTS Алібаби з властивістю людини і майже нульовою пізнотою.
Мови: en, zh, ja, ko, fr, de, it, es
Клонувати голос
IndexTTS-2
Нульовий TTS з акуратним контролем емоцій і високою експресивністю.
Мови: en, zh
Клонувати голос
Spark TTS
Голосове клонування TTS з контрольованими емоційами та манерою мовлення за допомогою запитів.
Мови: en, zh
Клонувати голос
GPT-SoVITS
Небагато голосових клонувань TTS, які відтворюють будь-який голос лише з 5 секунд аудіо.
Мови: en, zh, ja, ko
Клонувати голос
Chatterbox
Державне непродуктивне клонування голосу з емоційною контролею Resemble AI.
Мови: en
Клонувати голос
Tortoise TTS
Багатоголосовий текстовий синтез фокусувався на якості з автоматичною архітектурою.
Мови: en
Клонувати голос
OpenVoice
Миттєве клонування голосу з гранулярним контролем над стилем, емоціями та акцентом.
Мови: en, zh, ja, ko, fr, es
Клонувати голос
VieNeu-TTS-v2
В' єтнамська + Англійська мовою, що перемішує коди TTS з 7 наборними голосами і нульовим голосовим клонуванням. Лише ЦП, не потрібен GPU.
Мови: vi, en
Клонувати голос
Chatterbox Turbo
Швидше Chatterbox з запізнілими під200м і паралінгвістськими тегами для сміху, кашлю та інших.
Мови: en
Клонувати голос
VoxCPM
TTS без тонера, що створює 44. 1kГц аудіо з консистенцією абзаців з контекстом.
Мови: en, zh
Клонувати голос
OuteTTS
Заснований на LLM TTS, які працюють на процесорі, GPU, або переглядачі за допомогою Lasa. cpp і Transformers.js.
Мови: en
Клонувати голос
Pocket TTS
Невимоглива модель параметрів 100M, створена Kyutai з клонуванням голосу з однієї вибірки.
Мови: en, fr
Клонувати голос
CosyVoice3
Наступного покоління багатомовне TTS з двобічним керуванням, емоційним контролем і нульовим голосовим клонуванням.
Мови: en, zh, ja, ko, de, es, fr, it, ru
Клонувати голос
NAMAA Saudi TTS
Перший відкритий Саудівський-Аравічний TTS. Природний Саудівський діалект з високоякісним голосовим клонуванням Chatterbox.
Мови: ar
Клонувати голос
Darwin TTS
Поперечний варіант Qwen3- TTS з масою FFN, змішаний з моделлю мови Qwen3- 1. 7B для гострішого багатомовного клонування.
Мови: en, ko, ja, zh
Клонувати голос
MOSS-TTSD
Дієслово багатомовця-повторювальна модель, що складається у стилі трансляційного зв'язку з п'ятьма гучномовцями і 60 хвилин зв'язаного аудіо.
Мови: en, zh
Клонувати голос
Ming-Omni TTS
Ущільнити 0,5Б всемогутню модель мовлення від включенняAI з високофіделічною виводом 44,1кГц і клонуванням голосів з нульовим ударом.
Мови: en, zh
Клонувати голос
MOSS-TTS Nano
Tiny 100M MOS-TTS перевищує ту саму архітектуру, 80x меншу, безкоштовну спізнення.
Мови: en, zh, de, es, fr, ja, it, ko, ru, ar, pt
Клонувати голосРозробник- перший API
Сумісний з OpenAI API REST. Одна точка кінця, 22 моделі. Підтримка потоку для програм у режимі реального часу.
- Сумісний з OpenAI формат
- Потік TTS для програм у режимі реального часу
- Пакетна обробка для великих завдань
- Сповіщення веб- сторінокComment
pip install ttsai
npm install @ttsainpm/ttsai
from tts_ai import TTSClient
client = TTSClient(api_key="sk-tts-xxx")
audio = client.generate(
text="Hello from TTS.ai!",
model="kokoro",
voice="af_bella",
)
client.save(audio, "output.mp3")
Просте, прозоре розташування
Почніть вільно. Масштабуйте зі зростанням.
Вільно
15 000 символів + 5000/day
- 7 вільних моделей, зокрема, Kokroo
- 5000 символів на покоління
- Включений доступ до API
Започаткування
500 кредитів/ місяців
- Всі моделі 22+
- 100 000 символів на покоління
- Клонування голосу
Pro
2000 кредитів/ місяців
- Все в старті
- Доступ до API
- Обробка пріоритету
Бізнес
10 000 кредитів на місяць
- Все в Pro
- Місткий API
- Черга пріоритету
Часті запитання
Ваші відгуки допомагають нам вирішити проблеми.
Почати використання комп' ютерного голосу сьогодні
Приєднуйтеся до розробників, розробників і підприємств, використовуючи TTS.ai