Безплатен интеллектуален интелект Текст към реч
33+ модели с отворен източник, 273+ гласове, 33+ езици. Няма нужда от акаунт.
Всичко, от което се нуждаеш от гласов интеллект
30+ инструменти, захранвани от отворени модели на AI
33+ AI Гласови модели
Най-обширната колекция от отворени модели TTS в една платформа
Kokoro Безплатен
Кокоро е 82 милиона параметър текст-то-шпик модел, който удари много над теглото си клас. Въпреки малкия си размер, той произвежда забележително естествена и изразителна реч. Кокоро поддържа множество езици, включително английски, японски, китайски и корейски с различни изразителни гласове. Тя работи невероятно бързо — генериране на аудио почти 100x по-бързо от реално време на GPU.
Най-добро за: Висококачествени ТТС с минимална латенция, струйни приложения
Опитай безплатно
Piper Безплатен
Piper е лесен текст-то-спеех двигател, разработен от Rhaspy, който използва VITS и ларинкс архитектури. Той работи изцяло на CPU, което го прави идеален за ръбови устройства, домашна автоматизация и приложения, изискващи офлайн ТТС. С над 100 гласове през 30+ езици, Piper осигурява естествено-звучна реч при скорости в реално време дори и на Raspberry Pi 4.
Най-добро за: Бързи прегледи, достъпност и вградени приложения
Опитай безплатно
VITS Безплатен
VITS (Вariacional Inference with adversarial learning for end-to-end Text-to-Speak) е паралелен край-то-край метод TTS, който генерира по-естествен звук от текущите двуетапни модели. Той приема вариационен извод, увеличен с нормализиращи потоци и процес на свръхречно обучение, достигайки значително подобряване на естествеността.
Най-добро за: Общо предназначение за текстопис с естествена прозодия
Опитай безплатно
MeloTTS Безплатен
MeloTTS by MyShell.ai е многоязична TTS библиотека за подкрепа на английски (американски, британски, индийски, австралийски), испански, френски, китайски, японски и корейски. Тя е изключително бързо, обработване на текст с почти реално време само на процесора. MeloTTS е предназначен за използване на производство и поддържа както процесор и GPU инференция.
Най-добро за: Производствени приложения, нуждаещи се от бързо, многоезично ТТС
Опитай безплатно
Kani TTS 2 Безплатен
Кани-ТТС-2 от NineNineSix е ултра лек 400M модел на параметър, построен на течен AI LFM2 гръбнач с NVIDIA NanoCodec. Той работи само в 3GB VRAM и произвежда ~10 секунди реч в ~2 секунди на A100 (RTF 0.2). Текущият публичен издаване кораби само на английски `kani-tts-2-en' контролен пункт и не разкрива говорещия-внеобходима за клониране на гласа — използвайте Chatterbox / IndexTTS2 / F5-TTS за клониране, или Kokoro / MeloTTS за не-английски.
Най-добро за: Бързо английско поколение на ниско-VRAM хардуер, бърз преглед
Опитай безплатно
OuteTTS Безплатен
OutetTS разширява големи езикови модели с текстови възможности при запазване на оригиналната архитектура. Тя поддържа множество захранвания, включително lama.cpp (CPU/GPU), Hugging Face Transformers, ExLlamaV2, VLLM, и дори браузърски преценка чрез Transformers.js. Features null-shot клониране на глас чрез профили на говорника, запазени като JSON.
Най-добро за: Разпространение на ивици, TTS на базата на браузъра, околности с нисък източник
Опитай безплатно
Pocket TTS Безплатен
Pocket TTS от Kyutai (креатори на Moshi) е компактен 100M параметър текст-то-спеех модел, който удря много над теглото си. Той работи ефективно на CPU, поддържа клониране на глас с нулеви удари от един аудио образец и произвежда естествено звукоизвестна реч. Малкият размер на модела го прави идеален за разгръщане на ръба и нисък източник на среди.
Най-добро за: Лесно разгръщане, само процесори, бързо клониране на гласа
Опитай безплатно
Kitten TTS Безплатен
Kitten TTS от KittenML е ултра лек текст-то-спеех модел, построен на ONNX. С варианти от 15M до 80M параметри (25-80 MB на диск), той предоставя висококачествен синтез на гласа на CPU без да изисква GPU. Характеристики 8 вградени гласове, регулируема скорост на говора, и вграден текст предобработка за числа, валути и единици. Идеален за разгръщане на ръбове и нискозабавни приложения.
Най-добро за: Бързо леко ТТС, разгръщане на ръба, прилагане с ниско закъснение
Опитай безплатно
Ming-Omni TTS Безплатен
Ming-omni-tts-0.5B чрез включванеAI е компактен всемоден модел за говор, построен на BailingMM плътен гръбнач с Patch-by-Patch, съвпадащ с аудио декодер. Доставя 44.1kHz изход (блиското качество на CD), поддържа клониране на глас от 3+ втора референция и включва вградена емоция / диалект / BGM контрол чрез JSON инструкции. Отлична стабилност — 0.83% WER на китайските бенчмаркове.
Най-добро за: Висока вярност двуязични нарация, емоционално контролиран глас актьорство, китайско аудиокнига съдържание
Опитай безплатно
MOSS-TTS Nano Безплатен
MOSS-TTS-Nano-100M е компактният вариант на OpenMOSS 100M-parameter на семейството MOSS-TTS, споделяйки забавящата-transformer архитектура. Разменява най-високото качество на модела 8B за ~80x по-малки тежести и драматично по-ниски на задължителна VRAM, което го прави подходящ за свободно и високопропускни разгръщания.
Най-добро за: Свободна TTS, високообемна продукция, нискозабавна интерактивна употреба
Опитай безплатно
Bark Стандартен
Трансформаторен текст-то-аудио модел, който генерира реалистичен реч, музика и звукови ефекти.
Разработчик: Suno · Лиценз: MIT
Опитай.
Bark Small Стандартен
По-светла версия на Bark с по-бързо изчисляване и по-ниска употреба на паметта.
Разработчик: Suno · Лиценз: MIT
Опитай.
CosyVoice 2 Стандартен
Алибаба е скалален ТТС с естествена човешка паритетност и почти нула латентност.
Разработчик: Alibaba (Tongyi Lab) · Лиценз: Apache 2.0
Опитай.
Dia TTS Стандартен
Модел за генериране на многоговорители, който създава естествени разговори между говорителите.
Разработчик: Nari Labs · Лиценз: Apache 2.0
Опитай.
Parler TTS Стандартен
Опиши гласа, който искаш на естествен език и Parler генерира съвпадаща реч.
Разработчик: Hugging Face · Лиценз: Apache 2.0
Опитай.
IndexTTS-2 Стандартен
Zero-shot TTS с фино-зрели емоции контрол и висока експресивност.
Разработчик: Index Team · Лиценз: Bilibili Model License
Опитай.
Spark TTS Стандартен
Гласово клониране TTS с контролируема емоция и стил на говорене чрез подсказки.
Разработчик: SparkAudio · Лиценз: CC BY-NC-SA 4.0
Опитай.
GPT-SoVITS Стандартен
Малко гласово клониране TTS, което репликира всеки глас от само 5 секунди звук.
Разработчик: RVC-Boss · Лиценз: MIT
Опитай.
Orpheus Стандартен
Човешко ниво емоционален TTS модел обучен на 100K часа данни за говора.
Разработчик: Canopy Labs · Лиценз: Llama 3.2 Community
Опитай.
Qwen3 TTS Стандартен
Многоязичният ТТС на Алибаба с подредени гласове и гласов дизайн от текста.
Разработчик: Alibaba (Qwen) · Лиценз: Apache 2.0
Опитай.
VieNeu-TTS-v2 Стандартен
Виетнамски + Английски код превключва TTS с 7 преднамерени гласове и клониране с нулево изстрелване на глас. Само процесор-само, не се изисква GPU.
Разработчик: Phạm Nguyễn Ngọc Bảo · Лиценз: Apache 2.0
Опитай.
Chatterbox Turbo Стандартен
По-бързо Chatterbox с под-200 мс латенция и паралингуистически тагове за смях, кашлица и др.
Разработчик: Resemble AI · Лиценз: MIT
Опитай.
VoxCPM Стандартен
TTS без токенизатор, произвеждащ звук 44.1kHz с контекстно съзнателна консистенция.
Разработчик: OpenBMB · Лиценз: Apache 2.0
Опитай.
VibeVoice Стандартен
Microsoft модел за дългоформирано мултизвук съдържание като подкасти и аудиокниги.
Разработчик: Microsoft · Лиценз: MIT
Опитай.
CosyVoice3 Стандартен
Следващото поколение многоезично ТТС с двустриминг, контрол на емоциите и клониране на глас с нулеви удари.
Разработчик: Alibaba (FunAudioLLM) · Лиценз: Apache 2.0
Опитай.
NAMAA Saudi TTS Стандартен
Първо отвори Саудитско-арабски ТТС. Роден саудитски диалект с клониране на гласово качество Chatterbox.
Разработчик: NAMAA Space · Лиценз: MIT
Опитай.
Darwin TTS Стандартен
Кръстосан вариант Qwen3-TTS с FFN тежести смесени от Qwen3-1.7B езиков модел за по-язично клониране.
Разработчик: FINAL-Bench · Лиценз: Apache 2.0
Опитай.
MOSS-TTSD Стандартен
Модел за продължаване на многоговорителния диалог — генериране на разговори в стила на подкаст с до 5 говорители и 60 минути на съгласуван аудио.
Разработчик: OpenMOSS · Лиценз: Apache 2.0
Опитай.
CosyVoice 2
Алибаба е скалален ТТС с естествена човешка паритетност и почти нула латентност.
Езици: en, zh, ja, ko, fr, de, it, es
Клониран глас
IndexTTS-2
Zero-shot TTS с фино-зрели емоции контрол и висока експресивност.
Езици: en, zh
Клониран глас
Spark TTS
Гласово клониране TTS с контролируема емоция и стил на говорене чрез подсказки.
Езици: en, zh
Клониран глас
GPT-SoVITS
Малко гласово клониране TTS, което репликира всеки глас от само 5 секунди звук.
Езици: en, zh, ja, ko
Клониран глас
Chatterbox
Съвременно клониране на глас с контрол на емоциите от Resemble AI.
Езици: en
Клониран глас
Tortoise TTS
Мулти-гласовен текст-то-спеец фокусиран върху качеството с автоматична регресивна архитектура.
Езици: en
Клониран глас
OpenVoice
Мигновено клониране на гласа с гранулиран контрол върху стила, емоциите и акцента.
Езици: en, zh, ja, ko, fr, es
Клониран глас
VieNeu-TTS-v2
Виетнамски + Английски код превключва TTS с 7 преднамерени гласове и клониране с нулево изстрелване на глас. Само процесор-само, не се изисква GPU.
Езици: vi, en
Клониран глас
Chatterbox Turbo
По-бързо Chatterbox с под-200 мс латенция и паралингуистически тагове за смях, кашлица и др.
Езици: en
Клониран глас
VoxCPM
TTS без токенизатор, произвеждащ звук 44.1kHz с контекстно съзнателна консистенция.
Езици: en, zh
Клониран глас
OuteTTS
LLM-базирани TTS, които работят на CPU, GPU, или браузър чрез lama.cpp и Transformers.js.
Езици: en
Клониран глас
Pocket TTS
Лесен модел на параметър 100M от Kyutai с гласово клониране от една проба.
Езици: en, fr
Клониран глас
CosyVoice3
Следващото поколение многоезично ТТС с двустриминг, контрол на емоциите и клониране на глас с нулеви удари.
Езици: en, zh, ja, ko, de, es, fr, it, ru
Клониран глас
NAMAA Saudi TTS
Първо отвори Саудитско-арабски ТТС. Роден саудитски диалект с клониране на гласово качество Chatterbox.
Езици: ar
Клониран глас
Darwin TTS
Кръстосан вариант Qwen3-TTS с FFN тежести смесени от Qwen3-1.7B езиков модел за по-язично клониране.
Езици: en, ko, ja, zh
Клониран глас
MOSS-TTSD
Модел за продължаване на многоговорителния диалог — генериране на разговори в стила на подкаст с до 5 говорители и 60 минути на съгласуван аудио.
Езици: en, zh
Клониран глас
Ming-Omni TTS
Компактен 0.5B модален речен модел от включванеAI с висока вяра 44.1kHz изход и клониране на нулевия глас.
Езици: en, zh
Клониран глас
MOSS-TTS Nano
Вариант 100M MOSS-TTS — същата архитектура, 80x по-малка, свободна лента.
Езици: en, zh, de, es, fr, ja, it, ko, ru, ar, pt
Клониран гласРазработчик- първи API
Компатибилен с OpenAI REST API. Един крайна точка, 22+ модели. Ускоряване на подкрепата за приложения в реално време.
- Формат, съвместим с OpenAI
- Ускоряване на TTS за приложения в реално време
- Пакетна обработка за големи работни места
- Уведомления за Webhook
pip install ttsai
npm install @ttsainpm/ttsai
from tts_ai import TTSClient
client = TTSClient(api_key="sk-tts-xxx")
audio = client.generate(
text="Hello from TTS.ai!",
model="kokoro",
voice="af_bella",
)
client.save(audio, "output.mp3")
Просто, прозрачно ценообразуване
Започнете свободен, скалирайте, докато растете.
Безплатен
15 000 символа + 5000 на ден
- 7 безплатни модели, включително Kokoro
- 5000 chars на поколение
- Включен API достъп
Стартиране
500 кредита/месечни кредити
- Всички 22+ модели
- 100 000 chars на поколение
- Гласово клониране
Професионален
2000 кредита в месец
- Всичко в Стартър
- API достъп
- Приоритетна обработка
Бизнес
10 000 кредита в месец
- Всичко в профсъюза.
- Масов API
- Приоритетна редица
Често задавани въпроси
Какво можем да подобрим? Твоята обратна връзка ни помага да решим проблемите.
Започни да използваш AI глас днес
Присъединете се към създателите, разработчиците и предприятията, използващи TTS.ai