Безплатен интеллектуален интелект Текст към реч

82M параметри Ултра-бързо Изразяващи гласове Многоезични Поддръжка за ускоряване

Лесно 82M параметър модел доставяне на студиото-качествено говорене с изгаряне-бързо преценка.

Бързо · 1.5GB VRAM Опитай.

Piper

Приятен за процесора Офлайн способен 100+ гласове 35+ езици Поддръжка на SSML

Бърз, местен неуронен текст към речната система оптимизиран за Maline Pi и вградени устройства.

Бързо · 0 (CPU only) VRAM Опитай.

VITS

Синтез от край до край Естествена прозодия Бързо преценяване Многократни звучници

Кондиционален вариационен автоматичен кодатор с adversarial learning for end-to-end text-to-speech.

Бързо · 1GB VRAM Опитай.

MeloTTS

Оптимизиран с процесор Многоезични Многократни акценти Производствена готовност Ниска латентност

Висококачествено многоезично текст-то-шпик, който работи на CPU с минимална латентност.

Бързо · 0.5GB (GPU optional) VRAM Опитай.

Bark

Звучни ефекти Смее се/издигане Създаване на музика 100+ говорители Многоезични

Трансформаторен текст-то-аудио модел, който генерира реалистичен реч, музика и звукови ефекти.

Бавно · 5GB VRAM Опитай.

Bark Small

Лесно По-бързо от пълния Барк. Емоционална реч Многоезични

По-светла версия на Bark с по-бързо изчисляване и по-ниска употреба на паметта.

Средна · 2GB VRAM Опитай.

CosyVoice 2

Преминаване Нулеви изстрели клониране Кръстословно Контрол на емоциите Човешки паритет

Алибаба е скалален ТТС с естествена човешка паритетност и почти нула латентност.

Dia TTS

Многоговорител Създаване на диалог Естествено завъртане Емоционален израз 1.6Б параметри

Модел за генериране на многоговорители, който създава естествени разговори между говорителите.

Parler TTS

Гласово описание Естествен езиков контрол Гъвкаво създаване на глас Няма нужда от гласове

Опиши гласа, който искаш на естествен език и Parler генерира съвпадаща реч.

Indic Parler TTS

11 индийски езици Гласово описание Естествен езиков контрол Автентичен индийски изговор

Висококачествена реч за 8+ индийски езици с естествен език контрол на гласа.

Бавно · 8GB VRAM Опитай.

KhanomTan TTS

Тайландски ТТС Многократни звучници Твоята архитектура Лицензация за безопасност на търговията

Тайландски-първи текст-то-спеч с избор на говорител гласове.

Бързо · 2GB VRAM Опитай.

IndexTTS-2

Контрол на емоциите Нулеви изстрели. Емоционални вектори Изразяваща реч Фино-зърнен контрол

Zero-shot TTS с фино-зрели емоции контрол и висока експресивност.

Spark TTS

Гласово клониране Контрол на емоциите Контрол на стила Основано на питане 5-секунда клониране

Гласово клониране TTS с контролируема емоция и стил на говорене чрез подсказки.

GPT-SoVITS

5-секунда клониране Пеещ глас Няколкократко учение Висока вярност Кръстословно

Малко гласово клониране TTS, което репликира всеки глас от само 5 секунди звук.

Бавно · 6GB VRAM Опитай.

Orpheus

Емоции на човешко ниво 100K часа обучение Естествен акцент Изразяваща реч

Човешко ниво емоционален TTS модел обучен на 100K часа данни за говора.

Chatterbox

Нулеви изстрели клониране Контрол на емоциите Висока вярност Прехвърляне на стил Единично клониране на проба

Съвременно клониране на глас с контрол на емоциите от Resemble AI.

Tortoise TTS

Най-високо качество Множество гласове Архитектура DALL-E Гласово клониране Авторегресивен

Мулти-гласовен текст-то-спеец фокусиран върху качеството с автоматична регресивна архитектура.

Бавно · 8GB VRAM Опитай.

StyleTTS 2

Човешко ниво Разпространение на стила Обучение на противоположните действия Естествена вариация Висока вярност

Човешко ниво текст-то-спеец чрез разпространение на стила и противоположно обучение.

OpenVoice

Мигновено клониране Гласово преобразуване Контрол на емоциите Контрол на акцента Многоезични

Мигновено клониране на гласа с гранулиран контрол върху стила, емоциите и акцента.

Qwen3 TTS

9 предварителни гласове Гласов дизайн от текста Контрол на емоциите 10 езици

Многоязичният ТТС на Алибаба с подредени гласове и гласов дизайн от текста.

Средна · 7GB VRAM Опитай.

VieNeu-TTS-v2

7 предварителни гласове (Северен + Южен акцент) Превключване на кода En-Vi Гласово клониране (3-5s referenca) Подкаст / многоговорителна поддръжка Само процесор — не се изисква GPU

Виетнамски + Английски код превключва TTS с 7 преднамерени гласове и клониране с нулево изстрелване на глас. Само процесор-само, не се изисква GPU.

Бързо · CPU VRAM Опитай.

Sesame CSM

Разговорно Естествено време Завъртане Задни канали 1B параметри

Модел на разговора, генериращ естествен диалог с подходящ момент и емоции.

Бавно · 8GB VRAM Опитай.

Chatterbox Turbo

Под-200ms латентност Паралингвистични тагове 6x в реално време Гласово клониране Оцветяване на водния знак

По-бързо Chatterbox с под-200 мс латенция и паралингуистически тагове за смях, кашлица и др.

Бързо · 2GB VRAM Опитай.

VoxCPM

44.1kHz аудио Без токенизиране Кръстословно клониране Контекстни съзнания Лора е фино доставяне

TTS без токенизатор, произвеждащ звук 44.1kHz с контекстно съзнателна консистенция.

Бързо · 4GB VRAM Опитай.

Kani TTS 2

3GB VRAM Ултра-бързо Лесно Нанокодек Безплатен

Ултра-лек модел 400M English TTS работи само в 3GB VRAM.

Бързо · 3GB VRAM Опитай.

OuteTTS

Преценка на процесора Изчисление на браузъра Множество заденци Профили на спикера

LLM-базирани TTS, които работят на CPU, GPU, или браузър чрез lama.cpp и Transformers.js.

Бавно · 2GB VRAM Опитай.

VibeVoice

Многоговорител До 90 мин. Създаване на подкаст Консистентност на оратора 200 мс струйни потоки

Microsoft модел за дългоформирано мултизвук съдържание като подкасти и аудиокниги.

Бързо · 4GB VRAM Опитай.

Pocket TTS

100M параметри Преценка на процесора Гласово клониране Клониране с един образец Готови за ръба

Лесен модел на параметър 100M от Kyutai с гласово клониране от една проба.

Бързо · 1GB VRAM Опитай.

Kitten TTS

Изчисляване само на процесора Размер на модела под 80MB 8 вградени гласове Контрол на скоростта Основано на ONNX 24kHz изход

Ултра-лек TTS под 80MB. Изпълнява процесора без GPU.

Бързо · 0GB VRAM Опитай.

CosyVoice3

Двустранно преминаване Контрол на емоциите Гласово клониране Контрол на скоростта/обема Инструкция след

Следващото поколение многоезично ТТС с двустриминг, контрол на емоциите и клониране на глас с нулеви удари.

Бързо · 4GB VRAM Опитай.

NAMAA Saudi TTS

Саудитски арабски диалект Модерен стандартен арабски Гласово клониране с нулеви изстрели Контрол на емоциите Изговор на произход

Първо отвори Саудитско-арабски ТТС. Роден саудитски диалект с клониране на гласово качество Chatterbox.

Средна · 6GB VRAM Опитай.

Darwin TTS

Гласово клониране Кръстословно FFN-кървави 4 основни езици Qwen3 гръбнач

Кръстосан вариант Qwen3-TTS с FFN тежести смесени от Qwen3-1.7B езиков модел за по-язично клониране.

Средна · 7GB VRAM Опитай.

MOSS-TTSD

Диалог с многоговорители До 5 оратора 60min съгласуван звук Гласово клониране Оптимизиран подкаст

Модел за продължаване на многоговорителния диалог — генериране на разговори в стила на подкаст с до 5 говорители и 60 минути на съгласуван аудио.

Средна · 12GB VRAM Опитай.

Ming-Omni TTS

44.1kHz изход Гласово клониране Контрол на емоциите Контрол на диалектите Поколение на BGM Компактно 0. 5B

Компактен 0.5B модален речен модел от включванеAI с висока вяра 44.1kHz изход и клониране на нулевия глас.

Средна · 3GB VRAM Опитай.

MOSS-TTS Nano