Слободна ВИ Текст за говор

82M параметри Ултра- брзина Експресивни гласови Повеќејазичен Поддршка за пренесување

Лесен модел на параметр 82M кој дава говор на квалитетот на студиото со брзо палење.

Брзо · 1.5GB VRAM Обиди се.

Piper

Пријатно на процесор Офлајн способен 100+ гласови 35+ јазици Поддршка за SSML

Брз, локален неуролошки текст за говорниот систем оптимизиран за малина и вградени уреди.

Брзо · 0 (CPU only) VRAM Обиди се.

VITS

Синтеза од крај до крај Природна прозодија Брзи заклучоци Повеќекратни звучници

Условно варијационен автоматски кодер со спротивно учење за крај на текстот.

Брзо · 1GB VRAM Обиди се.

MeloTTS

Оптимизиран со процесор Повеќејазичен Повеќекратни акценти Производство подготвено Ниска латенција

Висок квалитет на повеќејазичен текст- во-шпик кој работи на ЦП со минимална латенција.

Брзо · 0.5GB (GPU optional) VRAM Обиди се.

Bark

Звучни ефекти Смеење/издишување Генерација на музика 100+ звучници Повеќејазичен

Текст-на-аудио модел на трансформатор кој генерира реалистичен говор, музика и звучни ефекти.

Бавно · 5GB VRAM Обиди се.

Bark Small

Лесно Побрзо од полн Лав. Емоционален говор Повеќејазичен

Посветла верзија на Барк со побрз заклучок и пониска употреба на меморија.

Средно · 2GB VRAM Обиди се.

CosyVoice 2

Течење Клонирање со нулти куршуми Крст- јазик Контрола на емоциите Човечки паритет

Алибабабината скалална ТТС со природна човечка паритетност и речиси нула латенција.

Dia TTS

Мулти- звучник Генерирање дијалог Природно превртување Емоционален израз 1.6B параметри

Модел на генерирање на повеќеговоричи, кој создава природни разговори помеѓу звучниците.

Parler TTS

Опис на гласот Контрола на природниот јазик Флексибилно креирање на глас Не се потребни претпоставени гласови

Опиши го гласот што го сакаш на природниот јазик и Parler генерира совпаѓачки говор.

Indic Parler TTS

11 индиски јазици Опис на гласот Контрола на природниот јазик Аутентичен индиски изговор

Висок квалитет на говорот за 8+ индиски јазици со природна контрола на гласот.

Бавно · 8GB VRAM Обиди се.

KhanomTan TTS

Тајландски ТТС Повеќекратни звучници Архитектурата на YourTTS Комерцијална лиценца

Тајландски-прв текст-на-спиеч со избор на говорници гласови.

Брзо · 2GB VRAM Обиди се.

IndexTTS-2

Контрола на емоциите Нула- погодок Емоционални вектори Експресивен говор Фино зграпчена контрола

Нула-погоден ТТС со фино-зрела контрола на емоциите и висока експресивност.

Spark TTS

Гласовно клонирање Контрола на емоциите Контрола на стилот Засновано на барање 5 секунди клонирање

Гласовното клонирање на ТТС со контролирани емоции и стил на зборување преку испити.

GPT-SoVITS

5 секунди клонирање Пеечки глас Неколкукратно учење Висока верност Крст- јазик

Неколку гласови клонирање ТТС кои го репликираат секој глас од само 5 секунди аудио.

Бавно · 6GB VRAM Обиди се.

Orpheus

Човечко ниво на емоции 100K часовен тренинг Природен нагласок Експресивен говор

Емоционалниот модел на ТТС на човеково ниво обучуван за 100 000 часа говорни податоци.

Chatterbox

Клонирање со нулти куршуми Контрола на емоциите Висока верност Пренос на стил Клонирање на еден примерок

Современо клонирање на гласот со контрола на емоциите од Ресембл АИ.

Tortoise TTS

Највисок квалитет Повеќегласно Архитектура DALL-E Гласовно клонирање Авторегресивно

Мулти-гласен текст-на-спиеч се фокусираше на квалитетот со автоматски регресивна архитектура.

Бавно · 8GB VRAM Обиди се.

StyleTTS 2

Човечко ниво Дифузија на стилот Непријателска обука Природна варијација Висока верност

Човечко ниво на текст во говор преку дифузија во стилот и противречна обука.

OpenVoice

Моментално клонирање Конвертирање на глас Контрола на емоциите Контрола на акцентот Повеќејазичен

Моментално клонирање на гласот со гранулирана контрола над стилот, емоциите и акцентот.

Qwen3 TTS

9 претпоставени гласови Дизајн на глас од текст Контрола на емоциите 10 јазици

Повеќејазичната ТТС на Алибаба со предефинирани гласови и дизајн на глас од текстот.

Средно · 7GB VRAM Обиди се.

VieNeu-TTS-v2

7 претпоставени гласови (Север + Јужен акцент) Преместување на кодот En-Vi Гласовно клонирање (3-5s референца) Поддршка за подемисија/ повеќезвучник Само процесор — не е потребен GPU

Виетнамски + Англиски превртувач на кодови TTS со 7 претпоставени гласови и клонирање со нулти глас. Само процесор, не е потребен GPU.

Брзо · CPU VRAM Обиди се.

Sesame CSM

Разговорно Природен тајминг Свртење Позадина на каналот 1B параметри

Разговорниот модел на говор создава природни дијалоги со соодветен тајминг и емоции.

Бавно · 8GB VRAM Обиди се.

Chatterbox Turbo

Под- 200м латенција Паралингвистички ознаки 6x во реално време Гласовно клонирање Означување на жиг

Побрзо чаттербокс со под-200 метри латенција и паралингуистички ознаки за смеење, кашлање и повеќе.

Брзо · 2GB VRAM Обиди се.

VoxCPM

44.1kHz аудио Без токенизирање Клунирање меѓу јазикот Контекстно свесен ЛоРА е фино допрена.

ТТС без токенизирање произведува 44.1kHz аудио со конзистентност на контекстот.

Брзо · 4GB VRAM Обиди се.

Kani TTS 2

3GB VRAM Ултра- брзина Лесно Нанокодек Слободен

Ултра-лаки 400М Англиски TTS модел кој работи во само 3GB VRAM.

Брзо · 3GB VRAM Обиди се.

OuteTTS

Заклучок на процесорот Заклучок за прелистувачот Повеќекратни заднини Профили на звучникот

TTS базиран на LLM кој работи на процесор, GPU или прелистувач преку lama.cpp и Transformers.js.

Бавно · 2GB VRAM Обиди се.

VibeVoice

Мулти- звучник До 90 мин Генерација на подемисија Конзистентност на звучникот 200м струја

Мајкрософт модел за долгоформирана содржина на мултимедиктори како подкасти и аудио книги.

Брзо · 4GB VRAM Обиди се.

Pocket TTS

Параметри на 100M Заклучок на процесорот Гласовно клонирање Клонирање со еден примерок Подготвен за работ

Лесен модел на параметар 100М од Кјутаи со клонирање на гласот од еден примерок.

Брзо · 1GB VRAM Обиди се.

Kitten TTS

Заклучок само за процесор Под 80MB големина на моделот 8 вградени гласови Контрола на брзината Базирано на ONNX 24kHz излез

Ултра-лака TTS под 80MB. Работи на процесор без GPU.

Брзо · 0GB VRAM Обиди се.

CosyVoice3

Двостримирање Контрола на емоциите Гласовно клонирање Контрола на брзината/ обемот Упатство следно

Следната генерација јазичен ТТС со двостримирање, контрола на емоциите и клонирање на гласот со нулти удар.

Брзо · 4GB VRAM Обиди се.

NAMAA Saudi TTS

Саудиски арапски дијалект Модерен стандарден арапски Клонирање на гласот со нулти куршуми Контрола на емоциите Изговор

Првиот отворен саудиско-арапски ТТС, домороден саудиски дијалект со клонирање на гласот на чаттербокс.

Средно · 6GB VRAM Обиди се.

Darwin TTS

Гласовно клонирање Крст- јазик FFN- крвав 4 основни јазици Qwen3 рбет

Кросмодалната варијанта Qwen3-TTS со FFN тежини измешана од Qwen3-1,7B јазичен модел за појазично клонирање.

Средно · 7GB VRAM Обиди се.

MOSS-TTSD

Дијалог со повеќе звучници До 5 звучници 60min кохерентно аудио Гласовно клонирање Оптимизиран со подемисија

Модел за продолжување на повеќезвучниот дијалог — генерира разговори во стилот на подкаст со до 5 звучници и 60 минути кохерентно аудио.

Средно · 12GB VRAM Обиди се.

Ming-Omni TTS

44.1kHz излез Гласовно клонирање Контрола на емоциите Контрола на диалектите Генерација на BGM Компактно 0. 5B

Компактен модел на вкупен говор од 0.5Б од вклучувањеAI со висока верност 44.1kHz излез и клонирање на гласот со нулти удар.

Средно · 3GB VRAM Обиди се.

MOSS-TTS Nano