Вільний комп' ютер Текст для мовлення

Параметри 82M Ультра- швидкий Виразні голоси Багатомовний Підтримка потоку

Невимоглива модель параметрів 82М, яка забезпечує гнучку мову за допомогою швидкого об'єкта.

Швидка · 1.5GB VRAM Спробуй.

Piper

Дружній до ЦП Можливість автономного зв' язкуName 100+ голосів 35+ Мови Підтримка SSML

Швидкий, місцевий нейронний текст до системи мовлення оптимізований для Raspberry Pi і вбудованих пристроїв.

Швидка · 0 (CPU only) VRAM Спробуй.

VITS

Конфігурація від початку до кінця Природні пролодії Швидкі висновки Декілька промовців

Умовний автоматичний кодувальник з адверсальним навчанням для кінцевого синтезу мовлення з тексту.

Швидка · 1GB VRAM Спробуй.

MeloTTS

Оптимізація ЦП Багатомовний Декілька акцентів Виробництво- готове Низька спізнення

Висока якість багатомовного синтезу мовлення, що виконується на процесорі з мінімальною пізнотою.

Швидка · 0.5GB (GPU optional) VRAM Спробуй.

Bark

Звукові ефекти Сміється/зітхає Створення музики 100+ гучномовці Багатомовний

Модель перетворення, заснована на тексті, яка створює реалістичну мову, музику та звукові ефекти.

Повільно · 5GB VRAM Спробуй.

Bark Small

Незначна Швидше, ніж повна колода Емоційна мова Багатомовний

Легша версія Bark з швидшим використанням об' єму і нижнім використанням пам' яті.

Середній · 2GB VRAM Спробуй.

CosyVoice 2

Потік Нульове клонування Поперечний Керування емоційками Співвідношення людини

Широкий потік TTS Алібаби з властивістю людини і майже нульовою пізнотою.

Dia TTS

Багатомовний гучномовець Створення діалогових вікон Природний хід Емоційне вираження Параметри 1. 6B

Модель створення діалогового вікна синтезу мовлення, яка створює натуральні розмови між промовцями.

Parler TTS

Опис голосу Керування природною мовою Гнучкість створення голосу Не потрібен набір голосів

Опиши голос, який ви хочете почути рідною мовою, і Parler створює відповідну мову.

Indic Parler TTS

11 Індійські мови Опис голосу Керування природною мовою Автентифікована індійська вимова

Високоякісна мова для 8+індських мов з контролем природніх мов.

Повільно · 8GB VRAM Спробуй.

KhanomTan TTS

Тайський TTSName Декілька промовців Архітектура ваших TVTS Комерційна- безпечна ліцензія

Тайський перший текстовий текст з вибором промовців.

Швидка · 2GB VRAM Спробуй.

IndexTTS-2

Керування емоційками Нульовий Вектори емоцій Висловлювальна мова Тонкий контроль

Нульовий TTS з акуратним контролем емоцій і високою експресивністю.

Spark TTS

Клонування голосів Керування емоційками Керування стилями Запит на основі 5- секундне клонування

Голосове клонування TTS з контрольованими емоційами та манерою мовлення за допомогою запитів.

GPT-SoVITS

5- секундне клонування Співзвучний голос Незначне навчання Висока точність Поперечний

Небагато голосових клонувань TTS, які відтворюють будь-який голос лише з 5 секунд аудіо.

Повільно · 6GB VRAM Спробуй.

Orpheus

Емоції рівня людини Тренування 100K годин Природний наголос Висловлювальна мова

Емоційна модель TTS людського рівня тренувалася за 100K годин мовних даних.

Chatterbox

Нульове клонування Керування емоційками Висока точність Перенесення стилю Однопрозоре клонування

Державне непродуктивне клонування голосу з емоційною контролею Resemble AI.

Tortoise TTS

Найвища якість Багатоголосий Архітектура DALL- E Клонування голосів Авторегресивний

Багатоголосовий текстовий синтез фокусувався на якості з автоматичною архітектурою.

Повільно · 8GB VRAM Спробуй.

StyleTTS 2

Рівень людини Розсіювання стилю Вправа з ворожіннями Природна варіація Висока точність

Синтез мовлення людського рівня через поширення стилю та вороже тренування.

OpenVoice

Негайне клонування Перетворення голосу Керування емоційками Керування Accent Багатомовний

Миттєве клонування голосу з гранулярним контролем над стилем, емоціями та акцентом.

Qwen3 TTS

9 наборених голосів Компонування голосу з тексту Керування емоційками 10 мов

Багатомовне TTS Алібаби з конфігурованим голосом і конструкцією голосу з тексту.

Середній · 7GB VRAM Спробуй.

VieNeu-TTS-v2

7 наборних голосів (Північ + південні акценти) Перемикання коду En- Vi Клонування голосу (3- 5) Підтримка трансляції/ багатомовця Лише процесор не потрібен GPU

В' єтнамська + Англійська мовою, що перемішує коди TTS з 7 наборними голосами і нульовим голосовим клонуванням. Лише ЦП, не потрібен GPU.

Швидка · CPU VRAM Спробуй.

Sesame CSM

Розмова Природний час Перемотування поворотів Зворотний канал Параметри 1B

Взірець розмовної мови створює природний діалог з відповідним часом і емоціями.

Повільно · 8GB VRAM Спробуй.

Chatterbox Turbo

Sub- 200 мс пізно@ info: credit Паралінгвістичні мітки 6x у режимі реального часу Клонування голосів Водні знаки

Швидше Chatterbox з запізнілими під200м і паралінгвістськими тегами для сміху, кашлю та інших.

Швидка · 2GB VRAM Спробуй.

VoxCPM

Звук 44. 1kГц Tokenizer-free Поперечний клонування Перевірка контексту Lora fight- tuning

TTS без тонера, що створює 44. 1kГц аудіо з консистенцією абзаців з контекстом.

Швидка · 4GB VRAM Спробуй.

Kani TTS 2

3GB VRAM Ультра- швидкий Незначна Нанокодекturkey. kgm Вільно

Ультралегативна модель англійської TTS, що працює лише в 3GB VRAM.

Швидка · 3GB VRAM Спробуй.

OuteTTS

Підсумок ЦП Підсумок навігатора Декілька серверів Профілі мовців

Заснований на LLM TTS, які працюють на процесорі, GPU, або переглядачі за допомогою Lasa. cpp і Transformers.js.

Повільно · 2GB VRAM Спробуй.

VibeVoice

Багатомовний гучномовець До 90 хв Створення радіотрансляції Послідовність мовця 200 мс потік

Microsoft Model для багатомовного вмісту багатомовця, зокрема трансляції і аудіокнижки.

Швидка · 4GB VRAM Спробуй.

Pocket TTS

Параметри 100M Підсумок ЦП Клонування голосів Однопанцеве клонування Приготовлений до ребер

Невимоглива модель параметрів 100M, створена Kyutai з клонуванням голосу з однієї вибірки.

Швидка · 1GB VRAM Спробуй.

Kitten TTS

Вибір лише ЦП Під 80 МБ- розміром моделі 8 вбудованих голосів Керування швидкістю На основі ONNX Вивід 24kГц

Ультралегативне TTS до 80 Мб. Виконує процесор без GPU.

Швидка · 0GB VRAM Спробуй.

CosyVoice3

Бі- стрічка Керування емоційками Клонування голосів Керування швидкістю/ вольом Інструкція нижче

Наступного покоління багатомовне TTS з двобічним керуванням, емоційним контролем і нульовим голосовим клонуванням.

Швидка · 4GB VRAM Спробуй.

NAMAA Saudi TTS

Саудівський арабський діалект Сучасна стандартна арабська Клонування голосів з нульовим ударом Керування емоційками Рідна вимова

Перший відкритий Саудівський-Аравічний TTS. Природний Саудівський діалект з високоякісним голосовим клонуванням Chatterbox.

Середній · 6GB VRAM Спробуй.

Darwin TTS

Клонування голосів Поперечний З' єднаний з FFN 4 основні мови Картка Qwen3

Поперечний варіант Qwen3- TTS з масою FFN, змішаний з моделлю мови Qwen3- 1. 7B для гострішого багатомовного клонування.

Середній · 7GB VRAM Спробуй.

MOSS-TTSD

Дієслово багатомовця До 5 промовців 60min З' єднаний звук Клонування голосів Оптимізовано радіотрансляцій

Дієслово багатомовця-повторювальна модель, що складається у стилі трансляційного зв'язку з п'ятьма гучномовцями і 60 хвилин зв'язаного аудіо.

Середній · 12GB VRAM Спробуй.

Ming-Omni TTS

44. 1kГц Клонування голосів Керування емоційками Керування додзвоном Створення BGM Компактний 0. 5Б

Ущільнити 0,5Б всемогутню модель мовлення від включенняAI з високофіделічною виводом 44,1кГц і клонуванням голосів з нульовим ударом.

Середній · 3GB VRAM Спробуй.

MOSS-TTS Nano