Report Bug / Feature Request

ВИ текст за говор

Претварање текста у природни говор са моделима ВИ отвореног извора. Слободно за коришћење, није неопходан налог.

Слободно се пријави

0/500 знакови · Sign up for 5,000 per generation →

Упиши се за ограничење 5.000 знакова

ССМЛ режим (Синтези говора об‹ иљежавају језик за фину контролу)

Умотајте текст у ССМЛ ознаке за прецизну контролу:

<speak><prosody rate="slow">Slow speech</prosody></speak>

Ознаке емоција/ стила

Додај маркере емоција да утичу на испоруку (модел подршке варира):

р› јечник изговора

Дефинишите посебне изговоре (слов = изговор):

Скупина 0

-12 +12

ВИ модел

Глас

Језик

Формат излаза

Брзина 1.0x

0.5x 2.0x

Слободна са Пајпер, Витс, Мелоттс

Овд› је ће се појавити генерисани звук. Изаберите модел, унесите текст и кликните на Генериши.

Детаљи модела

Kitten TTS

Free

Kitten TTS by KittenML is an ultra-lightweight text-to-speech model built on ONNX. With variants from 15M to 80M parameters (25-80 MB on disk), it delivers high-quality voice synthesis on CPU without requiring a GPU. Features 8 built-in voices, adjustable speech speed, and built-in text preprocessing for numbers, currencies, and units. Ideal for edge deployment and low-latency applications.

Програмер:	KittenML
Лиценца:	Apache 2.0
Брзина	Fast
Квалитет:
језици	1 језик
ВРАМ	0GB
Гласово клонирање	Није подржано

Могућности:

CPU-only inference Under 80MB model size 8 built-in voices Speed control ONNX-based 24kHz output

Најбоље за:: Fast lightweight TTS, edge deployment, low-latency applications

Савети за боље резултате

Користи одговарајуће интерпункција за природне паузе и интонације
Изреци бројеве и скраћенице за јаснији изговор
Додај зарезе за стварање кратких пауза између израза
Користи елипсу (...) за дуже драматичне паузе
Пробајте Кокоро или Згодни глас 2 за најприродније резултате
Користи Дија за вишезвучни дијалог и садржај подемисије

Употреба знакова

Низ	Трошкови по 1K знаковима
слободни	0 кредита (неограничено)
стандардни	2 кредита / 1K знакова
премијум	4 кредита / 1K знакова

Добављање више знакова

Како ВИ текст ради говора

Генерирајте професионално квалитетне гласове у три једноставна корака.

Корак 1

Унесите свој текст

Унесите, налепите или слајте текст који желите да претворите у говор. Подршкује до 5.000 знакова по генерацији за пријављене кориснике. Користите обичан текст или додајте ССМЛ ознаке за напредну контролу изговора, паузе и нагласка.

Корак 2

Изаберите модел и глас

Изаберите из 20+ АИ модела преко три нивоа. Изаберите глас који одговара вашем садржају, изаберите циљни језик, подесите брзину пуштања са 0,5× на 2.0× и изаберите свој пожељени излазни формат (MP3, WAV, OGG или FLAC).

Корак 3

Генериши & преузимање

Кликните на Генериши и аудио је спреман за секунде. Преглед са уграђеним плејером, преузимањем у изабраном формату или копирањем везе која може да се дели. Користите АПИ за серију обраде и интеграције у радни ток.

Случаји коришћења текста за говор

АИ-погон текста-на-спеецх трансформише начин на који људи стварају, конзумирају и интеракцију са аудио садржајем преко десетина индустрија.

Аудиокњиге

Претворите целе књиге у природне аудио књиге са нарацијом квалитета студија. Подршка вишезвучника са ~@ ¦Дија¦Dia¦ за дијалог са знаковима.

Видео

Направите професионалне гласове за Јутјуб, ТикТок, Инстаграм Рилс и Шортс. 100+ гласова или клонирајте своје.

Подемисије

Генеришите епизоде подемисије са скриптама са више ВИ гласова. Користите Дија за природне двоговориоце.

Гаминг

АИ глас делује за невидљиве игре, визуелне романе и интерактивну фантастику. НПЦ дијалог, сечење гласова, 30+ језика.

Е-учење

Претворите материјале, лекције и садржај обуке у аудио. Подршка за глобалне платформе на више језика.

Приступачност

Омогућава приступ веб сајтовима, документама и апликацијама. Екран читач АПИ интеграција и претварање чланака у аудио.

ИВР & телефонски системи

Моћни ИВР системи, телефонски менији, и сервис корисника са природним АИ гласовима.

Социјални медији

ТикТок приповедања, Инстаграм Рилс, Твитер/Кс коментари, Јутјуб Шортс, брза генерација са слободним моделима.

Стрејање

Твицх ТТС упозорења, ћаскање-то-глас, ВИ- домаћини, и дисцорд робови. Ниска латенција, 100+ гласова, СтреамЕлементс компатибилни.

Маркетинг

Гласови, објашњивачи видео снимака, демо производа и продаје презентације, продукција аудио садржаја широм кампања.

Дубирање и локализација

Преведите и преведите видео на 30+ језика са ВИ. Аутоматско преписивање и откривање звучника.

Медитација и доброта

Вођене медитације, приче за спавање, вежбе дисања, и потврде са мирним, умирујућим АИ гласовима.

Прикажи све величине и алатке за коришћење

Модели свих текста за говор

Детаљне спецификације за сваки модел АИ доступан на TTS.ai. Упоредите квалитет, брзину, језичну подршку и могућности за проналажење савршеног модела за ваш пројекат.

Kokoro

Free

Кокоро је 82 милиона параметара за текст у говор који удара много изнад класе тежине. Упркос малим величинама, производи изузетно природни и изразиви говор. Кокоро подржава више језика, укључујући енглески, јапански, кинески и корејски, различитим изразивим гласовима. Ради невероватно брзо — генерише аудио скоро 100 икс брже од реалног времена на ГПУ.

Програмер::
Hexgrad

Лиценца::
Apache 2.0

Брзина:
Fast

Квалитет::

језици:
en, ja, zh, fr, it, pt, es, hi

ВРАМ:
1.5GB

Гласово клонирање:
Не.

Трошкови по 1K знаковима:
слободни

82М параметри Ултра‐ брзина Експресивни гласови вишејезично Подршка за ток

Најбоље за:: Висок квалитет ТТС са минималном латенцијом, преносом програма

Покушај Kokoro

Piper

Free

Пајпер је лака текстуална у пеец мотор развијен од стране Рхаспија који користи ВИТС и архитектуру грла. Чини га идеалним за ивице уређаје, домаћу аутоматизацију и програме који захтевају офлајн ТТС. Са преко 100 гласова преко 30+ језика, Пајпер пружа природни говор при реалном временским брзинама чак и на Распбери Пи 4.

Програмер::
Rhasspy

Лиценца::
MIT

Брзина:
Fast

Квалитет::

језици:
en, de, fr, es, it, pt, nl, pl, ru, zh, ar, cs, da, fi, el, hu, is, ka, kk, ne, no, ro, sk, sr, sv, sw, tr, uk, vi

ВРАМ:
0 (CPU only)

Гласово клонирање:
Не.

Трошкови по 1K знаковима:
слободни

Пријатно на ЦПУ Офлајн способан 100+гласова 30+ језика Подршка за ССМЛ

Најбоље за:: Брзи прегледи, приступачност и уграђени програми

Покушај Piper

VITS

Free

ВИТС (Вериционални закључак са супротним учењем за крајње до крајњег текстуалног говора) је паралелан метод од крајњег до крајњег ТТС‐ а који генерише више природног звука него тренутни двофазови модели. Прихвата варијациони закључак повећан нормализујућим токовима и процесом обратног обуке, што постиже значајно побољшање природности.

Програмер::
Jaehyeon Kim et al.

Лиценца::
MIT

Брзина:
Fast

Квалитет::

језици:
en, de, es, fr, pt, nl, fi, hu, bg, uk, pl

ВРАМ:
1GB

Гласово клонирање:
Не.

Трошкови по 1K знаковима:
слободни

Синтеза краја до краја Природна прозодија Брзи закључци Вишеструки звучници

Најбоље за:: Опште намештање текстуалног говора са природном прозодијом

Покушај VITS

MeloTTS

Free

МелоТТС од MyShell.ai је многојезична TTS библиотека која подржава енглески (амерички, британски, индијски, аустралијски), шпански, француски, кинески, јапански и корејски. Изузетно је брз, обрађује текст само на ЦПУ‐ у у ускоро. МелоТТС је дизајниран за коришћење производње и подржава и ЦПУ закључак.

Програмер::
MyShell.ai

Лиценца::
MIT

Брзина:
Fast

Квалитет::

језици:
en, es, fr, zh, ja, ko

ВРАМ:
0.5GB (GPU optional)

Гласово клонирање:
Не.

Трошкови по 1K знаковима:
слободни

Оптимизован ЦПУ‐ ом вишејезично Вишеструки нагласци Производња спремна Ниска латенција

Најбоље за:: Производни програми којима је потребна брза, јазична ТТС

Покушај MeloTTS

Bark

Standard

Барк би Суно је текстуални модел на основу трансформатора који може да генерише веома реалистичан, многојезичан говор, као и други аудио попут музике, буке позадине и звучних ефеката. Може да произведе невербалне комуникације као што су смех, уздах и плачење. Лак подржава преко 100 предеб› јеви говорника и 13+ језика.

Програмер::
Suno

Лиценца::
MIT

Брзина:
Slow

Квалитет::

језици:
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr

ВРАМ:
5GB

Гласово клонирање:
Не.

Трошкови по 1K знаковима:
2x

Звучни ефекти Смејање/уздишивање Генерација музике 100+ звучника вишејезично

Најбоље за:: Креативан аудио садржај, аудио књиге са емоцијама, звучни ефекти

Покушај Bark

Bark Small

Standard

Барк Смалл је дестилирана верзија модела Барк који тргује неке квалитете звука за значајно брже закључке и мање меморијске захтеве. Задржава способност Барк да генерише говор емоцијама, смехом и више језика.

Програмер::
Suno

Лиценца::
MIT

Брзина:
Medium

Квалитет::

језици:
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr

ВРАМ:
2GB

Гласово клонирање:
Не.

Трошкови по 1K знаковима:
2x

Лагано Брже од пуног Лајања Емоционални говор вишејезично

Најбоље за:: Брзи креативни звук када је пун Лајање преспоро

Покушај Bark Small

CosyVoice 2

Standard

Узимајући глас 2 од Алибабиног лабораторије Тонги постиже људско-поређење квалитета говора са изузетно ниском латенцијом, чинећи га идеалним за апликације у реалном времену. Користи коначан скаларски квантизациони приступ за пренос синтезе и подржава клонирање гласа у нултој брзини, унакрсно-језичну синтезу и фино-зграђену контролу емоција. Она надмашује многе комерцијалне ТТС системе у субјективним проценама.

Програмер::
Alibaba (Tongyi Lab)

Лиценца::
Apache 2.0

Брзина:
Medium

Квалитет::

језици:
en, zh, ja, ko, fr, de, it, es

ВРАМ:
4GB

Гласово клонирање:
Да.

Трошкови по 1K знаковима:
2x

Стрејање клонирање нултих метака укрштено-језично Контрола емоција Људски паритет

Најбоље за:: Реалновременски програми, ТТС, говорни помоћници

Покушај CosyVoice 2

Dia TTS

Standard

Диа од Нари Лабса је 1, 6Б параметар текстуални у шпиц модел дизајниран посебно за стварање вишезвучног дијалога. Може да произведе природни разговор између два говорника са одговарајућим обраћањем, прозодијом и емоционалним изразом. Дија је савршена за стварање садржаја у стилу подемисија, аудио књига дијалога и интерактивног разговорног ВИ.

Програмер::
Nari Labs

Лиценца::
Apache 2.0

Брзина:
Medium

Квалитет::

језици:
en

ВРАМ:
4GB

Гласово клонирање:
Не.

Трошкови по 1K знаковима:
2x

Мулти-звучник Стварање дијалога Природно преокретање Емоционални израз 1.6Б параметри

Најбоље за:: Подемисије, дијалоги аудиокњига, разговорни садржај

Покушај Dia TTS

Parler TTS

Standard

Парлер ТТС је модел текста- у- говор који користи описе природног језика за контролу генерисаног говора. Уместо да бирате из предефинисаних гласова, описујете глас који желите (нпр. „ топла жена са благим британским нагласком, полако и јасно говорећи “), а Парлер генерише говор који се поклапа са тим описом. Ово га чини јединствено флексибилним за креативне програме.

Програмер::
Hugging Face

Лиценца::
Apache 2.0

Брзина:
Medium

Квалитет::

језици:
en

ВРАМ:
4GB

Гласово клонирање:
Не.

Трошкови по 1K знаковима:
2x

Опис гласа Контрола природног језика Флексибилно креирање гласа Није потребна претподешавање гласова

Најбоље за:: Креативни програми где су вам потребне посебне говорне карактеристике

Покушај Parler TTS

GLM-TTS

Standard

ГЛМ- ТТС од Жипа АИ је текстуални систем изграђен на ламској архитектури са поклапањем тока. Постиже најнижу стопу карактерних грешака између модела ТТС отвореног извора, што значи да производи најпрецизнији изговор. ГЛМ- ТТС подржава енглески и кинески са клонирањем гласа од 3- 10 секунди узорка звука.

Програмер::
Zhipu AI

Лиценца::
GLM-4 License

Брзина:
Medium

Квалитет::

језици:
en, zh

ВРАМ:
4GB

Гласово клонирање:
Да.

Трошкови по 1K знаковима:
2x

најмања стопа грешака Гласово клонирање поклапање тока Природна прозодија

Најбоље за:: Програми захтевају највећу тачност изговора

Покушај GLM-TTS

IndexTTS-2

Standard

ИндексТТС-2 је напредни систем за текст- у- говор који надмашује при синтези гласа са нула- ударца са фино- зрелим контролом емоција. Може да генерише говор са специфичним емоционалним тоновима као што су срећни, тужни, љути или уплашени без потребе за подацима о обуци специфичним за емоције. Модел користи емоционалне векторе за прецизно контролу емоционалног израза генерисаног говора.

Програмер::
Index Team

Лиценца::
Bilibili Model License

Брзина:
Medium

Квалитет::

језици:
en, zh

ВРАМ:
4GB

Гласово клонирање:
Да.

Трошкови по 1K знаковима:
2x

Контрола емоција Нула-пуцањ Емоционални вектори Експресивни говор Фино-зелена контрола

Најбоље за:: Емоционално изразиви садржај, аудио књиге, виртуелни помоћници

Покушај IndexTTS-2

Spark TTS

Standard

Спарк ТТС би СпаркАудио је модел текста- у- говор који комбинује клонирање гласа са контролисаним емоцијама и стилом говора. Користећи само 5 секунди референтног звука, може клонирати глас и генерисати говор са различитим емоцијама, брзинама и стиловима при одржавању клонираног гласачког идентитета. Спарк ТТС користи брзински контролни систем.

Програмер::
SparkAudio

Лиценца::
CC BY-NC-SA 4.0

Брзина:
Medium

Квалитет::

језици:
en, zh

ВРАМ:
4GB

Гласово клонирање:
Да.

Трошкови по 1K знаковима:
2x

Гласово клонирање Контрола емоција Управљање стилом Питање засновано на питању 5 секунди клонирање

Најбоље за:: Стварање садржаја са клонираним гласовима и емоционалном контролом

Покушај Spark TTS

GPT-SoVITS

Standard

GPT-SoviTS комбинује GPT- стил моделирање језика са SoVITS (певање говора преко превода и синтеза) за моћно клонирање малократног гласа. Са само 5 секунди референтног звука, може тачно клонирати глас и генерисати нови говор при одржавању јединствених карактеристика говорника. Извршава се и при говору и певању синтезе гласа.

Програмер::
RVC-Boss

Лиценца::
MIT

Брзина:
Slow

Квалитет::

језици:
en, zh, ja, ko

ВРАМ:
6GB

Гласово клонирање:
Да.

Трошкови по 1K знаковима:
2x

5 секунди клонирање Певачки глас Неколикократко учење Висока верност укрштено-језично

Најбоље за:: Гласово клонирање, синтеза певања, садржај стварач гласа репликација

Покушај GPT-SoVITS

Orpheus

Standard

Орфеј је манекенски текстуални модел који постиже емоционални израз људског нивоа, обучаван на преко 100.000 сати различитих говорних података, изузетан је у стварању говора са природним емоцијама, нагласком и говорним стиловима. Орфеј може да произведе говор који је практично неразличив од људских снимака.

Програмер::
Canopy Labs

Лиценца::
Llama 3.2 Community

Брзина:
Medium

Квалитет::

језици:
en

ВРАМ:
4GB

Гласово клонирање:
Не.

Трошкови по 1K знаковима:
2x

Емоције људског нивоа 100К сати обуке Природни нагласак Експресивни говор

Најбоље за:: Високи квалитет емоционални говор, аудио књиге, глас глума

Покушај Orpheus

Chatterbox

Premium

Цхаттербокс од Ресембл АИ је најбољи клонирање гласова. Може да репликује сваки глас из једног аудио узорка са изузетном тачношћу, прихватајући не само тимбру, већ и стил говора и емоционалне нюансе. Цхаттербокс такође примећује фино- зграђену контролу емоција, што вам омогућава да прилагодите емоционални тон генерисаног говора независно од гласовног идентитета.

Програмер::
Resemble AI

Лиценца::
MIT

Брзина:
Medium

Квалитет::

језици:
en

ВРАМ:
4GB

Гласово клонирање:
Да.

Трошкови по 1K знаковима:
4x

клонирање нултих метака Контрола емоција Висока верност Пренос стила Један узорак клонирања

Најбоље за:: Професионално клонирање гласа са емоционалном контролом, стварање садржаја

Покушај Chatterbox

Tortoise TTS

Premium

Тортоиз ТТС је аутоматски регресиван вишегласни текстуални систем који приоритетира квалитет звука у односу на брзину. Користи ДАЛЛ‐ Е- инспирисану архитектуру за стварање веома природног говора са одличном сличношћу прозодија и говорника. Иако је спорије од многих алтернатива, Тортоиз производи неке од најреалистичнијих синтетичких говора доступних у екосистему отвореног извора.

Програмер::
James Betker

Лиценца::
Apache 2.0

Брзина:
Slow

Квалитет::

језици:
en

ВРАМ:
8GB

Гласово клонирање:
Да.

Трошкови по 1K знаковима:
4x

највиши квалитет Вишегласни Архитектура ДАЛЛ‐ Е Гласово клонирање Аутоматски регресивни

Најбоље за:: Аудиокњиге, премијски садржај, прво квалитетне програме

Покушај Tortoise TTS

StyleTTS 2

Premium

СтилТТС 2 постиже синтезу ТТС на људском нивоу комбинујући дифузију стила са спр› иједничким обуком користећи велике моделе говорног језика. Он ствара најприроднији говор међу једнозвучним моделима, ривалне људске снимке. СтилТСС 2 користи моделирање стила на основу дифузије да би снимио пун опсег варијације људског говора.

Програмер::
Columbia University

Лиценца::
MIT

Брзина:
Medium

Квалитет::

језици:
en

ВРАМ:
4GB

Гласово клонирање:
Не.

Трошкови по 1K знаковима:
4x

Људски ниво Дифузија стила Супротни тренинг Природна варијација Висока верност

Најбоље за:: Студијски квалитет синтеза једног говорника, професионална нарација

Покушај StyleTTS 2

OpenVoice

Premium

Отворен глас од MyShell.ai омогућава инстант клонирање гласом са грануларном контролом над стилом гласа, емоцијама, акцентом, ритамом, паузама и интнацијом. Може клонирати глас из кратког аудио клипа и генерисати говор на више језика при одржавању идентитета звучника. Отворени глас такође функционише као претварач гласова, што омогућава трансформацију гласа у реалном времену.

Програмер::
MyShell.ai / MIT

Лиценца::
MIT

Брзина:
Medium

Квалитет::

језици:
en, zh, ja, ko, fr, es

ВРАМ:
4GB

Гласово клонирање:
Да.

Трошкови по 1K знаковима:
4x

Инстант клонирање Претварање гласа Контрола емоција Контрола акцената вишејезично

Најбоље за:: Гласово клонирање са фино-зелена контрола стила, претварање гласа

Покушај OpenVoice

Qwen3 TTS

Standard

Qwen3- TTS је 1,7 милијарди параметара за текст‐ у‐ говор из тима Алибабе. Подржава три режима: предефинисани гласови са контролом емоција (9 звучника), клонирање гласа од само 3 секунде звука и јединствени режим дизајна гласа у коме описујете глас који желите на природном језику. Покрива 10 језика са високом експресивношћу и природном прозодијом.

Програмер::
Alibaba (Qwen)

Лиценца::
Apache 2.0

Брзина:
Medium

Квалитет::

језици:
en, zh, ja, ko, de, fr, ru, pt, es, it

ВРАМ:
7GB

Гласово клонирање:
Да.

Трошкови по 1K знаковима:
2x

Гласово клонирање 9 предефинисаних гласова Дизајн гласа из текста Контрола емоција 10 језика

Најбоље за:: Вишејезични садржај са клонирањем гласа или посебним дизајном гласа

Покушај Qwen3 TTS

Sesame CSM

Premium

Сезаме ЦСМ (Конверзациони модел говора) је модел параметара од 1 милијарду дизајниран посебно за стварање разговорног говора. Он моделира природне обрасце људског разговора, укључујући преузимање тајминга, реакције позадине, емоционалне реакције и разговорног тока. ЦСМ генерише аудио који звучи као природни људски разговор, а не синтетички говор.

Програмер::
Sesame

Лиценца::
Apache 2.0

Брзина:
Slow

Квалитет::

језици:
en

ВРАМ:
8GB

Гласово клонирање:
Не.

Трошкови по 1K знаковима:
4x

Разговорно Природни тајминг Окрећем Поб› јежни канал 1Б параметри

Најбоље за:: ВИ асистенти, ћаскалице, разговорне ВИ апликација

Покушај Sesame CSM

Chatterbox Turbo

Standard

Цхаттербокс Турбо би Ресемпбле АИ је надоградња параметра 350М на Цхаттербокс, доносећи до 6x брзина у реалном времену са пад- 200мс латенција. Подржава паралингуистичке ознаке попут [смеха], [кашаља] и [цхуцкле] директно у тексту. Укључује пертну брзину воде на свим генерисаним звуковима за праћење провенације.

Програмер::
Resemble AI

Лиценца::
MIT

Брзина:
Fast

Квалитет::

језици:
en

ВРАМ:
2GB

Гласово клонирање:
Да.

Трошкови по 1K знаковима:
2x

Под- 200мс латенција Паралингвистичке ознаке 6× у реалном времену Гласово клонирање Уређивање жига

Најбоље за:: Реално време говорни агенти, изразиви говор са природним звуковима

Покушај Chatterbox Turbo

VoxCPM

Standard

VoxCPM 1. 5 OpenBMB је нови модел ТТС без жетонизатора који ради у непрекидном простору, а не дискретним жетоновима. Производи високу верност 44.1kHz звука, подржава клонирање гласа од 3- 10 секунди, и одржава конзистенцију између пасуса. Клонисање преко језика омогућава да прим› ијените енглески глас на кинески говор и обрнуто.

Програмер::
OpenBMB

Лиценца::
Apache 2.0

Брзина:
Fast

Квалитет::

језици:
en, zh

ВРАМ:
4GB

Гласово клонирање:
Да.

Трошкови по 1K знаковима:
2x

44.1kHz аудио без токенизатора Укрштено-језично клонирање Контекст- свесни ЛоРА фино уклапање

Најбоље за:: Висока верност аудио, аудио књиге, садржај дугог облика са конзистентношћу гласа

Покушај VoxCPM

Kani TTS 2

Free

Кани- ТТС-2 од NineNineSix је ултра лак 400М параметарски модел изграђен на течној кичми АИ ЛФМ2 са НВИДИЈОМ Нанокодеком. Ради само у 3GB ВРАМ‐ у и за ~2 секунде говора на ~2 на ~2 секунди на А100 (РТФ 0. 2). Тренутни јавни издање броди контролну тачку енглеског „ КАНИ‐ ТТС‐ а-2- ен “ и не разоткрива удицу која је потребна за клонирање гласа — користите Чатербокс / ИндексТТTS2 / F5- ТТС за клонирање, или Кокоро / МелоТТС за неенглески.

Програмер::
NineNineSix

Лиценца::
Apache 2.0

Брзина:
Fast

Квалитет::

језици:
en

ВРАМ:
3GB

Гласово клонирање:
Не.

Трошкови по 1K знаковима:
слободни

3ГБ ВРАМ Ултра‐ брзина Лагано Нанокодек слободни

Најбоље за:: Брза генерација енглеског на хардверу ниско- ВРАМ‐ а, брзи прегледи

Покушај Kani TTS 2

OuteTTS

Free

ОутеТТС проширује велике језичке моделе са могућностима за текст- у- говор при одржавању оригиналне архитектуре. Подржава више позадина, укључујући и lama.cpp (CPU/ GPU), Хуглинг Фаце Transformers, ExLlamaV2, VLLM, па чак и закључак прегледача преко Transformers.js. Могућности нултог клонирања гласом кроз профиле звучника сачуване као ЈСОН.

Програмер::
OuteAI

Лиценца::
Apache 2.0

Брзина:
Fast

Квалитет::

језици:
en

ВРАМ:
2GB

Гласово клонирање:
Да.

Трошкови по 1K знаковима:
слободни

Закључак ЦПУ‐ а Закључак прегледача Гласово клонирање Вишеструке позадине профили звучника

Најбоље за:: Распоред ивице, ТТС на основу прегледача, окружења ниског извора

Покушај OuteTTS

VibeVoice

Standard

~@ ¦Вибе‐ глас¦Microsoft¦ долази у две варијанте: моделу 1,5Б за садржај дугог облика (до 90 минута, 4 звучника) и моделу 0. 5B у реалном времену за пренос са ~200ms првом звуковом латенцијом. Варијантација 1, 5B превазилази на подемисијама и аудио књигама са конзистенцијом звучника преко дугих пасуса. Напомена: Мајкрософт је уклонио ТТС кôд из ризнице и генерисао аудио укључује звучне изрешења ВИ.

Програмер::
Microsoft

Лиценца::
MIT

Брзина:
Fast

Квалитет::

језици:
en, zh

ВРАМ:
4GB

Гласово клонирање:
Не.

Трошкови по 1K знаковима:
2x

Мулти-звучник До 90 мин Стварање подемисије Конзистентност звучника 200м протока

Најбоље за:: Подемисије, аудиокњиге, садржај дугог облика

Покушај VibeVoice

Pocket TTS

Free

Покет ТТС од Кјутаја (креатора Мошија) је компактан модел 100М параметара текст- у- говор који удара много изнад своје тежине. Ефективно ради на ЦПУ‐ у, подржава клонирање гласа из једнег аудио узорка и производи природни говор. Мала величина модела чини га идеалним за постављање ивице и окружења ниског ресурса.

Програмер::
Kyutai

Лиценца::
MIT

Брзина:
Fast

Квалитет::

језици:
en, fr

ВРАМ:
1GB

Гласово клонирање:
Да.

Трошкови по 1K знаковима:
слободни

100М параметри Закључак ЦПУ‐ а Гласово клонирање Клонирање једног узорка ивица спремна

Најбоље за:: Лагано распоредавање, окружења само за ЦПУ, брзо клонирање гласом

Покушај Pocket TTS

Kitten TTS

Free

Програмер::
KittenML

Лиценца::
Apache 2.0

Брзина:
Fast

Квалитет::

језици:
en

ВРАМ:
0GB

Гласово клонирање:
Не.

Трошкови по 1K знаковима:
слободни

CPU-only inference Under 80MB model size 8 built-in voices Speed control ONNX-based 24kHz output

Најбоље за:: Fast lightweight TTS, edge deployment, low-latency applications

Покушај Kitten TTS

CosyVoice3

Standard

CosyVoice3 is the latest evolution from Alibaba's FunAudioLLM team. It features bi-streaming inference with ~150ms latency, instruction-based control for emotion/speed/volume, and improved speaker similarity for zero-shot cloning. Supports 9 languages plus 18 Chinese dialects. RL-tuned variant delivers state-of-the-art prosody.

Програмер::
Alibaba (FunAudioLLM)

Лиценца::
Apache 2.0

Брзина:
Fast

Квалитет::

језици:
en, zh, ja, ko, de, es, fr, it, ru

ВРАМ:
4GB

Гласово клонирање:
Да.

Трошкови по 1K знаковима:
2x

Bi-streaming Emotion control Voice cloning Speed/volume control Instruction following

Најбоље за:: Multilingual production TTS, real-time applications, voice cloning

Покушај CosyVoice3

NAMAA Saudi TTS

Standard

Саудијска ТТС НАМАА је саудијска фина арапска фина алапска алапска алапска ћаскалица. Обучавана од стране НАМАА простора на аутентичном саудијском дијалекту говора, производи природни савремени стандардни арапски и саудијски колоквијални изговор који генерички јазичарски модели не могу да поклопе. Наследује клонирање гласова и контролу емоција у Цхаттербоксу преко референтних аудио питања. Први отворени тегови Арапски ТТС размештени на TTS.ai.

Програмер::
NAMAA Space

Лиценца::
MIT

Брзина:
Medium

Квалитет::

језици:
ar

ВРАМ:
6GB

Гласово клонирање:
Да.

Трошкови по 1K знаковима:
2x

саудијски арапски дијалектName модерни стандардни арапски клонирање нула хитаца Контрола емоција Домаћи изговор

Најбоље за:: Арапски садржај за саудијску публику, МСА нарацију, Калиџи-дијалект гласовних агента, арапске аудио књиге

Покушај NAMAA Saudi TTS

Darwin TTS

Standard

Дарвин- ТТС-1,7Б- Цросс од стране Final-Bench је истраживачка варијанта Qwen3- TTS-1,7B где се 84 говорника- ФФН тензора (8,6%) мешају на α=3% са поклапајућим тензорима из ~@ ¦Квен3‐ 1,7B¦ базе. Мешавина се изграђује без преобучавања и производи приметљивије хрскавије укрштено- језично клонирање гласа преко корејског, енглеског, јапанског и кинеског. Оперира се у гласно- клонског режиму 0 (3 секунде референтног звука).

Програмер::
FINAL-Bench

Лиценца::
Apache 2.0

Брзина:
Medium

Квалитет::

језици:
en, ko, ja, zh

ВРАМ:
7GB

Гласово клонирање:
Да.

Трошкови по 1K знаковима:
2x

Гласово клонирање укрштено-језично ФФН- крвави 4 језика језика ~@ ¦Квен3¦Qwen3¦ кичма

Најбоље за:: Крозјезично клонирање гласа између енглеског / корејског / јапанског / кинеског са једним референтним гласом

Покушај Darwin TTS

MOSS-TTSD

Standard

МОСС- ТТСД v1. 0 из OpenMOSS је модел текста из дијалога 7Б који наставља разговоре из кратког аудио покрета. Подржава до 5 истовремених звучника преко [S1] / [S2] ознака, клонирања нула од референтног звука 3- 10 и до 60 минута координационог вишеокретног дијалога преко 20 језика. Одвојено од МОСС‐ ТТС — ТТСД је специјализован за подемисање/ аудио књиге/ дубирање радних токова.

Програмер::
OpenMOSS

Лиценца::
Apache 2.0

Брзина:
Medium

Квалитет::

језици:
en, zh

ВРАМ:
12GB

Гласово клонирање:
Да.

Трошкови по 1K знаковима:
2x

Дијалог са више звучника До 5 звучника 60мин. кохерентни аудио Гласово клонирање Оптимизовано подемисије

Најбоље за:: Подемисије, аудиокњиге, дијалог, разговорни садржај са више гласова

Покушај MOSS-TTSD

Ming-Omni TTS

Free

Ming-omni- tts-0,5B по укључивањуAI је компактан свемодални модел говора изграђен на густој кичми БајлингММ‐ а, са уграђеном емоцијом / дијалектом / БГМ контролом кроз упутства ЈСОН‐ а. Изврсна стабилност — 0,83% ВЕР на кинеским референцама.

Програмер::
inclusionAI

Лиценца::
Apache 2.0

Брзина:
Medium

Квалитет::

језици:
en, zh

ВРАМ:
3GB

Гласово клонирање:
Да.

Трошкови по 1K знаковима:
слободни

44.1kHz излаз Гласово клонирање Контрола емоција Управљање диалектима Генерација БГМ‐ а Компактно 0, 5Б

Најбоље за:: Висока верност двојазичне нарације, емоционално контролисан глас глума, кинески аудиокњига садржај

Покушај Ming-Omni TTS

Kokoro

слободни

Kokoro is an 82 million parameter text-to-speech model that punches well above its weight class. Despite its tiny size, it produces remarkably natural and expressive speech. Kokoro supports multiple languages including English, Japanese, Chinese, and Korean with a variety of expressive voices. It runs incredibly fast — generating audio nearly 100x faster than real-time on a GPU.

Програмер::
Hexgrad

Лиценца::
Apache 2.0

Брзина:
Fast

Квалитет::

језици: en, ja, zh, fr, it, pt, es, hi

Најбоље за:: High-quality TTS with minimal latency, streaming applications

Покушај слободно

Piper

слободни

Piper is a lightweight text-to-speech engine developed by Rhasspy that uses VITS and larynx architectures. It runs entirely on CPU, making it ideal for edge devices, home automation, and applications requiring offline TTS. With over 100 voices across 30+ languages, Piper delivers natural-sounding speech at real-time speeds even on a Raspberry Pi 4.

Програмер::
Rhasspy

Лиценца::
MIT

Брзина:
Fast

Квалитет::

језици: en, de, fr, es, it, pt, nl, pl, ru, zh, ar, cs, da, fi, el, hu, is, ka, kk, ne, no, ro, sk, sr, sv, sw, tr, uk, vi

Најбоље за:: Quick previews, accessibility, and embedded applications

Покушај слободно

VITS

слободни

VITS (Variational Inference with adversarial learning for end-to-end Text-to-Speech) is a parallel end-to-end TTS method that generates more natural sounding audio than current two-stage models. It adopts variational inference augmented with normalizing flows and an adversarial training process, achieving a significant improvement in naturalness.

Програмер::
Jaehyeon Kim et al.

Лиценца::
MIT

Брзина:
Fast

Квалитет::

језици: en, de, es, fr, pt, nl, fi, hu, bg, uk, pl

Најбоље за:: General-purpose text-to-speech with natural prosody

Покушај слободно

MeloTTS

слободни

MeloTTS by MyShell.ai is a multilingual TTS library supporting English (American, British, Indian, Australian), Spanish, French, Chinese, Japanese, and Korean. It is extremely fast, processing text at near real-time speed on CPU alone. MeloTTS is designed for production use and supports both CPU and GPU inference.

Програмер::
MyShell.ai

Лиценца::
MIT

Брзина:
Fast

Квалитет::

језици: en, es, fr, zh, ja, ko

Најбоље за:: Production applications needing fast, multilingual TTS

Покушај слободно

Kani TTS 2

слободни

Kani-TTS-2 by NineNineSix is an ultra-lightweight 400M parameter model built on a Liquid AI LFM2 backbone with NVIDIA NanoCodec. It runs in just 3GB VRAM and produces ~10 seconds of speech in ~2 seconds on an A100 (RTF 0.2). The current public release ships an English-only `kani-tts-2-en` checkpoint and does not expose the speaker-embedding hook needed for voice cloning — use Chatterbox / IndexTTS2 / F5-TTS for cloning, or Kokoro / MeloTTS for non-English.

Програмер::
NineNineSix

Лиценца::
Apache 2.0

Брзина:
Fast

Квалитет::

језици: en

Најбоље за:: Fast English generation on low-VRAM hardware, quick previews

Покушај слободно

OuteTTS

слободни

OuteTTS extends large language models with text-to-speech capabilities while preserving the original architecture. It supports multiple backends including llama.cpp (CPU/GPU), Hugging Face Transformers, ExLlamaV2, VLLM, and even browser inference via Transformers.js. Features zero-shot voice cloning through speaker profiles saved as JSON.

Програмер::
OuteAI

Лиценца::
Apache 2.0

Брзина:
Fast

Квалитет::

језици: en

Најбоље за:: Edge deployment, browser-based TTS, low-resource environments

Покушај слободно

Pocket TTS

слободни

Pocket TTS by Kyutai (creators of Moshi) is a compact 100M parameter text-to-speech model that punches well above its weight. It runs efficiently on CPU, supports zero-shot voice cloning from a single audio sample, and produces natural-sounding speech. The small model size makes it ideal for edge deployment and low-resource environments.

Програмер::
Kyutai

Лиценца::
MIT

Брзина:
Fast

Квалитет::

језици: en, fr

Најбоље за:: Lightweight deployment, CPU-only environments, quick voice cloning

Покушај слободно

Kitten TTS

слободни

Програмер::
KittenML

Лиценца::
Apache 2.0

Брзина:
Fast

Квалитет::

језици: en

Најбоље за:: Fast lightweight TTS, edge deployment, low-latency applications

стандардни

Програмер::
Alibaba (FunAudioLLM)

Лиценца::
Apache 2.0

Брзина:
Fast

Квалитет::

језици:
en, zh, ja, ko, de, es, fr, it, ru

Гласово клонирање:
Да.

Bi-streamingEmotion controlVoice cloningSpeed/volume controlInstruction following

Најбоље за:: Multilingual production TTS, real-time applications, voice cloning

Покушај CosyVoice3

NAMAA Saudi TTS

стандардни

NAMAA Saudi TTS is a Saudi Arabic fine-tune of Resemble AI's ChatterboxMultilingual. Trained by NAMAA Space on authentic Saudi-dialect speech, it produces natural Modern Standard Arabic and Saudi colloquial pronunciation that generic multilingual models cannot match. Inherits Chatterbox's zero-shot voice cloning and emotion control via reference audio prompts. The first open-weights Arabic TTS deployed on TTS.ai.

Програмер::
NAMAA Space

Лиценца::
MIT

Брзина:
Medium

Квалитет::

језици:
ar

Гласово клонирање:
Да.

Saudi Arabic dialectModern Standard ArabicZero-shot voice cloningEmotion controlNative pronunciation

Најбоље за:: Arabic content for Saudi audiences, MSA narration, Khaleeji-dialect voice agents, Arabic audiobooks

Покушај NAMAA Saudi TTS

Darwin TTS

стандардни

Darwin-TTS-1.7B-Cross by FINAL-Bench is a research variant of Qwen3-TTS-1.7B where 84 talker-FFN tensors (8.6%) are blended at α=3% with the matching tensors from Qwen3-1.7B-Base. The blend is built without retraining and produces noticeably crisper cross-lingual voice cloning across Korean, English, Japanese, and Chinese. Operates in zero-shot voice-clone mode (3 seconds reference audio).

Програмер::
FINAL-Bench

Лиценца::
Apache 2.0

Брзина:
Medium

Квалитет::

језици:
en, ko, ja, zh

Гласово клонирање:
Да.

Voice cloningCross-lingualFFN-blended4 core languagesQwen3 backbone

Најбоље за:: Cross-lingual voice cloning between English / Korean / Japanese / Chinese with a single reference voice

Модел	Програмер:	Низ	Брзина	језици	ВРАМ	Лиценца:	кредити
Kokoro	Hexgrad	Free	Fast	8	1.5GB	Apache 2.0	слободни	Користи
Piper	Rhasspy	Free	Fast	29	0 (CPU only)	MIT	слободни	Користи
VITS	Jaehyeon Kim et al.	Free	Fast	11	1GB	MIT	слободни	Користи
MeloTTS	MyShell.ai	Free	Fast	6	0.5GB (GPU optional)	MIT	слободни	Користи
Bark	Suno	Standard	Slow	13	5GB	MIT	2	Користи
Bark Small	Suno	Standard	Medium	13	2GB	MIT	2	Користи
CosyVoice 2	Alibaba (Tongyi Lab)	Standard	Medium	8	4GB	Apache 2.0	2	Користи
Dia TTS	Nari Labs	Standard	Medium	1	4GB	Apache 2.0	2	Користи
Parler TTS	Hugging Face	Standard	Medium	1	4GB	Apache 2.0	2	Користи
GLM-TTS	Zhipu AI	Standard	Medium	2	4GB	GLM-4 License	2	Користи
IndexTTS-2	Index Team	Standard	Medium	2	4GB	Bilibili Model License	2	Користи
Spark TTS	SparkAudio	Standard	Medium	2	4GB	CC BY-NC-SA 4.0	2	Користи
GPT-SoVITS	RVC-Boss	Standard	Slow	4	6GB	MIT	2	Користи
Orpheus	Canopy Labs	Standard	Medium	1	4GB	Llama 3.2 Community	2	Користи
Chatterbox	Resemble AI	Premium	Medium	1	4GB	MIT	4	Користи
Tortoise TTS	James Betker	Premium	Slow	1	8GB	Apache 2.0	4	Користи
StyleTTS 2	Columbia University	Premium	Medium	1	4GB	MIT	4	Користи
OpenVoice	MyShell.ai / MIT	Premium	Medium	6	4GB	MIT	4	Користи
Qwen3 TTS	Alibaba (Qwen)	Standard	Medium	10	7GB	Apache 2.0	2	Користи
Sesame CSM	Sesame	Premium	Slow	1	8GB	Apache 2.0	4	Користи
Chatterbox Turbo	Resemble AI	Standard	Fast	1	2GB	MIT	2	Користи
VoxCPM	OpenBMB	Standard	Fast	2	4GB	Apache 2.0	2	Користи
Kani TTS 2	NineNineSix	Free	Fast	1	3GB	Apache 2.0	слободни	Користи
OuteTTS	OuteAI	Free	Fast	1	2GB	Apache 2.0	слободни	Користи
VibeVoice	Microsoft	Standard	Fast	2	4GB	MIT	2	Користи
Pocket TTS	Kyutai	Free	Fast	2	1GB	MIT	слободни	Користи
Kitten TTS	KittenML	Free	Fast	1	0GB	Apache 2.0	слободни	Користи
CosyVoice3	Alibaba (FunAudioLLM)	Standard	Fast	9	4GB	Apache 2.0	2	Користи
NAMAA Saudi TTS	NAMAA Space	Standard	Medium	1	6GB	MIT	2	Користи
Darwin TTS	FINAL-Bench	Standard	Medium	4	7GB	Apache 2.0	2	Користи
MOSS-TTSD	OpenMOSS	Standard	Medium	2	12GB	Apache 2.0	2	Користи
Ming-Omni TTS	inclusionAI	Free	Medium	2	3GB	Apache 2.0	слободни	Користи

Најсвеобухватнији ВИ текст на говорну платформу

Зашто изабрати TTS.ai за текст у говор?

TTS.ai сакупља најбоље светске моделе отвореног извора за текст у шпиц у једној платформи, једноставној за коришћење. За разлику од власничких услуга које вас закључавају у један гласни мотор, TTS.ai вам даје приступ 20+ модела из водећих истраживачких лабораторија, укључујући Коки, Мишел, Амфион, НВИДИА, Суно, ХугингФаце, Цингхуа универзитет и још тога.

Сваки модел је отворен под МИТ‐ ом, Апачем 2. 0 или сличним попустљивим лиценцама, што вам обезбеђује да имате пуна комерцијална права да користите генерисани аудио у својим пројектима. Било да вам је потребна брза, лака синтеза за апликација у реалном времену или премиум студијског квалитета за аудиокњиге и подемисија, TTS.ai има прави модел за сваки случај употребе.

бесплатни модели, нема потребе за налогом

Почните одмах са три бесплатна ТТС модела: Пајпер (ултра-брза, лака), ВИТС (висока квалитетна неуронска синтеза) и МелоТТС (многојезична подршка). Нема пријављивања, нема кредитне картице, нема ограничења генерацијама. Бесплатни модели подржавају енглески и више језика са природним звуком излаза погодног за већину програма.

ГПУ‐ убрзано обрађивање

Сви ТТС модели раде на посвећеним НВИДИА ГПУ‐ има за брза, доследна генерација пута. Слободни модели обично стварају аудио за мање од 2 секунди. Стандардни модели попут Кокоро, Коси гласова 2 и просека Барка 3-5 секунди. Премиум модели са највишим квалитетом, као што су Тортоиз и ћаскање за 5- 15 секунди, у зависности од дужине текста.

30+ језика подржано

Генерирај говор на преко 30 језика, укључујући енглески, шпански, француски, немачки, италијански, португалски, кинески, јапански, корејски, арапски, хинди, руски, и још много тога. Неколико модела подржава унакрсно-језичну синтезу, што значи да можете генерисати говор на језику на коме оригинални глас никада није обучен.

АПИ програмера за спремање

Integrate TTS.ai into your applications with our OpenAI-compatible REST API. One endpoint for all 20+ models. Python, JavaScript, cURL, and Go SDKs. Streaming support for real-time applications. Batch processing for large-scale content generation. Webhooks for async notifications. API access included on every plan including free.

Често постављана питања

Текст у говор (ТТС) је АИ технологија која претвара писани текст у природно говорни аудио. Модерни неуронални ТТС модели као што су Кокоро, Цхаттербокс и Цоси Голас 2 користе дубоко учење да произведу говор који звучи изузетно људско, са природном прозоди, емоцијама и ритамом.

За брз преглед, користите Пајпер или МелоТТС (слободан, брз). За висококвалитет покушајте Кокоро или Кози Глас 2. За клонирање гласа, користите ГПТ- СоВИТС (премијум). За дијалог/подцрт садржај, покушајте Дија ТТС. Сваки модел има различите јачине — експериментирајте да пронађете најбоље.

Да! TTS.ai нуди бесплатан текст- у- говор са Кокоро, Пајпер, ВИТС и МелоТТС моделима. Нема налога неопходног за до 500 знакова и 3 генерације на сат. Пријавите се за бесплатни налог да добијете 15 кредита и приступите свим моделима.

Наши ТТС модели заједно подржавају 30+ језика, укључујући енглески, шпански, француски, италијански, португалски, кинески, јапански, корејски, арапски, руски, хинди и многе друге.

Да, комерцијално се може користити аудио из TTS.ai. Сви наши модели користе лиценце отвореног извора (МИТ, Апаче 2. 0). Проверите појединачне лиценце модела за одређене термине. Препоручујемо преглед дозволе одређеног модела који користите за ваш пројекат.

TTS.ai подржава МП3, ВАВ, ОГГ и ФЛАЦ излазне формате. МП3 је подразум› ијевани за веб пуштање. ВАВ се препоручује за даље обрађивање звука. Можете претварати између формата користећи нашу аудио конвертерску алатку.

Гласово клонирање користи АИ за реплицирање одређеног гласа из кратког аудио узорка (обично 5- 30 секунди). Убаците јасан снимак циљног гласа и моделе као што су Цхаттербокс, ГПТ- СоВИТС, или Отворени глас ће створити нови говор у том гласу. Квалитет се побољшава са чистијим, дужим референтним звуком.

Слободни корисници могу генерисати до 500 знакова по захт› јеву. Регистровани корисници добијају до 5.000 знакова по захт› јеву. За дуже текстове звук се генерише у парчићима и зашива се аутоматски. АПИ корисници могу обрађивати до 10.000 знакова по захт› јеву.

Подршка за ~@ ¦ССМЛ¦SSSML¦ ( синтези говора¦) варира према моделу. Piper и неки други модели подржавају основне ознаке ~@ ¦ССЛ‐ а¦SML‐ a¦ за паузе, нагласак и контролу изговора. За моделе без природне подршке ~@ ¦ССЛ‐ а¦SML‐ a¦ можете користити природну интерпункцију и прекиде редова да утичете на прозију.

Да, већина модела подржава прилагођавање брзине од 0,5x до 2.0x. Неки модели попут Барка и Парлера такође омогућавају контролу бацања и стила. Поставите параметре брзине у панелу напредних поставки или преко параметра брзине АПИ‐ а.

Да, пакетна обрада је доступна преко нашег АПИ‐ а. Можете поднети више делова текста у једном АПИ позиву или скрипти, и сваки ће бити обрађен и враћен као одвојени аудио фајлови. Ово је идеално за поглавља аудио књиге, модуле е- учења или скрипте дијалога игре.

Генеришите АПИ кључ из табло налога, затим пошаљите захтеве ПОСТ на наш РЕСТЕ АПИ крајњи крај са вашим текстом, моделом и гласовима. Прим› јер кода у ~@ ¦Питону¦Pythonu¦, ~@ ¦јаваскрипту¦JavaScriptu¦ и ЦУР‐ у. АПИ је сагласан са OpenAI, тако да постојеће интеграције раде са минималним изменама.

5.0/5 (4)

Покрени претварање текста у говор сада

Придружите се хиљадама твораца који користе TTS.ai. Набавите 15.000 бесплатних знакова са новим налогом.

Слободно се пријави Приказ Цена

ВИ текст за говор

Љубав ТТС.аи?

Детаљи модела

Kitten TTS

Савети за боље резултате

Употреба знакова

Како ВИ текст ради говора

Унесите свој текст

Изаберите модел и глас

Генериши & преузимање

Случаји коришћења текста за говор

Аудиокњиге

Видео

Подемисије

Гаминг

Е-учење

Приступачност

ИВР & телефонски системи

Социјални медији

Стрејање

Маркетинг

Дубирање и локализација

Медитација и доброта

Модели свих текста за говор

Kokoro

Piper

VITS

MeloTTS

Bark

Bark Small

CosyVoice 2

Dia TTS

Parler TTS

GLM-TTS

IndexTTS-2

Spark TTS

GPT-SoVITS

Orpheus

Chatterbox

Tortoise TTS

StyleTTS 2

OpenVoice

Qwen3 TTS

Sesame CSM

Chatterbox Turbo

VoxCPM

Kani TTS 2

OuteTTS

VibeVoice

Pocket TTS

Kitten TTS

CosyVoice3

NAMAA Saudi TTS

Darwin TTS

MOSS-TTSD

Ming-Omni TTS

Kokoro

Piper

VITS

MeloTTS

Kani TTS 2

OuteTTS

Pocket TTS

Kitten TTS

Ming-Omni TTS

Bark

Bark Small

CosyVoice 2

Dia TTS

Parler TTS

GLM-TTS

IndexTTS-2

Spark TTS

GPT-SoVITS

Orpheus

Qwen3 TTS

Chatterbox Turbo

VoxCPM

VibeVoice

CosyVoice3