Тексттен сүйлөмгө
Текстти ачык булактуу AI моделдери менен табигый үндөгү сүйлөмгө айландыруу. Акысыз, эсеп-фактура талап кылынбайт.
Текстти SSML тегдерине өткөрүп берүү:
<speak><prosody rate="slow">Slow speech</prosody></speak>
Сыйкырдуу эмоцияларды кошуу (модельдин колдоосу ар кандай):
Өзгөчө сүйлөмдөрдү аныктоо (сөз = сүйлөм):
Маалыматтар
OuteTTS
OuteTTS extends large language models with text-to-speech capabilities while preserving the original architecture. It supports multiple backends including llama.cpp (CPU/GPU), Hugging Face Transformers, ExLlamaV2, VLLM, and even browser inference via Transformers.js. Features zero-shot voice cloning through speaker profiles saved as JSON.
| Жазуучу: | OuteAI |
| Лицензия: | Apache 2.0 |
| Жылдамдык | Fast |
| _Сапат: | |
| тилдер | 1 Кыргыз тили |
| VRAM | 2GB |
| Сөздү клондоо | Колдонулган |
Жакшы натыйжалар үчүн кеңештер
- Туура пунктуацияны колдонуу табигый тыныгуулар жана интонация үчүн
- Чиптердин жана кыскартмалардын орфографиясын оңдоо
- Сөз арасына кыска pauzlar түзүү үчүн коммалар кошуу
- Узак, драматикалык тыныгуу үчүн көптүк белгисин (...) колдонуу
- Эң табигый натыйжа үчүн Kokoro же CosyVoice 2 колдонуп көрүңүз
- Dia-ны көп сүйлөткүчтүү диалогдор жана подкасттар үчүн колдонуу
Символдорду колдонуу
| Тигр | 1K символдун баасы |
|---|---|
| Акысыз | 0 кредит (чектелбеген) |
| Стандарттык | 2 кредит / 1K символ |
| Премиум | 4 кредит / 1K символ |
AI тексттен сүйлөөгө кантип иштей тургандыгы
Профессионалдык сапаттагы үн жазууларды үч жөнөкөй кадам менен түзүү. Техникалык билимдер талап кылынбайт.
Тексти киргизиңиз
Текст, который вы хотите конвертировать в речь, введите, вставьте или загрузите. Поддерживается до 5000 символов в генерации для зарегистрированных пользователей. Используйте простой текст или добавьте SSML-теги для расширенного управления произношением, паузами и акцентом.
Модель жана үн тандоо
20дан ашык AI моделдерин үч баскычтан тандаңыз. Сиздин мазмунуңузга ылайыктуу үндү тандаңыз, тилди тандаңыз, ойнотуу ылдамдыгын 0.5x-2.0x аралыгына ылайыкташтырыңыз жана каалаган форматты тандаңыз (MP3, WAV, OGG же FLAC).
Жүктөө
Генерировать баскычын чыкылдатып, сиздин аудиоңуз бир нече секунданын ичинде даярдалып бүтөт. Аларды орнотулган ойноткуч менен алдын ала көрүңүз, тандалган форматта жүктөңүз же бөлүшүүгө ылайыктуу шилтемени көчүрүп алыңыз. Программалык интерфейсти пакеттик иштетүү жана иш-аракеттериңизге интеграциялоо үчүн пайдаланыңыз.
Тексттен сүйлөөгө которуу
ИИ менен иштелип чыккан текстти сүйлөмгө айландыруу технологиясы көптөгөн тармактарда адамдардын аудио контентти түзүү, колдонуу жана аны менен өз ара аракеттенүү ыкмаларын өзгөртүүдө.
Бардык текст-сөз моделдери
TTS.ai сайтында ар бир AI модели үчүн деталдуу мүнөздөмөлөр бар. Салыштыруу сапаты, ылдамдыгы, тил колдоосу жана өзгөчөлүктөрү сиздин долбооруңуз үчүн идеалдуу моделди табуу үчүн.
Kokoro
Free
Kokoro - бул 82 миллион параметрлүү текст-сөз моделинин өзүнүн салмак классынан ашып түшкөн модели. Анын кичинекей өлчөмүне карабастан, ал абдан табигый жана эмоциялык сүйлөмдү жаратат. Kokoro бир нече тилдердин, анын ичинде англис, япон, кытай жана корей тилдерин колдойт, ар кандай эмоциялык үн менен. Ал өтө тез иштейт - аудиону GPU аркылуу реалдык убакытта генерациялоого караганда 100 эсе тез.
Hexgrad
Apache 2.0
Fast
en, ja, zh, ko, fr, de, it, pt, es, hi, ru
1.5GB
Жок
Акысыз
Piper
Free
Piper - Rhasspy тарабынан иштелип чыккан тексттен сүйлөмгө өтүү үчүн жеңил движок, VITS жана larynx архитектураларын колдонот. Ал толугу менен процессор менен иштейт, андыктан ал edge-устройствалар, үй автоматизациясы жана оффлайн TTS талап кылган тиркемелерге идеалдуу. 100дөн ашык үн менен 30дан ашык тилде, Piper Raspberry Pi 4де да табигый үн менен сөздү реалдык убакытта жеткирет.
Rhasspy
MIT
Fast
en, de, fr, es, it, pt, nl, pl, ru, zh, ja, ko, ar, cs, da, fi, el, hu, is, ka, kk, ne, no, ro, sk, sr, sv, sw, tr, uk, vi
0 (CPU only)
Жок
Акысыз
VITS
Free
VITS (Variation Inference with adversarial learning for end-to-end Text-to-Speech) - бул параллельдүү, эки баскычтуу моделдерге караганда табигый үн чыгаруучу, бүткүл текстти сүйлөмгө айландыруу методу. Ал вариациялык инференцияны, нормалдаштыруу агымдарын жана атаандаштыкты үйрөтүү процессин колдонот, бул табигый үн чыгаруу сапатын кыйла жогорулатат.
Jaehyeon Kim et al.
MIT
Fast
en, zh, ja, ko
1GB
Жок
Акысыз
MeloTTS
Free
MeloTTS by MyShell.ai - бул англис (америкалык, британдык, индиялык, австралиялык), испан, француз, кытай, япон жана корей тилдерин колдогон көп тилдеги текстти которуу библиотекасы. Бул программа өтө тез, текстти процессор менен бир эле учурда иштетип жатат. MeloTTS иштетүү үчүн иштелип чыккан жана процессор менен графикалык процессорду тең колдойт.
MyShell.ai
MIT
Fast
en, es, fr, zh, ja, ko
0.5GB (GPU optional)
Жок
Акысыз
Bark
Standard
Suno тарабынан иштелип чыккан Bark - бул тексттен аудиого трансформаторго негизделген модель, ал жогорку реалисттик, көп тилдеги сүйлөмдү жана башка аудиону, мисалы музыканы, фондук ызы-чууну жана үн эффекттерин жаратат. Ал күлкү, ыйлоо жана ыйлоо сыяктуу сөзсүз эмес байланыштарды жаратат. Bark 100дөн ашык үн чыгаруучуну жана 13тен ашык тилдерди колдойт.
Suno
MIT
Slow
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
5GB
Жок
2x
Bark Small
Standard
Bark Small - бул Bark моделинин дистиллделген версиясы, ал кээ бир аудио сапатын тездетилген индукция ылдамдыгына жана аз эс талап кылганга алмаштырат. Ал Bark'тин сүйлөмдү эмоциялар, күлкү жана бир нече тилдер менен генерациялоо мүмкүнчүлүгүн сактап калат.
Suno
MIT
Medium
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
2GB
Жок
2x
CosyVoice 2
Standard
CosyVoice 2 Alibaba's Tongyi Lab тарабынан иштелип чыккан, ал адамга окшош үн сапатын өтө төмөн кечиктирүү менен камсыз кылат, бул аны реалдуу убакытта иштей турган тиркемелерге идеалдуу кылат. Ал потоктук синтез үчүн чексиз скалярдык кванттык ыкманы колдонот жана 0-шоттук үн клондоону, тилдер аралык синтезди жана майда-чүйдөсүнө чейинки эмоцияларды башкарууну колдойт. Ал субъективдүү баалоо боюнча көпчүлүк коммерциялык ТТС системаларын алдыга жылдырат.
Alibaba (Tongyi Lab)
Apache 2.0
Medium
en, zh, ja, ko, fr, de, it, es
4GB
Ооба
2x
Dia TTS
Standard
Dia, Nari Labs тарабынан иштелип чыккан, 1.6B параметрлүү текст-сөз моделинин бир бөлүгү, ал көп сүйлөгөндөрдүн диалогун түзүү үчүн атайын иштелип чыккан. Ал эки сүйлөгөндөрдүн ортосундагы табигый үндөгү сүйлөшүүлөрдү, туура кадамдарды, прозодияны жана эмоцияларды жаратат. Dia подкаст-стилдеги мазмунду, аудиокитеп диалогдорун жана интерактивдүү сүйлөшүү үчүн акылдуу интеллектти түзүүгө идеалдуу.
Nari Labs
Apache 2.0
Medium
en
4GB
Жок
2x
Parler TTS
Standard
Parler TTS - тексттен сүйлөмгө которуу модели, ал жаратылыш тилдеринин үн баяндамасын колдонуп, сүйлөмдү түзөт. Баштапкы тандалган үн баяндамасын тандап алуудан көрө, сиз каалаган үн баяндамасын тандап аласыз (мисалы, "жаман британ акценти менен жылуу аялдын үнү, жай жана ачык сүйлөйт"), жана Parler ошол баяндамага ылайыктуу үн баяндамасын түзөт. Бул аны чыгармачыл колдонмолор үчүн өзгөчө ыңгайлуу кылат.
Hugging Face
Apache 2.0
Medium
en
4GB
Жок
2x
GLM-TTS
Standard
GLM-TTS by Zhipu AI - бул текстти сүйлөмгө айландыруу системасы, Llama архитектурасы менен иштелип чыккан. Ал ачык булактуу TTS моделдеринин ичинен эң төмөнкү символдук катачылыкты камсыз кылат, бул эң так сүйлөмдү чыгарат. GLM-TTS англис жана кытай тилдерин колдойт, 3-10 секунддук аудио үлгүлөрдөн үн клондоону колдойт.
Zhipu AI
GLM-4 License
Medium
en, zh
4GB
Ооба
2x
IndexTTS-2
Standard
IndexTTS-2 - бул тексттен сүйлөмгө которуу системасы, ал үн синтезинин 0-шоттук ыкмасы менен эмоцияларды жакшы контролдоо менен өзгөчөлөнөт. Ал эмоцияларга байланыштуу атайын билимдерсиз эле, өзгөчө эмоциялуу интонациялар менен сүйлөмдү түзө алат, мисалы, кубанычтуу, кайгылуу, ачуу же коркуу. Модель эмоция векторлорун колдонуп, генерацияланган сүйлөмдүн эмоциялуу интонациясын так контролдойт.
Index Team
Bilibili Model License
Medium
en, zh
4GB
Ооба
2x
Spark TTS
Standard
Spark TTS by SparkAudio - бул текстти сүйлөмгө айландыруу модели, ал үн клондоосун башкаруучу эмоция жана сүйлөм стили менен айкалыштырат. Жалпысынан 5 секундалык референттик аудиону колдонуп, ал үндү клондоого жана андан кийин клондолгон үн идентификациясын сактап, ар кандай эмоциялар, ылдамдык жана стилдер менен сүйлөмдү генерациялоого мүмкүндүк берет. Spark TTS суроо-талап негизделген башкаруу системасын колдонот.
SparkAudio
CC BY-NC-SA 4.0
Medium
en, zh
4GB
Ооба
2x
GPT-SoVITS
Standard
GPT-SoVITS GPT-стилиндеги тилди моделдөө менен SoVITS (Singing Voice Inference via Translation and Synthesis) ыкмасын бирдикте колдонуп, бир нече секундада мыкты үн клондоону ишке ашырат. 5 секундалык аудиону колдонуу менен, ал үндү так клондоого жана жаңы үн чыгарууга мүмкүндүк берет, бирок сүйлөгөн адамдын өзгөчөлүктөрүн сактап калат. Ал сөздү жана ырдаган үн синтезинин эки түрүндө да ийгиликке жетишет.
RVC-Boss
MIT
Slow
en, zh, ja, ko
6GB
Ооба
2x
Orpheus
Standard
Orpheus - бул текстти сүйлөмгө айландыруу боюнча кеңири масштабдуу модель, ал адамдын деңгээлинде эмоционалдык билдирүүнү ишке ашырат. 100 000 сааттан ашуун ар кандай сүйлөм маалыматтары боюнча даярдалган, ал табигый эмоционалдык билдирүүлөрдү, басымды жана сүйлөм стилдерин жаратууда өзгөчөлөнөт. Orpheus адамдын жазууларынан дээрлик айырмалангыс сүйлөмдү жаратат.
Canopy Labs
Llama 3.2 Community
Medium
en
4GB
Жок
2x
Chatterbox
Premium
Chatterbox by Resemble AI - бул жаңылыктардын бири болгон үн клондоо модели. Ал бир аудио үлгүсүнөн ар кандай үндү мыкты тактык менен репликациялай алат, анын ичинде үндүн интонациясын гана эмес, сүйлөмдүн стилин жана эмоцияларды да. Chatterbox ошондой эле эмоцияларды жакшы көзөмөлдөйт, бул сизге генерацияланган сөздүн эмоциялык тонун үн идентификациясынан көз карандысыз түрдө оңдоого мүмкүндүк берет.
Resemble AI
MIT
Medium
en
4GB
Ооба
4x
Tortoise TTS
Premium
Tortoise TTS - бул аудио сапатын ылдамдыгынан жогору койгон авторегрессивдүү көп-сөздүү текст-сөз системасы. Ал DALL-E-ге окшош архитектураны колдонуп, өтө табигый сүйлөмдү, жакшы прозодия менен жана сүйлөгөн адамдын окшоштугу менен жаратат. Бир топ альтернативалардан ылдамыраак болсо да, Tortoise ачык булактуу экосистемада эң реалисттик синтетикалык сүйлөмдү жаратат.
James Betker
Apache 2.0
Slow
en
8GB
Ооба
4x
StyleTTS 2
Premium
StyleTTS 2 стилдин диффузиясын жана чоң сүйлөм моделдеринин жардамы менен каршылаштардын сүйлөмдөрү менен машыгууларды бириктирип, адамдын деңгээлиндеги TTS синтезин ишке ашырат. Ал бир сүйлөмдүн моделдеринин ичинен эң табигый угулган сүйлөмдү жаратат, адам сүйлөмүнүн толук диапазону менен ойнойт. StyleTTS 2 диффузияга негизделген стилдин моделдөөсүн колдонот.
Columbia University
MIT
Medium
en
4GB
Жок
4x
OpenVoice
Premium
OpenVoice by MyShell.ai - бул үн стилин, эмоцияларды, акцентти, ритмиканы, паузаларды жана интонацияны көзөмөлдөө менен үндү тез арада клондоого мүмкүндүк берет. Ал кыска аудиоклипти клондоого жана бир нече тилде сүйлөөгө мүмкүндүк берет, бирок сүйлөгөн адамдын жекечелик сапатын сактайт. OpenVoice ошондой эле үн конвертери катары иштейт, бул үндү реалдуу убакытта трансформациялоого мүмкүндүк берет.
MyShell.ai / MIT
MIT
Medium
en, zh, ja, ko, fr, de, es, it
4GB
Ооба
4x
Qwen3 TTS
Standard
Qwen3-TTS - Alibaba компаниясынын Qwen командасы тарабынан иштелип чыккан 1,7 миллиард параметрлүү тексттен сүйлөмгө которуу модели. Ал үч режимди колдойт: эмоционалдык контролдоо менен алдын ала орнотулган үн (9 үн чыгаруучу), 3 секундалык аудиодон үн клондоо, жана сиз каалаган үн табигый тилде баяндалган өзгөчө үн дизайны режими. Ал 10 тилде жогорку экспрессивдүүлүк жана табигый прозодия менен иштелип чыккан.
Alibaba (Qwen)
Apache 2.0
Medium
en, zh, ja, ko, de, fr, ru, pt, es, it
7GB
Ооба
2x
Sesame CSM
Premium
Sesame CSM (Conversational Speech Model) - бул 1 миллиард параметрден турган, сүйлөшүүнү генерациялоо үчүн атайын иштелип чыккан модель. Ал адам сүйлөшүүсүнүн табигый үлгүлөрүн моделдейт, анын ичинде алмашуу убактысын, backchannel жоопторун, эмоционалдык реакцияларды жана сүйлөшүүнүн агымын. CSM синтетикалык сүйлөмдүн ордуна табигый адам сүйлөшүүсүнө окшош аудиону генерациялайт.
Sesame
Apache 2.0
Slow
en
8GB
Жок
4x
Chatterbox Turbo
Standard
Chatterbox Turbo by Resemble AI - Chatterbox'тун 350М параметрдик жаңыртуу, 6x реал-тайм ылдамдыгын 200мстин ичинде жеткирет. Ал текстте [лаugh], [cough], жана [chuckle] сыяктуу паралингвистикалык тегдерди колдойт. Бардык генерацияланган аудиодо Perth watermarking киргизилген, бул алардын келип чыгышын текшерүү үчүн.
Resemble AI
MIT
Fast
en
2GB
Ооба
2x
Zonos
Standard
Zyphra тарабынан иштелип чыккан Zonos v0.1 - бул 1.6B параметрлүү модель, ал жакшылык, ачуу, кайгы, коркуу жана таң калуу сезимдерине ылайыкташтырылган слайдерлер менен эмоцияларды жакшы көзөмөлдөйт. Ал трансформатор жана жаңы SSM (state-space model) вариантын сунуштайт. 200K+ сааттык көп тилдеги сүйлөмдөр менен машыктырылган, 10-30 секунддук референттик аудиодон 0-шоттук үн клондоосу менен.
Zyphra
Apache 2.0
Medium
en, ja, zh, fr, de
6GB
Ооба
2x
Dia 2
Standard
Dia2 от Nari Labs - это обновленный вариант Dia, доступный в 1B и 2B параметрах. Он начинает синтезировать аудио с первых нескольких символов, что делает его идеальным для реальных голосовых агентов и разговор-к-говору трубопроводов. Поддерживает многоголосый диалог с [S1]/[S2] тегами и паралингвистическими подсказками, такими как (лаух), (кохле).
Nari Labs
Apache 2.0
Fast
en
4GB
Жок
2x
VoxCPM
Standard
VoxCPM 1.5 by OpenBMB - бул жаңы, токенизерсиз, дискреттик токендердин ордуна, уланып турган мейкиндикте иштөөчү TTS модели. Ал жогорку сапаттагы 44.1 кГц аудиону чыгарат, 3-10 секунддан кийин үн клондоону колдойт, жана абзацтар арасында бирдейдикти сактайт. Тилдерди клондоо сизге англис үнүнө кытай үнүнө жана тескерисинче колдоно аласыз.
OpenBMB
Apache 2.0
Fast
en, zh
4GB
Ооба
2x
OuteTTS
Free
OuteTTS тексттен сүйлөөгө мүмкүнчүлүк берген чоң тил моделдерин кеңейтет, бирок оригиналдык архитектурасын сактайт. Ал llama.cpp (CPU/GPU), Hugging Face Transformers, ExLlamaV2, VLLM жана Transformers.js аркылуу браузердин инференциясын камтыган бир нече backend'дерди колдойт. JSON катары сакталган сүйлөгөндөрдүн профилдеринен үн клондоону колдойт.
OuteAI
Apache 2.0
Fast
en
2GB
Ооба
Акысыз
TADA
Standard
TADA (Text-Acoustic Dual Alignment) Hume AI тарабынан иштелип чыккан жаңылык, ал Llama 3.2 архитектурасы менен курулган жаңылык, ал галлюцинацияларды жокко чыгарат. 1B (англисче) жана 3B (көп тилдеги) варианттарында жеткиликтүү, TADA RTF 0.09 — 5x тездетүү менен LLM негизделген TTS моделдеринен артта калат. Ал 700 секундга чейинки аудио контекстти колдойт жана стандарттык критерийлер боюнча эмоциялуу сүйлөмдү галлюцинациясыз чыгарат.
Hume AI
MIT
Fast
en
5GB
Жок
2x
VibeVoice
Standard
Microsoft VibeVoice эки вариантта келет: 1.5B модели узун форматтагы мазмун үчүн (90 мүнөткө чейин, 4 үн чыгаруучу) жана Realtime 0.5B модели ~200 мс биринчи аудио кечиктирүү менен. 1.5B варианты подкасттар жана аудиокитептер үчүн эң сонун, анткени ал узак фрагменттерде үн чыгаруучунун бир калыпта болушун камсыз кылат. Эскертүү: Microsoft TTS кодун репозиторийден алып салды, жана генерацияланган аудиодо угулган AI жоопкерчиликтен баш тартуулары бар.
Microsoft
MIT
Fast
en, zh
4GB
Жок
2x
Pocket TTS
Free
Pocket TTS by Kyutai (creators of Moshi) - бул 100М параметрлүү текст-сөз моделинин компакттуу версиясы, ал өз салмагынан алда канча күчтүү. Ал процессордун кубатын үнөмдүү колдонот, бир аудио үлгүсүнөн үн клондоону колдойт жана табигый үн менен сүйлөйт. Кичине өлчөмү аны чектелген ресурстар менен иштөөгө ылайыктуу кылат.
Kyutai
MIT
Fast
en, fr
1GB
Ооба
Акысыз
Kitten TTS
Free
Kitten TTS by KittenML is an ultra-lightweight text-to-speech model built on ONNX. With variants from 15M to 80M parameters (25-80 MB on disk), it delivers high-quality voice synthesis on CPU without requiring a GPU. Features 8 built-in voices, adjustable speech speed, and built-in text preprocessing for numbers, currencies, and units. Ideal for edge deployment and low-latency applications.
KittenML
Apache 2.0
Fast
en
0GB
Жок
Акысыз
CosyVoice3
Standard
CosyVoice3 is the latest evolution from Alibaba's FunAudioLLM team. It features bi-streaming inference with ~150ms latency, instruction-based control for emotion/speed/volume, and improved speaker similarity for zero-shot cloning. Supports 9 languages plus 18 Chinese dialects. RL-tuned variant delivers state-of-the-art prosody.
Alibaba (FunAudioLLM)
Apache 2.0
Fast
en, zh, ja, ko, de, es, fr, it, ru
4GB
Ооба
2x
MOSS-TTS
Premium
MOSS-TTS from OpenMOSS supports generation of up to 1 hour of continuous speech across 20 languages. Features token-level duration control, phoneme-level pronunciation control via IPA/Pinyin, and code-switching between languages. The 8B production model delivers state-of-the-art quality with zero-shot voice cloning from reference audio.
OpenMOSS
Apache 2.0
Medium
en, zh, de, es, fr, ja, it, hu, ko, ru, fa, ar, pl, pt, cs, da, sv, el, tr
16GB
Ооба
4x
MegaTTS3
Premium
MegaTTS3 from ByteDance uses a novel sparse alignment mechanism combined with a latent diffusion transformer. Features adjustable trade-off between speech intelligibility and speaker similarity for zero-shot voice cloning.
ByteDance
Apache 2.0
Slow
en, zh
8GB
Ооба
4x
Kokoro
Акысыз
Kokoro is an 82 million parameter text-to-speech model that punches well above its weight class. Despite its tiny size, it produces remarkably natural and expressive speech. Kokoro supports multiple languages including English, Japanese, Chinese, and Korean with a variety of expressive voices. It runs incredibly fast — generating audio nearly 100x faster than real-time on a GPU.
Hexgrad
Apache 2.0
Fast
Piper
Акысыз
Piper is a lightweight text-to-speech engine developed by Rhasspy that uses VITS and larynx architectures. It runs entirely on CPU, making it ideal for edge devices, home automation, and applications requiring offline TTS. With over 100 voices across 30+ languages, Piper delivers natural-sounding speech at real-time speeds even on a Raspberry Pi 4.
Rhasspy
MIT
Fast
VITS
Акысыз
VITS (Variational Inference with adversarial learning for end-to-end Text-to-Speech) is a parallel end-to-end TTS method that generates more natural sounding audio than current two-stage models. It adopts variational inference augmented with normalizing flows and an adversarial training process, achieving a significant improvement in naturalness.
Jaehyeon Kim et al.
MIT
Fast
MeloTTS
Акысыз
MeloTTS by MyShell.ai is a multilingual TTS library supporting English (American, British, Indian, Australian), Spanish, French, Chinese, Japanese, and Korean. It is extremely fast, processing text at near real-time speed on CPU alone. MeloTTS is designed for production use and supports both CPU and GPU inference.
MyShell.ai
MIT
Fast
OuteTTS
Акысыз
OuteTTS extends large language models with text-to-speech capabilities while preserving the original architecture. It supports multiple backends including llama.cpp (CPU/GPU), Hugging Face Transformers, ExLlamaV2, VLLM, and even browser inference via Transformers.js. Features zero-shot voice cloning through speaker profiles saved as JSON.
OuteAI
Apache 2.0
Fast
Pocket TTS
Акысыз
Pocket TTS by Kyutai (creators of Moshi) is a compact 100M parameter text-to-speech model that punches well above its weight. It runs efficiently on CPU, supports zero-shot voice cloning from a single audio sample, and produces natural-sounding speech. The small model size makes it ideal for edge deployment and low-resource environments.
Kyutai
MIT
Fast
Kitten TTS
Акысыз
Kitten TTS by KittenML is an ultra-lightweight text-to-speech model built on ONNX. With variants from 15M to 80M parameters (25-80 MB on disk), it delivers high-quality voice synthesis on CPU without requiring a GPU. Features 8 built-in voices, adjustable speech speed, and built-in text preprocessing for numbers, currencies, and units. Ideal for edge deployment and low-latency applications.
KittenML
Apache 2.0
Fast
Bark
Стандарттык
Bark by Suno is a transformer-based text-to-audio model that can generate highly realistic, multilingual speech as well as other audio like music, background noise, and sound effects. It can produce nonverbal communications like laughing, sighing, and crying. Bark supports over 100 speaker presets and 13+ languages.
Suno
MIT
Slow
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
Жок
Bark Small
Стандарттык
Bark Small is a distilled version of the Bark model that trades some audio quality for significantly faster inference speeds and lower memory requirements. It retains Bark's ability to generate speech with emotions, laughter, and multiple languages.
Suno
MIT
Medium
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
Жок
CosyVoice 2
Стандарттык
CosyVoice 2 by Alibaba's Tongyi Lab achieves human-comparable speech quality with extremely low latency, making it ideal for real-time applications. It uses a finite scalar quantization approach for streaming synthesis and supports zero-shot voice cloning, cross-lingual synthesis, and fine-grained emotion control. It outperforms many commercial TTS systems in subjective evaluations.
Alibaba (Tongyi Lab)
Apache 2.0
Medium
en, zh, ja, ko, fr, de, it, es
Ооба
Dia TTS
Стандарттык
Dia by Nari Labs is a 1.6B parameter text-to-speech model designed specifically for generating multi-speaker dialogue. It can produce natural-sounding conversations between two speakers with appropriate turn-taking, prosody, and emotional expression. Dia is perfect for creating podcast-style content, audiobook dialogues, and interactive conversational AI.
Nari Labs
Apache 2.0
Medium
en
Жок
Parler TTS
Стандарттык
Parler TTS is a text-to-speech model that uses natural language voice descriptions to control the generated speech. Instead of selecting from preset voices, you describe the voice you want (e.g., "a warm female voice with a slight British accent, speaking slowly and clearly") and Parler generates speech matching that description. This makes it uniquely flexible for creative applications.
Hugging Face
Apache 2.0
Medium
en
Жок
GLM-TTS
Стандарттык
GLM-TTS by Zhipu AI is a text-to-speech system built on the Llama architecture with flow matching. It achieves the lowest character error rate among open-source TTS models, meaning it produces the most accurate pronunciation. GLM-TTS supports English and Chinese with voice cloning from 3-10 second audio samples.
Zhipu AI
GLM-4 License
Medium
en, zh
Ооба
IndexTTS-2
Стандарттык
IndexTTS-2 is an advanced text-to-speech system that excels at zero-shot voice synthesis with fine-grained emotion control. It can generate speech with specific emotional tones like happy, sad, angry, or fearful without requiring emotion-specific training data. The model uses emotion vectors to precisely control the emotional expression of generated speech.
Index Team
Bilibili Model License
Medium
en, zh
Ооба
Spark TTS
Стандарттык
Spark TTS by SparkAudio is a text-to-speech model that combines voice cloning with controllable emotion and speaking style. Using just 5 seconds of reference audio, it can clone a voice and then generate speech with different emotions, speeds, and styles while maintaining the cloned voice identity. Spark TTS uses a prompt-based control system.
SparkAudio
CC BY-NC-SA 4.0
Medium
en, zh
Ооба
GPT-SoVITS
Стандарттык
GPT-SoVITS combines GPT-style language modeling with SoVITS (Singing Voice Inference via Translation and Synthesis) for powerful few-shot voice cloning. With as little as 5 seconds of reference audio, it can accurately clone a voice and generate new speech while preserving the speaker's unique characteristics. It excels at both speaking and singing voice synthesis.
RVC-Boss
MIT
Slow
en, zh, ja, ko
Ооба
Orpheus
Стандарттык
Orpheus is a large-scale text-to-speech model that achieves human-level emotional expression. Trained on over 100,000 hours of diverse speech data, it excels at generating speech with natural emotions, emphasis, and speaking styles. Orpheus can produce speech that is virtually indistinguishable from human recordings.
Canopy Labs
Llama 3.2 Community
Medium
en
Жок
Qwen3 TTS
Стандарттык
Qwen3-TTS is a 1.7 billion parameter text-to-speech model from Alibaba's Qwen team. It supports three modes: preset voices with emotion control (9 speakers), voice cloning from just 3 seconds of audio, and a unique voice design mode where you describe the voice you want in natural language. It covers 10 languages with high expressiveness and natural prosody.
Alibaba (Qwen)
Apache 2.0
Medium
en, zh, ja, ko, de, fr, ru, pt, es, it
Ооба
Chatterbox Turbo
Стандарттык
Chatterbox Turbo by Resemble AI is a 350M parameter upgrade to Chatterbox, delivering up to 6x real-time speed with sub-200ms latency. It supports paralinguistic tags like [laugh], [cough], and [chuckle] directly in text. Includes Perth watermarking on all generated audio for provenance tracking.
Resemble AI
MIT
Fast
en
Ооба
Zonos
Стандарттык
Zonos v0.1 by Zyphra is a 1.6B parameter model featuring fine-grained emotion control with sliders for happiness, anger, sadness, fear, and surprise. It offers both a Transformer and a novel SSM (state-space model) variant. Trained on 200K+ hours of multilingual speech with zero-shot voice cloning from 10-30 seconds of reference audio.
Zyphra
Apache 2.0
Medium
en, ja, zh, fr, de
Ооба
Dia 2
Стандарттык
Dia2 by Nari Labs is a streaming-first upgrade to Dia, available in 1B and 2B parameter variants. It begins synthesizing audio from the first few tokens, making it ideal for real-time voice agents and speech-to-speech pipelines. Supports multi-speaker dialogue with [S1]/[S2] tags and paralinguistic cues like (laughs), (coughs).
Nari Labs
Apache 2.0
Fast
en
Жок
VoxCPM
Стандарттык
VoxCPM 1.5 by OpenBMB is a novel tokenizer-free TTS model that operates in continuous space rather than discrete tokens. It produces high-fidelity 44.1kHz audio, supports zero-shot voice cloning from 3-10 seconds, and maintains consistency across paragraphs. Cross-language cloning lets you apply an English voice to Chinese speech and vice versa.
OpenBMB
Apache 2.0
Fast
en, zh
Ооба
TADA
Стандарттык
TADA (Text-Acoustic Dual Alignment) by Hume AI is a groundbreaking TTS model that eliminates hallucinations through a novel dual alignment architecture built on Llama 3.2. Available in 1B (English) and 3B (multilingual) variants, TADA achieves an RTF of 0.09 — 5x faster than comparable LLM-based TTS models. It supports up to 700 seconds of audio context and produces emotionally expressive speech with zero hallucinations on standard benchmarks.
Hume AI
MIT
Fast
en
Жок
VibeVoice
Стандарттык
VibeVoice from Microsoft generates long-form speech up to 90 minutes with support for 4 simultaneous speakers, making it ideal for podcasts and dialogues. The Realtime 0.5B variant achieves ~300ms latency for interactive use. Supports speaker tags for multi-turn dialogue generation.
Microsoft
MIT
Fast
en, zh
Жок
CosyVoice3
Стандарттык
CosyVoice3 is the latest evolution from Alibaba's FunAudioLLM team. It features bi-streaming inference with ~150ms latency, instruction-based control for emotion/speed/volume, and improved speaker similarity for zero-shot cloning. Supports 9 languages plus 18 Chinese dialects. RL-tuned variant delivers state-of-the-art prosody.
Alibaba (FunAudioLLM)
Apache 2.0
Fast
en, zh, ja, ko, de, es, fr, it, ru
Ооба
Модель салыштыруу таблицасы
| Модель | Жазуучу: | Тигр | _Сапат: | Жылдамдык | тилдер | Сөздү клондоо | VRAM | Лицензия: | Кредиттер | |
|---|---|---|---|---|---|---|---|---|---|---|
| Kokoro | Hexgrad | Free | Fast | 11 | 1.5GB | Apache 2.0 | Акысыз | Колдонуу | ||
| Piper | Rhasspy | Free | Fast | 31 | 0 (CPU only) | MIT | Акысыз | Колдонуу | ||
| VITS | Jaehyeon Kim et al. | Free | Fast | 4 | 1GB | MIT | Акысыз | Колдонуу | ||
| MeloTTS | MyShell.ai | Free | Fast | 6 | 0.5GB (GPU optional) | MIT | Акысыз | Колдонуу | ||
| Bark | Suno | Standard | Slow | 13 | 5GB | MIT | 2 | Колдонуу | ||
| Bark Small | Suno | Standard | Medium | 13 | 2GB | MIT | 2 | Колдонуу | ||
| CosyVoice 2 | Alibaba (Tongyi Lab) | Standard | Medium | 8 | 4GB | Apache 2.0 | 2 | Колдонуу | ||
| Dia TTS | Nari Labs | Standard | Medium | 1 | 4GB | Apache 2.0 | 2 | Колдонуу | ||
| Parler TTS | Hugging Face | Standard | Medium | 1 | 4GB | Apache 2.0 | 2 | Колдонуу | ||
| GLM-TTS | Zhipu AI | Standard | Medium | 2 | 4GB | GLM-4 License | 2 | Колдонуу | ||
| IndexTTS-2 | Index Team | Standard | Medium | 2 | 4GB | Bilibili Model License | 2 | Колдонуу | ||
| Spark TTS | SparkAudio | Standard | Medium | 2 | 4GB | CC BY-NC-SA 4.0 | 2 | Колдонуу | ||
| GPT-SoVITS | RVC-Boss | Standard | Slow | 4 | 6GB | MIT | 2 | Колдонуу | ||
| Orpheus | Canopy Labs | Standard | Medium | 1 | 4GB | Llama 3.2 Community | 2 | Колдонуу | ||
| Chatterbox | Resemble AI | Premium | Medium | 1 | 4GB | MIT | 4 | Колдонуу | ||
| Tortoise TTS | James Betker | Premium | Slow | 1 | 8GB | Apache 2.0 | 4 | Колдонуу | ||
| StyleTTS 2 | Columbia University | Premium | Medium | 1 | 4GB | MIT | 4 | Колдонуу | ||
| OpenVoice | MyShell.ai / MIT | Premium | Medium | 8 | 4GB | MIT | 4 | Колдонуу | ||
| Qwen3 TTS | Alibaba (Qwen) | Standard | Medium | 10 | 7GB | Apache 2.0 | 2 | Колдонуу | ||
| Sesame CSM | Sesame | Premium | Slow | 1 | 8GB | Apache 2.0 | 4 | Колдонуу | ||
| Chatterbox Turbo | Resemble AI | Standard | Fast | 1 | 2GB | MIT | 2 | Колдонуу | ||
| Zonos | Zyphra | Standard | Medium | 5 | 6GB | Apache 2.0 | 2 | Колдонуу | ||
| Dia 2 | Nari Labs | Standard | Fast | 1 | 4GB | Apache 2.0 | 2 | Колдонуу | ||
| VoxCPM | OpenBMB | Standard | Fast | 2 | 4GB | Apache 2.0 | 2 | Колдонуу | ||
| OuteTTS | OuteAI | Free | Fast | 1 | 2GB | Apache 2.0 | Акысыз | Колдонуу | ||
| TADA | Hume AI | Standard | Fast | 1 | 5GB | MIT | 2 | Колдонуу | ||
| VibeVoice | Microsoft | Standard | Fast | 2 | 4GB | MIT | 2 | Колдонуу | ||
| Pocket TTS | Kyutai | Free | Fast | 2 | 1GB | MIT | Акысыз | Колдонуу | ||
| Kitten TTS | KittenML | Free | Fast | 1 | 0GB | Apache 2.0 | Акысыз | Колдонуу | ||
| CosyVoice3 | Alibaba (FunAudioLLM) | Standard | Fast | 9 | 4GB | Apache 2.0 | 2 | Колдонуу | ||
| MOSS-TTS | OpenMOSS | Premium | Medium | 19 | 16GB | Apache 2.0 | 4 | Колдонуу | ||
| MegaTTS3 | ByteDance | Premium | Slow | 2 | 8GB | Apache 2.0 | 4 | Колдонуу |
Эң кеңири AI текст-сөз платформасы
Эмне үчүн текстти сүйлөмгө которуу үчүн TTS.ai тандоо керек?
TTS.ai дүйнөдөгү эң мыкты ачык булактуу текст-то-слов моделдерин бир, колдонууга оңой платформага бириктирет. Бир гана үн двигателине бөгөт коюлган патенттик кызматтардан айырмаланып, TTS.ai сизге Coqui, MyShell, Amphion, NVIDIA, Suno, HuggingFace, Tsinghua University жана башкалардын ичинен алдыңкы изилдөө лабораторияларынын 20дан ашык моделдерине кирүү мүмкүнчүлүгүн берет.
Ар бир модель MIT, Apache 2.0 же окшош лицензиялар менен ачык булак, бул сиздин долбоорлорунда генерацияланган аудиону колдонууга толук коммерциялык укуктарыңыз бар экенин камсыз кылат. Сизге тез, жеңил синтез керек болсо, же аудиокитептерди жана подкасттарды студиялык сапатта чыгаруу керек болсо, TTS.ai ар бир колдонуу үчүн туура модель бар.
Акысыз моделдер, каттоо эсеби талап кылынбайт
Үч акысыз TTS модели менен тез эле иштей баштаңыз: Piper (эң тез, жеңил), VITS (мыкты сапаттагы нейрондук синтез) жана MeloTTS (көп тилдеги колдоо). Каттоосуз, кредиттик картасыз, генерацияларга чектөөсүз. Акысыз моделдер англис тилин жана башка көптөгөн тилдери менен табигый үн чыгарууну колдойт, көпчүлүк тиркемелерге ылайыктуу.
Графикалык процессор менен тездетилген иштетүү
Бардык TTS моделдери тез жана бирдей генерациялоо үчүн NVIDIA GPUs менен иштешет. Акысыз моделдер 2 секунддан аз убакытта аудиону генерациялайт. Kokoro, CosyVoice 2 жана Bark сыяктуу стандарттык моделдер орточо 3-5 секундда. Tortoise жана Chatterbox сыяктуу жогорку сапаттагы премиум моделдер тексттин узундугуна жараша 5-15 секундда иштешет.
30дан ашык тил колдоо табат
30дан ашык тилде сүйлөмдү генерациялоо, анын ичинде англис, испан, француз, немис, италия, португал, кытай, япон, корей, араб, хинди, орус жана башка көптөгөн тилдер. Бир нече моделдер тилдер аралык синтезди колдойт, бул сиздин оригиналдуу үн эч качан үйрөтүлгөн тилдерде сүйлөмдү генерациялай аласыз дегенди билдирет. CosyVoice 2 жана GPT-SoVITS тилдер аралык үн клондоосунда мыкты.
Разработчики
TTS.aiди OpenAI-ка ылайыктуу REST API менен колдонмолоруңузга интеграциялаңыз. Бир эле конуу пункту бардык 20дан ашык моделдер үчүн. Python, JavaScript, cURL жана Go SDKs. Реалдуу убакытта колдонмолорду жеткирүү. Батареялык иштетүү чоң көлөмдөгү контентти түзүү үчүн. Веб-хук асинхрондук кабарлоо үчүн. Pro жана Enterprise пландарында жеткиликтүү.
Көп берилүүчү суроолор
Биз эмнени жакшыртсак болот? Сиздин пикириңиз бизге көйгөйлөрдү чечүүгө жардам берет.
Текстти сүйлөмгө которууну азыр баштаңыз
TTS.ai колдонуп миңдеген жаратуучуларга кошулуу. Жаңы эсеп менен 15000 акысыз символдорду алуу. Акысыз моделдер каттоосуз жеткиликтүү.