Праграма пераўтварэння тэксту ў мовуName
Ператварэньне тэксту ў натуральна гучаючую мову з дапамогай мадэляў штучнага інтэлекту з адкрытым зыходным кодам.
Захоўваць тэкст у тэгах SSML для дакладнага кантролю:
<speak><prosody rate="slow">Slow speech</prosody></speak>
Дадаць маркер эмоцый для ўплыву на паказ (падтрымка мадэляў розная):
Вызначыць уласнае вымаўленне (слова = вымаўленне):
Падрабязнасці мадэлі
MegaTTS3
MegaTTS3 from ByteDance uses a novel sparse alignment mechanism combined with a latent diffusion transformer. Features adjustable trade-off between speech intelligibility and speaker similarity for zero-shot voice cloning.
| Распрацоўшчык: | ByteDance |
| Ліцэнзія: | Apache 2.0 |
| Хуткасць | Slow |
| Якасць: | |
| Мовы | 2 Мовы |
| VRAM | 8GB |
| Клонаванне голасу | Падтрымліваецца |
Парады для лепшых вынікаў
- Выкарыстоўваць правільную пунктуацыю для натуральных перапынкаў і інтанацыі
- Прапісваць лічбы і скароты для больш дакладнага вымаўленьня
- Дадаць коскі для стварэння кароткіх перапынкаў паміж фразамі
- Выкарыстоўвайце шматкроп' е (...) для доўгіх драматычных перапынкаў
- Паспрабуйце Kokoro або CosyVoice 2 для найбольш натуральных вынікаў
- Выкарыстоўваць Dia для дыялогу з некалькімі гукарэжысёрамі і для падкастаў
Крэдытныя выдаткі
| Імпартаваць | Кошт за 1K знакаў |
|---|---|
| Свабодны | 0 крэдыт( аў) |
| Па змаўчанні | 2 крэдыты / 1K знакаў |
| Прэміум | 4 крэдыты / 1K знакаў |
Як працуе пераўтваральнік тэксту ў мову
Стварэньне дыялогу прафэсійнага якасьці ў трох простых кроках. Няма патрэбы ў тэхнічных ведах.
Увядзіце ваш тэкст
Увядзіце, усталюйце або загрузіце тэкст, які вы хочаце ператварыць у маўленне. Падтрымліваецца да 5000 знакаў за генерацыю для зарэгістраваных карыстальнікаў. Выкарыстоўвайце звычайны тэкст або дадайце тэгі SSML для дадатковага кантролю над маўленнем, перапынкамі і акцэнтам.
Выбар мадэлі і голасу
Выбірайце з больш чым 20 мадэляў штучнага інтэлекту на трох узроўнях. Выберыце голас, які адпавядае вашаму зместу, выберыце мэтавую мову, настаўце хуткасць прайгравання ад 0. 5x да 2. 0x і выберыце патрэбны фармат вываду (MP3, WAV, OGG або FLAC).
Сцягнуць
Націсніце Стварыць, і ваш аўдыёфайл будзе гатовы праз некалькі секунд. Прагледзіце яго ўбудаваным прайгравальнікам, загрузіце ў выбраным фармаце або скапіруйце спасылку для абмену. Выкарыстоўвайце API для пакетнай апрацоўкі і інтэграцыі ў ваш працоўны працэс.
Выкарыстанне пераўтварэння тэксту ў мовуName
Інфармацыйна-камунікацыйныя тэхналогіі (ІКТ) выкарыстоўваюцца для стварэння, захоўвання і распаўсюджвання інфармацыі ў розных сферах дзейнасці.
Усе мадэлі пераўтварэння тэксту ў мову
Падрабязныя характарыстыкі кожнай мадэлі AI даступныя на TTS.ai. Параўнайце якасць, хуткасць, падтрымку мовы і магчымасці, каб знайсці ідэальную мадэль для вашага праекта.
Kokoro
Free
Kokoro - гэта 82- мільённая мадэль пераўтварэння тэксту ў мову, якая пераўзыходзіць свае магчымасці. Нягледзячы на невялікі памер, яна дазваляе атрымліваць натуральную і выразную мову. Kokoro падтрымлівае некалькі моў, у тым ліку англійскую, японскую, кітайскую і карэйскую, з рознымі выразнымі голасамі. Яна працуе неверагодна хутка - генеруе гук амаль у 100 разоў хутчэй, чым у рэальным часе на GPU.
Hexgrad
Apache 2.0
Fast
en, ja, zh, ko, fr, de, it, pt, es, hi, ru
1.5GB
Няма
Свабодны
Piper
Free
Piper - гэта лёгкі рухавік пераўтварэння тэксту ў мову, распрацаваны Rhasspy, які выкарыстоўвае архітэктуры VITS і larynx. Ён працуе цалкам на працэсары, што робіць яго ідэальным для перыферычных прылад, хатняй аўтаматызацыі і прыкладанняў, якія патрабуюць аўтаномнага пераўтварэння тэксту ў мову. З больш чым 100 галасамі на больш чым 30 мовах, Piper дае натуральна гучную мову з хуткасцю рэальнага часу нават на Raspberry Pi 4.
Rhasspy
MIT
Fast
en, de, fr, es, it, pt, nl, pl, ru, zh, ja, ko, ar, cs, da, fi, el, hu, is, ka, kk, ne, no, ro, sk, sr, sv, sw, tr, uk, vi
0 (CPU only)
Няма
Свабодны
VITS
Free
VITS (Variation Inference with adversarial learning for end- to- end Text- to- Speech) - гэта паралельны метад перакладу тэксту на мову, які генеруе больш натуральны гук, чым цяперашнія двухступеністыя мадэлі. Ён выкарыстоўвае варыяцыйную інферэнцыю, падмацаваную нармалізуючымі патокамі і канкурэнтным працэсам навучання, што дазваляе дасягнуць значнага паляпшэння натуральнасці.
Jaehyeon Kim et al.
MIT
Fast
en, zh, ja, ko
1GB
Няма
Свабодны
MeloTTS
Free
MeloTTS ад MyShell. ai - гэта шматмоўная бібліятэка TTS, якая падтрымлівае англійскую (амерыканскую, брытанскую, індыйскую, аўстралійскую), іспанскую, французскую, кітайскую, японскую і карэйскую мовы. Яна вельмі хуткая, апрацоўвае тэкст амаль у рэальным часе толькі на працэсары. MeloTTS распрацавана для выкарыстання ў прамысловасці і падтрымлівае як працэсар, так і графічны працэсар.
MyShell.ai
MIT
Fast
en, es, fr, zh, ja, ko
0.5GB (GPU optional)
Няма
Свабодны
Bark
Standard
Bark ад Suno - гэта трансфарматарная мадэль пераўтварэння тэксту ў аўдыё, якая можа генераваць вельмі рэалістычную, шматмоўную мову, а таксама іншыя гукавыя эфекты, такія як музыка, фонавы шум і гукавыя эфекты. Яна можа генераваць невербальны зносіны, такія як смех, дыханне і плач. Bark падтрымлівае больш за 100 налад дыктараў і больш за 13 моў.
Suno
MIT
Slow
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
5GB
Няма
2x
Bark Small
Standard
Bark Small - гэта перапрацаваная версія мадэлі Bark, якая зніжае якасць гуку ў абмен на значна большую хуткасць вываду і меншыя патрабаванні да памяці. Яна захоўвае магчымасць генераваць мову з эмоцыямі, смехам і на некалькіх мовах.
Suno
MIT
Medium
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
2GB
Няма
2x
CosyVoice 2
Standard
CosyVoice 2, распрацаваны лабараторыяй Tongyi Lab кампаніі Alibaba, забяспечвае якасць гаворкі, падобную да чалавечай, з вельмі нізкім часам чакання, што робіць яго ідэальным для прыкладанняў рэальнага часу. Ён выкарыстоўвае канечны скалярны квантавы падыход для сінтэзу ў рэжыме рэальнага часу і падтрымлівае клонаванне голасу з нулявым выбухам, сінтэз паміж мовамі і дакладнае кіраванне эмоцыямі. Пры суб'ектыўных ацэнках ён пераўзыходзіць многія камерцыйныя сістэмы TTS.
Alibaba (Tongyi Lab)
Apache 2.0
Medium
en, zh, ja, ko, fr, de, it, es
4GB
Так
2x
Dia TTS
Standard
Dia ад Nari Labs - гэта мадэль пераўтварэння тэксту ў мову з параметрамі 1. 6B, распрацаваная спецыяльна для стварэння дыялогу паміж некалькімі гульцамі. Яна можа ствараць натуральна гучачыя размовы паміж двума гульцамі з адпаведнымі паваротамі, празодыяй і эмацыянальным выражэннем. Dia ідэальна падыходзіць для стварэння змесціва ў стылі подкастаў, дыялогу паміж гукавымі кнігамі і інтэрактыўным штучным інтэлектам.
Nari Labs
Apache 2.0
Medium
en
4GB
Няма
2x
Parler TTS
Standard
Parler TTS - гэта мадэль пераўтварэння тэксту ў мову, якая выкарыстоўвае апісанне голасу натуральнай мовы для кіравання генераванай мовай. Замест таго, каб выбіраць з прадвызначаных голасаў, вы апісваеце жаданы голас (напрыклад, "цёплы жаночы голас з невялікім брытанскім акцэнтам, які гаворыць павольна і дакладна"), і Parler генеруе мову, якая адпавядае гэтаму апісанню. Гэта робіць яго унікальна гнуткімі для творчых праграм.
Hugging Face
Apache 2.0
Medium
en
4GB
Няма
2x
GLM-TTS
Standard
GLM- TTS ад Zhipu AI - гэта сістэма пераўтварэння тэксту ў мову, пабудаваная на архітэктуры Llama з падпарадкаваннем плыні. Яна дасягае найменшага ўзроўню памылак сярод мадэляў TTS з адкрытым зыходным кодам, што азначае, што яна вырабляе найбольш дакладнае вымаўленне. GLM- TTS падтрымлівае англійскую і кітайскую з клонаваннем голасу з 3- 10 секундных аўдыёсемплаў.
Zhipu AI
GLM-4 License
Medium
en, zh
4GB
Так
2x
IndexTTS-2
Standard
IndexTTS- 2 - гэта прасунутая сістэма пераўтварэння тэксту ў мову, якая адрозніваецца нулявым сінтэзам голасу з дакладным кантролем эмоцый. Яна можа генераваць мову з пэўнымі эмацыянальнымі тонамі, такімі як шчаслівы, сумны, злы або баязлівы, не патрабуючы спецыяльных эмацыянальных трэніровачных дадзеных. Модэль выкарыстоўвае вектары эмоцый для дакладнага кантролю эмацыянальнага выражэння генераванай мовы.
Index Team
Bilibili Model License
Medium
en, zh
4GB
Так
2x
Spark TTS
Standard
Spark TTS ад SparkAudio - гэта мадэль пераўтварэння тэксту ў мову, якая спалучае ў сабе клонаванне голасу з кантралюемымі эмоцыямі і стылем гаворкі. Выкарыстоўваючы толькі 5 секунд аўдыё, яна можа клонаваць голас, а затым генераваць мову з рознымі эмоцыямі, хуткасцю і стылем, захоўваючы пры гэтым ідэнтыфікацыю клонаванага голасу. Spark TTS выкарыстоўвае сістэму кіравання, заснаваную на запыце.
SparkAudio
CC BY-NC-SA 4.0
Medium
en, zh
4GB
Так
2x
GPT-SoVITS
Standard
GPT- SoVITS аб' ядноўвае мадэляваньне мовы ў стылі GPT з SoVITS (Singing Voice Inference via Translation and Synthesis) для магутнага кланаваньня голасу ў некалькіх кадрах. Толькі з 5 секундамі рэферэнцыйнага гуку, ён можа дакладна кланавацца і генераваць новую мову, захоўваючы ўнікальныя характарыстыкі гаворцы. Ён выдатна працуе з сінтэзам голасу як у размове, так і ў спеве.
RVC-Boss
MIT
Slow
en, zh, ja, ko
6GB
Так
2x
Orpheus
Standard
Orpheus - гэта вялікамасштабная мадэль пераўтварэння тэксту ў мову, якая дасягае эмацыянальнага выражэння на ўзроўні чалавека. Праграма была трэніраваная на больш чым 100 000 гадзінах розных дадзеных гаворкі, яна выдатна генеруе мову з натуральнымі эмоцыямі, акцэнтам і стылямі гаворкі. Orpheus можа генераваць мову, якую практычна немагчыма адрозніць ад запісаў чалавека.
Canopy Labs
Llama 3.2 Community
Medium
en
4GB
Няма
2x
Chatterbox
Premium
Chatterbox ад Resemble AI - гэта найноўшая мадэль клонавання голасу з нулявым выбухам. Яна можа паўтарыць любы голас з аднаго аўдыёсэмплю з выдатнай дакладнасцю, захопліваючы не толькі тыямбр, але і стыль гаворкі і эмацыянальныя нюансы. Chatterbox таксама мае дакладнае кіраванне эмоцыямі, што дазваляе вам наладжваць эмацыянальны тон генераванай гаворкі незалежна ад ідэнтычнасці голасу.
Resemble AI
MIT
Medium
en
4GB
Так
4x
Tortoise TTS
Premium
Tortoise TTS - гэта аўтарэгрэсіўная шматголасная сістэма пераўтварэння тэксту ў мову, якая аддае перавагу якасці гуку перад хуткасцю. Яна выкарыстоўвае архітэктуру, натхнёную DALL- E, каб генераваць натуральную мову з выдатнай празодыяй і падобнасцю да гаворкі. Нягледзячы на тое, што Tortoise павольней, чым многія альтэрнатывы, ён вырабляе найбольш рэалістычную сінтэзаваную мову, даступную ў экасістэме з адкрытым зыходным кодам.
James Betker
Apache 2.0
Slow
en
8GB
Так
4x
StyleTTS 2
Premium
StyleTTS 2 дасягае сінтэзу TTS на ўзроўні чалавека, спалучаючы дыфузію стылю з канкурэнтным навучаннем з выкарыстаннем вялікіх мадэляў мовы гаворкі. Ён генеруе найбольш натуральна гучаючую мову сярод мадэляў аднаго гукарэжысёра, канкурыруючы з запісамі чалавека. StyleTTS 2 выкарыстоўвае мадэляванне стылю на аснове дыфузіі для захопу поўнага дыяпазону вар' яцтва чалавечай мовы.
Columbia University
MIT
Medium
en
4GB
Няма
4x
OpenVoice
Premium
OpenVoice ад MyShell.ai дазваляе неадкладна клонаваць голас з дробным кантролем над стылем голасу, эмоцыямі, акцэнтам, рытмам, перапынкамі і інтанацыяй. Ён можа клонаваць голас з кароткага аўдыякліпа і генераваць размову на некалькіх мовах, захоўваючы ідэнтычнасць гаворцы. OpenVoice таксама функцыянуе як пераўтваральнік голасу, дазваляючы пераўтварэнне голасу ў рэальным часе.
MyShell.ai / MIT
MIT
Medium
en, zh, ja, ko, fr, de, es, it
4GB
Так
4x
Qwen3 TTS
Standard
Qwen3- TTS - гэта мадэль пераўтварэння тэксту ў мову з 1. 7 мільярдамі параметраў, распрацаваная камандай Qwen кампаніі Alibaba. Яна падтрымлівае тры рэжымы: прадвызначаныя галасы з кантролем эмоцый (9 дынамікаў), клонаванне голасу з 3 секундаў гуку і унікальны рэжым дызайну голасу, дзе вы апісваеце патрэбны вам голас на натуральнай мове. Яна ахоплівае 10 моў з высокай выразнасцю і натуральнай празодыяй.
Alibaba (Qwen)
Apache 2.0
Medium
en, zh, ja, ko, de, fr, ru, pt, es, it
7GB
Так
2x
Sesame CSM
Premium
Sesame CSM (Conversational Speech Model) - гэта мадэль з 1 мільярдамі параметраў, распрацаваная спецыяльна для стварэння гутарковай мовы. Яна мадэлюе прыродныя ўзоры гутаркі чалавека, уключаючы час павароту, адказы назад, эмацыянальныя рэакцыі і гутарку. CSM генеруе гук, які гучыць як прыродная гутарка чалавека, а не сінтэтычная мова.
Sesame
Apache 2.0
Slow
en
8GB
Няма
4x
Chatterbox Turbo
Standard
Chatterbox Turbo ад Resemble AI - гэта абнаўленне параметраў Chatterbox на 350М, якое дае хуткасць да 6x у рэальным часе з затрымкай менш за 200 мс. Ён падтрымлівае паралінгвістычныя тэгі, такія як [smile], [cough] і [chuckle] прама ў тэксце. Уключае ў сябе Perth watermark на ўсіх створаных гуках для адсочвання паходжання.
Resemble AI
MIT
Fast
en
2GB
Так
2x
Zonos
Standard
Zonos v0. 1 ад Zyphra - гэта мадэль з параметрамі 1. 6B, якая ўключае ў сябе дакладнае кіраванне эмоцыямі з паліцаямі для радасці, злосці, суму, страху і нечаканасці. Яна прапануе як трансфарматар, так і новы варыянт SSM (мадэлі прасторы станаў). Праграма трэніравалася на 200K+ гадзінах шматмоўнай мовы з нулявым клонаваннем голасу з 10- 30 секундаў аўдыё.
Zyphra
Apache 2.0
Medium
en, ja, zh, fr, de
6GB
Так
2x
Dia 2
Standard
Dia2 ад Nari Labs - гэта абнаўленне Dia, даступнае ў 1B і 2B варыянтаў параметраў. Ён пачынае сінтэзаваць гук з першых некалькіх знакаў, што робіць яго ідэальным для галасавых агентаў рэальнага часу і канвеераў размова- да- мовы. Падтрымлівае дыялог з некалькімі гульцамі з тэгамі [S1] / [S2] і паралінгвістычныя падказкі, такія як (smiles), (coughs).
Nari Labs
Apache 2.0
Fast
en
4GB
Няма
2x
VoxCPM
Standard
VoxCPM 1. 5 ад OpenBMB - гэта новая мадэль TTS, якая працуе ў бесперапыннай прасторы, а не ў дыскрэтных токенах. Яна вырабляе аўдыё высокай якасці 44. 1kHz, падтрымлівае нулявое клонаванне голасу з 3- 10 секунд, і захоўвае паслядоўнасць паміж абзацамі. Кросна- моўнае клонаванне дазваляе выкарыстоўваць англійскі голас у кітайскай мове і наадварот.
OpenBMB
Apache 2.0
Fast
en, zh
4GB
Так
2x
OuteTTS
Free
OuteTTS пашырае магчымасці тэкставага перакладу на мову, захоўваючы арыгінальную архітэктуру. Ён падтрымлівае некалькі backends, уключаючы llama.cpp (CPU/GPU), Hugging Face Transformers, ExLlamaV2, VLLM, і нават выснова браўзэра праз Transformers.js. Уключае ў сябе клонаваньне голасу праз профілі гукарэжысэра, запісаныя ў JSON.
OuteAI
Apache 2.0
Fast
en
2GB
Так
Свабодны
TADA
Standard
TADA (Text-Acoustic Dual Alignment) ад Hume AI — гэта новая мадэль TTS, якая выключае галюцынацыі з дапамогай новай архітэктуры падвойнага выраўноўвання, пабудаванай на Llama 3. 2. Даступная ў 1B (англійскай) і 3B (мультымоўнай) версіях, TADA дасягае RTF 0. 09 — 5x хутчэй, чым параўнальнае LLM-заснаванае TTS мадэлі. Яна падтрымлівае да 700 секундаў гукавога кантэксту і вырабляе эмацыянальна выразную мову з нулявымі галюцынацыямі па стандартных эталонах.
Hume AI
MIT
Fast
en
5GB
Няма
2x
VibeVoice
Standard
VibeVoice ад Microsoft прадастаўляецца ў двух варыяцыях: мадэль 1. 5B для доўгатэрміновага зместу (да 90 хвілін, 4 дынамікі) і мадэль Realtime 0. 5B для стрымінгу з ~ 200 мс першай гукавой латэнцыі. Варыянт 1. 5B выдатна падыходзіць для падкастаў і аўдыёкніг з доўгімі пераходамі. Заўвага: Microsoft выдаліў код TTS са сховішча і стварыў аўдыё з гукавымі абвяржэннямі AI.
Microsoft
MIT
Fast
en, zh
4GB
Няма
2x
Pocket TTS
Free
Pocket TTS ад Kyutai (творцы Moshi) - гэта кампактная мадэль пераўтварэння тэксту ў мову з 100М параметраў, якая пераўзыходзіць сябе па магутнасці. Яна працуе эфектыўна на працэсары, падтрымлівае кланаваньне голасу з аднаго аўдыёсэмплю і выпрацоўвае натуральна гучаючую мову. Маленькі памер мадэлі робіць яе ідэальнай для разьмяшчэньня на краі і ў асяроддзях з нізкімі рэсурсамі.
Kyutai
MIT
Fast
en, fr
1GB
Так
Свабодны
Kitten TTS
Free
Kitten TTS ад KittenML - гэта вельмі лёгкая мадэль пераўтварэння тэксту ў мову, пабудаваная на ONNX. З варыянтамі ад 15М да 80М параметраў (25- 80 МБ на дыску), яна забяспечвае высокакваліфікаваны сінтэз голасу на ЦПУ без патрэбы ў ГП. Ёсць 8 убудаваных голасаў, рэгулюемая хуткасць гаворкі і ўбудаваная папярэдняя апрацоўка тэксту для лікаў, валют і адзінак. Ідэальна падыходзіць для разгортвання на перыферыі і праграм з нізкімі затрымакамі.
KittenML
Apache 2.0
Fast
en
0GB
Няма
Свабодны
CosyVoice3
Standard
CosyVoice3 is the latest evolution from Alibaba's FunAudioLLM team. It features bi-streaming inference with ~150ms latency, instruction-based control for emotion/speed/volume, and improved speaker similarity for zero-shot cloning. Supports 9 languages plus 18 Chinese dialects. RL-tuned variant delivers state-of-the-art prosody.
Alibaba (FunAudioLLM)
Apache 2.0
Fast
en, zh, ja, ko, de, es, fr, it, ru
4GB
Так
2x
MOSS-TTS
Premium
MOSS-TTS from OpenMOSS supports generation of up to 1 hour of continuous speech across 20 languages. Features token-level duration control, phoneme-level pronunciation control via IPA/Pinyin, and code-switching between languages. The 8B production model delivers state-of-the-art quality with zero-shot voice cloning from reference audio.
OpenMOSS
Apache 2.0
Medium
en, zh, de, es, fr, ja, it, hu, ko, ru, fa, ar, pl, pt, cs, da, sv, el, tr
16GB
Так
4x
MegaTTS3
Premium
MegaTTS3 from ByteDance uses a novel sparse alignment mechanism combined with a latent diffusion transformer. Features adjustable trade-off between speech intelligibility and speaker similarity for zero-shot voice cloning.
ByteDance
Apache 2.0
Slow
en, zh
8GB
Так
4x
Kokoro
Свабодны
Kokoro is an 82 million parameter text-to-speech model that punches well above its weight class. Despite its tiny size, it produces remarkably natural and expressive speech. Kokoro supports multiple languages including English, Japanese, Chinese, and Korean with a variety of expressive voices. It runs incredibly fast — generating audio nearly 100x faster than real-time on a GPU.
Hexgrad
Apache 2.0
Fast
Piper
Свабодны
Piper is a lightweight text-to-speech engine developed by Rhasspy that uses VITS and larynx architectures. It runs entirely on CPU, making it ideal for edge devices, home automation, and applications requiring offline TTS. With over 100 voices across 30+ languages, Piper delivers natural-sounding speech at real-time speeds even on a Raspberry Pi 4.
Rhasspy
MIT
Fast
VITS
Свабодны
VITS (Variational Inference with adversarial learning for end-to-end Text-to-Speech) is a parallel end-to-end TTS method that generates more natural sounding audio than current two-stage models. It adopts variational inference augmented with normalizing flows and an adversarial training process, achieving a significant improvement in naturalness.
Jaehyeon Kim et al.
MIT
Fast
MeloTTS
Свабодны
MeloTTS by MyShell.ai is a multilingual TTS library supporting English (American, British, Indian, Australian), Spanish, French, Chinese, Japanese, and Korean. It is extremely fast, processing text at near real-time speed on CPU alone. MeloTTS is designed for production use and supports both CPU and GPU inference.
MyShell.ai
MIT
Fast
OuteTTS
Свабодны
OuteTTS extends large language models with text-to-speech capabilities while preserving the original architecture. It supports multiple backends including llama.cpp (CPU/GPU), Hugging Face Transformers, ExLlamaV2, VLLM, and even browser inference via Transformers.js. Features zero-shot voice cloning through speaker profiles saved as JSON.
OuteAI
Apache 2.0
Fast
Pocket TTS
Свабодны
Pocket TTS by Kyutai (creators of Moshi) is a compact 100M parameter text-to-speech model that punches well above its weight. It runs efficiently on CPU, supports zero-shot voice cloning from a single audio sample, and produces natural-sounding speech. The small model size makes it ideal for edge deployment and low-resource environments.
Kyutai
MIT
Fast
Kitten TTS
Свабодны
Kitten TTS by KittenML is an ultra-lightweight text-to-speech model built on ONNX. With variants from 15M to 80M parameters (25-80 MB on disk), it delivers high-quality voice synthesis on CPU without requiring a GPU. Features 8 built-in voices, adjustable speech speed, and built-in text preprocessing for numbers, currencies, and units. Ideal for edge deployment and low-latency applications.
KittenML
Apache 2.0
Fast
Bark
Па змаўчанні
Bark by Suno is a transformer-based text-to-audio model that can generate highly realistic, multilingual speech as well as other audio like music, background noise, and sound effects. It can produce nonverbal communications like laughing, sighing, and crying. Bark supports over 100 speaker presets and 13+ languages.
Suno
MIT
Slow
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
Няма
Bark Small
Па змаўчанні
Bark Small is a distilled version of the Bark model that trades some audio quality for significantly faster inference speeds and lower memory requirements. It retains Bark's ability to generate speech with emotions, laughter, and multiple languages.
Suno
MIT
Medium
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
Няма
CosyVoice 2
Па змаўчанні
CosyVoice 2 by Alibaba's Tongyi Lab achieves human-comparable speech quality with extremely low latency, making it ideal for real-time applications. It uses a finite scalar quantization approach for streaming synthesis and supports zero-shot voice cloning, cross-lingual synthesis, and fine-grained emotion control. It outperforms many commercial TTS systems in subjective evaluations.
Alibaba (Tongyi Lab)
Apache 2.0
Medium
en, zh, ja, ko, fr, de, it, es
Так
Dia TTS
Па змаўчанні
Dia by Nari Labs is a 1.6B parameter text-to-speech model designed specifically for generating multi-speaker dialogue. It can produce natural-sounding conversations between two speakers with appropriate turn-taking, prosody, and emotional expression. Dia is perfect for creating podcast-style content, audiobook dialogues, and interactive conversational AI.
Nari Labs
Apache 2.0
Medium
en
Няма
Parler TTS
Па змаўчанні
Parler TTS is a text-to-speech model that uses natural language voice descriptions to control the generated speech. Instead of selecting from preset voices, you describe the voice you want (e.g., "a warm female voice with a slight British accent, speaking slowly and clearly") and Parler generates speech matching that description. This makes it uniquely flexible for creative applications.
Hugging Face
Apache 2.0
Medium
en
Няма
GLM-TTS
Па змаўчанні
GLM-TTS by Zhipu AI is a text-to-speech system built on the Llama architecture with flow matching. It achieves the lowest character error rate among open-source TTS models, meaning it produces the most accurate pronunciation. GLM-TTS supports English and Chinese with voice cloning from 3-10 second audio samples.
Zhipu AI
GLM-4 License
Medium
en, zh
Так
IndexTTS-2
Па змаўчанні
IndexTTS-2 is an advanced text-to-speech system that excels at zero-shot voice synthesis with fine-grained emotion control. It can generate speech with specific emotional tones like happy, sad, angry, or fearful without requiring emotion-specific training data. The model uses emotion vectors to precisely control the emotional expression of generated speech.
Index Team
Bilibili Model License
Medium
en, zh
Так
Spark TTS
Па змаўчанні
Spark TTS by SparkAudio is a text-to-speech model that combines voice cloning with controllable emotion and speaking style. Using just 5 seconds of reference audio, it can clone a voice and then generate speech with different emotions, speeds, and styles while maintaining the cloned voice identity. Spark TTS uses a prompt-based control system.
SparkAudio
CC BY-NC-SA 4.0
Medium
en, zh
Так
GPT-SoVITS
Па змаўчанні
GPT-SoVITS combines GPT-style language modeling with SoVITS (Singing Voice Inference via Translation and Synthesis) for powerful few-shot voice cloning. With as little as 5 seconds of reference audio, it can accurately clone a voice and generate new speech while preserving the speaker's unique characteristics. It excels at both speaking and singing voice synthesis.
RVC-Boss
MIT
Slow
en, zh, ja, ko
Так
Orpheus
Па змаўчанні
Orpheus is a large-scale text-to-speech model that achieves human-level emotional expression. Trained on over 100,000 hours of diverse speech data, it excels at generating speech with natural emotions, emphasis, and speaking styles. Orpheus can produce speech that is virtually indistinguishable from human recordings.
Canopy Labs
Llama 3.2 Community
Medium
en
Няма
Qwen3 TTS
Па змаўчанні
Qwen3-TTS is a 1.7 billion parameter text-to-speech model from Alibaba's Qwen team. It supports three modes: preset voices with emotion control (9 speakers), voice cloning from just 3 seconds of audio, and a unique voice design mode where you describe the voice you want in natural language. It covers 10 languages with high expressiveness and natural prosody.
Alibaba (Qwen)
Apache 2.0
Medium
en, zh, ja, ko, de, fr, ru, pt, es, it
Так
Chatterbox Turbo
Па змаўчанні
Chatterbox Turbo by Resemble AI is a 350M parameter upgrade to Chatterbox, delivering up to 6x real-time speed with sub-200ms latency. It supports paralinguistic tags like [laugh], [cough], and [chuckle] directly in text. Includes Perth watermarking on all generated audio for provenance tracking.
Resemble AI
MIT
Fast
en
Так
Zonos
Па змаўчанні
Zonos v0.1 by Zyphra is a 1.6B parameter model featuring fine-grained emotion control with sliders for happiness, anger, sadness, fear, and surprise. It offers both a Transformer and a novel SSM (state-space model) variant. Trained on 200K+ hours of multilingual speech with zero-shot voice cloning from 10-30 seconds of reference audio.
Zyphra
Apache 2.0
Medium
en, ja, zh, fr, de
Так
Dia 2
Па змаўчанні
Dia2 by Nari Labs is a streaming-first upgrade to Dia, available in 1B and 2B parameter variants. It begins synthesizing audio from the first few tokens, making it ideal for real-time voice agents and speech-to-speech pipelines. Supports multi-speaker dialogue with [S1]/[S2] tags and paralinguistic cues like (laughs), (coughs).
Nari Labs
Apache 2.0
Fast
en
Няма
VoxCPM
Па змаўчанні
VoxCPM 1.5 by OpenBMB is a novel tokenizer-free TTS model that operates in continuous space rather than discrete tokens. It produces high-fidelity 44.1kHz audio, supports zero-shot voice cloning from 3-10 seconds, and maintains consistency across paragraphs. Cross-language cloning lets you apply an English voice to Chinese speech and vice versa.
OpenBMB
Apache 2.0
Fast
en, zh
Так
TADA
Па змаўчанні
TADA (Text-Acoustic Dual Alignment) by Hume AI is a groundbreaking TTS model that eliminates hallucinations through a novel dual alignment architecture built on Llama 3.2. Available in 1B (English) and 3B (multilingual) variants, TADA achieves an RTF of 0.09 — 5x faster than comparable LLM-based TTS models. It supports up to 700 seconds of audio context and produces emotionally expressive speech with zero hallucinations on standard benchmarks.
Hume AI
MIT
Fast
en
Няма
VibeVoice
Па змаўчанні
VibeVoice from Microsoft generates long-form speech up to 90 minutes with support for 4 simultaneous speakers, making it ideal for podcasts and dialogues. The Realtime 0.5B variant achieves ~300ms latency for interactive use. Supports speaker tags for multi-turn dialogue generation.
Microsoft
MIT
Fast
en, zh
Няма
CosyVoice3
Па змаўчанні
CosyVoice3 is the latest evolution from Alibaba's FunAudioLLM team. It features bi-streaming inference with ~150ms latency, instruction-based control for emotion/speed/volume, and improved speaker similarity for zero-shot cloning. Supports 9 languages plus 18 Chinese dialects. RL-tuned variant delivers state-of-the-art prosody.
Alibaba (FunAudioLLM)
Apache 2.0
Fast
en, zh, ja, ko, de, es, fr, it, ru
Так
Табліца параўнанняў мадэляў
| Модуль | Распрацоўшчык: | Імпартаваць | Якасць: | Хуткасць | Мовы | Клонаванне голасу | VRAM | Ліцэнзія: | Крэдыты | |
|---|---|---|---|---|---|---|---|---|---|---|
| Kokoro | Hexgrad | Free | Fast | 11 | 1.5GB | Apache 2.0 | Свабодны | Выкарыстоўваць | ||
| Piper | Rhasspy | Free | Fast | 31 | 0 (CPU only) | MIT | Свабодны | Выкарыстоўваць | ||
| VITS | Jaehyeon Kim et al. | Free | Fast | 4 | 1GB | MIT | Свабодны | Выкарыстоўваць | ||
| MeloTTS | MyShell.ai | Free | Fast | 6 | 0.5GB (GPU optional) | MIT | Свабодны | Выкарыстоўваць | ||
| Bark | Suno | Standard | Slow | 13 | 5GB | MIT | 2 | Выкарыстоўваць | ||
| Bark Small | Suno | Standard | Medium | 13 | 2GB | MIT | 2 | Выкарыстоўваць | ||
| CosyVoice 2 | Alibaba (Tongyi Lab) | Standard | Medium | 8 | 4GB | Apache 2.0 | 2 | Выкарыстоўваць | ||
| Dia TTS | Nari Labs | Standard | Medium | 1 | 4GB | Apache 2.0 | 2 | Выкарыстоўваць | ||
| Parler TTS | Hugging Face | Standard | Medium | 1 | 4GB | Apache 2.0 | 2 | Выкарыстоўваць | ||
| GLM-TTS | Zhipu AI | Standard | Medium | 2 | 4GB | GLM-4 License | 2 | Выкарыстоўваць | ||
| IndexTTS-2 | Index Team | Standard | Medium | 2 | 4GB | Bilibili Model License | 2 | Выкарыстоўваць | ||
| Spark TTS | SparkAudio | Standard | Medium | 2 | 4GB | CC BY-NC-SA 4.0 | 2 | Выкарыстоўваць | ||
| GPT-SoVITS | RVC-Boss | Standard | Slow | 4 | 6GB | MIT | 2 | Выкарыстоўваць | ||
| Orpheus | Canopy Labs | Standard | Medium | 1 | 4GB | Llama 3.2 Community | 2 | Выкарыстоўваць | ||
| Chatterbox | Resemble AI | Premium | Medium | 1 | 4GB | MIT | 4 | Выкарыстоўваць | ||
| Tortoise TTS | James Betker | Premium | Slow | 1 | 8GB | Apache 2.0 | 4 | Выкарыстоўваць | ||
| StyleTTS 2 | Columbia University | Premium | Medium | 1 | 4GB | MIT | 4 | Выкарыстоўваць | ||
| OpenVoice | MyShell.ai / MIT | Premium | Medium | 8 | 4GB | MIT | 4 | Выкарыстоўваць | ||
| Qwen3 TTS | Alibaba (Qwen) | Standard | Medium | 10 | 7GB | Apache 2.0 | 2 | Выкарыстоўваць | ||
| Sesame CSM | Sesame | Premium | Slow | 1 | 8GB | Apache 2.0 | 4 | Выкарыстоўваць | ||
| Chatterbox Turbo | Resemble AI | Standard | Fast | 1 | 2GB | MIT | 2 | Выкарыстоўваць | ||
| Zonos | Zyphra | Standard | Medium | 5 | 6GB | Apache 2.0 | 2 | Выкарыстоўваць | ||
| Dia 2 | Nari Labs | Standard | Fast | 1 | 4GB | Apache 2.0 | 2 | Выкарыстоўваць | ||
| VoxCPM | OpenBMB | Standard | Fast | 2 | 4GB | Apache 2.0 | 2 | Выкарыстоўваць | ||
| OuteTTS | OuteAI | Free | Fast | 1 | 2GB | Apache 2.0 | Свабодны | Выкарыстоўваць | ||
| TADA | Hume AI | Standard | Fast | 1 | 5GB | MIT | 2 | Выкарыстоўваць | ||
| VibeVoice | Microsoft | Standard | Fast | 2 | 4GB | MIT | 2 | Выкарыстоўваць | ||
| Pocket TTS | Kyutai | Free | Fast | 2 | 1GB | MIT | Свабодны | Выкарыстоўваць | ||
| Kitten TTS | KittenML | Free | Fast | 1 | 0GB | Apache 2.0 | Свабодны | Выкарыстоўваць | ||
| CosyVoice3 | Alibaba (FunAudioLLM) | Standard | Fast | 9 | 4GB | Apache 2.0 | 2 | Выкарыстоўваць | ||
| MOSS-TTS | OpenMOSS | Premium | Medium | 19 | 16GB | Apache 2.0 | 4 | Выкарыстоўваць | ||
| MegaTTS3 | ByteDance | Premium | Slow | 2 | 8GB | Apache 2.0 | 4 | Выкарыстоўваць |
Самая поўная тэхналёгія пераўтварэньня тэксту ў мову
Чаму выбраць TTS.ai для пераўтварэння тэксту ў мову?
TTS.ai аб’ядноўвае свет
Кожная мадэль мае адкрыты код пад ліцэнзіямі MIT, Apache 2. 0 або падобнымі да іх, што гарантуе вам поўныя камерцыйныя правы на выкарыстанне створанага гуку ў вашых праектах. Незалежна ад таго, патрэбен вам хуткі, лёгкі сінтэз для прыкладанняў рэальнага часу або вывад студыйнага якасці для аудіакнігі і падкастаў, TTS.ai мае правільную мадэль для кожнага выпадку выкарыстання.
Свабодныя мадэлі, не патрабуецца рахунак
Пачніце адразу з трох бясплатных мадэляў TTS: Piper (вельмі хуткі, лёгкі), VITS (высокаякасны нейронны сінтэз) і MeloTTS (падтрымка некалькіх моў). Няма неабходнасці ў рэгістрацыі, няма патрэбы ў крэдытных картах, няма абмежаванняў на колькасць пакаленняў. Бясплатныя мадэлі падтрымліваюць англійскую і многія іншыя мовы з натуральным гукам, прыдатным для большасці праграмаў.
Апрацоўка з дапамогай GPU
Усе мадэлі TTS працуюць на спецыяльных графічных працэсарах NVIDIA для хуткага і стабільнага генеравання. Бясплатныя мадэлі звычайна генеруюць аўдыё менш чым за 2 секунды. Стандартныя мадэлі, такія як Kokoro, CosyVoice 2 і Bark, у сярэднім за 3-5 секунд. Прафесійныя мадэлі з найвышэйшай якасцю, такія як Tortoise і Chatterbox, апрацоўваюць за 5-15 секунд у залежнасці ад даўжыні тэксту.
Падтрымліваюцца 30+ моў
Стварайце гаворку больш чым на 30 мовах, уключаючы англійскую, іспанскую, французскую, нямецкую, італьянскую, партугальскую, кітайскую, японскую, карэйскую, арабскую, хіндзі, рускую і многія іншыя. Некаторыя мадэлі падтрымліваюць шматмоўны сінтэз, што азначае, што вы можаце стварыць гаворку на мове, на якой арыгінальны голас ніколі не быў трэніраваны. CosyVoice 2 і GPT-SoVITS пераўзыходзяць у шматмоўнай клоніроўцы голасу.
API для распрацоўшчыкаў
Інтэграцыя TTS.ai у вашыя праграмы з дапамогай нашага OpenAI-сумяшчальнага REST API. Адзін канец для ўсіх 20+ мадэляў. Python, JavaScript, cURL і Go SDKs. Падтрымка стрымінгу для праграм рэальнага часу. Пакетная апрацоўка для шырокага генеравання кантэнту. Webhooks для асінхронных абвяшчэнняў. Даступна ў планах Pro і Enterprise.
Частыя пытанні
Што мы можам палепшыць? Ваша ацэнка дапаможа нам выправіць праблемы.
Пачаць пераўтварэнне тэксту ў мову зараз
Прылучайцеся да тысячаў стваральнікаў, якія выкарыстоўваюць TTS.ai. Атрымайце 15000 бясплатных сімвалаў з новым рахункам. Бясплатныя мадэлі даступныя без рэгістрацыі.