Праграма пераўтварэння тэксту ў мовуName
Ператварэньне тэксту ў натуральна гучаючую мову з дапамогай мадэляў штучнага інтэлекту з адкрытым зыходным кодам.
Захоўваць тэкст у тэгах SSML для дакладнага кантролю:
<speak><prosody rate="slow">Slow speech</prosody></speak>
Дадаць маркер эмоцый для ўплыву на паказ (падтрымка мадэляў розная):
Вызначыць уласнае вымаўленне (слова = вымаўленне):
Падрабязнасці мадэлі
Kitten TTS
Kitten TTS by KittenML is an ultra-lightweight text-to-speech model built on ONNX. With variants from 15M to 80M parameters (25-80 MB on disk), it delivers high-quality voice synthesis on CPU without requiring a GPU. Features 8 built-in voices, adjustable speech speed, and built-in text preprocessing for numbers, currencies, and units. Ideal for edge deployment and low-latency applications.
| Распрацоўшчык: | KittenML |
| Ліцэнзія: | Apache 2.0 |
| Хуткасць | Fast |
| Якасць: | |
| Мовы | 1 мова |
| VRAM | 0GB |
| Клонаванне голасу | Не падтрымліваецца |
Парады для лепшых вынікаў
- Выкарыстоўваць правільную пунктуацыю для натуральных перапынкаў і інтанацыі
- Прапісваць лічбы і скароты для больш дакладнага вымаўленьня
- Дадаць коскі для стварэння кароткіх перапынкаў паміж фразамі
- Выкарыстоўвайце шматкроп' е (...) для доўгіх драматычных перапынкаў
- Паспрабуйце Kokoro або CosyVoice 2 для найбольш натуральных вынікаў
- Выкарыстоўваць Dia для дыялогу з некалькімі гукарэжысёрамі і для падкастаў
Крэдытныя выдаткі
| Імпартаваць | Кошт за 1K знакаў |
|---|---|
| Свабодны | 0 крэдыт( аў) |
| Па змаўчанні | 2 крэдыты / 1K знакаў |
| Прэміум | 4 крэдыты / 1K знакаў |
Як працуе пераўтваральнік тэксту ў мову
Стварэньне дыялогу прафэсійнага якасьці ў трох простых кроках. Няма патрэбы ў тэхнічных ведах.
Увядзіце ваш тэкст
Увядзіце, усталюйце або загрузіце тэкст, які вы хочаце ператварыць у маўленне. Падтрымліваецца да 5000 знакаў за генерацыю для зарэгістраваных карыстальнікаў. Выкарыстоўвайце звычайны тэкст або дадайце тэгі SSML для дадатковага кантролю над маўленнем, перапынкамі і акцэнтам.
Выбар мадэлі і голасу
Выбірайце з больш чым 20 мадэляў штучнага інтэлекту на трох узроўнях. Выберыце голас, які адпавядае вашаму зместу, выберыце мэтавую мову, настаўце хуткасць прайгравання ад 0. 5x да 2. 0x і выберыце патрэбны фармат вываду (MP3, WAV, OGG або FLAC).
Сцягнуць
Націсніце Стварыць, і ваш аўдыёфайл будзе гатовы праз некалькі секунд. Прагледзіце яго ўбудаваным прайгравальнікам, загрузіце ў выбраным фармаце або скапіруйце спасылку для абмену. Выкарыстоўвайце API для пакетнай апрацоўкі і інтэграцыі ў ваш працоўны працэс.
Выкарыстанне пераўтварэння тэксту ў мовуName
Інфармацыйна-камунікацыйныя тэхналогіі (ІКТ) выкарыстоўваюцца для стварэння, захоўвання і распаўсюджвання інфармацыі ў розных сферах дзейнасці.
Усе мадэлі пераўтварэння тэксту ў мову
Падрабязныя характарыстыкі кожнай мадэлі AI даступныя на TTS.ai. Параўнайце якасць, хуткасць, падтрымку мовы і магчымасці, каб знайсці ідэальную мадэль для вашага праекта.
Kokoro
Free
Kokoro - гэта 82- мільённая мадэль пераўтварэння тэксту ў мову, якая пераўзыходзіць свае магчымасці. Нягледзячы на невялікі памер, яна дазваляе атрымліваць натуральную і выразную мову. Kokoro падтрымлівае некалькі моў, у тым ліку англійскую, японскую, кітайскую і карэйскую, з рознымі выразнымі голасамі. Яна працуе неверагодна хутка - генеруе гук амаль у 100 разоў хутчэй, чым у рэальным часе на GPU.
Hexgrad
Apache 2.0
Fast
en, ja, zh, ko, fr, de, it, pt, es, hi, ru
1.5GB
Няма
Свабодны
Piper
Free
Piper - гэта лёгкі рухавік пераўтварэння тэксту ў мову, распрацаваны Rhasspy, які выкарыстоўвае архітэктуры VITS і larynx. Ён працуе цалкам на працэсары, што робіць яго ідэальным для перыферычных прылад, хатняй аўтаматызацыі і прыкладанняў, якія патрабуюць аўтаномнага пераўтварэння тэксту ў мову. З больш чым 100 галасамі на больш чым 30 мовах, Piper дае натуральна гучную мову з хуткасцю рэальнага часу нават на Raspberry Pi 4.
Rhasspy
MIT
Fast
en, de, fr, es, it, pt, nl, pl, ru, zh, ja, ko, ar, cs, da, fi, el, hu, is, ka, kk, ne, no, ro, sk, sr, sv, sw, tr, uk, vi
0 (CPU only)
Няма
Свабодны
VITS
Free
VITS (Variation Inference with adversarial learning for end- to- end Text- to- Speech) - гэта паралельны метад перакладу тэксту на мову, які генеруе больш натуральны гук, чым цяперашнія двухступеністыя мадэлі. Ён выкарыстоўвае варыяцыйную інферэнцыю, падмацаваную нармалізуючымі патокамі і канкурэнтным працэсам навучання, што дазваляе дасягнуць значнага паляпшэння натуральнасці.
Jaehyeon Kim et al.
MIT
Fast
en, zh, ja, ko
1GB
Няма
Свабодны
MeloTTS
Free
MeloTTS ад MyShell. ai - гэта шматмоўная бібліятэка TTS, якая падтрымлівае англійскую (амерыканскую, брытанскую, індыйскую, аўстралійскую), іспанскую, французскую, кітайскую, японскую і карэйскую мовы. Яна вельмі хуткая, апрацоўвае тэкст амаль у рэальным часе толькі на працэсары. MeloTTS распрацавана для выкарыстання ў прамысловасці і падтрымлівае як працэсар, так і графічны працэсар.
MyShell.ai
MIT
Fast
en, es, fr, zh, ja, ko
0.5GB (GPU optional)
Няма
Свабодны
Bark
Standard
Bark ад Suno - гэта трансфарматарная мадэль пераўтварэння тэксту ў аўдыё, якая можа генераваць вельмі рэалістычную, шматмоўную мову, а таксама іншыя гукавыя эфекты, такія як музыка, фонавы шум і гукавыя эфекты. Яна можа генераваць невербальны зносіны, такія як смех, дыханне і плач. Bark падтрымлівае больш за 100 налад дыктараў і больш за 13 моў.
Suno
MIT
Slow
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
5GB
Няма
2x
Bark Small
Standard
Bark Small - гэта перапрацаваная версія мадэлі Bark, якая зніжае якасць гуку ў абмен на значна большую хуткасць вываду і меншыя патрабаванні да памяці. Яна захоўвае магчымасць генераваць мову з эмоцыямі, смехам і на некалькіх мовах.
Suno
MIT
Medium
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
2GB
Няма
2x
CosyVoice 2
Standard
CosyVoice 2, распрацаваны лабараторыяй Tongyi Lab кампаніі Alibaba, забяспечвае якасць гаворкі, падобную да чалавечай, з вельмі нізкім часам чакання, што робіць яго ідэальным для прыкладанняў рэальнага часу. Ён выкарыстоўвае канечны скалярны квантавы падыход для сінтэзу ў рэжыме рэальнага часу і падтрымлівае клонаванне голасу з нулявым выбухам, сінтэз паміж мовамі і дакладнае кіраванне эмоцыямі. Пры суб'ектыўных ацэнках ён пераўзыходзіць многія камерцыйныя сістэмы TTS.
Alibaba (Tongyi Lab)
Apache 2.0
Medium
en, zh, ja, ko, fr, de, it, es
4GB
Так
2x
Dia TTS
Standard
Dia ад Nari Labs - гэта мадэль пераўтварэння тэксту ў мову з параметрамі 1. 6B, распрацаваная спецыяльна для стварэння дыялогу паміж некалькімі гульцамі. Яна можа ствараць натуральна гучачыя размовы паміж двума гульцамі з адпаведнымі паваротамі, празодыяй і эмацыянальным выражэннем. Dia ідэальна падыходзіць для стварэння змесціва ў стылі подкастаў, дыялогу паміж гукавымі кнігамі і інтэрактыўным штучным інтэлектам.
Nari Labs
Apache 2.0
Medium
en
4GB
Няма
2x
Parler TTS
Standard
Parler TTS - гэта мадэль пераўтварэння тэксту ў мову, якая выкарыстоўвае апісанне голасу натуральнай мовы для кіравання генераванай мовай. Замест таго, каб выбіраць з прадвызначаных голасаў, вы апісваеце жаданы голас (напрыклад, "цёплы жаночы голас з невялікім брытанскім акцэнтам, які гаворыць павольна і дакладна"), і Parler генеруе мову, якая адпавядае гэтаму апісанню. Гэта робіць яго унікальна гнуткімі для творчых праграм.
Hugging Face
Apache 2.0
Medium
en
4GB
Няма
2x
GLM-TTS
Standard
GLM- TTS ад Zhipu AI - гэта сістэма пераўтварэння тэксту ў мову, пабудаваная на архітэктуры Llama з падпарадкаваннем плыні. Яна дасягае найменшага ўзроўню памылак сярод мадэляў TTS з адкрытым зыходным кодам, што азначае, што яна вырабляе найбольш дакладнае вымаўленне. GLM- TTS падтрымлівае англійскую і кітайскую з клонаваннем голасу з 3- 10 секундных аўдыёсемплаў.
Zhipu AI
GLM-4 License
Medium
en, zh
4GB
Так
2x
IndexTTS-2
Standard
IndexTTS- 2 - гэта прасунутая сістэма пераўтварэння тэксту ў мову, якая адрозніваецца нулявым сінтэзам голасу з дакладным кантролем эмоцый. Яна можа генераваць мову з пэўнымі эмацыянальнымі тонамі, такімі як шчаслівы, сумны, злы або баязлівы, не патрабуючы спецыяльных эмацыянальных трэніровачных дадзеных. Модэль выкарыстоўвае вектары эмоцый для дакладнага кантролю эмацыянальнага выражэння генераванай мовы.
Index Team
Bilibili Model License
Medium
en, zh
4GB
Так
2x
Spark TTS
Standard
Spark TTS ад SparkAudio - гэта мадэль пераўтварэння тэксту ў мову, якая спалучае ў сабе клонаванне голасу з кантралюемымі эмоцыямі і стылем гаворкі. Выкарыстоўваючы толькі 5 секунд аўдыё, яна можа клонаваць голас, а затым генераваць мову з рознымі эмоцыямі, хуткасцю і стылем, захоўваючы пры гэтым ідэнтыфікацыю клонаванага голасу. Spark TTS выкарыстоўвае сістэму кіравання, заснаваную на запыце.
SparkAudio
CC BY-NC-SA 4.0
Medium
en, zh
4GB
Так
2x
GPT-SoVITS
Standard
GPT- SoVITS аб' ядноўвае мадэляваньне мовы ў стылі GPT з SoVITS (Singing Voice Inference via Translation and Synthesis) для магутнага кланаваньня голасу ў некалькіх кадрах. Толькі з 5 секундамі рэферэнцыйнага гуку, ён можа дакладна кланавацца і генераваць новую мову, захоўваючы ўнікальныя характарыстыкі гаворцы. Ён выдатна працуе з сінтэзам голасу як у размове, так і ў спеве.
RVC-Boss
MIT
Slow
en, zh, ja, ko
6GB
Так
2x
Orpheus
Standard
Orpheus - гэта вялікамасштабная мадэль пераўтварэння тэксту ў мову, якая дасягае эмацыянальнага выражэння на ўзроўні чалавека. Праграма была трэніраваная на больш чым 100 000 гадзінах розных дадзеных гаворкі, яна выдатна генеруе мову з натуральнымі эмоцыямі, акцэнтам і стылямі гаворкі. Orpheus можа генераваць мову, якую практычна немагчыма адрозніць ад запісаў чалавека.
Canopy Labs
Llama 3.2 Community
Medium
en
4GB
Няма
2x
Chatterbox
Premium
Chatterbox ад Resemble AI - гэта найноўшая мадэль клонавання голасу з нулявым выбухам. Яна можа паўтарыць любы голас з аднаго аўдыёсэмплю з выдатнай дакладнасцю, захопліваючы не толькі тыямбр, але і стыль гаворкі і эмацыянальныя нюансы. Chatterbox таксама мае дакладнае кіраванне эмоцыямі, што дазваляе вам наладжваць эмацыянальны тон генераванай гаворкі незалежна ад ідэнтычнасці голасу.
Resemble AI
MIT
Medium
en
4GB
Так
4x
Tortoise TTS
Premium
Tortoise TTS - гэта аўтарэгрэсіўная шматголасная сістэма пераўтварэння тэксту ў мову, якая аддае перавагу якасці гуку перад хуткасцю. Яна выкарыстоўвае архітэктуру, натхнёную DALL- E, каб генераваць натуральную мову з выдатнай празодыяй і падобнасцю да гаворкі. Нягледзячы на тое, што Tortoise павольней, чым многія альтэрнатывы, ён вырабляе найбольш рэалістычную сінтэзаваную мову, даступную ў экасістэме з адкрытым зыходным кодам.
James Betker
Apache 2.0
Slow
en
8GB
Так
4x
StyleTTS 2
Premium
StyleTTS 2 дасягае сінтэзу TTS на ўзроўні чалавека, спалучаючы дыфузію стылю з канкурэнтным навучаннем з выкарыстаннем вялікіх мадэляў мовы гаворкі. Ён генеруе найбольш натуральна гучаючую мову сярод мадэляў аднаго гукарэжысёра, канкурыруючы з запісамі чалавека. StyleTTS 2 выкарыстоўвае мадэляванне стылю на аснове дыфузіі для захопу поўнага дыяпазону вар' яцтва чалавечай мовы.
Columbia University
MIT
Medium
en
4GB
Няма
4x
OpenVoice
Premium
OpenVoice ад MyShell.ai дазваляе неадкладна клонаваць голас з дробным кантролем над стылем голасу, эмоцыямі, акцэнтам, рытмам, перапынкамі і інтанацыяй. Ён можа клонаваць голас з кароткага аўдыякліпа і генераваць размову на некалькіх мовах, захоўваючы ідэнтычнасць гаворцы. OpenVoice таксама функцыянуе як пераўтваральнік голасу, дазваляючы пераўтварэнне голасу ў рэальным часе.
MyShell.ai / MIT
MIT
Medium
en, zh, ja, ko, fr, de, es, it
4GB
Так
4x
Qwen3 TTS
Standard
Qwen3- TTS - гэта мадэль пераўтварэння тэксту ў мову з 1. 7 мільярдамі параметраў, распрацаваная камандай Qwen кампаніі Alibaba. Яна падтрымлівае тры рэжымы: прадвызначаныя галасы з кантролем эмоцый (9 дынамікаў), клонаванне голасу з 3 секундаў гуку і унікальны рэжым дызайну голасу, дзе вы апісваеце патрэбны вам голас на натуральнай мове. Яна ахоплівае 10 моў з высокай выразнасцю і натуральнай празодыяй.
Alibaba (Qwen)
Apache 2.0
Medium
en, zh, ja, ko, de, fr, ru, pt, es, it
7GB
Так
2x
Sesame CSM
Premium
Sesame CSM (Conversational Speech Model) - гэта мадэль з 1 мільярдамі параметраў, распрацаваная спецыяльна для стварэння гутарковай мовы. Яна мадэлюе прыродныя ўзоры гутаркі чалавека, уключаючы час павароту, адказы назад, эмацыянальныя рэакцыі і гутарку. CSM генеруе гук, які гучыць як прыродная гутарка чалавека, а не сінтэтычная мова.
Sesame
Apache 2.0
Slow
en
8GB
Няма
4x
Kitten TTS
Free
Kitten TTS by KittenML is an ultra-lightweight text-to-speech model built on ONNX. With variants from 15M to 80M parameters (25-80 MB on disk), it delivers high-quality voice synthesis on CPU without requiring a GPU. Features 8 built-in voices, adjustable speech speed, and built-in text preprocessing for numbers, currencies, and units. Ideal for edge deployment and low-latency applications.
KittenML
Apache 2.0
Fast
en
0GB
Няма
Свабодны
Kokoro
Свабодны
Kokoro is an 82 million parameter text-to-speech model that punches well above its weight class. Despite its tiny size, it produces remarkably natural and expressive speech. Kokoro supports multiple languages including English, Japanese, Chinese, and Korean with a variety of expressive voices. It runs incredibly fast — generating audio nearly 100x faster than real-time on a GPU.
Hexgrad
Apache 2.0
Fast
Piper
Свабодны
Piper is a lightweight text-to-speech engine developed by Rhasspy that uses VITS and larynx architectures. It runs entirely on CPU, making it ideal for edge devices, home automation, and applications requiring offline TTS. With over 100 voices across 30+ languages, Piper delivers natural-sounding speech at real-time speeds even on a Raspberry Pi 4.
Rhasspy
MIT
Fast
VITS
Свабодны
VITS (Variational Inference with adversarial learning for end-to-end Text-to-Speech) is a parallel end-to-end TTS method that generates more natural sounding audio than current two-stage models. It adopts variational inference augmented with normalizing flows and an adversarial training process, achieving a significant improvement in naturalness.
Jaehyeon Kim et al.
MIT
Fast
MeloTTS
Свабодны
MeloTTS by MyShell.ai is a multilingual TTS library supporting English (American, British, Indian, Australian), Spanish, French, Chinese, Japanese, and Korean. It is extremely fast, processing text at near real-time speed on CPU alone. MeloTTS is designed for production use and supports both CPU and GPU inference.
MyShell.ai
MIT
Fast
Kitten TTS
Свабодны
Kitten TTS by KittenML is an ultra-lightweight text-to-speech model built on ONNX. With variants from 15M to 80M parameters (25-80 MB on disk), it delivers high-quality voice synthesis on CPU without requiring a GPU. Features 8 built-in voices, adjustable speech speed, and built-in text preprocessing for numbers, currencies, and units. Ideal for edge deployment and low-latency applications.
KittenML
Apache 2.0
Fast
Bark
Па змаўчанні
Bark by Suno is a transformer-based text-to-audio model that can generate highly realistic, multilingual speech as well as other audio like music, background noise, and sound effects. It can produce nonverbal communications like laughing, sighing, and crying. Bark supports over 100 speaker presets and 13+ languages.
Suno
MIT
Slow
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
Няма
Bark Small
Па змаўчанні
Bark Small is a distilled version of the Bark model that trades some audio quality for significantly faster inference speeds and lower memory requirements. It retains Bark's ability to generate speech with emotions, laughter, and multiple languages.
Suno
MIT
Medium
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
Няма
CosyVoice 2
Па змаўчанні
CosyVoice 2 by Alibaba's Tongyi Lab achieves human-comparable speech quality with extremely low latency, making it ideal for real-time applications. It uses a finite scalar quantization approach for streaming synthesis and supports zero-shot voice cloning, cross-lingual synthesis, and fine-grained emotion control. It outperforms many commercial TTS systems in subjective evaluations.
Alibaba (Tongyi Lab)
Apache 2.0
Medium
en, zh, ja, ko, fr, de, it, es
Так
Dia TTS
Па змаўчанні
Dia by Nari Labs is a 1.6B parameter text-to-speech model designed specifically for generating multi-speaker dialogue. It can produce natural-sounding conversations between two speakers with appropriate turn-taking, prosody, and emotional expression. Dia is perfect for creating podcast-style content, audiobook dialogues, and interactive conversational AI.
Nari Labs
Apache 2.0
Medium
en
Няма
Parler TTS
Па змаўчанні
Parler TTS is a text-to-speech model that uses natural language voice descriptions to control the generated speech. Instead of selecting from preset voices, you describe the voice you want (e.g., "a warm female voice with a slight British accent, speaking slowly and clearly") and Parler generates speech matching that description. This makes it uniquely flexible for creative applications.
Hugging Face
Apache 2.0
Medium
en
Няма
GLM-TTS
Па змаўчанні
GLM-TTS by Zhipu AI is a text-to-speech system built on the Llama architecture with flow matching. It achieves the lowest character error rate among open-source TTS models, meaning it produces the most accurate pronunciation. GLM-TTS supports English and Chinese with voice cloning from 3-10 second audio samples.
Zhipu AI
GLM-4 License
Medium
en, zh
Так
IndexTTS-2
Па змаўчанні
IndexTTS-2 is an advanced text-to-speech system that excels at zero-shot voice synthesis with fine-grained emotion control. It can generate speech with specific emotional tones like happy, sad, angry, or fearful without requiring emotion-specific training data. The model uses emotion vectors to precisely control the emotional expression of generated speech.
Index Team
Bilibili Model License
Medium
en, zh
Так
Spark TTS
Па змаўчанні
Spark TTS by SparkAudio is a text-to-speech model that combines voice cloning with controllable emotion and speaking style. Using just 5 seconds of reference audio, it can clone a voice and then generate speech with different emotions, speeds, and styles while maintaining the cloned voice identity. Spark TTS uses a prompt-based control system.
SparkAudio
CC BY-NC-SA 4.0
Medium
en, zh
Так
GPT-SoVITS
Па змаўчанні
GPT-SoVITS combines GPT-style language modeling with SoVITS (Singing Voice Inference via Translation and Synthesis) for powerful few-shot voice cloning. With as little as 5 seconds of reference audio, it can accurately clone a voice and generate new speech while preserving the speaker's unique characteristics. It excels at both speaking and singing voice synthesis.
RVC-Boss
MIT
Slow
en, zh, ja, ko
Так
Orpheus
Па змаўчанні
Orpheus is a large-scale text-to-speech model that achieves human-level emotional expression. Trained on over 100,000 hours of diverse speech data, it excels at generating speech with natural emotions, emphasis, and speaking styles. Orpheus can produce speech that is virtually indistinguishable from human recordings.
Canopy Labs
Llama 3.2 Community
Medium
en
Няма
Qwen3 TTS
Па змаўчанні
Qwen3-TTS is a 1.7 billion parameter text-to-speech model from Alibaba's Qwen team. It supports three modes: preset voices with emotion control (9 speakers), voice cloning from just 3 seconds of audio, and a unique voice design mode where you describe the voice you want in natural language. It covers 10 languages with high expressiveness and natural prosody.
Alibaba (Qwen)
Apache 2.0
Medium
en, zh, ja, ko, de, fr, ru, pt, es, it
Так
Табліца параўнанняў мадэляў
| Модуль | Распрацоўшчык: | Імпартаваць | Якасць: | Хуткасць | Мовы | Клонаванне голасу | VRAM | Ліцэнзія: | Крэдыты | |
|---|---|---|---|---|---|---|---|---|---|---|
| Kokoro | Hexgrad | Free | Fast | 11 | 1.5GB | Apache 2.0 | Свабодны | Выкарыстоўваць | ||
| Piper | Rhasspy | Free | Fast | 31 | 0 (CPU only) | MIT | Свабодны | Выкарыстоўваць | ||
| VITS | Jaehyeon Kim et al. | Free | Fast | 4 | 1GB | MIT | Свабодны | Выкарыстоўваць | ||
| MeloTTS | MyShell.ai | Free | Fast | 6 | 0.5GB (GPU optional) | MIT | Свабодны | Выкарыстоўваць | ||
| Bark | Suno | Standard | Slow | 13 | 5GB | MIT | 2 | Выкарыстоўваць | ||
| Bark Small | Suno | Standard | Medium | 13 | 2GB | MIT | 2 | Выкарыстоўваць | ||
| CosyVoice 2 | Alibaba (Tongyi Lab) | Standard | Medium | 8 | 4GB | Apache 2.0 | 2 | Выкарыстоўваць | ||
| Dia TTS | Nari Labs | Standard | Medium | 1 | 4GB | Apache 2.0 | 2 | Выкарыстоўваць | ||
| Parler TTS | Hugging Face | Standard | Medium | 1 | 4GB | Apache 2.0 | 2 | Выкарыстоўваць | ||
| GLM-TTS | Zhipu AI | Standard | Medium | 2 | 4GB | GLM-4 License | 2 | Выкарыстоўваць | ||
| IndexTTS-2 | Index Team | Standard | Medium | 2 | 4GB | Bilibili Model License | 2 | Выкарыстоўваць | ||
| Spark TTS | SparkAudio | Standard | Medium | 2 | 4GB | CC BY-NC-SA 4.0 | 2 | Выкарыстоўваць | ||
| GPT-SoVITS | RVC-Boss | Standard | Slow | 4 | 6GB | MIT | 2 | Выкарыстоўваць | ||
| Orpheus | Canopy Labs | Standard | Medium | 1 | 4GB | Llama 3.2 Community | 2 | Выкарыстоўваць | ||
| Chatterbox | Resemble AI | Premium | Medium | 1 | 4GB | MIT | 4 | Выкарыстоўваць | ||
| Tortoise TTS | James Betker | Premium | Slow | 1 | 8GB | Apache 2.0 | 4 | Выкарыстоўваць | ||
| StyleTTS 2 | Columbia University | Premium | Medium | 1 | 4GB | MIT | 4 | Выкарыстоўваць | ||
| OpenVoice | MyShell.ai / MIT | Premium | Medium | 8 | 4GB | MIT | 4 | Выкарыстоўваць | ||
| Qwen3 TTS | Alibaba (Qwen) | Standard | Medium | 10 | 7GB | Apache 2.0 | 2 | Выкарыстоўваць | ||
| Sesame CSM | Sesame | Premium | Slow | 1 | 8GB | Apache 2.0 | 4 | Выкарыстоўваць | ||
| Kitten TTS | KittenML | Free | Fast | 1 | 0GB | Apache 2.0 | Свабодны | Выкарыстоўваць |
Самая поўная тэхналёгія пераўтварэньня тэксту ў мову
Чаму выбраць TTS.ai для пераўтварэння тэксту ў мову?
TTS.ai аб’ядноўвае свет
Кожная мадэль мае адкрыты код пад ліцэнзіямі MIT, Apache 2. 0 або падобнымі да іх, што гарантуе вам поўныя камерцыйныя правы на выкарыстанне створанага гуку ў вашых праектах. Незалежна ад таго, патрэбен вам хуткі, лёгкі сінтэз для прыкладанняў рэальнага часу або вывад студыйнага якасці для аудіакнігі і падкастаў, TTS.ai мае правільную мадэль для кожнага выпадку выкарыстання.
Свабодныя мадэлі, не патрабуецца рахунак
Пачніце адразу з трох бясплатных мадэляў TTS: Piper (вельмі хуткі, лёгкі), VITS (высокаякасны нейронны сінтэз) і MeloTTS (падтрымка некалькіх моў). Няма неабходнасці ў рэгістрацыі, няма патрэбы ў крэдытных картах, няма абмежаванняў на колькасць пакаленняў. Бясплатныя мадэлі падтрымліваюць англійскую і многія іншыя мовы з натуральным гукам, прыдатным для большасці праграмаў.
Апрацоўка з дапамогай GPU
Усе мадэлі TTS працуюць на спецыяльных графічных працэсарах NVIDIA для хуткага і стабільнага генеравання. Бясплатныя мадэлі звычайна генеруюць аўдыё менш чым за 2 секунды. Стандартныя мадэлі, такія як Kokoro, CosyVoice 2 і Bark, у сярэднім за 3-5 секунд. Прафесійныя мадэлі з найвышэйшай якасцю, такія як Tortoise і Chatterbox, апрацоўваюць за 5-15 секунд у залежнасці ад даўжыні тэксту.
Падтрымліваюцца 30+ моў
Стварайце гаворку больш чым на 30 мовах, уключаючы англійскую, іспанскую, французскую, нямецкую, італьянскую, партугальскую, кітайскую, японскую, карэйскую, арабскую, хіндзі, рускую і многія іншыя. Некаторыя мадэлі падтрымліваюць шматмоўны сінтэз, што азначае, што вы можаце стварыць гаворку на мове, на якой арыгінальны голас ніколі не быў трэніраваны. CosyVoice 2 і GPT-SoVITS пераўзыходзяць у шматмоўнай клоніроўцы голасу.
API для распрацоўшчыкаў
Інтэграцыя TTS.ai у вашыя праграмы з дапамогай нашага OpenAI-сумяшчальнага REST API. Адзін канец для ўсіх 20+ мадэляў. Python, JavaScript, cURL і Go SDKs. Падтрымка стрымінгу для праграм рэальнага часу. Пакетная апрацоўка для шырокага генеравання кантэнту. Webhooks для асінхронных абвяшчэнняў. Даступна ў планах Pro і Enterprise.
Частыя пытанні
What could we improve? Your feedback helps us fix issues.
Пачаць пераўтварэнне тэксту ў мову зараз
Прылучайцеся да тысячаў стваральнікаў, якія выкарыстоўваюць TTS.ai. Атрымайце 15000 бясплатных сімвалаў з новым рахункам. Бясплатныя мадэлі даступныя без рэгістрацыі.