AI تېكىستتىن سۆزگە
24+ ئوچۇق مەنبەلىك AI مودېلىنى ئىشلىتىپ تېكىستنى تەبىئىي ئاۋازلىق سۆزگە ئايلاندۇرۇش پروگراممىسى. ھەقسىز ئىشلىتىشكە بولىدۇ، ھېسابات كېرەك ئەمەس.
توغرا كونترول قىلىش ئۈچۈن تېكىستنى SSML تېگلىرى ئىچىگە ئايلاندۇرۇش:
<speak><prosody rate="slow">Slow speech</prosody></speak>
يەتكۈزۈشكە تەسىر كۆرسىتىدىغان كەيپىيات بەلگىلىرىنى قوشۇش (مۇلازىمەتنىڭ قوللايدىغان نۇسخىسى ئوخشىمايدۇ):
خالىغان ئىپادىلەشنى بەلگىلەش (سۆز = ئىپادىلەش):
مودېل ئۇچۇرلىرى
Orpheus
Orpheus is a large-scale text-to-speech model that achieves human-level emotional expression. Trained on over 100,000 hours of diverse speech data, it excels at generating speech with natural emotions, emphasis, and speaking styles. Orpheus can produce speech that is virtually indistinguishable from human recordings.
| ئىجاد قىلغۇچى: | Canopy Labs |
| ئىجازەتنامە: | Llama 3.2 Community |
| تېزلىك | Medium |
| سۈپىتى: | |
| تىللار | 1 تىل |
| VRAM | 4GB |
| ئاۋازنى كۆچۈرۈش پروگراممىسى | قوللىمايدۇ |
ياخشى نەتىجىلەر ئۈچۈن تەۋسىيەلەر
- تەبىئىي توقۇنۇش ۋە ئىپادىلەش ئۈچۈن توغرا يازما بەلگىلەرنى ئىشلىتىش
- سانلارنى ۋە قىسقارتمىلارنى ئېنىق ئوقۇش ئۈچۈن ئىملا قىلىش پروگراممىسى
- سۆزلەر ئارىسىدا قىسقا توقۇنۇشلارنى پەيدا قىلىش ئۈچۈن ۋاراقلارنى قوشۇش پروگراممىسى
- ئۇزۇن مەزگىللىك توقۇنۇش ئۈچۈن (...) نى ئىشلىتىڭ
- ئەڭ تەبىئىي ئاۋاز ئۈچۈن Kokoro ياكى CosyVoice 2 نى سىناپ بېقىڭ
- كۆپ ئاڭلىغۇچىلىق مۇنازىرە ۋە podcast مەزمۇنلىرى ئۈچۈن Dia نى ئىشلىتىش
قەرز ھەققى
| ھايۋان | ھەر بىر 1K ھەرپنىڭ باھاسى |
|---|---|
| بوش | 0 كرېدىت (چەكلىمىسىز) |
| ئۆلچەملىك | 2 نومۇر / 1K ھەرپ |
| ئالىي دەرىجىلىك | 4 نومۇر / 1K ھەرپ |
AI تېكىستتىن سۆزگە قانداق ئىشلەيدۇ
ئۈچ ئاددىي باسقۇچتا كەسپىي سۈپەتلىك ئاۋاز قوزغىتىش پروگراممىسى. تېخنىكىلىق بىلىملەر كېرەك ئەمەس.
تېكىستنى كىرگۈزۈڭ
سۆزلەشكە ئايلاندۇرۇشنى خالايدىغان تېكىستنى كىرگۈزۈش، يېزىپ قويۇش ياكى يۈكلەش. كىرگەن ئىشلەتكۈچىلەر بىر قېتىمدا 5000 ھەرپنى قوللايدۇ. تېكىستنى ئىشلىتىش ياكى SSML تېگلىرىنى قوشۇش ئارقىلىق سۆزلەش، توختىتىش ۋە ئېنىقلاشنى باشقۇرغىلى بولىدۇ.
مودېل ۋە ئاۋازنى تاللا
ئۈچ دەرىجىلىك 24+ AI مودېلىنى تاللاڭ. مەزمۇنىڭىزغا ماس كېلىدىغان ئاۋازنى تاللاڭ، نىشان تىلىڭىزنى تاللاڭ، قويۇش سۈرئىتىنى 0.5x تىن 2.0x گە تەڭشەڭ، خالىغان چىقىرىش پىچىمىنى (MP3، WAV، OGG ياكى FLAC) تاللاڭ.
ھاسىل قىلىش ۋە چۈشۈرۈش
ياساش نى چېكىپ ئاۋازىڭىز بىر نەچچە سېكۇنت ئىچىدە تەييار بولىدۇ. ئىچىدىكى قويغۇ بىلەن ئالدىن كۆرۈش، تاللىغان پىچىم بويىچە چۈشۈرۈش ياكى ھەمبەھىرلەشكە بولىدىغان تور بېتىدىن كۆچۈرۈش. بۇ API نى كۆپ قېتىملىق ئىشلەش ۋە ئىشلەش جەريانىڭىزغا بىرلەشتۈرۈش ئۈچۈن ئىشلىتىڭ.
تېكىستتىن سۆزگە ئۆزگەرتىش
ئەقلىي ئىدراك كۈچىگە ئىگە تېكستتىن سۆزگە ئۆزگىرىش كىشىلەرنىڭ نۇرغۇن سانائەت ساھەلىرىدە ئاۋازلىق مەزمۇنلارنى يارىتىش، ئىشلىتىش ۋە ئالاقە قىلىش ئۇسۇلىنى ئۆزگەرتىدۇ.
بارلىق تېكىستتىن سۆزگە ئۆزگەرتىش مودېللىرى
TTS.ai دىكى ھەر بىر AI مودېلىنىڭ تەپسىلىي خاسلىقلىرى. سىزنىڭ قۇرۇلۇشىڭىز ئۈچۈن ئەڭ مۇۋاپىق بولغان مودېلنى تېپىش ئۈچۈن سۈپەت، تېزلىك، تىل قوللىشى ۋە ئىقتىدارلارنى سېلىشتۇرۇڭ.
Kokoro
Free
Kokoro 82 مىليون پارامېتىرلىق تېكىستتىن سۆزگە ئۆز دەرىجىسىدىن يۇقىرى ئۈنۈم بېرىدىغان پروگرامما. ئۇزۇنلۇقى كىچىك بولسىمۇ، ئەمما ئىنتايىن تەبىئىي ۋە ئىپادىلەشچان سۆزلەرنى ئىشلەپ چىقىرىدۇ. Kokoro ئىنگىلىزچە، ياپونچە، خەنزۇچە ۋە كورېيچە قاتارلىق نۇرغۇن تىللارنى قوللايدۇ ھەمدە ھەر خىل ئىپادىلەشچان ئاۋازلارنى قوللايدۇ. ئۇ ئىنتايىن تېز ئىشلەيدۇ - GPU دىكى ھەقىقىي ۋاقىتتىكىدىن 100 ھەسسە تېز ئاۋازلارنى ئىشلەپ چىقىرىدۇ.
Hexgrad
Apache 2.0
Fast
en, ja, zh, ko, fr, de, it, pt, es, hi, ru
1.5GB
ئۇنداق ئەمەس
بوش
Piper
Free
Piper Rhasspy تەرىپىدىن ياسالغان VITS ۋە larynx قۇرۇلمىسىنى ئىشلىتىدىغان يېنىك تېكىستتىن سۆزگە ئۆزگەرتكۈچ پروگرامما. ئۇ پۈتۈنلەي CPU نىڭ ئۈستىدە ئىشلەيدۇ، شۇڭا Edge ئۈسكۈنىلىرى، ئۆي ئاپتوماتىك سىستېمىسى ۋە توردىن سىرت TTS تەلەپ قىلىدىغان پروگراممىلارغا ماس كېلىدۇ. Piper 30 دىن ئارتۇق تىلدىكى 100 دىن ئارتۇق ئاۋاز بىلەن تەمىنلەيدۇ، Raspberry Pi 4 نىڭ ئۆزىدىمۇ تېز سۈرئەتتە تەبىئىي ئاۋازلىق سۆزلەشنى تەمىنلەيدۇ.
Rhasspy
MIT
Fast
en, de, fr, es, it, pt, nl, pl, ru, zh, ja, ko, ar, cs, da, fi, el, hu, is, ka, kk, ne, no, ro, sk, sr, sv, sw, tr, uk, vi
0 (CPU only)
ئۇنداق ئەمەس
بوش
VITS
Free
VITS (ئاخىردىن ئاخىرغىچە تېكىستتىن سۆزگە ئۆزگىرىشچان ئىزاھلاش) ھازىرقى ئىككى باسقۇچلۇق مودېلغا قارىغاندا تېخىمۇ تەبىئىي ئاۋازنى پەيدا قىلىدىغان تەڭشەكلىك ئاخىردىن ئاخىرغىچە TTS ئۇسۇلىدۇر. ئۇ ئۆزگىرىشچان ئىزاھلاشنى نورماللاشتۇرۇش ئېقىمى ۋە ئۆزگىرىشچان تەربىيەلەش جەريانى بىلەن كۈچەيتىپ، تەبىئىيلىكنى زور دەرىجىدە ئاشۇرىدۇ.
Jaehyeon Kim et al.
MIT
Fast
en, zh, ja, ko
1GB
ئۇنداق ئەمەس
بوش
MeloTTS
Free
MyShell.ai تەرىپىدىن ياسالغان MeloTTS ئىنگىلىزچە (ئامېرىكىلىق، بىرىتانىيەلىك، ھىندى، ئاۋسترالىيەلىك)، ئىسپانچە، فرانسۇزچە، خەنزۇچە، ياپونچە ۋە كورىيەچە تىللارنى قوللايدىغان كۆپ تىللىق TTS كىتابخانىسىدۇر. ئۇ ئىنتايىن تېز، پەقەت CPU نىڭ كۈچى بىلەن تېكىستنى رېئال ۋاقىتتىكى سۈرئەتتە ئىشلىتەلەيدۇ. MeloTTS ئىشلەپچىقىرىش ئۈچۈن ياسالغان بولۇپ CPU ۋە GPU نىڭ ھەممىسىنى قوللايدۇ.
MyShell.ai
MIT
Fast
en, es, fr, zh, ja, ko
0.5GB (GPU optional)
ئۇنداق ئەمەس
بوش
Bark
Standard
Suno تەرىپىدىن ياسالغان Bark تېكىستتىن ئاۋازغا ئۆزگەرتكۈچ بولۇپ، كۆپ تىللىق سۆزلەش ۋە مۇزىكا، ئارقا كۆرۈنۈش ئاۋازلىرى ۋە ئاۋاز ئۈنۈمى قاتارلىق باشقا ئاۋازلارنى ھاسىل قىلىشقا ياردەم بېرىدۇ. Bark 100 دىن ئارتۇق ئاۋازلىغۇچ ۋە 13 دىن ئارتۇق تىلنى قوللايدۇ.
Suno
MIT
Slow
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
5GB
ئۇنداق ئەمەس
2
Bark Small
Standard
Bark Small Bark مودېلىنىڭ بىر قىسىم ئاۋاز سۈپىتىنى تېخىمۇ تېز ئىزاھلاش سۈرئىتى ۋە ئېسىدە ساقلاش ئېھتىياجىنى تۆۋەنلىتىش ئۈچۈن ئۆزگەرتكەن نۇسخىسىدۇر. Bark نىڭ ھېسسىيات، خۇشاللىق ۋە كۆپ تىللىق سۆزلەش ئىقتىدارىنى ساقلاپ قالىدۇ.
Suno
MIT
Medium
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
2GB
ئۇنداق ئەمەس
2
CosyVoice 2
Standard
Alibaba نىڭ Tongyi Lab تەرىپىدىن ياسالغان CosyVoice 2 ئادەم بىلەن سېلىشتۇرغىلى بولىدىغان سۆز سۈپىتىگە ئىگە بولۇپ، ئىنتايىن تۆۋەن كېچىكتۈرگۈچكە ئىگە، بۇ ئۇنى رېئال ۋاقىتتىكى پروگراممىلار ئۈچۈن ئەڭ مۇۋاپىق قىلىدۇ. ئۇ سۈرەتكە ئېلىش ئۈچۈن چەكلىك كۆلەملىك كۋانتلاش ئۇسۇلىنى قوللايدۇ ھەمدە ئاۋازنى زاۋۇتلاشنى قوللايدۇ، تىللار ئارىسىدىكى سېلىشتۇرۇشنى قوللايدۇ، ھەمدە ئىنچىكە ھېسسىيات كونترول قىلىشنى قوللايدۇ. ئۇ نۇرغۇن سودا TTS سىستېمىلىرىغا قارىغاندا ئۈنۈملۈكرەك.
Alibaba (Tongyi Lab)
Apache 2.0
Medium
en, zh, ja, ko, fr, de, it, es
4GB
ھەئە
2
Dia TTS
Standard
Nari Labs تەرىپىدىن ياسالغان Dia 1.6B پارامېتىرلىق تېكىستتىن سۆزگە ئايلاندۇرۇش مودېلى بولۇپ، كۆپ ئاڭلىغۇچىلىق مۇنازىرە ھاسىل قىلىش ئۈچۈن ياسالغان. ئۇ ئىككى ئاڭلىغۇچىنىڭ مۇۋاپىق نۆۋەتلىشىش، سۆزلىشىش ئۇسۇلى ۋە ھېسسىيات ئىپادىلەش ئارقىلىق تەبىئىي ئاۋازلىق مۇنازىرە ھاسىل قىلىشىغا ياردەم بېرىدۇ. Dia podcast-style مەزمۇنلارنى، ئاۋازلىق كىتاب مۇنازىرىلىرىنى ۋە ئۆزئارا تەسىرلەندۈرگۈچ مۇنازىرە AI نى ھاسىل قىلىشقا ماس كېلىدۇ.
Nari Labs
Apache 2.0
Medium
en
4GB
ئۇنداق ئەمەس
2
Parler TTS
Standard
Parler TTS تېكىستتىن سۆزگە ئۆزگەرتكۈچ(text-to-speech model) بولۇپ، ياسالغان سۆزنى كونترول قىلىش ئۈچۈن تەبىئىي تىلدىكى ئاۋاز چۈشەندۈرۈشلىرىنى ئىشلىتىدۇ. ئالدىن بەلگىلەنگەن ئاۋازلارنى تاللاشنىڭ ئورنىغا، سىز خالىغان ئاۋازنى چۈشەندۈرەلەيسىز(مەسىلەن، "بىر قىزنىڭ ئاۋازى، ئازراق ئىنگلىزچە ئاۋاز، ئاستا ۋە ئېنىق سۆزلەيدۇ")، Parler بۇ چۈشەندۈرۈشكە ماس كېلىدىغان سۆزنى ياسايدۇ. بۇ ئۇنى يارىتىش پروگراممىلىرى ئۈچۈن ئالاھىدە چىداملىق قىلىدۇ.
Hugging Face
Apache 2.0
Medium
en
4GB
ئۇنداق ئەمەس
2
IndexTTS-2
Standard
IndexTTS-2 يۇقىرى دەرىجىلىك تېكىستتىن سۆزگە ئۆزگىرىش سىستېمىسى بولۇپ، ھېس-تۇيغۇلارنى كونترول قىلىش بىلەن ئاۋازنى بىرلەشتۈرۈش ئىقتىدارىغا ئىگە. بۇ سىستېما ھېس-تۇيغۇلارنى تەربىيەلەش سانلىق-مەلۇماتلىرىغا ئېھتىياجسىز ھالدا خۇشال، غەمكىن، غەزەپلەنگەن ياكى قورقۇنچلۇق قاتارلىق خاس ھېس-تۇيغۇلار بىلەن سۆزلەرنى ھاسىل قىلىدۇ. بۇ سىستېما ھاسىل قىلىنغان سۆزلەرنىڭ ھېس-تۇيغۇلىرىنى توغرا كونترول قىلىش ئۈچۈن ھېس-تۇيغۇ ۋەكتورلىرىنى ئىشلىتىدۇ.
Index Team
Apache 2.0
Medium
en, zh
4GB
ھەئە
2
Spark TTS
Standard
Spark TTS SparkAudio تەرىپىدىن ياسالغان تېكىستتىن سۆزگە ئۆزگەرتكۈچ بولۇپ، ئاۋازنى كۆچۈرۈشنى باشقۇرغىلى بولىدىغان ھېسسىيات ۋە سۆزلەش ئۇسلۇبى بىلەن بىرلەشتۈرىدۇ. پەقەت 5 سېكۇنتلۇق ئاۋازنى ئىشلىتىپ، ئاۋازنى كۆچۈرۈپ، ھەر خىل ھېسسىيات، تېزلىك ۋە سۆزلەش ئۇسلۇبى بىلەن سۆزلەشنى ھاسىل قىلىشقا بولىدۇ. Spark TTS تەكلىپكە ئاساسلانغان كونترول سىستېمىسىنى ئىشلىتىدۇ.
SparkAudio
Apache 2.0
Medium
en, zh
4GB
ھەئە
2
GPT-SoVITS
Standard
GPT-SoVITS GPT-style language modeling بىلەن SoVITS (Singing Voice Inference via Translation and Synthesis) نى بىرلەشتۈرۈپ، كۈچلۈك voice clone قىلىش پروگراممىسىدۇر. 5 سېكۇنتتىن ئاز ۋاقىت ئىچىدە ئاۋازنى تەپسىلىي ھالدا كۆچۈرۈپ، سۆزلىگۈچىنىڭ ئالاھىدىلىكلىرىنى ساقلاپ، يېڭى سۆزلەرنى ھاسىل قىلىشقا بولىدۇ. بۇ پروگرامما سۆزلەش ۋە ناخشا ئېيتىش ئاۋازىنى بىرلەشتۈرۈش جەھەتتە ناھايىتى ئۈنۈملۈك.
RVC-Boss
MIT
Slow
en, zh, ja, ko
6GB
ھەئە
2
Orpheus
Standard
Orpheus ئىنسان دەرىجىلىك ھېسسىيات ئىپادىلەشنى قولغا كەلتۈرىدىغان چوڭ كۆلەملىك تېكىستتىن سۆزگە ئۆزگەرتىش مودېلى. 100،000 سائەتتىن ئارتۇق تۈرلۈك سۆز سانلىق-مەلۇماتىغا ئاساسەن تەربىيەلەنگەن، تەبىئىي ھېسسىيات، ئالاھىدىلىك ۋە سۆزلەش ئۇسلۇبىغا ئىگە سۆزلەرنى يارىتىشتا ئۈستۈنلۈككە ئىگە. Orpheus ئىنساننىڭ ئاۋازلىق خاتىرىسىدىن قەتئىي پەرقلەنمەيدىغان سۆزلەرنى يارىتىشقا قادىر.
Canopy Labs
Llama 3.2 Community
Medium
en
4GB
ئۇنداق ئەمەس
2
Chatterbox
Premium
Resemble AI تەرىپىدىن ياسالغان Chatterbox ئەڭ يېڭى تىپتىكى ئاۋازنى تۇنۇشتۇرۇش پروگراممىسىدۇر. بۇ پروگرامما بىرلا ئاۋاز نۇسخىسىدىن ھەرقانداق ئاۋازنى تۇنۇشتۇرالايدۇ، پەقەت ئاۋازنىلا ئەمەس، يەنە سۆزلەش ئۇسلۇبىنى ۋە ھېسسىياتنىمۇ تۇنۇشتۇرالايدۇ. Chatterbox يەنە ھېسسىياتنى كونترول قىلىش ئىقتىدارىغا ئىگە بولۇپ، ئاۋازنى تونۇشتۇرۇشتىن ئايرىلىپ تۇرۇپ، ھاسىل قىلىنغان سۆزنىڭ ھېسسىياتلىق ئاۋازىنى تەڭشەش ئىقتىدارىغا ئىگە.
Resemble AI
MIT
Medium
en
4GB
ھەئە
4
Tortoise TTS
Premium
Tortoise TTS ئۈننىڭ سۈپىتىنى تېزلىكتىن ئۈستۈن قويىدىغان كۆپ ئاۋازلىق تېكىستتىن سۆزلەش سىستېمىسىدۇر. بۇ سىستېما DALL-E تىن ئىلھام ئالغان قۇرۇلمىسىنى ئىشلىتىپ، ناھايىتى تەبىئىي ئاۋاز ۋە ئاڭلىغۇچىغا ئوخشايدىغان ئاۋازنى پەيدا قىلىدۇ. Tortoise نۇرغۇن ئالماشتۇرغۇچلارغا قارىغاندا تېزرەك بولسىمۇ، ئەمما ئېچىۋېتىلگەن مەنبەلىك ئېكولوگىيە سىستېمىسىدا ئەڭ راستچىل بولغان بىر قىسىم سىمۋوللۇق ئاۋازنى پەيدا قىلىدۇ.
James Betker
Apache 2.0
Slow
en
8GB
ھەئە
4
StyleTTS 2
Premium
StyleTTS 2 چوڭ ئاۋاز تىلى مودېللىرىنى ئىشلىتىپ، ئاۋازنىڭ تارقىلىش ئۇسۇلى بىلەن قارشى تەرەپنىڭ تەربىيەلەش ئۇسۇلىنى بىرلەشتۈرۈپ، ئىنسان دەرىجىلىك TTS سىنىمىنى قولغا كەلتۈرىدۇ. ئۇ بىر ئاۋازلىق مودېللار ئىچىدە ئەڭ تەبىئىي ئاۋازلىق ئاۋازنى پەيدا قىلىدۇ. StyleTTS 2 ئاۋازنىڭ تارقىلىش ئۇسۇلىغا ئاساسەن ئاۋازنىڭ تەربىيەلەش ئۇسۇلىنى ئىشلىتىپ، ئىنسان ئاۋازىنىڭ بارلىق خىللىرىنى قولغا كەلتۈرىدۇ.
Columbia University
MIT
Medium
en
4GB
ئۇنداق ئەمەس
4
OpenVoice
Premium
MyShell.ai تەرىپىدىن ياسالغان OpenVoice، ئاۋاز ئۇسلۇبى، ھېسسىيات، ئاۋاز كۈچەيتىش، رىتىم، توختىتىش ۋە ئىپادىلەش قاتارلىقلارنى تەپسىلىي كونترول قىلىپ، ئاۋازنى دەرھال كۆچۈرۈشكە ياردەم بېرىدۇ. ئۇ قىسقا ئاۋازنى كۆچۈرۈپ بىر قانچە تىلدا سۆزلەشكە ياردەم بېرىدۇ ھەمدە سۆزلىگۈچىنىڭ سۈپىتىنى ساقلايدۇ. OpenVoice يەنە ئاۋاز ئۆزگەرتكۈچ بولۇپ، راستىنلا ئاۋازنى ئۆزگەرتىشكە ياردەم بېرىدۇ.
MyShell.ai / MIT
MIT
Medium
en, zh, ja, ko, fr, de, es, it
4GB
ھەئە
4
Qwen3 TTS
Standard
Qwen3-TTS Alibaba نىڭ Qwen گۇرۇپپىسىنىڭ 1.7 مىليارد پارامېتىرلىق تېكىستتىن سۆزگە ئۆزگەرتىش مودېلى. ئۇ ئۈچ خىل ھالەتنى قوللايدۇ: ھېسسىيات كونتروللۇقى بىلەن ئالدىن تەڭشەلگەن ئاۋازلار (9 ئاۋازلىق)، ئاۋازنى پەقەت 3 سېكۇنتلۇق ئاۋازدىن قۇرۇپ چىقىش، ۋە سىز خالىغان ئاۋازنى تەبىئىي تىلدا چۈشەندۈرەلەيدىغان ئالاھىدە ئاۋاز لايىھەلەش ھالىتى. ئۇ 10 تىلنى يۇقىرى ئىپادىلەش ۋە تەبىئىي ئاۋازلىق بىلەن قوللايدۇ.
Alibaba (Qwen)
Apache 2.0
Medium
en, zh, ja, ko, de, fr, ru, pt, es, it
7GB
ھەئە
2
Kokoro
بوش
Kokoro is an 82 million parameter text-to-speech model that punches well above its weight class. Despite its tiny size, it produces remarkably natural and expressive speech. Kokoro supports multiple languages including English, Japanese, Chinese, and Korean with a variety of expressive voices. It runs incredibly fast — generating audio nearly 100x faster than real-time on a GPU.
Hexgrad
Apache 2.0
Fast
Piper
بوش
Piper is a lightweight text-to-speech engine developed by Rhasspy that uses VITS and larynx architectures. It runs entirely on CPU, making it ideal for edge devices, home automation, and applications requiring offline TTS. With over 100 voices across 30+ languages, Piper delivers natural-sounding speech at real-time speeds even on a Raspberry Pi 4.
Rhasspy
MIT
Fast
VITS
بوش
VITS (Variational Inference with adversarial learning for end-to-end Text-to-Speech) is a parallel end-to-end TTS method that generates more natural sounding audio than current two-stage models. It adopts variational inference augmented with normalizing flows and an adversarial training process, achieving a significant improvement in naturalness.
Jaehyeon Kim et al.
MIT
Fast
MeloTTS
بوش
MeloTTS by MyShell.ai is a multilingual TTS library supporting English (American, British, Indian, Australian), Spanish, French, Chinese, Japanese, and Korean. It is extremely fast, processing text at near real-time speed on CPU alone. MeloTTS is designed for production use and supports both CPU and GPU inference.
MyShell.ai
MIT
Fast
Bark
ئۆلچەملىك
Bark by Suno is a transformer-based text-to-audio model that can generate highly realistic, multilingual speech as well as other audio like music, background noise, and sound effects. It can produce nonverbal communications like laughing, sighing, and crying. Bark supports over 100 speaker presets and 13+ languages.
Suno
MIT
Slow
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
ئۇنداق ئەمەس
Bark Small
ئۆلچەملىك
Bark Small is a distilled version of the Bark model that trades some audio quality for significantly faster inference speeds and lower memory requirements. It retains Bark's ability to generate speech with emotions, laughter, and multiple languages.
Suno
MIT
Medium
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
ئۇنداق ئەمەس
CosyVoice 2
ئۆلچەملىك
CosyVoice 2 by Alibaba's Tongyi Lab achieves human-comparable speech quality with extremely low latency, making it ideal for real-time applications. It uses a finite scalar quantization approach for streaming synthesis and supports zero-shot voice cloning, cross-lingual synthesis, and fine-grained emotion control. It outperforms many commercial TTS systems in subjective evaluations.
Alibaba (Tongyi Lab)
Apache 2.0
Medium
en, zh, ja, ko, fr, de, it, es
ھەئە
Dia TTS
ئۆلچەملىك
Dia by Nari Labs is a 1.6B parameter text-to-speech model designed specifically for generating multi-speaker dialogue. It can produce natural-sounding conversations between two speakers with appropriate turn-taking, prosody, and emotional expression. Dia is perfect for creating podcast-style content, audiobook dialogues, and interactive conversational AI.
Nari Labs
Apache 2.0
Medium
en
ئۇنداق ئەمەس
Parler TTS
ئۆلچەملىك
Parler TTS is a text-to-speech model that uses natural language voice descriptions to control the generated speech. Instead of selecting from preset voices, you describe the voice you want (e.g., "a warm female voice with a slight British accent, speaking slowly and clearly") and Parler generates speech matching that description. This makes it uniquely flexible for creative applications.
Hugging Face
Apache 2.0
Medium
en
ئۇنداق ئەمەس
IndexTTS-2
ئۆلچەملىك
IndexTTS-2 is an advanced text-to-speech system that excels at zero-shot voice synthesis with fine-grained emotion control. It can generate speech with specific emotional tones like happy, sad, angry, or fearful without requiring emotion-specific training data. The model uses emotion vectors to precisely control the emotional expression of generated speech.
Index Team
Apache 2.0
Medium
en, zh
ھەئە
Spark TTS
ئۆلچەملىك
Spark TTS by SparkAudio is a text-to-speech model that combines voice cloning with controllable emotion and speaking style. Using just 5 seconds of reference audio, it can clone a voice and then generate speech with different emotions, speeds, and styles while maintaining the cloned voice identity. Spark TTS uses a prompt-based control system.
SparkAudio
Apache 2.0
Medium
en, zh
ھەئە
GPT-SoVITS
ئۆلچەملىك
GPT-SoVITS combines GPT-style language modeling with SoVITS (Singing Voice Inference via Translation and Synthesis) for powerful few-shot voice cloning. With as little as 5 seconds of reference audio, it can accurately clone a voice and generate new speech while preserving the speaker's unique characteristics. It excels at both speaking and singing voice synthesis.
RVC-Boss
MIT
Slow
en, zh, ja, ko
ھەئە
Orpheus
ئۆلچەملىك
Orpheus is a large-scale text-to-speech model that achieves human-level emotional expression. Trained on over 100,000 hours of diverse speech data, it excels at generating speech with natural emotions, emphasis, and speaking styles. Orpheus can produce speech that is virtually indistinguishable from human recordings.
Canopy Labs
Llama 3.2 Community
Medium
en
ئۇنداق ئەمەس
Qwen3 TTS
ئۆلچەملىك
Qwen3-TTS is a 1.7 billion parameter text-to-speech model from Alibaba's Qwen team. It supports three modes: preset voices with emotion control (9 speakers), voice cloning from just 3 seconds of audio, and a unique voice design mode where you describe the voice you want in natural language. It covers 10 languages with high expressiveness and natural prosody.
Alibaba (Qwen)
Apache 2.0
Medium
en, zh, ja, ko, de, fr, ru, pt, es, it
ھەئە
مودېل سېلىشتۇرۇش جەدۋىلى
| مودېل | ئىجاد قىلغۇچى: | ھايۋان | سۈپىتى: | تېزلىك | تىللار | ئاۋازنى كۆچۈرۈش پروگراممىسى | VRAM | ئىجازەتنامە: | پۇل | |
|---|---|---|---|---|---|---|---|---|---|---|
| Kokoro | Hexgrad | Free | Fast | 11 | 1.5GB | Apache 2.0 | بوش | ئىشلىتىش | ||
| Piper | Rhasspy | Free | Fast | 31 | 0 (CPU only) | MIT | بوش | ئىشلىتىش | ||
| VITS | Jaehyeon Kim et al. | Free | Fast | 4 | 1GB | MIT | بوش | ئىشلىتىش | ||
| MeloTTS | MyShell.ai | Free | Fast | 6 | 0.5GB (GPU optional) | MIT | بوش | ئىشلىتىش | ||
| Bark | Suno | Standard | Slow | 13 | 5GB | MIT | 2 | ئىشلىتىش | ||
| Bark Small | Suno | Standard | Medium | 13 | 2GB | MIT | 2 | ئىشلىتىش | ||
| CosyVoice 2 | Alibaba (Tongyi Lab) | Standard | Medium | 8 | 4GB | Apache 2.0 | 2 | ئىشلىتىش | ||
| Dia TTS | Nari Labs | Standard | Medium | 1 | 4GB | Apache 2.0 | 2 | ئىشلىتىش | ||
| Parler TTS | Hugging Face | Standard | Medium | 1 | 4GB | Apache 2.0 | 2 | ئىشلىتىش | ||
| IndexTTS-2 | Index Team | Standard | Medium | 2 | 4GB | Apache 2.0 | 2 | ئىشلىتىش | ||
| Spark TTS | SparkAudio | Standard | Medium | 2 | 4GB | Apache 2.0 | 2 | ئىشلىتىش | ||
| GPT-SoVITS | RVC-Boss | Standard | Slow | 4 | 6GB | MIT | 2 | ئىشلىتىش | ||
| Orpheus | Canopy Labs | Standard | Medium | 1 | 4GB | Llama 3.2 Community | 2 | ئىشلىتىش | ||
| Chatterbox | Resemble AI | Premium | Medium | 1 | 4GB | MIT | 4 | ئىشلىتىش | ||
| Tortoise TTS | James Betker | Premium | Slow | 1 | 8GB | Apache 2.0 | 4 | ئىشلىتىش | ||
| StyleTTS 2 | Columbia University | Premium | Medium | 1 | 4GB | MIT | 4 | ئىشلىتىش | ||
| OpenVoice | MyShell.ai / MIT | Premium | Medium | 8 | 4GB | MIT | 4 | ئىشلىتىش | ||
| Qwen3 TTS | Alibaba (Qwen) | Standard | Medium | 10 | 7GB | Apache 2.0 | 2 | ئىشلىتىش |
ئەڭ كەڭ كۆلەملىك AI تېكىستتىن سۆزگە ئۆزگەرتىش پروگراممىسى
تېكىستتىن سۆزگە ئۆزگەرتىش ئۈچۈن نېمە ئۈچۈن TTS.ai نى تاللاش كېرەك؟
TTS.ai دۇنيانى بىرلەشتۈرىدۇ
ھەر بىر مودېل MIT، Apache 2.0 ياكى شۇنىڭغا ئوخشاش ئىجازەت بېرىش ئىجازىتى بويىچە ئوچۇق مەنبەلىك بولۇپ، سىزنىڭ قۇرۇلۇشىڭىزدا ياسالغان ئاۋازنى ئىشلىتىش ئۈچۈن پۈتۈن تىجارىي ھوقۇقىڭىز بارلىقىنى كاپالەتكە ئىگە قىلىدۇ. سىز ھەقىقىي ۋاقىتتىكى پروگراممىلار ئۈچۈن تېز، يېنىك بىرلەشتۈرگۈچ ياكى ئاۋازلىق كىتابلار ۋە پودكاستلار ئۈچۈن يۇقىرى سۈپەتلىك بىرلەشتۈرگۈچكە ئېھتىياجلىق بولسىڭىزمۇ، TTS.ai ھەر قانداق ئىشلىتىش ئەھۋالى ئۈچۈن توغرا بىرلەشتۈرگۈچكە ئىگە.
ھەقسىز مودىللار، ھېسابات تەلەپ قىلىنمايدۇ
تۆۋەندىكى ئۈچ ھەقسىز TTS مودېلىنى ئىشلىتىشكە باشلايسىز: Piper (ئۇلار ئىنتايىن تېز، يېنىك)، VITS (ئۈچۈن يۇقىرى سۈپەتلىك نېرۋا بىرىكتۈرگۈچ) ۋە MeloTTS (ئۈچ خىل تىلنى قوللايدۇ). ھېچقانداق تىزىملاش، ھېچقانداق كرېدىت كارتىسى، ھېچقانداق چەكلىمىلەر يوق. ھەقسىز TTS مودېلى ئىنگىلىزچە ۋە باشقا نۇرغۇن تىللارنى قوللايدۇ، نۇرغۇن پروگراممىلارغا لايىق بولغان تەبىئىي ئاۋازلىق چىقىرىشقا ئىگە.
GPU تېزلىتىپ ئىشلەتكۈچىسى
TTS نىڭ ھەممىسى NVIDIA نىڭ GPU لىرىدا ئىشلەيدۇ، شۇڭا تېز ۋە مۇۋاپىق ئۈن چىقىرىدۇ. ھەقسىز TTS نىڭ ئۈن چىقىرىش ۋاقتى ئادەتتە 2 سېكۇنتتىن ئاز بولىدۇ. Kokoro، CosyVoice 2 ۋە Bark نىڭ ئۈن چىقىرىش ۋاقتى ئوتتۇرىچە 3-5 سېكۇنت بولىدۇ. Tortoise ۋە Chatterbox نىڭ ئۈن چىقىرىش ۋاقتى تېكىست ئۇزۇنلۇقىغا قاراپ 5-15 سېكۇنت بولىدۇ.
30 دىن ئارتۇق تىلنى قوللايدۇ
ئىنگىلىزچە، ئىسپانچە، فرانسۇزچە، گېرمانچە، ئىتالىيەچە، پورتۇگالچە، خەنزۇچە، ياپونچە، كورىيەچە، ئەرەبچە، ھىندىچە، رۇسچە ۋە باشقا 30 دىن ئارتۇق تىلدا سۆزلەرنى ياساش پروگراممىسى. نۇرغۇن پروگراممىلار تىللار ئارىسىدىكى بىرلەشتۈرۈش ئىقتىدارىنى قوللايدۇ، بۇ دېگەنلىك تىللار ئارىسىدىكى بىرلەشتۈرۈش ئىقتىدارىغا ئىگە پروگراممىلارنى ياساش پروگراممىسى. CosyVoice 2 ۋە GPT-SoVITS تىللار ئارىسىدىكى سۆزلەرنى ياساش پروگراممىسى.
ئىجادىيەتچىلەرگە لايىق API
OpenAI بىلەن ماس كېلىدىغان REST API ئارقىلىق TTS.ai نى پروگراممىلىرىڭىزغا بىرلەشتۈرۈڭ. 24+ تىپتىكى بارلىق پروگراممىلار ئۈچۈن بىرلا ئاخىرلاشتۇرۇش نۇقتىسى. Python، JavaScript، cURL ۋە Go SDK. رېئال ۋاقىتتىكى پروگراممىلار ئۈچۈن سۈرەتكە ئېلىش قوللايدۇ. چوڭ مىقداردىكى مەزمۇنلارنى ياساش ئۈچۈن توپلاش ئۇسۇلىنى قوللايدۇ. async خەۋەرلىشىش ئۈچۈن Webhooks. Pro ۋە Enterprise پروگراممىلىرىدا قوللىنىلىدۇ.
كۆپ سورالغان سوئاللار
تېكىستنى سۆزگە ئايلاندۇرۇشنى ھازىرلا باشلاش
TTS.ai نى ئىشلىتىپ مىڭلارچە ياراتقۇچىغا قوشۇلۇڭ. يېڭى ھېسابات ئېچىپ 50 ھەقسىز كرېدىت ئالغىن. ھەقسىز مودېللار قوشۇلمىغاندا ئىشلىتىشكە بولىدۇ.