AI تېكىستتىن سۆزگە
ئېچىۋېتىلگەن مەنبەلىك AI نىڭ ياردىمىدە تېكىستنى تەبىئىي ئاۋازلىق سۆزلەشكە ئايلاندۇرۇش پروگراممىسى. ھەقسىز ئىشلىتىشكە بولىدۇ، ھېسابات كېرەك ئەمەس.
توغرا كونترول قىلىش ئۈچۈن تېكىستنى SSML تېگلىرى ئىچىگە ئايلاندۇرۇش:
<speak><prosody rate="slow">Slow speech</prosody></speak>
يەتكۈزۈشكە تەسىر كۆرسىتىدىغان كەيپىيات بەلگىلىرىنى قوشۇش (مۇلازىمەتنىڭ قوللايدىغان نۇسخىسى ئوخشىمايدۇ):
خالىغان ئىپادىلەشنى بەلگىلەش (سۆز = ئىپادىلەش):
مودېل ئۇچۇرلىرى
Spark TTS
Spark TTS by SparkAudio is a text-to-speech model that combines voice cloning with controllable emotion and speaking style. Using just 5 seconds of reference audio, it can clone a voice and then generate speech with different emotions, speeds, and styles while maintaining the cloned voice identity. Spark TTS uses a prompt-based control system.
| ئىجاد قىلغۇچى: | SparkAudio |
| ئىجازەتنامە: | CC BY-NC-SA 4.0 |
| تېزلىك | Medium |
| سۈپىتى: | |
| تىللار | 2 تىللار |
| VRAM | 4GB |
| ئاۋازنى كۆچۈرۈش پروگراممىسى | قوللىنىلىدۇ |
ياخشى نەتىجىلەر ئۈچۈن تەۋسىيەلەر
- تەبىئىي توقۇنۇش ۋە ئىپادىلەش ئۈچۈن توغرا يازما بەلگىلەرنى ئىشلىتىش
- سانلارنى ۋە قىسقارتمىلارنى ئېنىق ئوقۇش ئۈچۈن ئىملا قىلىش پروگراممىسى
- سۆزلەر ئارىسىدا قىسقا توقۇنۇشلارنى پەيدا قىلىش ئۈچۈن ۋاراقلارنى قوشۇش پروگراممىسى
- ئۇزۇن مەزگىللىك توقۇنۇش ئۈچۈن (...) نى ئىشلىتىڭ
- ئەڭ تەبىئىي ئاۋاز ئۈچۈن Kokoro ياكى CosyVoice 2 نى سىناپ بېقىڭ
- كۆپ ئاڭلىغۇچىلىق مۇنازىرە ۋە podcast مەزمۇنلىرى ئۈچۈن Dia نى ئىشلىتىش
قەرز ھەققى
| ھايۋان | ھەر بىر 1K ھەرپنىڭ باھاسى |
|---|---|
| بوش | 0 كرېدىت (چەكلىمىسىز) |
| ئۆلچەملىك | 2 نومۇر / 1K ھەرپ |
| ئالىي دەرىجىلىك | 4 نومۇر / 1K ھەرپ |
AI تېكىستتىن سۆزگە قانداق ئىشلەيدۇ
ئۈچ ئاددىي باسقۇچتا كەسپىي سۈپەتلىك ئاۋاز قوزغىتىش پروگراممىسى. تېخنىكىلىق بىلىملەر كېرەك ئەمەس.
تېكىستنى كىرگۈزۈڭ
سۆزلەشكە ئايلاندۇرۇشنى خالايدىغان تېكىستنى كىرگۈزۈش، يېزىپ قويۇش ياكى يۈكلەش. كىرگەن ئىشلەتكۈچىلەر بىر قېتىمدا 5000 ھەرپنى قوللايدۇ. تېكىستنى ئىشلىتىش ياكى SSML تېگلىرىنى قوشۇش ئارقىلىق سۆزلەش، توختىتىش ۋە ئېنىقلاشنى باشقۇرغىلى بولىدۇ.
مودېل ۋە ئاۋازنى تاللا
20+ AI نىڭ ئۈچ دەرىجىدىن ئارتۇق نۇسخىسىنى تاللاڭ. مەزمۇنىڭىزغا ماس كېلىدىغان ئاۋازنى تاللاڭ، مەقسەت قىلغان تىلنى تاللاڭ، قويغۇچنىڭ تېزلىكىنى 0.5x دىن 2.0x گە تەڭشەپ، خالىغان چىقىرىش پىچىمىنى (MP3، WAV، OGG ياكى FLAC) تاللاڭ.
ھاسىل قىلىش ۋە چۈشۈرۈش
ياساش نى چېكىپ ئاۋازىڭىز بىر نەچچە سېكۇنت ئىچىدە تەييار بولىدۇ. ئىچىدىكى قويغۇ بىلەن ئالدىن كۆرۈش، تاللىغان پىچىم بويىچە چۈشۈرۈش ياكى ھەمبەھىرلەشكە بولىدىغان تور بېتىدىن كۆچۈرۈش. بۇ API نى كۆپ قېتىملىق ئىشلەش ۋە ئىشلەش جەريانىڭىزغا بىرلەشتۈرۈش ئۈچۈن ئىشلىتىڭ.
تېكىستتىن سۆزگە ئۆزگەرتىش
ئەقلىي ئىدراك كۈچىگە ئىگە تېكستتىن سۆزگە ئۆزگىرىش كىشىلەرنىڭ نۇرغۇن سانائەت ساھەلىرىدە ئاۋازلىق مەزمۇنلارنى يارىتىش، ئىشلىتىش ۋە ئالاقە قىلىش ئۇسۇلىنى ئۆزگەرتىدۇ.
بارلىق تېكىستتىن سۆزگە ئۆزگەرتىش مودېللىرى
TTS.ai دىكى ھەر بىر AI مودېلىنىڭ تەپسىلىي خاسلىقلىرى. سىزنىڭ قۇرۇلۇشىڭىز ئۈچۈن ئەڭ مۇۋاپىق بولغان مودېلنى تېپىش ئۈچۈن سۈپەت، تېزلىك، تىل قوللىشى ۋە ئىقتىدارلارنى سېلىشتۇرۇڭ.
Kokoro
Free
Kokoro 82 مىليون پارامېتىرلىق تېكىستتىن سۆزگە ئۆز دەرىجىسىدىن يۇقىرى ئۈنۈم بېرىدىغان پروگرامما. ئۇزۇنلۇقى كىچىك بولسىمۇ، ئەمما ئىنتايىن تەبىئىي ۋە ئىپادىلەشچان سۆزلەرنى ئىشلەپ چىقىرىدۇ. Kokoro ئىنگىلىزچە، ياپونچە، خەنزۇچە ۋە كورېيچە قاتارلىق نۇرغۇن تىللارنى قوللايدۇ ھەمدە ھەر خىل ئىپادىلەشچان ئاۋازلارنى قوللايدۇ. ئۇ ئىنتايىن تېز ئىشلەيدۇ - GPU دىكى ھەقىقىي ۋاقىتتىكىدىن 100 ھەسسە تېز ئاۋازلارنى ئىشلەپ چىقىرىدۇ.
Hexgrad
Apache 2.0
Fast
en, ja, zh, ko, fr, de, it, pt, es, hi, ru
1.5GB
ئۇنداق ئەمەس
بوش
Piper
Free
Piper Rhasspy تەرىپىدىن ياسالغان VITS ۋە larynx قۇرۇلمىسىنى ئىشلىتىدىغان يېنىك تېكىستتىن سۆزگە ئۆزگەرتكۈچ پروگرامما. ئۇ پۈتۈنلەي CPU نىڭ ئۈستىدە ئىشلەيدۇ، شۇڭا Edge ئۈسكۈنىلىرى، ئۆي ئاپتوماتىك سىستېمىسى ۋە توردىن سىرت TTS تەلەپ قىلىدىغان پروگراممىلارغا ماس كېلىدۇ. Piper 30 دىن ئارتۇق تىلدىكى 100 دىن ئارتۇق ئاۋاز بىلەن تەمىنلەيدۇ، Raspberry Pi 4 نىڭ ئۆزىدىمۇ تېز سۈرئەتتە تەبىئىي ئاۋازلىق سۆزلەشنى تەمىنلەيدۇ.
Rhasspy
MIT
Fast
en, de, fr, es, it, pt, nl, pl, ru, zh, ja, ko, ar, cs, da, fi, el, hu, is, ka, kk, ne, no, ro, sk, sr, sv, sw, tr, uk, vi
0 (CPU only)
ئۇنداق ئەمەس
بوش
VITS
Free
VITS (ئاخىردىن ئاخىرغىچە تېكىستتىن سۆزگە ئۆزگىرىشچان ئىزاھلاش) ھازىرقى ئىككى باسقۇچلۇق مودېلغا قارىغاندا تېخىمۇ تەبىئىي ئاۋازنى پەيدا قىلىدىغان تەڭشەكلىك ئاخىردىن ئاخىرغىچە TTS ئۇسۇلىدۇر. ئۇ ئۆزگىرىشچان ئىزاھلاشنى نورماللاشتۇرۇش ئېقىمى ۋە ئۆزگىرىشچان تەربىيەلەش جەريانى بىلەن كۈچەيتىپ، تەبىئىيلىكنى زور دەرىجىدە ئاشۇرىدۇ.
Jaehyeon Kim et al.
MIT
Fast
en, zh, ja, ko
1GB
ئۇنداق ئەمەس
بوش
MeloTTS
Free
MyShell.ai تەرىپىدىن ياسالغان MeloTTS ئىنگىلىزچە (ئامېرىكىلىق، بىرىتانىيەلىك، ھىندى، ئاۋسترالىيەلىك)، ئىسپانچە، فرانسۇزچە، خەنزۇچە، ياپونچە ۋە كورىيەچە تىللارنى قوللايدىغان كۆپ تىللىق TTS كىتابخانىسىدۇر. ئۇ ئىنتايىن تېز، پەقەت CPU نىڭ كۈچى بىلەن تېكىستنى رېئال ۋاقىتتىكى سۈرئەتتە ئىشلىتەلەيدۇ. MeloTTS ئىشلەپچىقىرىش ئۈچۈن ياسالغان بولۇپ CPU ۋە GPU نىڭ ھەممىسىنى قوللايدۇ.
MyShell.ai
MIT
Fast
en, es, fr, zh, ja, ko
0.5GB (GPU optional)
ئۇنداق ئەمەس
بوش
Bark
Standard
Suno تەرىپىدىن ياسالغان Bark تېكىستتىن ئاۋازغا ئۆزگەرتكۈچ بولۇپ، كۆپ تىللىق سۆزلەش ۋە مۇزىكا، ئارقا كۆرۈنۈش ئاۋازلىرى ۋە ئاۋاز ئۈنۈمى قاتارلىق باشقا ئاۋازلارنى ھاسىل قىلىشقا ياردەم بېرىدۇ. Bark 100 دىن ئارتۇق ئاۋازلىغۇچ ۋە 13 دىن ئارتۇق تىلنى قوللايدۇ.
Suno
MIT
Slow
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
5GB
ئۇنداق ئەمەس
2x
Bark Small
Standard
Bark Small Bark مودېلىنىڭ بىر قىسىم ئاۋاز سۈپىتىنى تېخىمۇ تېز ئىزاھلاش سۈرئىتى ۋە ئېسىدە ساقلاش ئېھتىياجىنى تۆۋەنلىتىش ئۈچۈن ئۆزگەرتكەن نۇسخىسىدۇر. Bark نىڭ ھېسسىيات، خۇشاللىق ۋە كۆپ تىللىق سۆزلەش ئىقتىدارىنى ساقلاپ قالىدۇ.
Suno
MIT
Medium
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
2GB
ئۇنداق ئەمەس
2x
CosyVoice 2
Standard
Alibaba نىڭ Tongyi Lab تەرىپىدىن ياسالغان CosyVoice 2 ئادەم بىلەن سېلىشتۇرغىلى بولىدىغان سۆز سۈپىتىگە ئىگە بولۇپ، ئىنتايىن تۆۋەن كېچىكتۈرگۈچكە ئىگە، بۇ ئۇنى رېئال ۋاقىتتىكى پروگراممىلار ئۈچۈن ئەڭ مۇۋاپىق قىلىدۇ. ئۇ سۈرەتكە ئېلىش ئۈچۈن چەكلىك كۆلەملىك كۋانتلاش ئۇسۇلىنى قوللايدۇ ھەمدە ئاۋازنى زاۋۇتلاشنى قوللايدۇ، تىللار ئارىسىدىكى سېلىشتۇرۇشنى قوللايدۇ، ھەمدە ئىنچىكە ھېسسىيات كونترول قىلىشنى قوللايدۇ. ئۇ نۇرغۇن سودا TTS سىستېمىلىرىغا قارىغاندا ئۈنۈملۈكرەك.
Alibaba (Tongyi Lab)
Apache 2.0
Medium
en, zh, ja, ko, fr, de, it, es
4GB
ھەئە
2x
Dia TTS
Standard
Nari Labs تەرىپىدىن ياسالغان Dia 1.6B پارامېتىرلىق تېكىستتىن سۆزگە ئايلاندۇرۇش مودېلى بولۇپ، كۆپ ئاڭلىغۇچىلىق مۇنازىرە ھاسىل قىلىش ئۈچۈن ياسالغان. ئۇ ئىككى ئاڭلىغۇچىنىڭ مۇۋاپىق نۆۋەتلىشىش، سۆزلىشىش ئۇسۇلى ۋە ھېسسىيات ئىپادىلەش ئارقىلىق تەبىئىي ئاۋازلىق مۇنازىرە ھاسىل قىلىشىغا ياردەم بېرىدۇ. Dia podcast-style مەزمۇنلارنى، ئاۋازلىق كىتاب مۇنازىرىلىرىنى ۋە ئۆزئارا تەسىرلەندۈرگۈچ مۇنازىرە AI نى ھاسىل قىلىشقا ماس كېلىدۇ.
Nari Labs
Apache 2.0
Medium
en
4GB
ئۇنداق ئەمەس
2x
Parler TTS
Standard
Parler TTS تېكىستتىن سۆزگە ئۆزگەرتكۈچ(text-to-speech model) بولۇپ، ياسالغان سۆزنى كونترول قىلىش ئۈچۈن تەبىئىي تىلدىكى ئاۋاز چۈشەندۈرۈشلىرىنى ئىشلىتىدۇ. ئالدىن بەلگىلەنگەن ئاۋازلارنى تاللاشنىڭ ئورنىغا، سىز خالىغان ئاۋازنى چۈشەندۈرەلەيسىز(مەسىلەن، "بىر قىزنىڭ ئاۋازى، ئازراق ئىنگلىزچە ئاۋاز، ئاستا ۋە ئېنىق سۆزلەيدۇ")، Parler بۇ چۈشەندۈرۈشكە ماس كېلىدىغان سۆزنى ياسايدۇ. بۇ ئۇنى يارىتىش پروگراممىلىرى ئۈچۈن ئالاھىدە چىداملىق قىلىدۇ.
Hugging Face
Apache 2.0
Medium
en
4GB
ئۇنداق ئەمەس
2x
GLM-TTS
Standard
Zhipu AI نىڭ GLM-TTS سىزىقچە-ئۆزئارا ماسلىشىش ئىقتىدارى بار Llama قۇرۇلمىسى ئاساسىدا ياسالغان تېكىستتىن سۆزگە ئۆزگەرتىش سىستېمىسىدۇر. بۇ سىستېما ئوچۇق مەنبەلىك TTS نىڭ ئەڭ تۆۋەن خاتالىق نىسبىتىگە ئېرىشىدۇ، بۇ ئەڭ توغرا سۆزلەشنى ئېلىپ كېلىدۇ. GLM-TTS 3-10 سېكۇنتلۇق ئاۋاز نۇسخىسىدىن ئاۋازنى клонلاش ئارقىلىق ئىنگىلىزچە ۋە خەنزۇچە سۆزلەرنى قوللايدۇ.
Zhipu AI
GLM-4 License
Medium
en, zh
4GB
ھەئە
2x
IndexTTS-2
Standard
IndexTTS-2 يۇقىرى دەرىجىلىك تېكىستتىن سۆزگە ئۆزگىرىش سىستېمىسى بولۇپ، ھېس-تۇيغۇلارنى كونترول قىلىش بىلەن ئاۋازنى بىرلەشتۈرۈش ئىقتىدارىغا ئىگە. بۇ سىستېما ھېس-تۇيغۇلارنى تەربىيەلەش سانلىق-مەلۇماتلىرىغا ئېھتىياجسىز ھالدا خۇشال، غەمكىن، غەزەپلەنگەن ياكى قورقۇنچلۇق قاتارلىق خاس ھېس-تۇيغۇلار بىلەن سۆزلەرنى ھاسىل قىلىدۇ. بۇ سىستېما ھاسىل قىلىنغان سۆزلەرنىڭ ھېس-تۇيغۇلىرىنى توغرا كونترول قىلىش ئۈچۈن ھېس-تۇيغۇ ۋەكتورلىرىنى ئىشلىتىدۇ.
Index Team
Bilibili Model License
Medium
en, zh
4GB
ھەئە
2x
Spark TTS
Standard
Spark TTS SparkAudio تەرىپىدىن ياسالغان تېكىستتىن سۆزگە ئۆزگەرتكۈچ بولۇپ، ئاۋازنى كۆچۈرۈشنى باشقۇرغىلى بولىدىغان ھېسسىيات ۋە سۆزلەش ئۇسلۇبى بىلەن بىرلەشتۈرىدۇ. پەقەت 5 سېكۇنتلۇق ئاۋازنى ئىشلىتىپ، ئاۋازنى كۆچۈرۈپ، ھەر خىل ھېسسىيات، تېزلىك ۋە سۆزلەش ئۇسلۇبى بىلەن سۆزلەشنى ھاسىل قىلىشقا بولىدۇ. Spark TTS تەكلىپكە ئاساسلانغان كونترول سىستېمىسىنى ئىشلىتىدۇ.
SparkAudio
CC BY-NC-SA 4.0
Medium
en, zh
4GB
ھەئە
2x
GPT-SoVITS
Standard
GPT-SoVITS GPT-style language modeling بىلەن SoVITS (Singing Voice Inference via Translation and Synthesis) نى بىرلەشتۈرۈپ، كۈچلۈك voice clone قىلىش پروگراممىسىدۇر. 5 سېكۇنتتىن ئاز ۋاقىت ئىچىدە ئاۋازنى تەپسىلىي ھالدا كۆچۈرۈپ، سۆزلىگۈچىنىڭ ئالاھىدىلىكلىرىنى ساقلاپ، يېڭى سۆزلەرنى ھاسىل قىلىشقا بولىدۇ. بۇ پروگرامما سۆزلەش ۋە ناخشا ئېيتىش ئاۋازىنى بىرلەشتۈرۈش جەھەتتە ناھايىتى ئۈنۈملۈك.
RVC-Boss
MIT
Slow
en, zh, ja, ko
6GB
ھەئە
2x
Orpheus
Standard
Orpheus ئىنسان دەرىجىلىك ھېسسىيات ئىپادىلەشنى قولغا كەلتۈرىدىغان چوڭ كۆلەملىك تېكىستتىن سۆزگە ئۆزگەرتىش مودېلى. 100،000 سائەتتىن ئارتۇق تۈرلۈك سۆز سانلىق-مەلۇماتىغا ئاساسەن تەربىيەلەنگەن، تەبىئىي ھېسسىيات، ئالاھىدىلىك ۋە سۆزلەش ئۇسلۇبىغا ئىگە سۆزلەرنى يارىتىشتا ئۈستۈنلۈككە ئىگە. Orpheus ئىنساننىڭ ئاۋازلىق خاتىرىسىدىن قەتئىي پەرقلەنمەيدىغان سۆزلەرنى يارىتىشقا قادىر.
Canopy Labs
Llama 3.2 Community
Medium
en
4GB
ئۇنداق ئەمەس
2x
Chatterbox
Premium
Resemble AI تەرىپىدىن ياسالغان Chatterbox ئەڭ يېڭى تىپتىكى ئاۋازنى تۇنۇشتۇرۇش پروگراممىسىدۇر. بۇ پروگرامما بىرلا ئاۋاز نۇسخىسىدىن ھەرقانداق ئاۋازنى تۇنۇشتۇرالايدۇ، پەقەت ئاۋازنىلا ئەمەس، يەنە سۆزلەش ئۇسلۇبىنى ۋە ھېسسىياتنىمۇ تۇنۇشتۇرالايدۇ. Chatterbox يەنە ھېسسىياتنى كونترول قىلىش ئىقتىدارىغا ئىگە بولۇپ، ئاۋازنى تونۇشتۇرۇشتىن ئايرىلىپ تۇرۇپ، ھاسىل قىلىنغان سۆزنىڭ ھېسسىياتلىق ئاۋازىنى تەڭشەش ئىقتىدارىغا ئىگە.
Resemble AI
MIT
Medium
en
4GB
ھەئە
4x
Tortoise TTS
Premium
Tortoise TTS ئۈننىڭ سۈپىتىنى تېزلىكتىن ئۈستۈن قويىدىغان كۆپ ئاۋازلىق تېكىستتىن سۆزلەش سىستېمىسىدۇر. بۇ سىستېما DALL-E تىن ئىلھام ئالغان قۇرۇلمىسىنى ئىشلىتىپ، ناھايىتى تەبىئىي ئاۋاز ۋە ئاڭلىغۇچىغا ئوخشايدىغان ئاۋازنى پەيدا قىلىدۇ. Tortoise نۇرغۇن ئالماشتۇرغۇچلارغا قارىغاندا تېزرەك بولسىمۇ، ئەمما ئېچىۋېتىلگەن مەنبەلىك ئېكولوگىيە سىستېمىسىدا ئەڭ راستچىل بولغان بىر قىسىم سىمۋوللۇق ئاۋازنى پەيدا قىلىدۇ.
James Betker
Apache 2.0
Slow
en
8GB
ھەئە
4x
StyleTTS 2
Premium
StyleTTS 2 چوڭ ئاۋاز تىلى مودېللىرىنى ئىشلىتىپ، ئاۋازنىڭ تارقىلىش ئۇسۇلى بىلەن قارشى تەرەپنىڭ تەربىيەلەش ئۇسۇلىنى بىرلەشتۈرۈپ، ئىنسان دەرىجىلىك TTS سىنىمىنى قولغا كەلتۈرىدۇ. ئۇ بىر ئاۋازلىق مودېللار ئىچىدە ئەڭ تەبىئىي ئاۋازلىق ئاۋازنى پەيدا قىلىدۇ. StyleTTS 2 ئاۋازنىڭ تارقىلىش ئۇسۇلىغا ئاساسەن ئاۋازنىڭ تەربىيەلەش ئۇسۇلىنى ئىشلىتىپ، ئىنسان ئاۋازىنىڭ بارلىق خىللىرىنى قولغا كەلتۈرىدۇ.
Columbia University
MIT
Medium
en
4GB
ئۇنداق ئەمەس
4x
OpenVoice
Premium
MyShell.ai تەرىپىدىن ياسالغان OpenVoice، ئاۋاز ئۇسلۇبى، ھېسسىيات، ئاۋاز كۈچەيتىش، رىتىم، توختىتىش ۋە ئىپادىلەش قاتارلىقلارنى تەپسىلىي كونترول قىلىپ، ئاۋازنى دەرھال كۆچۈرۈشكە ياردەم بېرىدۇ. ئۇ قىسقا ئاۋازنى كۆچۈرۈپ بىر قانچە تىلدا سۆزلەشكە ياردەم بېرىدۇ ھەمدە سۆزلىگۈچىنىڭ سۈپىتىنى ساقلايدۇ. OpenVoice يەنە ئاۋاز ئۆزگەرتكۈچ بولۇپ، راستىنلا ئاۋازنى ئۆزگەرتىشكە ياردەم بېرىدۇ.
MyShell.ai / MIT
MIT
Medium
en, zh, ja, ko, fr, de, es, it
4GB
ھەئە
4x
Qwen3 TTS
Standard
Qwen3-TTS Alibaba نىڭ Qwen گۇرۇپپىسىنىڭ 1.7 مىليارد پارامېتىرلىق تېكىستتىن سۆزگە ئۆزگەرتىش مودېلى. ئۇ ئۈچ خىل ھالەتنى قوللايدۇ: ھېسسىيات كونتروللۇقى بىلەن ئالدىن تەڭشەلگەن ئاۋازلار (9 ئاۋازلىق)، ئاۋازنى پەقەت 3 سېكۇنتلۇق ئاۋازدىن قۇرۇپ چىقىش، ۋە سىز خالىغان ئاۋازنى تەبىئىي تىلدا چۈشەندۈرەلەيدىغان ئالاھىدە ئاۋاز لايىھەلەش ھالىتى. ئۇ 10 تىلنى يۇقىرى ئىپادىلەش ۋە تەبىئىي ئاۋازلىق بىلەن قوللايدۇ.
Alibaba (Qwen)
Apache 2.0
Medium
en, zh, ja, ko, de, fr, ru, pt, es, it
7GB
ھەئە
2x
Sesame CSM
Premium
Sesame CSM (Conversational Speech Model) 1 مىليارد پارامېتىرلىق مۇناسىۋەتلىك سۆزلەرنى ھاسىل قىلىش ئۈچۈن ياسالغان مۇناسىۋەتلىك سۆزلەرنى ھاسىل قىلىش ئۈچۈن ياسالغان مۇناسىۋەتلىك سۆزلەرنى ھاسىل قىلىش ئۈچۈن ياسالغان مۇناسىۋەتلىك سۆزلەرنى ھاسىل قىلىش ئۈچۈن ياسالغان مۇناسىۋەتلىك سۆزلەرنى ھاسىل قىلىش ئۈچۈن ياسالغان مۇناسىۋەتلىك سۆزلەرنى ھاسىل قىلىش ئۈچۈن ياسالغان مۇناسىۋەتلىك سۆزلەرنى ھاسىل قىلىش ئۈچۈن ياسالغان مۇناسىۋەتلىك سۆزلەرنى ھاسىل قىلىش ئۈچۈن ياسالغان مۇناسىۋەتلىك سۆزلەرنى ھاسىل قىلىش ئۈچۈن ياسالغان مۇناسىۋەتلىك سۆزلەرنى ھاسىل قىلىش ئۈچۈن ياسالغان مۇناسىۋەتلىك سۆزلەرنى ھاسىل قىلىش ئۈچۈن ياسالغان مۇناسىۋەتلىك سۆزلەرنى ھاسىل قىلىش ئۈچۈن ياسالغان مۇناسىۋەتلىك سۆزلەرنى ھاسىل قىلىش ئۈچۈن ياسالغان مۇناسىۋەتلىك سۆزلەرنى ھاسىل قىلىش ئۈچۈن ياسالغان مۇناسىۋەتلىك سۆزلەرنى ھاسىل قىلىش ئۈچۈن ياسالغان مۇناسىۋەتلىك سۆزلەرنى ھاسىل قىلىش ئۈچۈن ياسالغان مۇناسىۋەتلىك سۆزلەرنى ھاسىل قىلىش ئۈچۈن ياسالغان مۇناسىۋەتلىك سۆزلەرنى ھاسىل قىلىش ئۈچۈن
Sesame
Apache 2.0
Slow
en
8GB
ئۇنداق ئەمەس
4x
Chatterbox Turbo
Standard
Chatterbox Turbo by Resemble AI Chatterbox نىڭ 350M پارامېتىرلىق يېڭىلىنىشى بولۇپ، 6x لىق راستىنلا ۋاقىتلىق تېزلىك بىلەن 200ms لىق كېچىكۈشنى تەمىنلەيدۇ. ئۇ [laugh] ، [cough] ۋە [chuckle] قاتارلىقلاردەك مەخسۇس تىللاردىكى تېگلەرنى مەخسۇس تېكىستلەردە قوللايدۇ. بارلىق ياسالغان ئاۋازلارغا Perth سۇ بەلگىسى قوشۇپ، مەنبەنى ئىزدەپ چىقىرىدۇ.
Resemble AI
MIT
Fast
en
2GB
ھەئە
2x
Zonos
Standard
Zyphra نىڭ Zonos v0.1 1.6B پارامېتىرلىق، خۇشاللىق، غەزەپ، قايغۇ، قورقۇنچ ۋە ھەيرانلىقنى كونترول قىلىش ئۈچۈن سىزىقچە بار بولغان، ئىنچىكە ھېسسىيات كونترول قىلىشنى كۆرسىتىدىغان بىر مودېل. ئۇ بىرلا ۋاقىتتا بىر ئۆزگەرتكۈچ ۋە يېڭى SSM (state-space model) نىڭ بىر خىلىنى كۆرسىتىدۇ. 200K+ سائەت كۆپ تىللىق سۆزلەش بىلەن 10-30 سېكۇنتلۇق رىقابەتچى ئاۋازدىن ئاۋازنى клонلاش ئارقىلىق تەلىم بېرىلگەن.
Zyphra
Apache 2.0
Medium
en, ja, zh, fr, de
6GB
ھەئە
2x
Dia 2
Standard
Nari Labs نىڭ Dia2 1B ۋە 2B پارامېتىرلىق تۈرلەردە بار. ئۇ Dia نىڭ 1B ۋە 2B پارامېتىرلىق تۈرلىرىدە بار. ئۇ ئاۋازنى بىر قانچە توكىلاردىن بىرى بىرلەشتۈرۈپ چىقىرىدۇ، بۇ ئۇنى راستىنلا ۋاقىتلىق ئاۋاز خادىملىرى ۋە سۆزدىن سۆزگە ئۆتكۈزۈش يوللىرى ئۈچۈن ئەڭ ياخشى قىلىدۇ. [S1]/[S2] نىڭ چەكلىمىلىرى ۋە (خۇشاللىق)، (ئۈچۈش) قاتارلىقلار بىلەن كۆپ ئاۋازلىق مۇنازىرىنى قوللايدۇ.
Nari Labs
Apache 2.0
Fast
en
4GB
ئۇنداق ئەمەس
2x
VoxCPM
Standard
VoxCPM 1.5 OpenBMB نىڭ يېڭىچە tokenizerسىز TTS مودېلى بولۇپ، سىزىقچە توكىلاردىن بەكرەك داۋاملىق كەڭلىكتە ئىشلەيدۇ. ئۇ يۇقىرى سۈپەتلىك 44.1kHz ئاۋازنى ئىشلەپچىقىرىپ، 3-10 سېكۇنت ئىچىدە ئاۋازنى سىزىقچە توكىلاشنى قوللايدۇ، ھەمدە پاراگرافلار ئارىسىدىكى مۇۋاپىقلىقنى ساقلايدۇ. تىللار ئارىسىدىكى توكىلاش ئارقىلىق، سىز ئىنگىلىزچە ئاۋازنى خىتايچە سۆزگە ئىشلىتىپ، شۇنىڭغا قارشى تەرەپكە ئىشلىتىپ بولالايسىز.
OpenBMB
Apache 2.0
Fast
en, zh
4GB
ھەئە
2x
OuteTTS
Free
OuteTTS چوڭ تىل مودېللىرىنى تېكىستتىن سۆزگە ئۆزگەرتىش ئىقتىدارىنى قوشۇپ، ئەسلى قۇرۇلمىسىنى ساقلاپ قالىدۇ. ئۇ llama.cpp (CPU/GPU)، Hugging Face Transformers، ExLlamaV2، VLLM ۋە Transformers.js ئارقىلىق توركۆرگۈنىڭ چۈشەنچىسىنى قوللايدۇ. JSON تىپىدا ساقلانغان ئاۋازلىق پروفېيىللار ئارقىلىق ئاۋازنى سىزىش ئىقتىدارى بار.
OuteAI
Apache 2.0
Fast
en
2GB
ھەئە
بوش
TADA
Standard
Hume AI نىڭ TADA (Text-Acoustic Dual Alignment) ى Llama 3.2 نىڭ يېڭىلىق يارىتىش قۇرۇلمىسى ئارقىلىق ھاياجاننى يوقىتىپ قويىدىغان يېڭىلىق يارىتىش TTS مودېلى. 1B (ئىنگلىزچە) ۋە 3B (ئۈچ تىللىق) تىپىدا بار، TADA نىڭ RTF ى LLM نىڭ TTS مودېلىدىن 0.09 - 5x تېزرەك. ئۇ 700 سېكۇنتلۇق ئاۋازلىق مەزمۇننى قوللايدۇ ۋە ھىسىياتلىق سۆزلەشنى 0 ھەل قىلغۇچ بىلەن ئىشلەپچىقارىدۇ.
Hume AI
MIT
Fast
en
5GB
ئۇنداق ئەمەس
2x
VibeVoice
Standard
Microsoft نىڭ VibeVoice نىڭ ئىككى خىل نۇسخىسى بار: ئۇزۇن مەزمۇنغا ئىشلىتىلىدىغان 1.5B نۇسخىسى (90 مىنۇتقىچە، 4 ئاۋازلىق) ۋە ~200ms ئاۋازلىق ۋاقىت كېچىكىشى بىلەن ئېقىپ كېتىدىغان Realtime 0.5B نۇسخىسى. 1.5B نۇسخىسى ئۇزۇن مەزمۇنغا ئىشلىتىلىدىغان podcast ۋە ئاۋازلىق كىتابلارغا ئىشلىتىلىدۇ. ئىزاھ: Microsoft TTS كودىنى ساقلىغۇچتىن چىقىرىۋەتكەن ۋە ئاۋازلىق ھۆججەتلەردە ئاۋازلىق AI نىڭ چەكلىمىلىرى بار.
Microsoft
MIT
Fast
en, zh
4GB
ئۇنداق ئەمەس
2x
Pocket TTS
Free
Pocket TTS Kyutai (Moshi نىڭ ياراتقۇچىسى) تەرىپىدىن ياسالغان 100M پارامېتىرلىق تېكىستتىن سۆزگە ئۆزىنىڭ ئېغىرلىقىدىنمۇ ئېغىر بولغان بىر كونتروللۇق. CPU نىڭ ئىقتىدارىنى ياخشى ئىشلىتىدۇ، بىرلا ئاۋاز نۇسخىسىدىن ئاۋازنى سىزىشنى قوللايدۇ، ۋە تەبىئىي ئاۋازلىق سۆزلەرنى ئىشلەتىدۇ. كىچىك چوڭلۇقى ئۇنى Edge نىڭ يان تەرەپكە ئورۇنلاشتۇرۇلۇشى ۋە ئاز مەنبەلىك مۇھىتلارغا ماس كېلىدۇ.
Kyutai
MIT
Fast
en, fr
1GB
ھەئە
بوش
Kitten TTS
Free
Kitten TTS by KittenML is an ultra-lightweight text-to-speech model built on ONNX. With variants from 15M to 80M parameters (25-80 MB on disk), it delivers high-quality voice synthesis on CPU without requiring a GPU. Features 8 built-in voices, adjustable speech speed, and built-in text preprocessing for numbers, currencies, and units. Ideal for edge deployment and low-latency applications.
KittenML
Apache 2.0
Fast
en
0GB
ئۇنداق ئەمەس
بوش
CosyVoice3
Standard
CosyVoice3 is the latest evolution from Alibaba's FunAudioLLM team. It features bi-streaming inference with ~150ms latency, instruction-based control for emotion/speed/volume, and improved speaker similarity for zero-shot cloning. Supports 9 languages plus 18 Chinese dialects. RL-tuned variant delivers state-of-the-art prosody.
Alibaba (FunAudioLLM)
Apache 2.0
Fast
en, zh, ja, ko, de, es, fr, it, ru
4GB
ھەئە
2x
MOSS-TTS
Premium
MOSS-TTS from OpenMOSS supports generation of up to 1 hour of continuous speech across 20 languages. Features token-level duration control, phoneme-level pronunciation control via IPA/Pinyin, and code-switching between languages. The 8B production model delivers state-of-the-art quality with zero-shot voice cloning from reference audio.
OpenMOSS
Apache 2.0
Medium
en, zh, de, es, fr, ja, it, hu, ko, ru, fa, ar, pl, pt, cs, da, sv, el, tr
16GB
ھەئە
4x
MegaTTS3
Premium
MegaTTS3 from ByteDance uses a novel sparse alignment mechanism combined with a latent diffusion transformer. Features adjustable trade-off between speech intelligibility and speaker similarity for zero-shot voice cloning.
ByteDance
Apache 2.0
Slow
en, zh
8GB
ھەئە
4x
Kokoro
بوش
Kokoro is an 82 million parameter text-to-speech model that punches well above its weight class. Despite its tiny size, it produces remarkably natural and expressive speech. Kokoro supports multiple languages including English, Japanese, Chinese, and Korean with a variety of expressive voices. It runs incredibly fast — generating audio nearly 100x faster than real-time on a GPU.
Hexgrad
Apache 2.0
Fast
Piper
بوش
Piper is a lightweight text-to-speech engine developed by Rhasspy that uses VITS and larynx architectures. It runs entirely on CPU, making it ideal for edge devices, home automation, and applications requiring offline TTS. With over 100 voices across 30+ languages, Piper delivers natural-sounding speech at real-time speeds even on a Raspberry Pi 4.
Rhasspy
MIT
Fast
VITS
بوش
VITS (Variational Inference with adversarial learning for end-to-end Text-to-Speech) is a parallel end-to-end TTS method that generates more natural sounding audio than current two-stage models. It adopts variational inference augmented with normalizing flows and an adversarial training process, achieving a significant improvement in naturalness.
Jaehyeon Kim et al.
MIT
Fast
MeloTTS
بوش
MeloTTS by MyShell.ai is a multilingual TTS library supporting English (American, British, Indian, Australian), Spanish, French, Chinese, Japanese, and Korean. It is extremely fast, processing text at near real-time speed on CPU alone. MeloTTS is designed for production use and supports both CPU and GPU inference.
MyShell.ai
MIT
Fast
OuteTTS
بوش
OuteTTS extends large language models with text-to-speech capabilities while preserving the original architecture. It supports multiple backends including llama.cpp (CPU/GPU), Hugging Face Transformers, ExLlamaV2, VLLM, and even browser inference via Transformers.js. Features zero-shot voice cloning through speaker profiles saved as JSON.
OuteAI
Apache 2.0
Fast
Pocket TTS
بوش
Pocket TTS by Kyutai (creators of Moshi) is a compact 100M parameter text-to-speech model that punches well above its weight. It runs efficiently on CPU, supports zero-shot voice cloning from a single audio sample, and produces natural-sounding speech. The small model size makes it ideal for edge deployment and low-resource environments.
Kyutai
MIT
Fast
Kitten TTS
بوش
Kitten TTS by KittenML is an ultra-lightweight text-to-speech model built on ONNX. With variants from 15M to 80M parameters (25-80 MB on disk), it delivers high-quality voice synthesis on CPU without requiring a GPU. Features 8 built-in voices, adjustable speech speed, and built-in text preprocessing for numbers, currencies, and units. Ideal for edge deployment and low-latency applications.
KittenML
Apache 2.0
Fast
Bark
ئۆلچەملىك
Bark by Suno is a transformer-based text-to-audio model that can generate highly realistic, multilingual speech as well as other audio like music, background noise, and sound effects. It can produce nonverbal communications like laughing, sighing, and crying. Bark supports over 100 speaker presets and 13+ languages.
Suno
MIT
Slow
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
ئۇنداق ئەمەس
Bark Small
ئۆلچەملىك
Bark Small is a distilled version of the Bark model that trades some audio quality for significantly faster inference speeds and lower memory requirements. It retains Bark's ability to generate speech with emotions, laughter, and multiple languages.
Suno
MIT
Medium
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
ئۇنداق ئەمەس
CosyVoice 2
ئۆلچەملىك
CosyVoice 2 by Alibaba's Tongyi Lab achieves human-comparable speech quality with extremely low latency, making it ideal for real-time applications. It uses a finite scalar quantization approach for streaming synthesis and supports zero-shot voice cloning, cross-lingual synthesis, and fine-grained emotion control. It outperforms many commercial TTS systems in subjective evaluations.
Alibaba (Tongyi Lab)
Apache 2.0
Medium
en, zh, ja, ko, fr, de, it, es
ھەئە
Dia TTS
ئۆلچەملىك
Dia by Nari Labs is a 1.6B parameter text-to-speech model designed specifically for generating multi-speaker dialogue. It can produce natural-sounding conversations between two speakers with appropriate turn-taking, prosody, and emotional expression. Dia is perfect for creating podcast-style content, audiobook dialogues, and interactive conversational AI.
Nari Labs
Apache 2.0
Medium
en
ئۇنداق ئەمەس
Parler TTS
ئۆلچەملىك
Parler TTS is a text-to-speech model that uses natural language voice descriptions to control the generated speech. Instead of selecting from preset voices, you describe the voice you want (e.g., "a warm female voice with a slight British accent, speaking slowly and clearly") and Parler generates speech matching that description. This makes it uniquely flexible for creative applications.
Hugging Face
Apache 2.0
Medium
en
ئۇنداق ئەمەس
GLM-TTS
ئۆلچەملىك
GLM-TTS by Zhipu AI is a text-to-speech system built on the Llama architecture with flow matching. It achieves the lowest character error rate among open-source TTS models, meaning it produces the most accurate pronunciation. GLM-TTS supports English and Chinese with voice cloning from 3-10 second audio samples.
Zhipu AI
GLM-4 License
Medium
en, zh
ھەئە
IndexTTS-2
ئۆلچەملىك
IndexTTS-2 is an advanced text-to-speech system that excels at zero-shot voice synthesis with fine-grained emotion control. It can generate speech with specific emotional tones like happy, sad, angry, or fearful without requiring emotion-specific training data. The model uses emotion vectors to precisely control the emotional expression of generated speech.
Index Team
Bilibili Model License
Medium
en, zh
ھەئە
Spark TTS
ئۆلچەملىك
Spark TTS by SparkAudio is a text-to-speech model that combines voice cloning with controllable emotion and speaking style. Using just 5 seconds of reference audio, it can clone a voice and then generate speech with different emotions, speeds, and styles while maintaining the cloned voice identity. Spark TTS uses a prompt-based control system.
SparkAudio
CC BY-NC-SA 4.0
Medium
en, zh
ھەئە
GPT-SoVITS
ئۆلچەملىك
GPT-SoVITS combines GPT-style language modeling with SoVITS (Singing Voice Inference via Translation and Synthesis) for powerful few-shot voice cloning. With as little as 5 seconds of reference audio, it can accurately clone a voice and generate new speech while preserving the speaker's unique characteristics. It excels at both speaking and singing voice synthesis.
RVC-Boss
MIT
Slow
en, zh, ja, ko
ھەئە
Orpheus
ئۆلچەملىك
Orpheus is a large-scale text-to-speech model that achieves human-level emotional expression. Trained on over 100,000 hours of diverse speech data, it excels at generating speech with natural emotions, emphasis, and speaking styles. Orpheus can produce speech that is virtually indistinguishable from human recordings.
Canopy Labs
Llama 3.2 Community
Medium
en
ئۇنداق ئەمەس
Qwen3 TTS
ئۆلچەملىك
Qwen3-TTS is a 1.7 billion parameter text-to-speech model from Alibaba's Qwen team. It supports three modes: preset voices with emotion control (9 speakers), voice cloning from just 3 seconds of audio, and a unique voice design mode where you describe the voice you want in natural language. It covers 10 languages with high expressiveness and natural prosody.
Alibaba (Qwen)
Apache 2.0
Medium
en, zh, ja, ko, de, fr, ru, pt, es, it
ھەئە
Chatterbox Turbo
ئۆلچەملىك
Chatterbox Turbo by Resemble AI is a 350M parameter upgrade to Chatterbox, delivering up to 6x real-time speed with sub-200ms latency. It supports paralinguistic tags like [laugh], [cough], and [chuckle] directly in text. Includes Perth watermarking on all generated audio for provenance tracking.
Resemble AI
MIT
Fast
en
ھەئە
Zonos
ئۆلچەملىك
Zonos v0.1 by Zyphra is a 1.6B parameter model featuring fine-grained emotion control with sliders for happiness, anger, sadness, fear, and surprise. It offers both a Transformer and a novel SSM (state-space model) variant. Trained on 200K+ hours of multilingual speech with zero-shot voice cloning from 10-30 seconds of reference audio.
Zyphra
Apache 2.0
Medium
en, ja, zh, fr, de
ھەئە
Dia 2
ئۆلچەملىك
Dia2 by Nari Labs is a streaming-first upgrade to Dia, available in 1B and 2B parameter variants. It begins synthesizing audio from the first few tokens, making it ideal for real-time voice agents and speech-to-speech pipelines. Supports multi-speaker dialogue with [S1]/[S2] tags and paralinguistic cues like (laughs), (coughs).
Nari Labs
Apache 2.0
Fast
en
ئۇنداق ئەمەس
VoxCPM
ئۆلچەملىك
VoxCPM 1.5 by OpenBMB is a novel tokenizer-free TTS model that operates in continuous space rather than discrete tokens. It produces high-fidelity 44.1kHz audio, supports zero-shot voice cloning from 3-10 seconds, and maintains consistency across paragraphs. Cross-language cloning lets you apply an English voice to Chinese speech and vice versa.
OpenBMB
Apache 2.0
Fast
en, zh
ھەئە
TADA
ئۆلچەملىك
TADA (Text-Acoustic Dual Alignment) by Hume AI is a groundbreaking TTS model that eliminates hallucinations through a novel dual alignment architecture built on Llama 3.2. Available in 1B (English) and 3B (multilingual) variants, TADA achieves an RTF of 0.09 — 5x faster than comparable LLM-based TTS models. It supports up to 700 seconds of audio context and produces emotionally expressive speech with zero hallucinations on standard benchmarks.
Hume AI
MIT
Fast
en
ئۇنداق ئەمەس
VibeVoice
ئۆلچەملىك
VibeVoice from Microsoft generates long-form speech up to 90 minutes with support for 4 simultaneous speakers, making it ideal for podcasts and dialogues. The Realtime 0.5B variant achieves ~300ms latency for interactive use. Supports speaker tags for multi-turn dialogue generation.
Microsoft
MIT
Fast
en, zh
ئۇنداق ئەمەس
CosyVoice3
ئۆلچەملىك
CosyVoice3 is the latest evolution from Alibaba's FunAudioLLM team. It features bi-streaming inference with ~150ms latency, instruction-based control for emotion/speed/volume, and improved speaker similarity for zero-shot cloning. Supports 9 languages plus 18 Chinese dialects. RL-tuned variant delivers state-of-the-art prosody.
Alibaba (FunAudioLLM)
Apache 2.0
Fast
en, zh, ja, ko, de, es, fr, it, ru
ھەئە
مودېل سېلىشتۇرۇش جەدۋىلى
| مودېل | ئىجاد قىلغۇچى: | ھايۋان | سۈپىتى: | تېزلىك | تىللار | ئاۋازنى كۆچۈرۈش پروگراممىسى | VRAM | ئىجازەتنامە: | پۇل | |
|---|---|---|---|---|---|---|---|---|---|---|
| Kokoro | Hexgrad | Free | Fast | 11 | 1.5GB | Apache 2.0 | بوش | ئىشلىتىش | ||
| Piper | Rhasspy | Free | Fast | 31 | 0 (CPU only) | MIT | بوش | ئىشلىتىش | ||
| VITS | Jaehyeon Kim et al. | Free | Fast | 4 | 1GB | MIT | بوش | ئىشلىتىش | ||
| MeloTTS | MyShell.ai | Free | Fast | 6 | 0.5GB (GPU optional) | MIT | بوش | ئىشلىتىش | ||
| Bark | Suno | Standard | Slow | 13 | 5GB | MIT | 2 | ئىشلىتىش | ||
| Bark Small | Suno | Standard | Medium | 13 | 2GB | MIT | 2 | ئىشلىتىش | ||
| CosyVoice 2 | Alibaba (Tongyi Lab) | Standard | Medium | 8 | 4GB | Apache 2.0 | 2 | ئىشلىتىش | ||
| Dia TTS | Nari Labs | Standard | Medium | 1 | 4GB | Apache 2.0 | 2 | ئىشلىتىش | ||
| Parler TTS | Hugging Face | Standard | Medium | 1 | 4GB | Apache 2.0 | 2 | ئىشلىتىش | ||
| GLM-TTS | Zhipu AI | Standard | Medium | 2 | 4GB | GLM-4 License | 2 | ئىشلىتىش | ||
| IndexTTS-2 | Index Team | Standard | Medium | 2 | 4GB | Bilibili Model License | 2 | ئىشلىتىش | ||
| Spark TTS | SparkAudio | Standard | Medium | 2 | 4GB | CC BY-NC-SA 4.0 | 2 | ئىشلىتىش | ||
| GPT-SoVITS | RVC-Boss | Standard | Slow | 4 | 6GB | MIT | 2 | ئىشلىتىش | ||
| Orpheus | Canopy Labs | Standard | Medium | 1 | 4GB | Llama 3.2 Community | 2 | ئىشلىتىش | ||
| Chatterbox | Resemble AI | Premium | Medium | 1 | 4GB | MIT | 4 | ئىشلىتىش | ||
| Tortoise TTS | James Betker | Premium | Slow | 1 | 8GB | Apache 2.0 | 4 | ئىشلىتىش | ||
| StyleTTS 2 | Columbia University | Premium | Medium | 1 | 4GB | MIT | 4 | ئىشلىتىش | ||
| OpenVoice | MyShell.ai / MIT | Premium | Medium | 8 | 4GB | MIT | 4 | ئىشلىتىش | ||
| Qwen3 TTS | Alibaba (Qwen) | Standard | Medium | 10 | 7GB | Apache 2.0 | 2 | ئىشلىتىش | ||
| Sesame CSM | Sesame | Premium | Slow | 1 | 8GB | Apache 2.0 | 4 | ئىشلىتىش | ||
| Chatterbox Turbo | Resemble AI | Standard | Fast | 1 | 2GB | MIT | 2 | ئىشلىتىش | ||
| Zonos | Zyphra | Standard | Medium | 5 | 6GB | Apache 2.0 | 2 | ئىشلىتىش | ||
| Dia 2 | Nari Labs | Standard | Fast | 1 | 4GB | Apache 2.0 | 2 | ئىشلىتىش | ||
| VoxCPM | OpenBMB | Standard | Fast | 2 | 4GB | Apache 2.0 | 2 | ئىشلىتىش | ||
| OuteTTS | OuteAI | Free | Fast | 1 | 2GB | Apache 2.0 | بوش | ئىشلىتىش | ||
| TADA | Hume AI | Standard | Fast | 1 | 5GB | MIT | 2 | ئىشلىتىش | ||
| VibeVoice | Microsoft | Standard | Fast | 2 | 4GB | MIT | 2 | ئىشلىتىش | ||
| Pocket TTS | Kyutai | Free | Fast | 2 | 1GB | MIT | بوش | ئىشلىتىش | ||
| Kitten TTS | KittenML | Free | Fast | 1 | 0GB | Apache 2.0 | بوش | ئىشلىتىش | ||
| CosyVoice3 | Alibaba (FunAudioLLM) | Standard | Fast | 9 | 4GB | Apache 2.0 | 2 | ئىشلىتىش | ||
| MOSS-TTS | OpenMOSS | Premium | Medium | 19 | 16GB | Apache 2.0 | 4 | ئىشلىتىش | ||
| MegaTTS3 | ByteDance | Premium | Slow | 2 | 8GB | Apache 2.0 | 4 | ئىشلىتىش |
ئەڭ كەڭ كۆلەملىك AI تېكىستتىن سۆزگە ئۆزگەرتىش پروگراممىسى
تېكىستتىن سۆزگە ئۆزگەرتىش ئۈچۈن نېمە ئۈچۈن TTS.ai نى تاللاش كېرەك؟
TTS.ai دۇنيانى بىرلەشتۈرىدۇ
ھەر بىر مودېل MIT، Apache 2.0 ياكى شۇنىڭغا ئوخشاش ئىجازەت بېرىش ئىجازىتى بويىچە ئوچۇق مەنبەلىك بولۇپ، سىزنىڭ قۇرۇلۇشىڭىزدا ياسالغان ئاۋازنى ئىشلىتىش ئۈچۈن پۈتۈن تىجارىي ھوقۇقىڭىز بارلىقىنى كاپالەتكە ئىگە قىلىدۇ. سىز ھەقىقىي ۋاقىتتىكى پروگراممىلار ئۈچۈن تېز، يېنىك بىرلەشتۈرگۈچ ياكى ئاۋازلىق كىتابلار ۋە پودكاستلار ئۈچۈن يۇقىرى سۈپەتلىك بىرلەشتۈرگۈچكە ئېھتىياجلىق بولسىڭىزمۇ، TTS.ai ھەر قانداق ئىشلىتىش ئەھۋالى ئۈچۈن توغرا بىرلەشتۈرگۈچكە ئىگە.
ھەقسىز مودىللار، ھېسابات تەلەپ قىلىنمايدۇ
تۆۋەندىكى ئۈچ ھەقسىز TTS مودېلىنى ئىشلىتىشكە باشلايسىز: Piper (ئۇلار ئىنتايىن تېز، يېنىك)، VITS (ئۈچۈن يۇقىرى سۈپەتلىك نېرۋا بىرىكتۈرگۈچ) ۋە MeloTTS (ئۈچ خىل تىلنى قوللايدۇ). ھېچقانداق تىزىملاش، ھېچقانداق كرېدىت كارتىسى، ھېچقانداق چەكلىمىلەر يوق. ھەقسىز TTS مودېلى ئىنگىلىزچە ۋە باشقا نۇرغۇن تىللارنى قوللايدۇ، نۇرغۇن پروگراممىلارغا لايىق بولغان تەبىئىي ئاۋازلىق چىقىرىشقا ئىگە.
GPU تېزلىتىپ ئىشلەتكۈچىسى
TTS نىڭ ھەممىسى NVIDIA نىڭ GPU لىرىدا ئىشلەيدۇ، شۇڭا تېز ۋە مۇۋاپىق ئۈن چىقىرىدۇ. ھەقسىز TTS نىڭ ئۈن چىقىرىش ۋاقتى ئادەتتە 2 سېكۇنتتىن ئاز بولىدۇ. Kokoro، CosyVoice 2 ۋە Bark نىڭ ئۈن چىقىرىش ۋاقتى ئوتتۇرىچە 3-5 سېكۇنت بولىدۇ. Tortoise ۋە Chatterbox نىڭ ئۈن چىقىرىش ۋاقتى تېكىست ئۇزۇنلۇقىغا قاراپ 5-15 سېكۇنت بولىدۇ.
30 دىن ئارتۇق تىلنى قوللايدۇ
ئىنگىلىزچە، ئىسپانچە، فرانسۇزچە، گېرمانچە، ئىتالىيەچە، پورتۇگالچە، خەنزۇچە، ياپونچە، كورىيەچە، ئەرەبچە، ھىندىچە، رۇسچە ۋە باشقا 30 دىن ئارتۇق تىلدا سۆزلەرنى ياساش پروگراممىسى. نۇرغۇن پروگراممىلار تىللار ئارىسىدىكى بىرلەشتۈرۈش ئىقتىدارىنى قوللايدۇ، بۇ دېگەنلىك تىللار ئارىسىدىكى بىرلەشتۈرۈش ئىقتىدارىغا ئىگە پروگراممىلارنى ياساش پروگراممىسى. CosyVoice 2 ۋە GPT-SoVITS تىللار ئارىسىدىكى سۆزلەرنى ياساش پروگراممىسى.
ئىجادىيەتچىلەرگە لايىق API
TTS.ai نى OpenAI بىلەن ماس كېلىدىغان REST API ئارقىلىق پروگراممىلىرىڭىزغا بىرلەشتۈرىڭ. 20+ تىپتىكى بارلىق پروگراممىلار ئۈچۈن بىرلا ئاخىرلاشتۇرۇش نۇقتىسى. Python، JavaScript، cURL ۋە Go SDK. رېئال ۋاقىتتىكى پروگراممىلارنى يەتكۈزۈش قوللىشى. چوڭ مىقداردىكى مەزمۇنلارنى ياساش ئۈچۈن توپلاش. ئاسىنك خەۋەرلىشىش ئۈچۈن Webhooks. Pro ۋە Enterprise پىلانلىرىدا بار.
كۆپ سورالغان سوئاللار
What could we improve? Your feedback helps us fix issues.
تېكىستنى سۆزگە ئايلاندۇرۇشنى ھازىرلا باشلاش
TTS.ai نى ئىشلىتىپ مىڭلىغان ياراتقۇچىلارغا قوشۇلۇڭ. يېڭى ھېسابات بىلەن 15000 ھەقسىز ھەرپنى ئالىڭ. ھەقسىز نۇسخىنى قوشۇلمىغان ھالەتتە ئىشلىتىڭ.