AI تېكىستتىن سۆزگە

ئېچىۋېتىلگەن مەنبەلىك AI نىڭ ياردىمىدە تېكىستنى تەبىئىي ئاۋازلىق سۆزلەشكە ئايلاندۇرۇش پروگراممىسى. ھەقسىز ئىشلىتىشكە بولىدۇ، ھېسابات كېرەك ئەمەس.

ھەقسىز قوشۇلۇڭ

بىز ئاۋازىڭىزنى سېتىش

0/500 ھەرپلەر

قوشۇل 5000 ھەرپ چەكلىمىسى

SSML ھالىتى (ئېنىق باشقۇرۇش ئۈچۈن سۆز بىرىكتۈرگۈچ ماركالاش تىلى)

توغرا كونترول قىلىش ئۈچۈن تېكىستنى SSML تېگلىرى ئىچىگە ئايلاندۇرۇش:

<speak><prosody rate="slow">Slow speech</prosody></speak>

ھېسسىيات / ئۇسلۇب تېگلىرى

يەتكۈزۈشكە تەسىر كۆرسىتىدىغان كەيپىيات بەلگىلىرىنى قوشۇش (مۇلازىمەتنىڭ قوللايدىغان نۇسخىسى ئوخشىمايدۇ):

ئاۋازلاش لۇغىتى

خالىغان ئىپادىلەشنى بەلگىلەش (سۆز = ئىپادىلەش):

ئۈنلۈكلۈك 0

-12 +12

AI مودېلى

ئاۋاز

تىل

چىقىرىش پىچىمى

تېزلىك 1.0x

0.5x 2.0x

Piper، VITS، MeloTTS بىلەن ھەقسىز

سىز ياسىغان ئاۋاز بۇ يەردە كۆرۈنىدۇ. بىر تۈرنى تاللاپ، تېكىستنى كىرگۈزۈپ، ياسىغىن نى چېكىڭ.

مودېل ئۇچۇرلىرى

Spark TTS

Standard

Spark TTS by SparkAudio is a text-to-speech model that combines voice cloning with controllable emotion and speaking style. Using just 5 seconds of reference audio, it can clone a voice and then generate speech with different emotions, speeds, and styles while maintaining the cloned voice identity. Spark TTS uses a prompt-based control system.

ئىجاد قىلغۇچى:	SparkAudio
ئىجازەتنامە:	CC BY-NC-SA 4.0
تېزلىك	Medium
سۈپىتى:
تىللار	2 تىللار
VRAM	4GB
ئاۋازنى كۆچۈرۈش پروگراممىسى	قوللىنىلىدۇ

خاسلىقلار:

Voice cloning Emotion control Style control Prompt-based 5-second cloning

ئەڭ ياخشىسى:: Content creation with cloned voices and emotional control

ياخشى نەتىجىلەر ئۈچۈن تەۋسىيەلەر

تەبىئىي توقۇنۇش ۋە ئىپادىلەش ئۈچۈن توغرا يازما بەلگىلەرنى ئىشلىتىش
سانلارنى ۋە قىسقارتمىلارنى ئېنىق ئوقۇش ئۈچۈن ئىملا قىلىش پروگراممىسى
سۆزلەر ئارىسىدا قىسقا توقۇنۇشلارنى پەيدا قىلىش ئۈچۈن ۋاراقلارنى قوشۇش پروگراممىسى
ئۇزۇن مەزگىللىك توقۇنۇش ئۈچۈن (...) نى ئىشلىتىڭ
ئەڭ تەبىئىي ئاۋاز ئۈچۈن Kokoro ياكى CosyVoice 2 نى سىناپ بېقىڭ
كۆپ ئاڭلىغۇچىلىق مۇنازىرە ۋە podcast مەزمۇنلىرى ئۈچۈن Dia نى ئىشلىتىش

قەرز ھەققى

ھايۋان	ھەر بىر 1K ھەرپنىڭ باھاسى
بوش	0 كرېدىت (چەكلىمىسىز)
ئۆلچەملىك	2 نومۇر / 1K ھەرپ
ئالىي دەرىجىلىك	4 نومۇر / 1K ھەرپ

تېخىمۇ كۆپ پۇل ئېلىش

AI تېكىستتىن سۆزگە قانداق ئىشلەيدۇ

ئۈچ ئاددىي باسقۇچتا كەسپىي سۈپەتلىك ئاۋاز قوزغىتىش پروگراممىسى. تېخنىكىلىق بىلىملەر كېرەك ئەمەس.

قەدەم 1

تېكىستنى كىرگۈزۈڭ

سۆزلەشكە ئايلاندۇرۇشنى خالايدىغان تېكىستنى كىرگۈزۈش، يېزىپ قويۇش ياكى يۈكلەش. كىرگەن ئىشلەتكۈچىلەر بىر قېتىمدا 5000 ھەرپنى قوللايدۇ. تېكىستنى ئىشلىتىش ياكى SSML تېگلىرىنى قوشۇش ئارقىلىق سۆزلەش، توختىتىش ۋە ئېنىقلاشنى باشقۇرغىلى بولىدۇ.

قەدەم 2

مودېل ۋە ئاۋازنى تاللا

20+ AI نىڭ ئۈچ دەرىجىدىن ئارتۇق نۇسخىسىنى تاللاڭ. مەزمۇنىڭىزغا ماس كېلىدىغان ئاۋازنى تاللاڭ، مەقسەت قىلغان تىلنى تاللاڭ، قويغۇچنىڭ تېزلىكىنى 0.5x دىن 2.0x گە تەڭشەپ، خالىغان چىقىرىش پىچىمىنى (MP3، WAV، OGG ياكى FLAC) تاللاڭ.

قەدەم 3

ھاسىل قىلىش ۋە چۈشۈرۈش

ياساش نى چېكىپ ئاۋازىڭىز بىر نەچچە سېكۇنت ئىچىدە تەييار بولىدۇ. ئىچىدىكى قويغۇ بىلەن ئالدىن كۆرۈش، تاللىغان پىچىم بويىچە چۈشۈرۈش ياكى ھەمبەھىرلەشكە بولىدىغان تور بېتىدىن كۆچۈرۈش. بۇ API نى كۆپ قېتىملىق ئىشلەش ۋە ئىشلەش جەريانىڭىزغا بىرلەشتۈرۈش ئۈچۈن ئىشلىتىڭ.

تېكىستتىن سۆزگە ئۆزگەرتىش

ئەقلىي ئىدراك كۈچىگە ئىگە تېكستتىن سۆزگە ئۆزگىرىش كىشىلەرنىڭ نۇرغۇن سانائەت ساھەلىرىدە ئاۋازلىق مەزمۇنلارنى يارىتىش، ئىشلىتىش ۋە ئالاقە قىلىش ئۇسۇلىنى ئۆزگەرتىدۇ.

ئاۋازلىق كىتابلار

كىتابلارنى تولۇق ئاۋازلىق كىتابقا ئايلاندۇرۇش پروگراممىسى، ستۇدىيودىكىدەك ئاۋازلىق سۆزلەش ئىقتىدارىغا ئىگە. خاراكتېر دىئالوگى ئۈچۈن Dia نىڭ كۆپ ئاۋازلىق قوللىشى بار.

سىن سۆزلىگۈچ

YouTube، TikTok، Instagram Reels ۋە Shorts ئۈچۈن كەسپىي ئاۋاز قوشۇش پروگراممىسى. 100 دىن ئارتۇق ئاۋاز ياكى ئۆز ئاۋازىڭىزنى قوشۇش پروگراممىسى.

پودكاست

نۇرغۇن AI ئاۋازلىرى بىلەن يازما ھۆججەتلەردىن podcast قىسىملىرىنى قۇرۇش پروگراممىسى. Dia نى ئىككى ئاۋازلىق تېلېفون سۆزلىشىش ئۈچۈن ئىشلىتىڭ.

ئويۇن

ئىجتىمائىي ئويۇنلار، كۆرۈنۈشلۈك رومانلار ۋە ئۆزئارا تەسىر قىلىدىغان رومانلار ئۈچۈن AI ئاۋاز ئىشلەتكۈچىسى. NPC دىئالوگى، كۆرۈنۈش ئاۋازلىرى، 30 دىن ئارتۇق تىل.

ئېلېكترونلۇق ئۆگىنىش

دەرسلىك ماتېرىياللىرىنى، دەرسلەرنى ۋە تەربىيەلەش مەزمۇنلىرىنى ئاۋازغا ئايلاندۇرۇش پروگراممىسى. كۆپ تىللارنى قوللايدۇ.

قولايلىق

تور بېكەتلەرنى، پۈتۈكلەرنى ۋە پروگراممىلارنى قولايلاشتۇرۇش پروگراممىسى. ئېكران ئوقۇغۇچ API بىرلەشتۈرۈش ۋە ماقالىنى ئاۋازغا ئايلاندۇرۇش پروگراممىسى

IVR ۋە تېلېفون سىستېمىسى

IVR سىستېمىسى، تېلېفون تىزىملىكى ۋە خېرىدارلار مۇلازىمەتلىرىنى تەبىئىي AI ئاۋازلىرى بىلەن كۈچەيتىش. تېلېفون مەركىزلىرى ئۈچۈن تۆۋەن ۋاقىتلىق ئېقىم.

ئىجتىمائىي تاراتقۇلار

TikTok بايانلىرى، Instagram Reels، Twitter/X ئىنكاسلىرى، YouTube قىسقا فىلىملىرى. ھەقسىز مودېللار بىلەن تېز ياساش.

تارقىتىش

Twitch TTS ئاگاھلاندۇرۇش، سۆزلىشىش-ئاۋازغا، AI ھەمبەھىرلىگۈچ ۋە Discord بوتلىرى. تۆۋەن كېچىكتۈرگۈچ، 100 دىن ئارتۇق ئاۋاز، StreamElements بىلەن ماسلىشىدۇ.

بازارلاش

ئېلان سۆزلەش، چۈشەندۈرۈش سىنلىرى، مەھسۇلات كۆرسەتمىسى ۋە سېتىش كۆرسەتمىسى. ئاۋازلىق مەزمۇنلارنى ھەر خىل پائالىيەتلەردە ئىشلىتىشكە بولىدۇ.

ئاۋاز قوشۇش ۋە جايلاشتۇرۇش

ئاۋازغا ماس كېلىدىغان AI بىلەن سىنلارنى 30 دىن ئارتۇق تىلغا تەرجىمە قىلىش ۋە ئاۋازلاشتۇرۇش پروگراممىسى. ئاپتوماتىك تەرجىمە قىلىش ۋە سۆزلىگۈچىنى بايقاش.

دىققەت قىلىش ۋە ساغلاملىق

مەشھۇر يازغۇچىلار، شائىرلار، مۇزىكانتلار، ناخشىچىلار، سەنئەتكارلار، مۇزىكا تەتقىقاتچىلىرى، مۇزىكا تەتقىقاتچىلىرى، مۇزىكا تەتقىقاتچىلىرى، مۇزىكا تەتقىقاتچىلىرى، مۇزىكا تەتقىقاتچىلىرى، مۇزىكا تەتقىقاتچىلىرى.

پۈتۈن ئىشلىتىش ئەھۋالى ۋە قوراللارنى كۆرۈش

بارلىق تېكىستتىن سۆزگە ئۆزگەرتىش مودېللىرى

TTS.ai دىكى ھەر بىر AI مودېلىنىڭ تەپسىلىي خاسلىقلىرى. سىزنىڭ قۇرۇلۇشىڭىز ئۈچۈن ئەڭ مۇۋاپىق بولغان مودېلنى تېپىش ئۈچۈن سۈپەت، تېزلىك، تىل قوللىشى ۋە ئىقتىدارلارنى سېلىشتۇرۇڭ.

Kokoro

Free

Kokoro 82 مىليون پارامېتىرلىق تېكىستتىن سۆزگە ئۆز دەرىجىسىدىن يۇقىرى ئۈنۈم بېرىدىغان پروگرامما. ئۇزۇنلۇقى كىچىك بولسىمۇ، ئەمما ئىنتايىن تەبىئىي ۋە ئىپادىلەشچان سۆزلەرنى ئىشلەپ چىقىرىدۇ. Kokoro ئىنگىلىزچە، ياپونچە، خەنزۇچە ۋە كورېيچە قاتارلىق نۇرغۇن تىللارنى قوللايدۇ ھەمدە ھەر خىل ئىپادىلەشچان ئاۋازلارنى قوللايدۇ. ئۇ ئىنتايىن تېز ئىشلەيدۇ - GPU دىكى ھەقىقىي ۋاقىتتىكىدىن 100 ھەسسە تېز ئاۋازلارنى ئىشلەپ چىقىرىدۇ.

ئىجاد قىلغۇچى::
Hexgrad

ئىجازەتنامە::
Apache 2.0

تېزلىك:
Fast

سۈپىتى::

تىللار:
en, ja, zh, ko, fr, de, it, pt, es, hi, ru

VRAM:
1.5GB

ئاۋازنى كۆچۈرۈش پروگراممىسى:
ئۇنداق ئەمەس

ھەر بىر 1K ھەرپنىڭ باھاسى:
بوش

82M پارامېتىرلار ئىنتايىن تېز ئىپادىلەش ئاۋازلىرى كۆپ تىللىق ئېقىم قوللايدىغان پروگرامما

ئەڭ ياخشىسى:: يۇقىرى سۈپەتلىك TTS، ئەڭ ئاز كېچىكتۈرگۈچ، سۈرەتكە ئېلىش پروگراممىسى

سىناش Kokoro

Piper

Free

Piper Rhasspy تەرىپىدىن ياسالغان VITS ۋە larynx قۇرۇلمىسىنى ئىشلىتىدىغان يېنىك تېكىستتىن سۆزگە ئۆزگەرتكۈچ پروگرامما. ئۇ پۈتۈنلەي CPU نىڭ ئۈستىدە ئىشلەيدۇ، شۇڭا Edge ئۈسكۈنىلىرى، ئۆي ئاپتوماتىك سىستېمىسى ۋە توردىن سىرت TTS تەلەپ قىلىدىغان پروگراممىلارغا ماس كېلىدۇ. Piper 30 دىن ئارتۇق تىلدىكى 100 دىن ئارتۇق ئاۋاز بىلەن تەمىنلەيدۇ، Raspberry Pi 4 نىڭ ئۆزىدىمۇ تېز سۈرئەتتە تەبىئىي ئاۋازلىق سۆزلەشنى تەمىنلەيدۇ.

ئىجاد قىلغۇچى::
Rhasspy

ئىجازەتنامە::
MIT

تېزلىك:
Fast

سۈپىتى::

تىللار:
en, de, fr, es, it, pt, nl, pl, ru, zh, ja, ko, ar, cs, da, fi, el, hu, is, ka, kk, ne, no, ro, sk, sr, sv, sw, tr, uk, vi

VRAM:
0 (CPU only)

ئاۋازنى كۆچۈرۈش پروگراممىسى:
ئۇنداق ئەمەس

ھەر بىر 1K ھەرپنىڭ باھاسى:
بوش

CPU گە مۇۋاپىق توردىن يىراقلاشقان ھالەتتە ئىشلەيدۇ 100+ ئاۋاز 30 دىن ئارتۇق تىل SSML قوللاش

ئەڭ ياخشىسى:: تېز ئالدىن كۆزىتىش، قولايلىق ۋە كىرگۈزۈلگەن پروگرامما

سىناش Piper

VITS

Free

VITS (ئاخىردىن ئاخىرغىچە تېكىستتىن سۆزگە ئۆزگىرىشچان ئىزاھلاش) ھازىرقى ئىككى باسقۇچلۇق مودېلغا قارىغاندا تېخىمۇ تەبىئىي ئاۋازنى پەيدا قىلىدىغان تەڭشەكلىك ئاخىردىن ئاخىرغىچە TTS ئۇسۇلىدۇر. ئۇ ئۆزگىرىشچان ئىزاھلاشنى نورماللاشتۇرۇش ئېقىمى ۋە ئۆزگىرىشچان تەربىيەلەش جەريانى بىلەن كۈچەيتىپ، تەبىئىيلىكنى زور دەرىجىدە ئاشۇرىدۇ.

ئىجاد قىلغۇچى::
Jaehyeon Kim et al.

ئىجازەتنامە::
MIT

تېزلىك:
Fast

سۈپىتى::

تىللار:
en, zh, ja, ko

VRAM:
1GB

ئاۋازنى كۆچۈرۈش پروگراممىسى:
ئۇنداق ئەمەس

ھەر بىر 1K ھەرپنىڭ باھاسى:
بوش

ئاخىرىدىن ئاخىرىغىچە بىرلەشتۈرۈش تەبىئىي سۆز ئۇسلۇبى تېز ئىزاھلاش بىر قانچە ئاڭلىغۇچى

ئەڭ ياخشىسى:: ئاددىي مەقسەتتىكى تېكىستتىن سۆزگە ئۆزگىرىش پروگراممىسى

سىناش VITS

MeloTTS

Free

MyShell.ai تەرىپىدىن ياسالغان MeloTTS ئىنگىلىزچە (ئامېرىكىلىق، بىرىتانىيەلىك، ھىندى، ئاۋسترالىيەلىك)، ئىسپانچە، فرانسۇزچە، خەنزۇچە، ياپونچە ۋە كورىيەچە تىللارنى قوللايدىغان كۆپ تىللىق TTS كىتابخانىسىدۇر. ئۇ ئىنتايىن تېز، پەقەت CPU نىڭ كۈچى بىلەن تېكىستنى رېئال ۋاقىتتىكى سۈرئەتتە ئىشلىتەلەيدۇ. MeloTTS ئىشلەپچىقىرىش ئۈچۈن ياسالغان بولۇپ CPU ۋە GPU نىڭ ھەممىسىنى قوللايدۇ.

ئىجاد قىلغۇچى::
MyShell.ai

ئىجازەتنامە::
MIT

تېزلىك:
Fast

سۈپىتى::

تىللار:
en, es, fr, zh, ja, ko

VRAM:
0.5GB (GPU optional)

ئاۋازنى كۆچۈرۈش پروگراممىسى:
ئۇنداق ئەمەس

ھەر بىر 1K ھەرپنىڭ باھاسى:
بوش

CPU ياخشىلانغان كۆپ تىللىق نۇرغۇن ئاكسىنلار ئىشلەشكە تەييار تۆۋەن كېچىكىش

ئەڭ ياخشىسى:: تېز، كۆپ تىللىق TTS تەلەپ قىلىدىغان ئىشلەپچىقىرىش پروگراممىسى

سىناش MeloTTS

Bark

Standard

Suno تەرىپىدىن ياسالغان Bark تېكىستتىن ئاۋازغا ئۆزگەرتكۈچ بولۇپ، كۆپ تىللىق سۆزلەش ۋە مۇزىكا، ئارقا كۆرۈنۈش ئاۋازلىرى ۋە ئاۋاز ئۈنۈمى قاتارلىق باشقا ئاۋازلارنى ھاسىل قىلىشقا ياردەم بېرىدۇ. Bark 100 دىن ئارتۇق ئاۋازلىغۇچ ۋە 13 دىن ئارتۇق تىلنى قوللايدۇ.

ئىجاد قىلغۇچى::
Suno

ئىجازەتنامە::
MIT

تېزلىك:
Slow

سۈپىتى::

تىللار:
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr

VRAM:
5GB

ئاۋازنى كۆچۈرۈش پروگراممىسى:
ئۇنداق ئەمەس

ھەر بىر 1K ھەرپنىڭ باھاسى:
2x

ئاۋاز تەسىرلىرى كۈلۈش/ئاڭلاش مۇزىكا ياساش پروگراممىسى 100+ ئاڭلىغۇچى كۆپ تىللىق

ئەڭ ياخشىسى:: يارقىن ئاۋازلىق مەزمۇنلار، ھېسسىيات بىلەن ئاۋازلىق كىتابلار، ئاۋاز ئۈنۈملىرى

سىناش Bark

Bark Small

Standard

Bark Small Bark مودېلىنىڭ بىر قىسىم ئاۋاز سۈپىتىنى تېخىمۇ تېز ئىزاھلاش سۈرئىتى ۋە ئېسىدە ساقلاش ئېھتىياجىنى تۆۋەنلىتىش ئۈچۈن ئۆزگەرتكەن نۇسخىسىدۇر. Bark نىڭ ھېسسىيات، خۇشاللىق ۋە كۆپ تىللىق سۆزلەش ئىقتىدارىنى ساقلاپ قالىدۇ.

ئىجاد قىلغۇچى::
Suno

ئىجازەتنامە::
MIT

تېزلىك:
Medium

سۈپىتى::

تىللار:
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr

VRAM:
2GB

ئاۋازنى كۆچۈرۈش پروگراممىسى:
ئۇنداق ئەمەس

ھەر بىر 1K ھەرپنىڭ باھاسى:
2x

يېنىك پۈتۈن قورساقتىن تېز ھېسسىياتلىق سۆز كۆپ تىللىق

ئەڭ ياخشىسى:: تولۇق Bark بەك ئاستا بولغاندا تېز ياساشلىق ئاۋاز

سىناش Bark Small

CosyVoice 2

Standard

Alibaba نىڭ Tongyi Lab تەرىپىدىن ياسالغان CosyVoice 2 ئادەم بىلەن سېلىشتۇرغىلى بولىدىغان سۆز سۈپىتىگە ئىگە بولۇپ، ئىنتايىن تۆۋەن كېچىكتۈرگۈچكە ئىگە، بۇ ئۇنى رېئال ۋاقىتتىكى پروگراممىلار ئۈچۈن ئەڭ مۇۋاپىق قىلىدۇ. ئۇ سۈرەتكە ئېلىش ئۈچۈن چەكلىك كۆلەملىك كۋانتلاش ئۇسۇلىنى قوللايدۇ ھەمدە ئاۋازنى زاۋۇتلاشنى قوللايدۇ، تىللار ئارىسىدىكى سېلىشتۇرۇشنى قوللايدۇ، ھەمدە ئىنچىكە ھېسسىيات كونترول قىلىشنى قوللايدۇ. ئۇ نۇرغۇن سودا TTS سىستېمىلىرىغا قارىغاندا ئۈنۈملۈكرەك.

ئىجاد قىلغۇچى::
Alibaba (Tongyi Lab)

ئىجازەتنامە::
Apache 2.0

تېزلىك:
Medium

سۈپىتى::

تىللار:
en, zh, ja, ko, fr, de, it, es

VRAM:
4GB

ئاۋازنى كۆچۈرۈش پروگراممىسى:
ھەئە

ھەر بىر 1K ھەرپنىڭ باھاسى:
2x

تارقىتىش Zero-shot كلونلاش كۆپ تىللىق كەيپىياتنى كونترول قىلىش ئىنسان تەڭپۇڭلۇقى

ئەڭ ياخشىسى:: رېئال ۋاقىت پروگراممىسى، TTS سۈرئىتى، ئاۋاز ياردەمچىسى

سىناش CosyVoice 2

Dia TTS

Standard

Nari Labs تەرىپىدىن ياسالغان Dia 1.6B پارامېتىرلىق تېكىستتىن سۆزگە ئايلاندۇرۇش مودېلى بولۇپ، كۆپ ئاڭلىغۇچىلىق مۇنازىرە ھاسىل قىلىش ئۈچۈن ياسالغان. ئۇ ئىككى ئاڭلىغۇچىنىڭ مۇۋاپىق نۆۋەتلىشىش، سۆزلىشىش ئۇسۇلى ۋە ھېسسىيات ئىپادىلەش ئارقىلىق تەبىئىي ئاۋازلىق مۇنازىرە ھاسىل قىلىشىغا ياردەم بېرىدۇ. Dia podcast-style مەزمۇنلارنى، ئاۋازلىق كىتاب مۇنازىرىلىرىنى ۋە ئۆزئارا تەسىرلەندۈرگۈچ مۇنازىرە AI نى ھاسىل قىلىشقا ماس كېلىدۇ.

ئىجاد قىلغۇچى::
Nari Labs

ئىجازەتنامە::
Apache 2.0

تېزلىك:
Medium

سۈپىتى::

تىللار:
en

VRAM:
4GB

ئاۋازنى كۆچۈرۈش پروگراممىسى:
ئۇنداق ئەمەس

ھەر بىر 1K ھەرپنىڭ باھاسى:
2x

كۆپ ئاۋازلىق دىئالوگلارنى ھاسىل قىلىش تەبىئىي تاللاش ھېسسىيات ئىپادىلەش پارامېتىرلار

ئەڭ ياخشىسى:: پودكاستى، ئاۋازلىق كىتاب دىئالوگى، سۆھبەت مەزمۇنى

سىناش Dia TTS

Parler TTS

Standard

Parler TTS تېكىستتىن سۆزگە ئۆزگەرتكۈچ(text-to-speech model) بولۇپ، ياسالغان سۆزنى كونترول قىلىش ئۈچۈن تەبىئىي تىلدىكى ئاۋاز چۈشەندۈرۈشلىرىنى ئىشلىتىدۇ. ئالدىن بەلگىلەنگەن ئاۋازلارنى تاللاشنىڭ ئورنىغا، سىز خالىغان ئاۋازنى چۈشەندۈرەلەيسىز(مەسىلەن، "بىر قىزنىڭ ئاۋازى، ئازراق ئىنگلىزچە ئاۋاز، ئاستا ۋە ئېنىق سۆزلەيدۇ")، Parler بۇ چۈشەندۈرۈشكە ماس كېلىدىغان سۆزنى ياسايدۇ. بۇ ئۇنى يارىتىش پروگراممىلىرى ئۈچۈن ئالاھىدە چىداملىق قىلىدۇ.

ئىجاد قىلغۇچى::
Hugging Face

ئىجازەتنامە::
Apache 2.0

تېزلىك:
Medium

سۈپىتى::

تىللار:
en

VRAM:
4GB

ئاۋازنى كۆچۈرۈش پروگراممىسى:
ئۇنداق ئەمەس

ھەر بىر 1K ھەرپنىڭ باھاسى:
2x

ئاۋاز چۈشەندۈرۈشى تەبىئىي تىلنى باشقۇرۇش قولايلىق ئاۋاز قۇرۇش پروگراممىسى ئالدىن تەڭشەلگەن ئاۋازلار كېرەك ئەمەس

ئەڭ ياخشىسى:: ئۆزگىچە ئاۋاز خاسلىقىغا ئېھتىياجلىق ياساش پروگراممىسى

سىناش Parler TTS

GLM-TTS

Standard

Zhipu AI نىڭ GLM-TTS سىزىقچە-ئۆزئارا ماسلىشىش ئىقتىدارى بار Llama قۇرۇلمىسى ئاساسىدا ياسالغان تېكىستتىن سۆزگە ئۆزگەرتىش سىستېمىسىدۇر. بۇ سىستېما ئوچۇق مەنبەلىك TTS نىڭ ئەڭ تۆۋەن خاتالىق نىسبىتىگە ئېرىشىدۇ، بۇ ئەڭ توغرا سۆزلەشنى ئېلىپ كېلىدۇ. GLM-TTS 3-10 سېكۇنتلۇق ئاۋاز نۇسخىسىدىن ئاۋازنى клонلاش ئارقىلىق ئىنگىلىزچە ۋە خەنزۇچە سۆزلەرنى قوللايدۇ.

ئىجاد قىلغۇچى::
Zhipu AI

ئىجازەتنامە::
GLM-4 License

تېزلىك:
Medium

سۈپىتى::

تىللار:
en, zh

VRAM:
4GB

ئاۋازنى كۆچۈرۈش پروگراممىسى:
ھەئە

ھەر بىر 1K ھەرپنىڭ باھاسى:
2x

ئەڭ تۆۋەن خاتالىق نىسبىتى ئاۋازنى كۆچۈرۈش ئېقىمغا ماسلاشتۇرۇش تەبىئىي سۆز ئۇسلۇبى

ئەڭ ياخشىسى:: ئەڭ يۇقىرى ئېيتىلىش توغرىلىقىنى تەلەپ قىلىدىغان پروگرامما

سىناش GLM-TTS

IndexTTS-2

Standard

IndexTTS-2 يۇقىرى دەرىجىلىك تېكىستتىن سۆزگە ئۆزگىرىش سىستېمىسى بولۇپ، ھېس-تۇيغۇلارنى كونترول قىلىش بىلەن ئاۋازنى بىرلەشتۈرۈش ئىقتىدارىغا ئىگە. بۇ سىستېما ھېس-تۇيغۇلارنى تەربىيەلەش سانلىق-مەلۇماتلىرىغا ئېھتىياجسىز ھالدا خۇشال، غەمكىن، غەزەپلەنگەن ياكى قورقۇنچلۇق قاتارلىق خاس ھېس-تۇيغۇلار بىلەن سۆزلەرنى ھاسىل قىلىدۇ. بۇ سىستېما ھاسىل قىلىنغان سۆزلەرنىڭ ھېس-تۇيغۇلىرىنى توغرا كونترول قىلىش ئۈچۈن ھېس-تۇيغۇ ۋەكتورلىرىنى ئىشلىتىدۇ.

ئىجاد قىلغۇچى::
Index Team

ئىجازەتنامە::
Bilibili Model License

تېزلىك:
Medium

سۈپىتى::

تىللار:
en, zh

VRAM:
4GB

ئاۋازنى كۆچۈرۈش پروگراممىسى:
ھەئە

ھەر بىر 1K ھەرپنىڭ باھاسى:
2x

كەيپىياتنى كونترول قىلىش Zero-shot ھېسسىيات ۋەكتورى ئىپادىلەش سۆزى چىرايلىق كونترول

ئەڭ ياخشىسى:: ھېسسىياتنى ئىپادىلەيدىغان مەزمۇنلار، ئاۋازلىق كىتابلار، مەۋھۇم ياردەمچىلەر

سىناش IndexTTS-2

Spark TTS

Standard

Spark TTS SparkAudio تەرىپىدىن ياسالغان تېكىستتىن سۆزگە ئۆزگەرتكۈچ بولۇپ، ئاۋازنى كۆچۈرۈشنى باشقۇرغىلى بولىدىغان ھېسسىيات ۋە سۆزلەش ئۇسلۇبى بىلەن بىرلەشتۈرىدۇ. پەقەت 5 سېكۇنتلۇق ئاۋازنى ئىشلىتىپ، ئاۋازنى كۆچۈرۈپ، ھەر خىل ھېسسىيات، تېزلىك ۋە سۆزلەش ئۇسلۇبى بىلەن سۆزلەشنى ھاسىل قىلىشقا بولىدۇ. Spark TTS تەكلىپكە ئاساسلانغان كونترول سىستېمىسىنى ئىشلىتىدۇ.

ئىجاد قىلغۇچى::
SparkAudio

ئىجازەتنامە::
CC BY-NC-SA 4.0

تېزلىك:
Medium

سۈپىتى::

تىللار:
en, zh

VRAM:
4GB

ئاۋازنى كۆچۈرۈش پروگراممىسى:
ھەئە

ھەر بىر 1K ھەرپنىڭ باھاسى:
2x

ئاۋازنى كۆچۈرۈش پروگراممىسى كەيپىياتنى كونترول قىلىش ئۇسلۇب تىزگىنى سوئالغا ئاساسەن 5 سېكۇنتلۇق كۆچۈرۈش

ئەڭ ياخشىسى:: كۆچۈرۈلگەن ئاۋاز ۋە كەيپىياتنى كونترول قىلىش ئارقىلىق مەزمۇنلارنى يارىتىش پروگراممىسى

سىناش Spark TTS

GPT-SoVITS

Standard

GPT-SoVITS GPT-style language modeling بىلەن SoVITS (Singing Voice Inference via Translation and Synthesis) نى بىرلەشتۈرۈپ، كۈچلۈك voice clone قىلىش پروگراممىسىدۇر. 5 سېكۇنتتىن ئاز ۋاقىت ئىچىدە ئاۋازنى تەپسىلىي ھالدا كۆچۈرۈپ، سۆزلىگۈچىنىڭ ئالاھىدىلىكلىرىنى ساقلاپ، يېڭى سۆزلەرنى ھاسىل قىلىشقا بولىدۇ. بۇ پروگرامما سۆزلەش ۋە ناخشا ئېيتىش ئاۋازىنى بىرلەشتۈرۈش جەھەتتە ناھايىتى ئۈنۈملۈك.

ئىجاد قىلغۇچى::
RVC-Boss

ئىجازەتنامە::
MIT

تېزلىك:
Slow

سۈپىتى::

تىللار:
en, zh, ja, ko

VRAM:
6GB

ئاۋازنى كۆچۈرۈش پروگراممىسى:
ھەئە

ھەر بىر 1K ھەرپنىڭ باھاسى:
2x

5 سېكۇنتلۇق كۆچۈرۈش ناخشا ئېيتىش ئاۋازى ئاز-شوتلۇق ئۆگىنىش يۇقىرى راستچىللىق كۆپ تىللىق

ئەڭ ياخشىسى:: ئاۋازنى كۆچۈرۈش، ناخشا ياساش، مەزمۇن ياراتقۇچىنىڭ ئاۋازىنى كۆچۈرۈش

سىناش GPT-SoVITS

Orpheus

Standard

Orpheus ئىنسان دەرىجىلىك ھېسسىيات ئىپادىلەشنى قولغا كەلتۈرىدىغان چوڭ كۆلەملىك تېكىستتىن سۆزگە ئۆزگەرتىش مودېلى. 100،000 سائەتتىن ئارتۇق تۈرلۈك سۆز سانلىق-مەلۇماتىغا ئاساسەن تەربىيەلەنگەن، تەبىئىي ھېسسىيات، ئالاھىدىلىك ۋە سۆزلەش ئۇسلۇبىغا ئىگە سۆزلەرنى يارىتىشتا ئۈستۈنلۈككە ئىگە. Orpheus ئىنساننىڭ ئاۋازلىق خاتىرىسىدىن قەتئىي پەرقلەنمەيدىغان سۆزلەرنى يارىتىشقا قادىر.

ئىجاد قىلغۇچى::
Canopy Labs

ئىجازەتنامە::
Llama 3.2 Community

تېزلىك:
Medium

سۈپىتى::

تىللار:
en

VRAM:
4GB

ئاۋازنى كۆچۈرۈش پروگراممىسى:
ئۇنداق ئەمەس

ھەر بىر 1K ھەرپنىڭ باھاسى:
2x

ئىنسان دەرىجىلىك ھېسسىيات 100K سائەت تەربىيەلەش تەبىئىي ئېنىقلاش ئىپادىلەش سۆزى

ئەڭ ياخشىسى:: يۇقىرى سۈپەتلىك ھېسسىياتلىق سۆزلەش، ئاۋازلىق كىتابلار، ئاۋاز ئويناش

سىناش Orpheus

Chatterbox

Premium

Resemble AI تەرىپىدىن ياسالغان Chatterbox ئەڭ يېڭى تىپتىكى ئاۋازنى تۇنۇشتۇرۇش پروگراممىسىدۇر. بۇ پروگرامما بىرلا ئاۋاز نۇسخىسىدىن ھەرقانداق ئاۋازنى تۇنۇشتۇرالايدۇ، پەقەت ئاۋازنىلا ئەمەس، يەنە سۆزلەش ئۇسلۇبىنى ۋە ھېسسىياتنىمۇ تۇنۇشتۇرالايدۇ. Chatterbox يەنە ھېسسىياتنى كونترول قىلىش ئىقتىدارىغا ئىگە بولۇپ، ئاۋازنى تونۇشتۇرۇشتىن ئايرىلىپ تۇرۇپ، ھاسىل قىلىنغان سۆزنىڭ ھېسسىياتلىق ئاۋازىنى تەڭشەش ئىقتىدارىغا ئىگە.

ئىجاد قىلغۇچى::
Resemble AI

ئىجازەتنامە::
MIT

تېزلىك:
Medium

سۈپىتى::

تىللار:
en

VRAM:
4GB

ئاۋازنى كۆچۈرۈش پروگراممىسى:
ھەئە

ھەر بىر 1K ھەرپنىڭ باھاسى:
4x

Zero-shot كلونلاش كەيپىياتنى كونترول قىلىش يۇقىرى راستچىللىق ئۇسلۇبنى يۆتكەش بىر قېتىملىق تەكشۈرۈشنى كۆچۈرۈش

ئەڭ ياخشىسى:: ھېسسىياتنى كونترول قىلىدىغان ۋە مەزمۇنلارنى يارىتىدىغان كەسپىي ئاۋازنى كۆچۈرۈش پروگراممىسى

سىناش Chatterbox

Tortoise TTS

Premium

Tortoise TTS ئۈننىڭ سۈپىتىنى تېزلىكتىن ئۈستۈن قويىدىغان كۆپ ئاۋازلىق تېكىستتىن سۆزلەش سىستېمىسىدۇر. بۇ سىستېما DALL-E تىن ئىلھام ئالغان قۇرۇلمىسىنى ئىشلىتىپ، ناھايىتى تەبىئىي ئاۋاز ۋە ئاڭلىغۇچىغا ئوخشايدىغان ئاۋازنى پەيدا قىلىدۇ. Tortoise نۇرغۇن ئالماشتۇرغۇچلارغا قارىغاندا تېزرەك بولسىمۇ، ئەمما ئېچىۋېتىلگەن مەنبەلىك ئېكولوگىيە سىستېمىسىدا ئەڭ راستچىل بولغان بىر قىسىم سىمۋوللۇق ئاۋازنى پەيدا قىلىدۇ.

ئىجاد قىلغۇچى::
James Betker

ئىجازەتنامە::
Apache 2.0

تېزلىك:
Slow

سۈپىتى::

تىللار:
en

VRAM:
8GB

ئاۋازنى كۆچۈرۈش پروگراممىسى:
ھەئە

ھەر بىر 1K ھەرپنىڭ باھاسى:
4x

ئەڭ يۇقىرى سۈپەتلىك كۆپ ئاۋازلىق DALL-E قۇرۇلمىسى ئاۋازنى كۆچۈرۈش پروگراممىسى ئۆز-ئۆزىدىن قايتىش

ئەڭ ياخشىسى:: ئاۋازلىق كىتابلار، يۇقىرى سۈپەتلىك مەزمۇنلار، يۇقىرى سۈپەتلىك پروگرامما

سىناش Tortoise TTS

StyleTTS 2

Premium

StyleTTS 2 چوڭ ئاۋاز تىلى مودېللىرىنى ئىشلىتىپ، ئاۋازنىڭ تارقىلىش ئۇسۇلى بىلەن قارشى تەرەپنىڭ تەربىيەلەش ئۇسۇلىنى بىرلەشتۈرۈپ، ئىنسان دەرىجىلىك TTS سىنىمىنى قولغا كەلتۈرىدۇ. ئۇ بىر ئاۋازلىق مودېللار ئىچىدە ئەڭ تەبىئىي ئاۋازلىق ئاۋازنى پەيدا قىلىدۇ. StyleTTS 2 ئاۋازنىڭ تارقىلىش ئۇسۇلىغا ئاساسەن ئاۋازنىڭ تەربىيەلەش ئۇسۇلىنى ئىشلىتىپ، ئىنسان ئاۋازىنىڭ بارلىق خىللىرىنى قولغا كەلتۈرىدۇ.

ئىجاد قىلغۇچى::
Columbia University

ئىجازەتنامە::
MIT

تېزلىك:
Medium

سۈپىتى::

تىللار:
en

VRAM:
4GB

ئاۋازنى كۆچۈرۈش پروگراممىسى:
ئۇنداق ئەمەس

ھەر بىر 1K ھەرپنىڭ باھاسى:
4x

ئىنسان دەرىجىسى ئۇسلۇب تارقىتىش رىقابەتچىلىك تەلىم-تەربىيە تەبىئىي ئۆزگىرىش يۇقىرى راستچىللىق

ئەڭ ياخشىسى:: ستۇدىيو دەرىجىلىك بىر ئاۋازلىق بىرىكتۈرگۈچ، كەسپىي سۆزلەش

سىناش StyleTTS 2

OpenVoice

Premium

MyShell.ai تەرىپىدىن ياسالغان OpenVoice، ئاۋاز ئۇسلۇبى، ھېسسىيات، ئاۋاز كۈچەيتىش، رىتىم، توختىتىش ۋە ئىپادىلەش قاتارلىقلارنى تەپسىلىي كونترول قىلىپ، ئاۋازنى دەرھال كۆچۈرۈشكە ياردەم بېرىدۇ. ئۇ قىسقا ئاۋازنى كۆچۈرۈپ بىر قانچە تىلدا سۆزلەشكە ياردەم بېرىدۇ ھەمدە سۆزلىگۈچىنىڭ سۈپىتىنى ساقلايدۇ. OpenVoice يەنە ئاۋاز ئۆزگەرتكۈچ بولۇپ، راستىنلا ئاۋازنى ئۆزگەرتىشكە ياردەم بېرىدۇ.

ئىجاد قىلغۇچى::
MyShell.ai / MIT

ئىجازەتنامە::
MIT

تېزلىك:
Medium

سۈپىتى::

تىللار:
en, zh, ja, ko, fr, de, es, it

VRAM:
4GB

ئاۋازنى كۆچۈرۈش پروگراممىسى:
ھەئە

ھەر بىر 1K ھەرپنىڭ باھاسى:
4x

دەرھال كۆچۈرۈش پروگراممىسى ئاۋاز ئايلاندۇرۇش پروگراممىسى كەيپىياتنى كونترول قىلىش ئاۋاز تەڭشىكى كۆپ تىللىق

ئەڭ ياخشىسى:: ئاۋازنى كۆچۈرۈش، ئاۋازنى ئۆزگەرتىش

سىناش OpenVoice

Qwen3 TTS

Standard

Qwen3-TTS Alibaba نىڭ Qwen گۇرۇپپىسىنىڭ 1.7 مىليارد پارامېتىرلىق تېكىستتىن سۆزگە ئۆزگەرتىش مودېلى. ئۇ ئۈچ خىل ھالەتنى قوللايدۇ: ھېسسىيات كونتروللۇقى بىلەن ئالدىن تەڭشەلگەن ئاۋازلار (9 ئاۋازلىق)، ئاۋازنى پەقەت 3 سېكۇنتلۇق ئاۋازدىن قۇرۇپ چىقىش، ۋە سىز خالىغان ئاۋازنى تەبىئىي تىلدا چۈشەندۈرەلەيدىغان ئالاھىدە ئاۋاز لايىھەلەش ھالىتى. ئۇ 10 تىلنى يۇقىرى ئىپادىلەش ۋە تەبىئىي ئاۋازلىق بىلەن قوللايدۇ.

ئىجاد قىلغۇچى::
Alibaba (Qwen)

ئىجازەتنامە::
Apache 2.0

تېزلىك:
Medium

سۈپىتى::

تىللار:
en, zh, ja, ko, de, fr, ru, pt, es, it

VRAM:
7GB

ئاۋازنى كۆچۈرۈش پروگراممىسى:
ھەئە

ھەر بىر 1K ھەرپنىڭ باھاسى:
2x

ئاۋازنى كۆچۈرۈش پروگراممىسى ئالدىن تەڭشەلگەن 9 ئاۋاز تېكىستتىن ئاۋاز ياساش پروگراممىسى كەيپىياتنى كونترول قىلىش تىللار

ئەڭ ياخشىسى:: كۆپ تىللىق مەزمۇن، ئاۋازنى كۆچۈرۈش ياكى ئۆزىڭىزنىڭ ئاۋازىنى ياساش پروگراممىسى

سىناش Qwen3 TTS

Sesame CSM

Premium

Sesame CSM (Conversational Speech Model) 1 مىليارد پارامېتىرلىق مۇناسىۋەتلىك سۆزلەرنى ھاسىل قىلىش ئۈچۈن ياسالغان مۇناسىۋەتلىك سۆزلەرنى ھاسىل قىلىش ئۈچۈن ياسالغان مۇناسىۋەتلىك سۆزلەرنى ھاسىل قىلىش ئۈچۈن ياسالغان مۇناسىۋەتلىك سۆزلەرنى ھاسىل قىلىش ئۈچۈن ياسالغان مۇناسىۋەتلىك سۆزلەرنى ھاسىل قىلىش ئۈچۈن ياسالغان مۇناسىۋەتلىك سۆزلەرنى ھاسىل قىلىش ئۈچۈن ياسالغان مۇناسىۋەتلىك سۆزلەرنى ھاسىل قىلىش ئۈچۈن ياسالغان مۇناسىۋەتلىك سۆزلەرنى ھاسىل قىلىش ئۈچۈن ياسالغان مۇناسىۋەتلىك سۆزلەرنى ھاسىل قىلىش ئۈچۈن ياسالغان مۇناسىۋەتلىك سۆزلەرنى ھاسىل قىلىش ئۈچۈن ياسالغان مۇناسىۋەتلىك سۆزلەرنى ھاسىل قىلىش ئۈچۈن ياسالغان مۇناسىۋەتلىك سۆزلەرنى ھاسىل قىلىش ئۈچۈن ياسالغان مۇناسىۋەتلىك سۆزلەرنى ھاسىل قىلىش ئۈچۈن ياسالغان مۇناسىۋەتلىك سۆزلەرنى ھاسىل قىلىش ئۈچۈن ياسالغان مۇناسىۋەتلىك سۆزلەرنى ھاسىل قىلىش ئۈچۈن ياسالغان مۇناسىۋەتلىك سۆزلەرنى ھاسىل قىلىش ئۈچۈن ياسالغان مۇناسىۋەتلىك سۆزلەرنى ھاسىل قىلىش ئۈچۈن ياسالغان مۇناسىۋەتلىك سۆزلەرنى ھاسىل قىلىش ئۈچۈن

ئىجاد قىلغۇچى::
Sesame

ئىجازەتنامە::
Apache 2.0

تېزلىك:
Slow

سۈپىتى::

تىللار:
en

VRAM:
8GB

ئاۋازنى كۆچۈرۈش پروگراممىسى:
ئۇنداق ئەمەس

ھەر بىر 1K ھەرپنىڭ باھاسى:
4x

سۆزلىشىش تەبىئىي ۋاقىت نۆۋەت ئارقا قانال 1B پارامېتىرلىرى

ئەڭ ياخشىسى:: ئەقلىي ئىقتىدارلىق ياردەمچى، سۆھبەت بوتى، سۆزلىشىش ئەقلىي ئىقتىدارلىق پروگراممىسى

سىناش Sesame CSM

Chatterbox Turbo

Standard

Chatterbox Turbo by Resemble AI Chatterbox نىڭ 350M پارامېتىرلىق يېڭىلىنىشى بولۇپ، 6x لىق راستىنلا ۋاقىتلىق تېزلىك بىلەن 200ms لىق كېچىكۈشنى تەمىنلەيدۇ. ئۇ [laugh] ، [cough] ۋە [chuckle] قاتارلىقلاردەك مەخسۇس تىللاردىكى تېگلەرنى مەخسۇس تېكىستلەردە قوللايدۇ. بارلىق ياسالغان ئاۋازلارغا Perth سۇ بەلگىسى قوشۇپ، مەنبەنى ئىزدەپ چىقىرىدۇ.

ئىجاد قىلغۇچى::
Resemble AI

ئىجازەتنامە::
MIT

تېزلىك:
Fast

سۈپىتى::

تىللار:
en

VRAM:
2GB

ئاۋازنى كۆچۈرۈش پروگراممىسى:
ھەئە

ھەر بىر 1K ھەرپنىڭ باھاسى:
2x

200ms تىن تۆۋەن كېچىكۈش Paralinguistic نىڭ ئاتىسى 6x راست ۋاقىت ئاۋازنى كۆچۈرۈش سۇ بەلگىسى

ئەڭ ياخشىسى:: راستىنلا ۋاقىتلىق ئاۋاز خادىمى، تەبىئىي ئاۋازلار بىلەن ئىپادىلەشچان سۆزلەش

سىناش Chatterbox Turbo

Zonos

Standard

Zyphra نىڭ Zonos v0.1 1.6B پارامېتىرلىق، خۇشاللىق، غەزەپ، قايغۇ، قورقۇنچ ۋە ھەيرانلىقنى كونترول قىلىش ئۈچۈن سىزىقچە بار بولغان، ئىنچىكە ھېسسىيات كونترول قىلىشنى كۆرسىتىدىغان بىر مودېل. ئۇ بىرلا ۋاقىتتا بىر ئۆزگەرتكۈچ ۋە يېڭى SSM (state-space model) نىڭ بىر خىلىنى كۆرسىتىدۇ. 200K+ سائەت كۆپ تىللىق سۆزلەش بىلەن 10-30 سېكۇنتلۇق رىقابەتچى ئاۋازدىن ئاۋازنى клонلاش ئارقىلىق تەلىم بېرىلگەن.

ئىجاد قىلغۇچى::
Zyphra

ئىجازەتنامە::
Apache 2.0

تېزلىك:
Medium

سۈپىتى::

تىللار:
en, ja, zh, fr, de

VRAM:
6GB

ئاۋازنى كۆچۈرۈش پروگراممىسى:
ھەئە

ھەر بىر 1K ھەرپنىڭ باھاسى:
2x

ھېسسىياتنى كونترول قىلىش ئاۋازنى كۆچۈرۈش SSM قۇرۇلمىسى كۆپ تىللىق پىچ/رېتسېس كونتروللىغۇچ

ئەڭ ياخشىسى:: ھېسسىياتنى كونترول قىلىش بىلەن ئىپادىلەشچان سۆزلەش، ئاۋاز لايىھىلىگۈچ

سىناش Zonos

Dia 2

Standard

Nari Labs نىڭ Dia2 1B ۋە 2B پارامېتىرلىق تۈرلەردە بار. ئۇ Dia نىڭ 1B ۋە 2B پارامېتىرلىق تۈرلىرىدە بار. ئۇ ئاۋازنى بىر قانچە توكىلاردىن بىرى بىرلەشتۈرۈپ چىقىرىدۇ، بۇ ئۇنى راستىنلا ۋاقىتلىق ئاۋاز خادىملىرى ۋە سۆزدىن سۆزگە ئۆتكۈزۈش يوللىرى ئۈچۈن ئەڭ ياخشى قىلىدۇ. [S1]/[S2] نىڭ چەكلىمىلىرى ۋە (خۇشاللىق)، (ئۈچۈش) قاتارلىقلار بىلەن كۆپ ئاۋازلىق مۇنازىرىنى قوللايدۇ.

ئىجاد قىلغۇچى::
Nari Labs

ئىجازەتنامە::
Apache 2.0

تېزلىك:
Fast

سۈپىتى::

تىللار:
en

VRAM:
4GB

ئاۋازنى كۆچۈرۈش پروگراممىسى:
ئۇنداق ئەمەس

ھەر بىر 1K ھەرپنىڭ باھاسى:
2x

ئېقىم چىقىرىلىشى كۆپ ئاۋازلىق تۆۋەن كېچىكتۈرگۈچ تىلشۇناسلىق ئۇچۇرلىرى 2 مىنۇتقا قەدەر چىقىرىش

ئەڭ ياخشىسى:: راستىنلا ۋاقىتلىق ئاۋاز خادىمى، مۇنازىرە ھاسىل قىلغۇچى، ئېقىم پروگراممىسى

سىناش Dia 2

VoxCPM

Standard

VoxCPM 1.5 OpenBMB نىڭ يېڭىچە tokenizerسىز TTS مودېلى بولۇپ، سىزىقچە توكىلاردىن بەكرەك داۋاملىق كەڭلىكتە ئىشلەيدۇ. ئۇ يۇقىرى سۈپەتلىك 44.1kHz ئاۋازنى ئىشلەپچىقىرىپ، 3-10 سېكۇنت ئىچىدە ئاۋازنى سىزىقچە توكىلاشنى قوللايدۇ، ھەمدە پاراگرافلار ئارىسىدىكى مۇۋاپىقلىقنى ساقلايدۇ. تىللار ئارىسىدىكى توكىلاش ئارقىلىق، سىز ئىنگىلىزچە ئاۋازنى خىتايچە سۆزگە ئىشلىتىپ، شۇنىڭغا قارشى تەرەپكە ئىشلىتىپ بولالايسىز.

ئىجاد قىلغۇچى::
OpenBMB

ئىجازەتنامە::
Apache 2.0

تېزلىك:
Fast

سۈپىتى::

تىللار:
en, zh

VRAM:
4GB

ئاۋازنى كۆچۈرۈش پروگراممىسى:
ھەئە

ھەر بىر 1K ھەرپنىڭ باھاسى:
2x

44.1kHz ئاۋاز Tokenizer-free تىللار ئارىسىدىكى كلوبۇنلاش مەزمۇنغا ئاساسەن LoRA نىڭ ياخشىلاش پروگراممىسى

ئەڭ ياخشىسى:: يۇقىرى سۈپەتلىك ئاۋاز، ئاۋازلىق كىتابلار، ئاۋازلىق ئۇزۇن مەزمۇنلار

سىناش VoxCPM

OuteTTS

Free

OuteTTS چوڭ تىل مودېللىرىنى تېكىستتىن سۆزگە ئۆزگەرتىش ئىقتىدارىنى قوشۇپ، ئەسلى قۇرۇلمىسىنى ساقلاپ قالىدۇ. ئۇ llama.cpp (CPU/GPU)، Hugging Face Transformers، ExLlamaV2، VLLM ۋە Transformers.js ئارقىلىق توركۆرگۈنىڭ چۈشەنچىسىنى قوللايدۇ. JSON تىپىدا ساقلانغان ئاۋازلىق پروفېيىللار ئارقىلىق ئاۋازنى سىزىش ئىقتىدارى بار.

ئىجاد قىلغۇچى::
OuteAI

ئىجازەتنامە::
Apache 2.0

تېزلىك:
Fast

سۈپىتى::

تىللار:
en

VRAM:
2GB

ئاۋازنى كۆچۈرۈش پروگراممىسى:
ھەئە

ھەر بىر 1K ھەرپنىڭ باھاسى:
بوش

CPU نىڭ نەتىجىسى توركۆرگۈنىڭ نەتىجىسى ئاۋازنى كۆچۈرۈش كۆپ خىل ئارقا كۆرۈنمە يۈزلەر ئاڭلىغۇچىلار پروفېيلى

ئەڭ ياخشىسى:: Edge نىڭ ئورنىتىشى، توركۆرگۈ ئاساسىدىكى TTS، ئاز مەنبەلىك مۇھىتلار

سىناش OuteTTS

TADA

Standard

Hume AI نىڭ TADA (Text-Acoustic Dual Alignment) ى Llama 3.2 نىڭ يېڭىلىق يارىتىش قۇرۇلمىسى ئارقىلىق ھاياجاننى يوقىتىپ قويىدىغان يېڭىلىق يارىتىش TTS مودېلى. 1B (ئىنگلىزچە) ۋە 3B (ئۈچ تىللىق) تىپىدا بار، TADA نىڭ RTF ى LLM نىڭ TTS مودېلىدىن 0.09 - 5x تېزرەك. ئۇ 700 سېكۇنتلۇق ئاۋازلىق مەزمۇننى قوللايدۇ ۋە ھىسىياتلىق سۆزلەشنى 0 ھەل قىلغۇچ بىلەن ئىشلەپچىقارىدۇ.

ئىجاد قىلغۇچى::
Hume AI

ئىجازەتنامە::
MIT

تېزلىك:
Fast

سۈپىتى::

تىللار:
en

VRAM:
5GB

ئاۋازنى كۆچۈرۈش پروگراممىسى:
ئۇنداق ئەمەس

ھەر بىر 1K ھەرپنىڭ باھاسى:
2x

ھېسسىياتسىزلىق يوق LLM TTS نىڭ 5x تېز ھېسسىيات ئىپادىلەش 700s ئاۋازلىق مۇھىت ئىككىلىك تەڭشەش

ئەڭ ياخشىسى:: يۇقىرى سۈپەتلىك، ھاياجانسىز سۆزلەش، ھېسسىياتنى ئىپادىلەش، تېز چۈشەنچە

سىناش TADA

VibeVoice

Standard

Microsoft نىڭ VibeVoice نىڭ ئىككى خىل نۇسخىسى بار: ئۇزۇن مەزمۇنغا ئىشلىتىلىدىغان 1.5B نۇسخىسى (90 مىنۇتقىچە، 4 ئاۋازلىق) ۋە ~200ms ئاۋازلىق ۋاقىت كېچىكىشى بىلەن ئېقىپ كېتىدىغان Realtime 0.5B نۇسخىسى. 1.5B نۇسخىسى ئۇزۇن مەزمۇنغا ئىشلىتىلىدىغان podcast ۋە ئاۋازلىق كىتابلارغا ئىشلىتىلىدۇ. ئىزاھ: Microsoft TTS كودىنى ساقلىغۇچتىن چىقىرىۋەتكەن ۋە ئاۋازلىق ھۆججەتلەردە ئاۋازلىق AI نىڭ چەكلىمىلىرى بار.

ئىجاد قىلغۇچى::
Microsoft

ئىجازەتنامە::
MIT

تېزلىك:
Fast

سۈپىتى::

تىللار:
en, zh

VRAM:
4GB

ئاۋازنى كۆچۈرۈش پروگراممىسى:
ئۇنداق ئەمەس

ھەر بىر 1K ھەرپنىڭ باھاسى:
2x

كۆپ ئاۋازلىق 90 مىنۇتقىچە Podcast ياساش پروگراممىسى ئاڭلىغۇچىنىڭ مۇۋاپىقلىقى 200ms ئېقىم

ئەڭ ياخشىسى:: پودكاستى، ئاۋازلىق كىتاب، ئۇزۇن شەكىلدە كۆپ ئاڭلىغۇچىلىق مەزمۇن

سىناش VibeVoice

Pocket TTS

Free

Pocket TTS Kyutai (Moshi نىڭ ياراتقۇچىسى) تەرىپىدىن ياسالغان 100M پارامېتىرلىق تېكىستتىن سۆزگە ئۆزىنىڭ ئېغىرلىقىدىنمۇ ئېغىر بولغان بىر كونتروللۇق. CPU نىڭ ئىقتىدارىنى ياخشى ئىشلىتىدۇ، بىرلا ئاۋاز نۇسخىسىدىن ئاۋازنى سىزىشنى قوللايدۇ، ۋە تەبىئىي ئاۋازلىق سۆزلەرنى ئىشلەتىدۇ. كىچىك چوڭلۇقى ئۇنى Edge نىڭ يان تەرەپكە ئورۇنلاشتۇرۇلۇشى ۋە ئاز مەنبەلىك مۇھىتلارغا ماس كېلىدۇ.

ئىجاد قىلغۇچى::
Kyutai

ئىجازەتنامە::
MIT

تېزلىك:
Fast

سۈپىتى::

تىللار:
en, fr

VRAM:
1GB

ئاۋازنى كۆچۈرۈش پروگراممىسى:
ھەئە

ھەر بىر 1K ھەرپنىڭ باھاسى:
بوش

100M پارامېتىرلار CPU نىڭ نەتىجىسى ئاۋازنى كۆچۈرۈش بىر تاللاشنى كۆچۈرۈش Edge-Ready قاچىلانغان

ئەڭ ياخشىسى:: يېنىك ئورۇنلاشتۇرغۇچ، CPU-لا ئىشلىتىدىغان مۇھىت، تېز ئاۋازنى تەقلىدلەش

سىناش Pocket TTS

Kitten TTS

Free

Kitten TTS by KittenML is an ultra-lightweight text-to-speech model built on ONNX. With variants from 15M to 80M parameters (25-80 MB on disk), it delivers high-quality voice synthesis on CPU without requiring a GPU. Features 8 built-in voices, adjustable speech speed, and built-in text preprocessing for numbers, currencies, and units. Ideal for edge deployment and low-latency applications.

ئىجاد قىلغۇچى::
KittenML

ئىجازەتنامە::
Apache 2.0

تېزلىك:
Fast

سۈپىتى::

تىللار:
en

VRAM:
0GB

ئاۋازنى كۆچۈرۈش پروگراممىسى:
ئۇنداق ئەمەس

ھەر بىر 1K ھەرپنىڭ باھاسى:
بوش

CPU-only inference Under 80MB model size 8 built-in voices Speed control ONNX-based 24kHz output

ئەڭ ياخشىسى:: Fast lightweight TTS, edge deployment, low-latency applications

سىناش Kitten TTS

CosyVoice3

Standard

CosyVoice3 is the latest evolution from Alibaba's FunAudioLLM team. It features bi-streaming inference with ~150ms latency, instruction-based control for emotion/speed/volume, and improved speaker similarity for zero-shot cloning. Supports 9 languages plus 18 Chinese dialects. RL-tuned variant delivers state-of-the-art prosody.

ئىجاد قىلغۇچى::
Alibaba (FunAudioLLM)

ئىجازەتنامە::
Apache 2.0

تېزلىك:
Fast

سۈپىتى::

تىللار:
en, zh, ja, ko, de, es, fr, it, ru

VRAM:
4GB

ئاۋازنى كۆچۈرۈش پروگراممىسى:
ھەئە

ھەر بىر 1K ھەرپنىڭ باھاسى:
2x

Bi-streaming Emotion control Voice cloning Speed/volume control Instruction following

ئەڭ ياخشىسى:: Multilingual production TTS, real-time applications, voice cloning

سىناش CosyVoice3

MOSS-TTS

Premium

MOSS-TTS from OpenMOSS supports generation of up to 1 hour of continuous speech across 20 languages. Features token-level duration control, phoneme-level pronunciation control via IPA/Pinyin, and code-switching between languages. The 8B production model delivers state-of-the-art quality with zero-shot voice cloning from reference audio.

ئىجاد قىلغۇچى::
OpenMOSS

ئىجازەتنامە::
Apache 2.0

تېزلىك:
Medium

سۈپىتى::

تىللار:
en, zh, de, es, fr, ja, it, hu, ko, ru, fa, ar, pl, pt, cs, da, sv, el, tr

VRAM:
16GB

ئاۋازنى كۆچۈرۈش پروگراممىسى:
ھەئە

ھەر بىر 1K ھەرپنىڭ باھاسى:
4x

Ultra-long generation 20 languages Voice cloning Duration control Pronunciation control Code-switching

ئەڭ ياخشىسى:: Audiobooks, long-form content, multilingual production

سىناش MOSS-TTS

MegaTTS3

Premium

MegaTTS3 from ByteDance uses a novel sparse alignment mechanism combined with a latent diffusion transformer. Features adjustable trade-off between speech intelligibility and speaker similarity for zero-shot voice cloning.

ئىجاد قىلغۇچى::
ByteDance

ئىجازەتنامە::
Apache 2.0

تېزلىك:
Slow

سۈپىتى::

تىللار:
en, zh

VRAM:
8GB

ئاۋازنى كۆچۈرۈش پروگراممىسى:
ھەئە

ھەر بىر 1K ھەرپنىڭ باھاسى:
4x

Voice cloning Adjustable similarity Cross-lingual

ئەڭ ياخشىسى:: High-fidelity voice cloning

سىناش MegaTTS3

Kokoro

بوش

Kokoro is an 82 million parameter text-to-speech model that punches well above its weight class. Despite its tiny size, it produces remarkably natural and expressive speech. Kokoro supports multiple languages including English, Japanese, Chinese, and Korean with a variety of expressive voices. It runs incredibly fast — generating audio nearly 100x faster than real-time on a GPU.

ئىجاد قىلغۇچى::
Hexgrad

ئىجازەتنامە::
Apache 2.0

تېزلىك:
Fast

سۈپىتى::

تىللار: en, ja, zh, ko, fr, de, it, pt, es, hi, ru

ئەڭ ياخشىسى:: High-quality TTS with minimal latency, streaming applications

ھەقسىز سىناش

Piper

بوش

Piper is a lightweight text-to-speech engine developed by Rhasspy that uses VITS and larynx architectures. It runs entirely on CPU, making it ideal for edge devices, home automation, and applications requiring offline TTS. With over 100 voices across 30+ languages, Piper delivers natural-sounding speech at real-time speeds even on a Raspberry Pi 4.

ئىجاد قىلغۇچى::
Rhasspy

ئىجازەتنامە::
MIT

تېزلىك:
Fast

سۈپىتى::

تىللار: en, de, fr, es, it, pt, nl, pl, ru, zh, ja, ko, ar, cs, da, fi, el, hu, is, ka, kk, ne, no, ro, sk, sr, sv, sw, tr, uk, vi

ئەڭ ياخشىسى:: Quick previews, accessibility, and embedded applications

ھەقسىز سىناش

VITS

بوش

VITS (Variational Inference with adversarial learning for end-to-end Text-to-Speech) is a parallel end-to-end TTS method that generates more natural sounding audio than current two-stage models. It adopts variational inference augmented with normalizing flows and an adversarial training process, achieving a significant improvement in naturalness.

ئىجاد قىلغۇچى::
Jaehyeon Kim et al.

ئىجازەتنامە::
MIT

تېزلىك:
Fast

سۈپىتى::

تىللار: en, zh, ja, ko

ئەڭ ياخشىسى:: General-purpose text-to-speech with natural prosody

ھەقسىز سىناش

MeloTTS

بوش

MeloTTS by MyShell.ai is a multilingual TTS library supporting English (American, British, Indian, Australian), Spanish, French, Chinese, Japanese, and Korean. It is extremely fast, processing text at near real-time speed on CPU alone. MeloTTS is designed for production use and supports both CPU and GPU inference.

ئىجاد قىلغۇچى::
MyShell.ai

ئىجازەتنامە::
MIT

تېزلىك:
Fast

سۈپىتى::

تىللار: en, es, fr, zh, ja, ko

ئەڭ ياخشىسى:: Production applications needing fast, multilingual TTS

ھەقسىز سىناش

OuteTTS

بوش

OuteTTS extends large language models with text-to-speech capabilities while preserving the original architecture. It supports multiple backends including llama.cpp (CPU/GPU), Hugging Face Transformers, ExLlamaV2, VLLM, and even browser inference via Transformers.js. Features zero-shot voice cloning through speaker profiles saved as JSON.

ئىجاد قىلغۇچى::
OuteAI

ئىجازەتنامە::
Apache 2.0

تېزلىك:
Fast

سۈپىتى::

تىللار: en

ئەڭ ياخشىسى:: Edge deployment, browser-based TTS, low-resource environments

ھەقسىز سىناش

Pocket TTS

بوش

Pocket TTS by Kyutai (creators of Moshi) is a compact 100M parameter text-to-speech model that punches well above its weight. It runs efficiently on CPU, supports zero-shot voice cloning from a single audio sample, and produces natural-sounding speech. The small model size makes it ideal for edge deployment and low-resource environments.

ئىجاد قىلغۇچى::
Kyutai

ئىجازەتنامە::
MIT

تېزلىك:
Fast

سۈپىتى::

تىللار: en, fr

ئۆلچەملىك

ئىجاد قىلغۇچى::
SparkAudio

ئىجازەتنامە::
CC BY-NC-SA 4.0

تېزلىك:
Medium

سۈپىتى::

تىللار:
en, zh

ئاۋازنى كۆچۈرۈش پروگراممىسى:
ھەئە

Voice cloningEmotion controlStyle controlPrompt-based5-second cloning

ئەڭ ياخشىسى:: Content creation with cloned voices and emotional control

سىناش Spark TTS

GPT-SoVITS

ئۆلچەملىك

GPT-SoVITS combines GPT-style language modeling with SoVITS (Singing Voice Inference via Translation and Synthesis) for powerful few-shot voice cloning. With as little as 5 seconds of reference audio, it can accurately clone a voice and generate new speech while preserving the speaker's unique characteristics. It excels at both speaking and singing voice synthesis.

ئىجاد قىلغۇچى::
RVC-Boss

ئىجازەتنامە::
MIT

تېزلىك:
Slow

سۈپىتى::

تىللار:
en, zh, ja, ko

ئاۋازنى كۆچۈرۈش پروگراممىسى:
ھەئە

5-second cloningSinging voiceFew-shot learningHigh fidelityCross-lingual

ئەڭ ياخشىسى:: Voice cloning, singing synthesis, content creator voice replication

سىناش GPT-SoVITS

Orpheus

ئۆلچەملىك

Orpheus is a large-scale text-to-speech model that achieves human-level emotional expression. Trained on over 100,000 hours of diverse speech data, it excels at generating speech with natural emotions, emphasis, and speaking styles. Orpheus can produce speech that is virtually indistinguishable from human recordings.

ئىجاد قىلغۇچى::
Canopy Labs

ئىجازەتنامە::
Llama 3.2 Community

تېزلىك:
Medium

سۈپىتى::

تىللار:
en

ئاۋازنى كۆچۈرۈش پروگراممىسى:
ئۇنداق ئەمەس

Human-level emotion100K hours trainingNatural emphasisExpressive speech

ئەڭ ياخشىسى:: High-quality emotional speech, audiobooks, voice acting

سىناش Orpheus

Qwen3 TTS

ئۆلچەملىك

Qwen3-TTS is a 1.7 billion parameter text-to-speech model from Alibaba's Qwen team. It supports three modes: preset voices with emotion control (9 speakers), voice cloning from just 3 seconds of audio, and a unique voice design mode where you describe the voice you want in natural language. It covers 10 languages with high expressiveness and natural prosody.

ئىجاد قىلغۇچى::
Alibaba (Qwen)

ئىجازەتنامە::
Apache 2.0

تېزلىك:
Medium

سۈپىتى::

تىللار:
en, zh, ja, ko, de, fr, ru, pt, es, it

ئاۋازنى كۆچۈرۈش پروگراممىسى:
ھەئە

Voice cloning9 preset voicesVoice design from textEmotion control10 languages

ئەڭ ياخشىسى:: Multilingual content with voice cloning or custom voice design

سىناش Qwen3 TTS

Chatterbox Turbo

ئۆلچەملىك

Chatterbox Turbo by Resemble AI is a 350M parameter upgrade to Chatterbox, delivering up to 6x real-time speed with sub-200ms latency. It supports paralinguistic tags like [laugh], [cough], and [chuckle] directly in text. Includes Perth watermarking on all generated audio for provenance tracking.

ئىجاد قىلغۇچى::
Resemble AI

ئىجازەتنامە::
MIT

تېزلىك:
Fast

سۈپىتى::

تىللار:
en

ئاۋازنى كۆچۈرۈش پروگراممىسى:
ھەئە

Sub-200ms latencyParalinguistic tags6x real-timeVoice cloningWatermarking

ئەڭ ياخشىسى:: Real-time voice agents, expressive speech with natural sounds

سىناش Chatterbox Turbo

Zonos

ئۆلچەملىك

Zonos v0.1 by Zyphra is a 1.6B parameter model featuring fine-grained emotion control with sliders for happiness, anger, sadness, fear, and surprise. It offers both a Transformer and a novel SSM (state-space model) variant. Trained on 200K+ hours of multilingual speech with zero-shot voice cloning from 10-30 seconds of reference audio.

ئىجاد قىلغۇچى::
Zyphra

ئىجازەتنامە::
Apache 2.0

تېزلىك:
Medium

سۈپىتى::

تىللار:
en, ja, zh, fr, de

ئاۋازنى كۆچۈرۈش پروگراممىسى:
ھەئە

Emotion controlVoice cloningSSM architectureMultilingualPitch/rate control

ئەڭ ياخشىسى:: Expressive speech with emotion control, voice design studio

سىناش Zonos

Dia 2

ئۆلچەملىك

Dia2 by Nari Labs is a streaming-first upgrade to Dia, available in 1B and 2B parameter variants. It begins synthesizing audio from the first few tokens, making it ideal for real-time voice agents and speech-to-speech pipelines. Supports multi-speaker dialogue with [S1]/[S2] tags and paralinguistic cues like (laughs), (coughs).

ئىجاد قىلغۇچى::
Nari Labs

ئىجازەتنامە::
Apache 2.0

تېزلىك:
Fast

سۈپىتى::

تىللار:
en

ئاۋازنى كۆچۈرۈش پروگراممىسى:
ئۇنداق ئەمەس

Streaming outputMulti-speakerLow latencyParalinguistic cuesUp to 2 min output

ئەڭ ياخشىسى:: Real-time voice agents, dialogue generation, streaming applications

سىناش Dia 2

VoxCPM

ئۆلچەملىك

VoxCPM 1.5 by OpenBMB is a novel tokenizer-free TTS model that operates in continuous space rather than discrete tokens. It produces high-fidelity 44.1kHz audio, supports zero-shot voice cloning from 3-10 seconds, and maintains consistency across paragraphs. Cross-language cloning lets you apply an English voice to Chinese speech and vice versa.

ئىجاد قىلغۇچى::
OpenBMB

ئىجازەتنامە::
Apache 2.0

تېزلىك:
Fast

سۈپىتى::

تىللار:
en, zh

ئاۋازنى كۆچۈرۈش پروگراممىسى:
ھەئە

44.1kHz audioTokenizer-freeCross-lingual cloningContext-awareLoRA fine-tuning

ئەڭ ياخشىسى:: High-fidelity audio, audiobooks, long-form content with voice consistency

سىناش VoxCPM

TADA

ئۆلچەملىك

TADA (Text-Acoustic Dual Alignment) by Hume AI is a groundbreaking TTS model that eliminates hallucinations through a novel dual alignment architecture built on Llama 3.2. Available in 1B (English) and 3B (multilingual) variants, TADA achieves an RTF of 0.09 — 5x faster than comparable LLM-based TTS models. It supports up to 700 seconds of audio context and produces emotionally expressive speech with zero hallucinations on standard benchmarks.

ئىجاد قىلغۇچى::
Hume AI

ئىجازەتنامە::
MIT

تېزلىك:
Fast

سۈپىتى::

تىللار:
en

ئاۋازنى كۆچۈرۈش پروگراممىسى:
ئۇنداق ئەمەس

Zero hallucinations5x faster than LLM TTSEmotional expression700s audio contextDual alignment

ئەڭ ياخشىسى:: High-quality hallucination-free speech, emotional expression, fast inference

سىناش TADA

VibeVoice

ئۆلچەملىك

VibeVoice from Microsoft generates long-form speech up to 90 minutes with support for 4 simultaneous speakers, making it ideal for podcasts and dialogues. The Realtime 0.5B variant achieves ~300ms latency for interactive use. Supports speaker tags for multi-turn dialogue generation.

ئىجاد قىلغۇچى::
Microsoft

ئىجازەتنامە::
MIT

تېزلىك:
Fast

سۈپىتى::

تىللار:
en, zh

ئاۋازنى كۆچۈرۈش پروگراممىسى:
ئۇنداق ئەمەس

Multi-speakerLong-form (90 min)Podcast generationDialogueLow latency

ئالىي دەرىجىلىك

ئىجاد قىلغۇچى::
OpenMOSS

ئىجازەتنامە::
Apache 2.0

تېزلىك:
Medium

سۈپىتى::

تىللار:
en, zh, de, es, fr, ja, it, hu, ko, ru, fa, ar, pl, pt, cs, da, sv, el, tr

ئاۋازنى كۆچۈرۈش پروگراممىسى:
ھەئە

VRAM:
16GB

ھەر بىر 1K ھەرپنىڭ باھاسى:
4x

Ultra-long generation20 languagesVoice cloningDuration controlPronunciation controlCode-switching

ئەڭ ياخشىسى:: Audiobooks, long-form content, multilingual production

سىناش MOSS-TTS

MegaTTS3

ئالىي دەرىجىلىك

ئىجاد قىلغۇچى::
ByteDance

ئىجازەتنامە::
Apache 2.0

تېزلىك:
Slow

سۈپىتى::

تىللار:
en, zh

ئاۋازنى كۆچۈرۈش پروگراممىسى:
ھەئە

VRAM:
8GB

ھەر بىر 1K ھەرپنىڭ باھاسى:
4x

Voice cloningAdjustable similarityCross-lingual

ئەڭ ياخشىسى:: High-fidelity voice cloning

سىناش MegaTTS3

مودېل سېلىشتۇرۇش جەدۋىلى

مودېل	ئىجاد قىلغۇچى:	ھايۋان	تېزلىك	تىللار	VRAM	ئىجازەتنامە:	پۇل
Kokoro	Hexgrad	Free	Fast	11	1.5GB	Apache 2.0	بوش	ئىشلىتىش
Piper	Rhasspy	Free	Fast	31	0 (CPU only)	MIT	بوش	ئىشلىتىش
VITS	Jaehyeon Kim et al.	Free	Fast	4	1GB	MIT	بوش	ئىشلىتىش
MeloTTS	MyShell.ai	Free	Fast	6	0.5GB (GPU optional)	MIT	بوش	ئىشلىتىش
Bark	Suno	Standard	Slow	13	5GB	MIT	2	ئىشلىتىش
Bark Small	Suno	Standard	Medium	13	2GB	MIT	2	ئىشلىتىش
CosyVoice 2	Alibaba (Tongyi Lab)	Standard	Medium	8	4GB	Apache 2.0	2	ئىشلىتىش
Dia TTS	Nari Labs	Standard	Medium	1	4GB	Apache 2.0	2	ئىشلىتىش
Parler TTS	Hugging Face	Standard	Medium	1	4GB	Apache 2.0	2	ئىشلىتىش
GLM-TTS	Zhipu AI	Standard	Medium	2	4GB	GLM-4 License	2	ئىشلىتىش
IndexTTS-2	Index Team	Standard	Medium	2	4GB	Bilibili Model License	2	ئىشلىتىش
Spark TTS	SparkAudio	Standard	Medium	2	4GB	CC BY-NC-SA 4.0	2	ئىشلىتىش
GPT-SoVITS	RVC-Boss	Standard	Slow	4	6GB	MIT	2	ئىشلىتىش
Orpheus	Canopy Labs	Standard	Medium	1	4GB	Llama 3.2 Community	2	ئىشلىتىش
Chatterbox	Resemble AI	Premium	Medium	1	4GB	MIT	4	ئىشلىتىش
Tortoise TTS	James Betker	Premium	Slow	1	8GB	Apache 2.0	4	ئىشلىتىش
StyleTTS 2	Columbia University	Premium	Medium	1	4GB	MIT	4	ئىشلىتىش
OpenVoice	MyShell.ai / MIT	Premium	Medium	8	4GB	MIT	4	ئىشلىتىش
Qwen3 TTS	Alibaba (Qwen)	Standard	Medium	10	7GB	Apache 2.0	2	ئىشلىتىش
Sesame CSM	Sesame	Premium	Slow	1	8GB	Apache 2.0	4	ئىشلىتىش
Chatterbox Turbo	Resemble AI	Standard	Fast	1	2GB	MIT	2	ئىشلىتىش
Zonos	Zyphra	Standard	Medium	5	6GB	Apache 2.0	2	ئىشلىتىش
Dia 2	Nari Labs	Standard	Fast	1	4GB	Apache 2.0	2	ئىشلىتىش
VoxCPM	OpenBMB	Standard	Fast	2	4GB	Apache 2.0	2	ئىشلىتىش
OuteTTS	OuteAI	Free	Fast	1	2GB	Apache 2.0	بوش	ئىشلىتىش
TADA	Hume AI	Standard	Fast	1	5GB	MIT	2	ئىشلىتىش
VibeVoice	Microsoft	Standard	Fast	2	4GB	MIT	2	ئىشلىتىش
Pocket TTS	Kyutai	Free	Fast	2	1GB	MIT	بوش	ئىشلىتىش
Kitten TTS	KittenML	Free	Fast	1	0GB	Apache 2.0	بوش	ئىشلىتىش
CosyVoice3	Alibaba (FunAudioLLM)	Standard	Fast	9	4GB	Apache 2.0	2	ئىشلىتىش
MOSS-TTS	OpenMOSS	Premium	Medium	19	16GB	Apache 2.0	4	ئىشلىتىش
MegaTTS3	ByteDance	Premium	Slow	2	8GB	Apache 2.0	4	ئىشلىتىش

ئەڭ كەڭ كۆلەملىك AI تېكىستتىن سۆزگە ئۆزگەرتىش پروگراممىسى

تېكىستتىن سۆزگە ئۆزگەرتىش ئۈچۈن نېمە ئۈچۈن TTS.ai نى تاللاش كېرەك؟

TTS.ai دۇنيانى بىرلەشتۈرىدۇ

ھەر بىر مودېل MIT، Apache 2.0 ياكى شۇنىڭغا ئوخشاش ئىجازەت بېرىش ئىجازىتى بويىچە ئوچۇق مەنبەلىك بولۇپ، سىزنىڭ قۇرۇلۇشىڭىزدا ياسالغان ئاۋازنى ئىشلىتىش ئۈچۈن پۈتۈن تىجارىي ھوقۇقىڭىز بارلىقىنى كاپالەتكە ئىگە قىلىدۇ. سىز ھەقىقىي ۋاقىتتىكى پروگراممىلار ئۈچۈن تېز، يېنىك بىرلەشتۈرگۈچ ياكى ئاۋازلىق كىتابلار ۋە پودكاستلار ئۈچۈن يۇقىرى سۈپەتلىك بىرلەشتۈرگۈچكە ئېھتىياجلىق بولسىڭىزمۇ، TTS.ai ھەر قانداق ئىشلىتىش ئەھۋالى ئۈچۈن توغرا بىرلەشتۈرگۈچكە ئىگە.

ھەقسىز مودىللار، ھېسابات تەلەپ قىلىنمايدۇ

تۆۋەندىكى ئۈچ ھەقسىز TTS مودېلىنى ئىشلىتىشكە باشلايسىز: Piper (ئۇلار ئىنتايىن تېز، يېنىك)، VITS (ئۈچۈن يۇقىرى سۈپەتلىك نېرۋا بىرىكتۈرگۈچ) ۋە MeloTTS (ئۈچ خىل تىلنى قوللايدۇ). ھېچقانداق تىزىملاش، ھېچقانداق كرېدىت كارتىسى، ھېچقانداق چەكلىمىلەر يوق. ھەقسىز TTS مودېلى ئىنگىلىزچە ۋە باشقا نۇرغۇن تىللارنى قوللايدۇ، نۇرغۇن پروگراممىلارغا لايىق بولغان تەبىئىي ئاۋازلىق چىقىرىشقا ئىگە.

GPU تېزلىتىپ ئىشلەتكۈچىسى

TTS نىڭ ھەممىسى NVIDIA نىڭ GPU لىرىدا ئىشلەيدۇ، شۇڭا تېز ۋە مۇۋاپىق ئۈن چىقىرىدۇ. ھەقسىز TTS نىڭ ئۈن چىقىرىش ۋاقتى ئادەتتە 2 سېكۇنتتىن ئاز بولىدۇ. Kokoro، CosyVoice 2 ۋە Bark نىڭ ئۈن چىقىرىش ۋاقتى ئوتتۇرىچە 3-5 سېكۇنت بولىدۇ. Tortoise ۋە Chatterbox نىڭ ئۈن چىقىرىش ۋاقتى تېكىست ئۇزۇنلۇقىغا قاراپ 5-15 سېكۇنت بولىدۇ.

30 دىن ئارتۇق تىلنى قوللايدۇ

ئىنگىلىزچە، ئىسپانچە، فرانسۇزچە، گېرمانچە، ئىتالىيەچە، پورتۇگالچە، خەنزۇچە، ياپونچە، كورىيەچە، ئەرەبچە، ھىندىچە، رۇسچە ۋە باشقا 30 دىن ئارتۇق تىلدا سۆزلەرنى ياساش پروگراممىسى. نۇرغۇن پروگراممىلار تىللار ئارىسىدىكى بىرلەشتۈرۈش ئىقتىدارىنى قوللايدۇ، بۇ دېگەنلىك تىللار ئارىسىدىكى بىرلەشتۈرۈش ئىقتىدارىغا ئىگە پروگراممىلارنى ياساش پروگراممىسى. CosyVoice 2 ۋە GPT-SoVITS تىللار ئارىسىدىكى سۆزلەرنى ياساش پروگراممىسى.

ئىجادىيەتچىلەرگە لايىق API

TTS.ai نى OpenAI بىلەن ماس كېلىدىغان REST API ئارقىلىق پروگراممىلىرىڭىزغا بىرلەشتۈرىڭ. 20+ تىپتىكى بارلىق پروگراممىلار ئۈچۈن بىرلا ئاخىرلاشتۇرۇش نۇقتىسى. Python، JavaScript، cURL ۋە Go SDK. رېئال ۋاقىتتىكى پروگراممىلارنى يەتكۈزۈش قوللىشى. چوڭ مىقداردىكى مەزمۇنلارنى ياساش ئۈچۈن توپلاش. ئاسىنك خەۋەرلىشىش ئۈچۈن Webhooks. Pro ۋە Enterprise پىلانلىرىدا بار.

كۆپ سورالغان سوئاللار

تېكىستتىن سۆزگە (TTS) يېزىلغان تېكىستنى تەبىئىي ئاۋازغا ئايلاندۇرىدىغان AI تېخنىكىسىدۇر. Kokoro، Chatterbox ۋە CosyVoice 2 دەك زامانىۋى نەيرونلۇق TTS مودېللىرى تەبىئىي ئاۋاز، ھېسسىيات ۋە رىتىم بىلەن ئادەمگە ئوخشاپ كېتىدىغان سۆزلەرنى چىقىرىش ئۈچۈن چوڭقۇر ئۆگىنىشنى ئىشلىتىدۇ.

بۇ سىزنىڭ ئېھتىياجىڭىزغا باغلىق. تېز ئالدىن كۆزىتىش ئۈچۈن Piper ياكى MeloTTS (ئەركىن، تېز) نى ئىشلىتىڭ. يۇقىرى سۈپەتلىك بولۇش ئۈچۈن Kokoro ياكى CosyVoice 2 (ستاندارت دەرىجىلىك) نى ئىشلىتىڭ. ئاۋازنى كۆچۈرۈش ئۈچۈن Chatterbox ياكى GPT-SoVITS (باھالىق) نى ئىشلىتىڭ. مۇنازىرە/پودكاست مەزمۇنلىرى ئۈچۈن Dia TTS نى ئىشلىتىڭ. ھەر بىر مودېلنىڭ ئوخشىمىغان كۈچى بار — ئەڭ ياخشىسىنى تېپىپ چىقىش ئۈچۈن تەجرىبە قىلىڭ.

ئۇنداق ئەمەس! TTS.ai Kokoro، Piper، VITS ۋە MeloTTS نىڭ تېكىستتىن سۆزگە ئۆزگەرتىش پروگراممىسىنى ھەقسىز تەمىنلەيدۇ. 500 ھەرپ ۋە ھەر سائەتتە 3 نەشىر ئۈچۈن ھېسابات ئېچىش كېرەك ئەمەس. ھەقسىز ھېسابات ئېچىش ئارقىلىق 50 كرېدىت ئېلىپ، بارلىق پروگراممىغا ئېرىشەلەيسىز.

بىزنىڭ TTS مودېللىرىمىز جەمئىي 30 دىن ئارتۇق تىلنى قوللايدۇ، بۇنىڭ ئىچىدە ئىنگىلىزچە، ئىسپانچە، فرانسۇزچە، ئالمانچە، ئىتالىيەچە، پورتۇگالچە، خەنزۇچە، ياپونچە، كورىيەچە، ئەرەبچە، رۇسچە، ھىندىچە ۋە باشقا نۇرغۇن تىللار بار.

ئۇنداق، TTS.ai ئارقىلىق ھاسىل قىلىنغان ئاۋازنى تىجارەت ئۈچۈن ئىشلىتىشكە بولىدۇ. بىزنىڭ بارلىق مودېللىرىمىز ئوچۇق مەنبەلىك ئىجازەتنامە (MIT، Apache 2.0) نى ئىشلىتىدۇ. ھەر بىر مودېلنىڭ ئىجازەتنامىسىنى تەكشۈرۈپ بېقىشىڭىزنى تەۋسىيە قىلىمىز. سىزنىڭ لايىھەڭىزدە ئىشلىتىدىغان مۇشۇ مودېلنىڭ ئىجازەتنامىسىنى تەكشۈرۈپ بېقىشىڭىزنى تەۋسىيە قىلىمىز.

TTS.ai MP3، WAV، OGG ۋە FLAC چىقىرىش پىچىملىرىنى قوللايدۇ. MP3 توردا قويۇش ئۈچۈن كۆڭۈلدىكىدەك پىچىمدۇر. ئاۋازنى داۋاملىق ئىشلەش ئۈچۈن WAV نى ئىشلىتىشنى تەۋسىيە قىلىمىز. ئاۋاز ئايلاندۇرغۇچ قورالى ئارقىلىق پىچىملارنى ئايلاندۇرغىلى بولىدۇ.

ئاۋازنى كۆچۈرۈش ئادەتتە 5-30 سېكۇنت داۋام قىلىدىغان قىسقا ئاۋاز نۇسخىسىدىن ئالاھىدە ئاۋازنى كۆچۈرۈش ئۈچۈن AI نى ئىشلىتىدۇ. مەقسەت قىلغان ئاۋازنى ئېلان قىلسىڭىز، Chatterbox، GPT-SoVITS ياكى OpenVoice قاتارلىق پروگراممىلار بۇ ئاۋازدا يېڭى ئاۋازنى ھاسىل قىلىدۇ. ئاۋازنىڭ سۈپىتى تېخىمۇ ياخشى بولىدۇ.

ھەقسىز ئىشلەتكۈچىلەر بىر قېتىملىق تەلەپتە 500 ھەرپ تولدۇرۇشقا بولىدۇ. تىزىملىتىلغان ئىشلەتكۈچىلەر بىر قېتىملىق تەلەپتە 5000 ھەرپ تولدۇرۇشقا بولىدۇ. ئۇزۇن مەزمۇنلار ئۈچۈن، ئاۋاز قىسقا قىسىملارغا بۆلۈنۈپ ئۆزلۈكىدىن بىرلەشتۈرۈلىدۇ. API ئىشلەتكۈچىلىرى بىر قېتىملىق تەلەپتە 10000 ھەرپ تولدۇرۇشقا بولىدۇ.

SSML (Speech Synthesis Markup Language) نى قوللايدۇ. Piper ۋە باشقا بىر قىسىم تىپلار توختاشنى، تەكىتلەشنى ۋە سۆزلەشنى كونترول قىلىش ئۈچۈن ئاساسىي SSML تېگلىرىنى قوللايدۇ. SSML نى قوللىمىغان تىپلار ئۈچۈن، تەبىئىي نۇقتا قويۇش ۋە سۈرەتنى ئايرىشنى ئىشلىتىپ سۆزلىشىشكە تەسىر يەتكۈزەلەيسىز.

ئۇنداق ئەمەس، نۇرغۇن مودېللار 0.5x دىن 2.0x گە قەدەر تېزلىك تەڭشەشنى قوللايدۇ. Bark ۋە Parler دەك بىر قىسىم مودېللار يەنە تېزلىك ۋە ئۇسلۇب تەڭشەشنى قوللايدۇ. تېزلىك پارامېتىرلىرىنى ئالىي تەڭشەش كۆزنىكى ياكى API تېزلىك پارامېتىرلىرى ئارقىلىق تەڭشەيسىز.

ئۇنداق، بىزنىڭ API مىز ئارقىلىق كۆپ قېتىملىق تەھرىرلەش قوللىنىلىدۇ. بىر قېتىملىق API چاقىرىقى ياكى سىزىقچە ئارقىلىق كۆپ قېتىملىق تېكىست قىسىملىرىنى تەھرىرلىيالايسىز، ھەر بىر قىسىم تەھرىرلىنىپ ئايرىم ئاۋاز ھۆججىتى سۈپىتىدە قايتۇرۇلىدۇ. بۇ ئاۋازلىق كىتاب قىسىملىرى، ئېلېكترونلۇق ئۆگىنىش مودۇللىرى ياكى ئويۇن مۇنازىرە سىزىقچىلىرى ئۈچۈن ئەڭ ياخشى.

ھېساباتىڭىزدىن API ئاچقۇچىنى ھاسىل قىلىڭ، ئاندىن تېكىست، مودېل ۋە ئاۋاز پارامېتىرلىرى بىلەن REST API ئاخىرقى نۇقتىسىغا POST تەلەپلىرىنى ئەۋەتىڭ. Python، JavaScript ۋە cURL دىكى كود مىساللىرىنى تەمىنلەيمىز. API OpenAI بىلەن ماس كېلىدۇ، شۇڭا ھازىرقى بىرلەشتۈرۈشلەر ئازراق ئۆزگىرىش بىلەن ئىشلەيدۇ.

5.0/5 (2)

تېكىستنى سۆزگە ئايلاندۇرۇشنى ھازىرلا باشلاش

TTS.ai نى ئىشلىتىپ مىڭلىغان ياراتقۇچىلارغا قوشۇلۇڭ. يېڭى ھېسابات بىلەن 15000 ھەقسىز ھەرپنى ئالىڭ. ھەقسىز نۇسخىنى قوشۇلمىغان ھالەتتە ئىشلىتىڭ.

ھەقسىز قوشۇلۇڭ باھا كۆرۈش

AI تېكىستتىن سۆزگە

TTS.ai نى ياخشى كۆرەمسىز؟ دوستلىرىڭىزغا ئېيتىپ بېرىڭلار!

مودېل ئۇچۇرلىرى

Spark TTS

ياخشى نەتىجىلەر ئۈچۈن تەۋسىيەلەر

قەرز ھەققى

AI تېكىستتىن سۆزگە قانداق ئىشلەيدۇ

تېكىستنى كىرگۈزۈڭ

مودېل ۋە ئاۋازنى تاللا

ھاسىل قىلىش ۋە چۈشۈرۈش

تېكىستتىن سۆزگە ئۆزگەرتىش

ئاۋازلىق كىتابلار

سىن سۆزلىگۈچ

پودكاست

ئويۇن

ئېلېكترونلۇق ئۆگىنىش

قولايلىق

IVR ۋە تېلېفون سىستېمىسى

ئىجتىمائىي تاراتقۇلار

تارقىتىش

بازارلاش

ئاۋاز قوشۇش ۋە جايلاشتۇرۇش

دىققەت قىلىش ۋە ساغلاملىق

بارلىق تېكىستتىن سۆزگە ئۆزگەرتىش مودېللىرى

Kokoro

Piper

VITS

MeloTTS

Bark

Bark Small

CosyVoice 2

Dia TTS

Parler TTS

GLM-TTS

IndexTTS-2

Spark TTS

GPT-SoVITS

Orpheus

Chatterbox

Tortoise TTS

StyleTTS 2

OpenVoice

Qwen3 TTS

Sesame CSM

Chatterbox Turbo

Zonos

Dia 2

VoxCPM

OuteTTS

TADA

VibeVoice

Pocket TTS

Kitten TTS

CosyVoice3

MOSS-TTS

MegaTTS3

Kokoro

Piper

VITS

MeloTTS

OuteTTS

Pocket TTS

Kitten TTS

Bark

Bark Small

CosyVoice 2

Dia TTS

Parler TTS

GLM-TTS

IndexTTS-2

Spark TTS

GPT-SoVITS

Orpheus

Qwen3 TTS

Chatterbox Turbo

Zonos

Dia 2

VoxCPM

TADA

VibeVoice