AI تېكىستتىن سۆزگە

24+ ئوچۇق مەنبەلىك AI مودېلىنى ئىشلىتىپ تېكىستنى تەبىئىي ئاۋازلىق سۆزگە ئايلاندۇرۇش پروگراممىسى. ھەقسىز ئىشلىتىشكە بولىدۇ، ھېسابات كېرەك ئەمەس.

قوشۇل 5000 ھەرپ چەكلىمىسى

توغرا كونترول قىلىش ئۈچۈن تېكىستنى SSML تېگلىرى ئىچىگە ئايلاندۇرۇش:

<speak><prosody rate="slow">Slow speech</prosody></speak>

يەتكۈزۈشكە تەسىر كۆرسىتىدىغان كەيپىيات بەلگىلىرىنى قوشۇش (مۇلازىمەتنىڭ قوللايدىغان نۇسخىسى ئوخشىمايدۇ):

خالىغان ئىپادىلەشنى بەلگىلەش (سۆز = ئىپادىلەش):

-12 +12
0.5x 2.0x
Piper، VITS، MeloTTS بىلەن ھەقسىز
Your generated audio will appear here. Choose a model, enter text, and click Generate.
ئاۋاز مۇۋەپپەقىيەتلىك ياسالدى
0:00 0:00
ئاۋازنى چۈشۈرۈش سەۋەب 24 سائەت ئىچىدە ئۆتىدۇ
TTS.ai ياقتۇرامسىز؟ دوستلىرىڭىزغا ئېيتىپ بېقىڭلار!

مودېل ئۇچۇرلىرى

Spark TTS

Spark TTS

Standard

Spark TTS by SparkAudio is a text-to-speech model that combines voice cloning with controllable emotion and speaking style. Using just 5 seconds of reference audio, it can clone a voice and then generate speech with different emotions, speeds, and styles while maintaining the cloned voice identity. Spark TTS uses a prompt-based control system.

ئىجاد قىلغۇچى: SparkAudio
ئىجازەتنامە: Apache 2.0
تېزلىك Medium
سۈپىتى:
تىللار 2 تىللار
VRAM 4GB
ئاۋازنى كۆچۈرۈش پروگراممىسى قوللىنىلىدۇ
خاسلىقلار:
Voice cloning Emotion control Style control Prompt-based 5-second cloning
ئەڭ ياخشىسى:: Content creation with cloned voices and emotional control

ياخشى نەتىجىلەر ئۈچۈن تەۋسىيەلەر

  • تەبىئىي توقۇنۇش ۋە ئىپادىلەش ئۈچۈن توغرا يازما بەلگىلەرنى ئىشلىتىش
  • سانلارنى ۋە قىسقارتمىلارنى ئېنىق ئوقۇش ئۈچۈن ئىملا قىلىش پروگراممىسى
  • سۆزلەر ئارىسىدا قىسقا توقۇنۇشلارنى پەيدا قىلىش ئۈچۈن ۋاراقلارنى قوشۇش پروگراممىسى
  • ئۇزۇن مەزگىللىك توقۇنۇش ئۈچۈن (...) نى ئىشلىتىڭ
  • ئەڭ تەبىئىي ئاۋاز ئۈچۈن Kokoro ياكى CosyVoice 2 نى سىناپ بېقىڭ
  • كۆپ ئاڭلىغۇچىلىق مۇنازىرە ۋە podcast مەزمۇنلىرى ئۈچۈن Dia نى ئىشلىتىش

قەرز ھەققى

ھايۋان ھەر بىر 1K ھەرپنىڭ باھاسى
بوش 0 كرېدىت (چەكلىمىسىز)
ئۆلچەملىك 2 نومۇر / 1K ھەرپ
ئالىي دەرىجىلىك 4 نومۇر / 1K ھەرپ

AI تېكىستتىن سۆزگە قانداق ئىشلەيدۇ

ئۈچ ئاددىي باسقۇچتا كەسپىي سۈپەتلىك ئاۋاز قوزغىتىش پروگراممىسى. تېخنىكىلىق بىلىملەر كېرەك ئەمەس.

قەدەم 1

تېكىستنى كىرگۈزۈڭ

سۆزلەشكە ئايلاندۇرۇشنى خالايدىغان تېكىستنى كىرگۈزۈش، يېزىپ قويۇش ياكى يۈكلەش. كىرگەن ئىشلەتكۈچىلەر بىر قېتىمدا 5000 ھەرپنى قوللايدۇ. تېكىستنى ئىشلىتىش ياكى SSML تېگلىرىنى قوشۇش ئارقىلىق سۆزلەش، توختىتىش ۋە ئېنىقلاشنى باشقۇرغىلى بولىدۇ.

قەدەم 2

مودېل ۋە ئاۋازنى تاللا

ئۈچ دەرىجىلىك 24+ AI مودېلىنى تاللاڭ. مەزمۇنىڭىزغا ماس كېلىدىغان ئاۋازنى تاللاڭ، نىشان تىلىڭىزنى تاللاڭ، قويۇش سۈرئىتىنى 0.5x تىن 2.0x گە تەڭشەڭ، خالىغان چىقىرىش پىچىمىنى (MP3، WAV، OGG ياكى FLAC) تاللاڭ.

قەدەم 3

ھاسىل قىلىش ۋە چۈشۈرۈش

ياساش نى چېكىپ ئاۋازىڭىز بىر نەچچە سېكۇنت ئىچىدە تەييار بولىدۇ. ئىچىدىكى قويغۇ بىلەن ئالدىن كۆرۈش، تاللىغان پىچىم بويىچە چۈشۈرۈش ياكى ھەمبەھىرلەشكە بولىدىغان تور بېتىدىن كۆچۈرۈش. بۇ API نى كۆپ قېتىملىق ئىشلەش ۋە ئىشلەش جەريانىڭىزغا بىرلەشتۈرۈش ئۈچۈن ئىشلىتىڭ.

تېكىستتىن سۆزگە ئۆزگەرتىش

ئەقلىي ئىدراك كۈچىگە ئىگە تېكستتىن سۆزگە ئۆزگىرىش كىشىلەرنىڭ نۇرغۇن سانائەت ساھەلىرىدە ئاۋازلىق مەزمۇنلارنى يارىتىش، ئىشلىتىش ۋە ئالاقە قىلىش ئۇسۇلىنى ئۆزگەرتىدۇ.

بارلىق تېكىستتىن سۆزگە ئۆزگەرتىش مودېللىرى

TTS.ai دىكى ھەر بىر AI مودېلىنىڭ تەپسىلىي خاسلىقلىرى. سىزنىڭ قۇرۇلۇشىڭىز ئۈچۈن ئەڭ مۇۋاپىق بولغان مودېلنى تېپىش ئۈچۈن سۈپەت، تېزلىك، تىل قوللىشى ۋە ئىقتىدارلارنى سېلىشتۇرۇڭ.

KokoroKokoro

Free

Kokoro 82 مىليون پارامېتىرلىق تېكىستتىن سۆزگە ئۆز دەرىجىسىدىن يۇقىرى ئۈنۈم بېرىدىغان پروگرامما. ئۇزۇنلۇقى كىچىك بولسىمۇ، ئەمما ئىنتايىن تەبىئىي ۋە ئىپادىلەشچان سۆزلەرنى ئىشلەپ چىقىرىدۇ. Kokoro ئىنگىلىزچە، ياپونچە، خەنزۇچە ۋە كورېيچە قاتارلىق نۇرغۇن تىللارنى قوللايدۇ ھەمدە ھەر خىل ئىپادىلەشچان ئاۋازلارنى قوللايدۇ. ئۇ ئىنتايىن تېز ئىشلەيدۇ - GPU دىكى ھەقىقىي ۋاقىتتىكىدىن 100 ھەسسە تېز ئاۋازلارنى ئىشلەپ چىقىرىدۇ.

ئىجاد قىلغۇچى::
Hexgrad
ئىجازەتنامە::
Apache 2.0
تېزلىك:
Fast
سۈپىتى::
تىللار:
en, ja, zh, ko, fr, de, it, pt, es, hi, ru
VRAM:
1.5GB
ئاۋازنى كۆچۈرۈش پروگراممىسى:
ئۇنداق ئەمەس
ھەر بىر 1K ھەرپنىڭ باھاسى:
بوش
82M پارامېتىرلار ئىنتايىن تېز ئىپادىلەش ئاۋازلىرى كۆپ تىللىق ئېقىم قوللايدىغان پروگرامما
ئەڭ ياخشىسى:: يۇقىرى سۈپەتلىك TTS، ئەڭ ئاز كېچىكتۈرگۈچ، سۈرەتكە ئېلىش پروگراممىسى

PiperPiper

Free

Piper Rhasspy تەرىپىدىن ياسالغان VITS ۋە larynx قۇرۇلمىسىنى ئىشلىتىدىغان يېنىك تېكىستتىن سۆزگە ئۆزگەرتكۈچ پروگرامما. ئۇ پۈتۈنلەي CPU نىڭ ئۈستىدە ئىشلەيدۇ، شۇڭا Edge ئۈسكۈنىلىرى، ئۆي ئاپتوماتىك سىستېمىسى ۋە توردىن سىرت TTS تەلەپ قىلىدىغان پروگراممىلارغا ماس كېلىدۇ. Piper 30 دىن ئارتۇق تىلدىكى 100 دىن ئارتۇق ئاۋاز بىلەن تەمىنلەيدۇ، Raspberry Pi 4 نىڭ ئۆزىدىمۇ تېز سۈرئەتتە تەبىئىي ئاۋازلىق سۆزلەشنى تەمىنلەيدۇ.

ئىجاد قىلغۇچى::
Rhasspy
ئىجازەتنامە::
MIT
تېزلىك:
Fast
سۈپىتى::
تىللار:
en, de, fr, es, it, pt, nl, pl, ru, zh, ja, ko, ar, cs, da, fi, el, hu, is, ka, kk, ne, no, ro, sk, sr, sv, sw, tr, uk, vi
VRAM:
0 (CPU only)
ئاۋازنى كۆچۈرۈش پروگراممىسى:
ئۇنداق ئەمەس
ھەر بىر 1K ھەرپنىڭ باھاسى:
بوش
CPU گە مۇۋاپىق توردىن يىراقلاشقان ھالەتتە ئىشلەيدۇ 100+ ئاۋاز 30 دىن ئارتۇق تىل SSML قوللاش
ئەڭ ياخشىسى:: تېز ئالدىن كۆزىتىش، قولايلىق ۋە كىرگۈزۈلگەن پروگرامما

VITSVITS

Free

VITS (ئاخىردىن ئاخىرغىچە تېكىستتىن سۆزگە ئۆزگىرىشچان ئىزاھلاش) ھازىرقى ئىككى باسقۇچلۇق مودېلغا قارىغاندا تېخىمۇ تەبىئىي ئاۋازنى پەيدا قىلىدىغان تەڭشەكلىك ئاخىردىن ئاخىرغىچە TTS ئۇسۇلىدۇر. ئۇ ئۆزگىرىشچان ئىزاھلاشنى نورماللاشتۇرۇش ئېقىمى ۋە ئۆزگىرىشچان تەربىيەلەش جەريانى بىلەن كۈچەيتىپ، تەبىئىيلىكنى زور دەرىجىدە ئاشۇرىدۇ.

ئىجاد قىلغۇچى::
Jaehyeon Kim et al.
ئىجازەتنامە::
MIT
تېزلىك:
Fast
سۈپىتى::
تىللار:
en, zh, ja, ko
VRAM:
1GB
ئاۋازنى كۆچۈرۈش پروگراممىسى:
ئۇنداق ئەمەس
ھەر بىر 1K ھەرپنىڭ باھاسى:
بوش
ئاخىرىدىن ئاخىرىغىچە بىرلەشتۈرۈش تەبىئىي سۆز ئۇسلۇبى تېز ئىزاھلاش بىر قانچە ئاڭلىغۇچى
ئەڭ ياخشىسى:: ئاددىي مەقسەتتىكى تېكىستتىن سۆزگە ئۆزگىرىش پروگراممىسى

MeloTTSMeloTTS

Free

MyShell.ai تەرىپىدىن ياسالغان MeloTTS ئىنگىلىزچە (ئامېرىكىلىق، بىرىتانىيەلىك، ھىندى، ئاۋسترالىيەلىك)، ئىسپانچە، فرانسۇزچە، خەنزۇچە، ياپونچە ۋە كورىيەچە تىللارنى قوللايدىغان كۆپ تىللىق TTS كىتابخانىسىدۇر. ئۇ ئىنتايىن تېز، پەقەت CPU نىڭ كۈچى بىلەن تېكىستنى رېئال ۋاقىتتىكى سۈرئەتتە ئىشلىتەلەيدۇ. MeloTTS ئىشلەپچىقىرىش ئۈچۈن ياسالغان بولۇپ CPU ۋە GPU نىڭ ھەممىسىنى قوللايدۇ.

ئىجاد قىلغۇچى::
MyShell.ai
ئىجازەتنامە::
MIT
تېزلىك:
Fast
سۈپىتى::
تىللار:
en, es, fr, zh, ja, ko
VRAM:
0.5GB (GPU optional)
ئاۋازنى كۆچۈرۈش پروگراممىسى:
ئۇنداق ئەمەس
ھەر بىر 1K ھەرپنىڭ باھاسى:
بوش
CPU ياخشىلانغان كۆپ تىللىق نۇرغۇن ئاكسىنلار ئىشلەشكە تەييار تۆۋەن كېچىكىش
ئەڭ ياخشىسى:: تېز، كۆپ تىللىق TTS تەلەپ قىلىدىغان ئىشلەپچىقىرىش پروگراممىسى

BarkBark

Standard

Suno تەرىپىدىن ياسالغان Bark تېكىستتىن ئاۋازغا ئۆزگەرتكۈچ بولۇپ، كۆپ تىللىق سۆزلەش ۋە مۇزىكا، ئارقا كۆرۈنۈش ئاۋازلىرى ۋە ئاۋاز ئۈنۈمى قاتارلىق باشقا ئاۋازلارنى ھاسىل قىلىشقا ياردەم بېرىدۇ. Bark 100 دىن ئارتۇق ئاۋازلىغۇچ ۋە 13 دىن ئارتۇق تىلنى قوللايدۇ.

ئىجاد قىلغۇچى::
Suno
ئىجازەتنامە::
MIT
تېزلىك:
Slow
سۈپىتى::
تىللار:
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
VRAM:
5GB
ئاۋازنى كۆچۈرۈش پروگراممىسى:
ئۇنداق ئەمەس
ھەر بىر 1K ھەرپنىڭ باھاسى:
2
ئاۋاز تەسىرلىرى كۈلۈش/ئاڭلاش مۇزىكا ياساش پروگراممىسى 100+ ئاڭلىغۇچى كۆپ تىللىق
ئەڭ ياخشىسى:: يارقىن ئاۋازلىق مەزمۇنلار، ھېسسىيات بىلەن ئاۋازلىق كىتابلار، ئاۋاز ئۈنۈملىرى

Bark SmallBark Small

Standard

Bark Small Bark مودېلىنىڭ بىر قىسىم ئاۋاز سۈپىتىنى تېخىمۇ تېز ئىزاھلاش سۈرئىتى ۋە ئېسىدە ساقلاش ئېھتىياجىنى تۆۋەنلىتىش ئۈچۈن ئۆزگەرتكەن نۇسخىسىدۇر. Bark نىڭ ھېسسىيات، خۇشاللىق ۋە كۆپ تىللىق سۆزلەش ئىقتىدارىنى ساقلاپ قالىدۇ.

ئىجاد قىلغۇچى::
Suno
ئىجازەتنامە::
MIT
تېزلىك:
Medium
سۈپىتى::
تىللار:
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
VRAM:
2GB
ئاۋازنى كۆچۈرۈش پروگراممىسى:
ئۇنداق ئەمەس
ھەر بىر 1K ھەرپنىڭ باھاسى:
2
يېنىك پۈتۈن قورساقتىن تېز ھېسسىياتلىق سۆز كۆپ تىللىق
ئەڭ ياخشىسى:: تولۇق Bark بەك ئاستا بولغاندا تېز ياساشلىق ئاۋاز

CosyVoice 2CosyVoice 2

Standard

Alibaba نىڭ Tongyi Lab تەرىپىدىن ياسالغان CosyVoice 2 ئادەم بىلەن سېلىشتۇرغىلى بولىدىغان سۆز سۈپىتىگە ئىگە بولۇپ، ئىنتايىن تۆۋەن كېچىكتۈرگۈچكە ئىگە، بۇ ئۇنى رېئال ۋاقىتتىكى پروگراممىلار ئۈچۈن ئەڭ مۇۋاپىق قىلىدۇ. ئۇ سۈرەتكە ئېلىش ئۈچۈن چەكلىك كۆلەملىك كۋانتلاش ئۇسۇلىنى قوللايدۇ ھەمدە ئاۋازنى زاۋۇتلاشنى قوللايدۇ، تىللار ئارىسىدىكى سېلىشتۇرۇشنى قوللايدۇ، ھەمدە ئىنچىكە ھېسسىيات كونترول قىلىشنى قوللايدۇ. ئۇ نۇرغۇن سودا TTS سىستېمىلىرىغا قارىغاندا ئۈنۈملۈكرەك.

ئىجاد قىلغۇچى::
Alibaba (Tongyi Lab)
ئىجازەتنامە::
Apache 2.0
تېزلىك:
Medium
سۈپىتى::
تىللار:
en, zh, ja, ko, fr, de, it, es
VRAM:
4GB
ئاۋازنى كۆچۈرۈش پروگراممىسى:
ھەئە
ھەر بىر 1K ھەرپنىڭ باھاسى:
2
تارقىتىش Zero-shot كلونلاش كۆپ تىللىق كەيپىياتنى كونترول قىلىش ئىنسان تەڭپۇڭلۇقى
ئەڭ ياخشىسى:: رېئال ۋاقىت پروگراممىسى، TTS سۈرئىتى، ئاۋاز ياردەمچىسى

Dia TTSDia TTS

Standard

Nari Labs تەرىپىدىن ياسالغان Dia 1.6B پارامېتىرلىق تېكىستتىن سۆزگە ئايلاندۇرۇش مودېلى بولۇپ، كۆپ ئاڭلىغۇچىلىق مۇنازىرە ھاسىل قىلىش ئۈچۈن ياسالغان. ئۇ ئىككى ئاڭلىغۇچىنىڭ مۇۋاپىق نۆۋەتلىشىش، سۆزلىشىش ئۇسۇلى ۋە ھېسسىيات ئىپادىلەش ئارقىلىق تەبىئىي ئاۋازلىق مۇنازىرە ھاسىل قىلىشىغا ياردەم بېرىدۇ. Dia podcast-style مەزمۇنلارنى، ئاۋازلىق كىتاب مۇنازىرىلىرىنى ۋە ئۆزئارا تەسىرلەندۈرگۈچ مۇنازىرە AI نى ھاسىل قىلىشقا ماس كېلىدۇ.

ئىجاد قىلغۇچى::
Nari Labs
ئىجازەتنامە::
Apache 2.0
تېزلىك:
Medium
سۈپىتى::
تىللار:
en
VRAM:
4GB
ئاۋازنى كۆچۈرۈش پروگراممىسى:
ئۇنداق ئەمەس
ھەر بىر 1K ھەرپنىڭ باھاسى:
2
كۆپ ئاۋازلىق دىئالوگلارنى ھاسىل قىلىش تەبىئىي تاللاش ھېسسىيات ئىپادىلەش پارامېتىرلار
ئەڭ ياخشىسى:: پودكاستى، ئاۋازلىق كىتاب دىئالوگى، سۆھبەت مەزمۇنى

Parler TTSParler TTS

Standard

Parler TTS تېكىستتىن سۆزگە ئۆزگەرتكۈچ(text-to-speech model) بولۇپ، ياسالغان سۆزنى كونترول قىلىش ئۈچۈن تەبىئىي تىلدىكى ئاۋاز چۈشەندۈرۈشلىرىنى ئىشلىتىدۇ. ئالدىن بەلگىلەنگەن ئاۋازلارنى تاللاشنىڭ ئورنىغا، سىز خالىغان ئاۋازنى چۈشەندۈرەلەيسىز(مەسىلەن، "بىر قىزنىڭ ئاۋازى، ئازراق ئىنگلىزچە ئاۋاز، ئاستا ۋە ئېنىق سۆزلەيدۇ")، Parler بۇ چۈشەندۈرۈشكە ماس كېلىدىغان سۆزنى ياسايدۇ. بۇ ئۇنى يارىتىش پروگراممىلىرى ئۈچۈن ئالاھىدە چىداملىق قىلىدۇ.

ئىجاد قىلغۇچى::
Hugging Face
ئىجازەتنامە::
Apache 2.0
تېزلىك:
Medium
سۈپىتى::
تىللار:
en
VRAM:
4GB
ئاۋازنى كۆچۈرۈش پروگراممىسى:
ئۇنداق ئەمەس
ھەر بىر 1K ھەرپنىڭ باھاسى:
2
ئاۋاز چۈشەندۈرۈشى تەبىئىي تىلنى باشقۇرۇش قولايلىق ئاۋاز قۇرۇش پروگراممىسى ئالدىن تەڭشەلگەن ئاۋازلار كېرەك ئەمەس
ئەڭ ياخشىسى:: ئۆزگىچە ئاۋاز خاسلىقىغا ئېھتىياجلىق ياساش پروگراممىسى

IndexTTS-2IndexTTS-2

Standard

IndexTTS-2 يۇقىرى دەرىجىلىك تېكىستتىن سۆزگە ئۆزگىرىش سىستېمىسى بولۇپ، ھېس-تۇيغۇلارنى كونترول قىلىش بىلەن ئاۋازنى بىرلەشتۈرۈش ئىقتىدارىغا ئىگە. بۇ سىستېما ھېس-تۇيغۇلارنى تەربىيەلەش سانلىق-مەلۇماتلىرىغا ئېھتىياجسىز ھالدا خۇشال، غەمكىن، غەزەپلەنگەن ياكى قورقۇنچلۇق قاتارلىق خاس ھېس-تۇيغۇلار بىلەن سۆزلەرنى ھاسىل قىلىدۇ. بۇ سىستېما ھاسىل قىلىنغان سۆزلەرنىڭ ھېس-تۇيغۇلىرىنى توغرا كونترول قىلىش ئۈچۈن ھېس-تۇيغۇ ۋەكتورلىرىنى ئىشلىتىدۇ.

ئىجاد قىلغۇچى::
Index Team
ئىجازەتنامە::
Apache 2.0
تېزلىك:
Medium
سۈپىتى::
تىللار:
en, zh
VRAM:
4GB
ئاۋازنى كۆچۈرۈش پروگراممىسى:
ھەئە
ھەر بىر 1K ھەرپنىڭ باھاسى:
2
كەيپىياتنى كونترول قىلىش Zero-shot ھېسسىيات ۋەكتورى ئىپادىلەش سۆزى چىرايلىق كونترول
ئەڭ ياخشىسى:: ھېسسىياتنى ئىپادىلەيدىغان مەزمۇنلار، ئاۋازلىق كىتابلار، مەۋھۇم ياردەمچىلەر

Spark TTSSpark TTS

Standard

Spark TTS SparkAudio تەرىپىدىن ياسالغان تېكىستتىن سۆزگە ئۆزگەرتكۈچ بولۇپ، ئاۋازنى كۆچۈرۈشنى باشقۇرغىلى بولىدىغان ھېسسىيات ۋە سۆزلەش ئۇسلۇبى بىلەن بىرلەشتۈرىدۇ. پەقەت 5 سېكۇنتلۇق ئاۋازنى ئىشلىتىپ، ئاۋازنى كۆچۈرۈپ، ھەر خىل ھېسسىيات، تېزلىك ۋە سۆزلەش ئۇسلۇبى بىلەن سۆزلەشنى ھاسىل قىلىشقا بولىدۇ. Spark TTS تەكلىپكە ئاساسلانغان كونترول سىستېمىسىنى ئىشلىتىدۇ.

ئىجاد قىلغۇچى::
SparkAudio
ئىجازەتنامە::
Apache 2.0
تېزلىك:
Medium
سۈپىتى::
تىللار:
en, zh
VRAM:
4GB
ئاۋازنى كۆچۈرۈش پروگراممىسى:
ھەئە
ھەر بىر 1K ھەرپنىڭ باھاسى:
2
ئاۋازنى كۆچۈرۈش پروگراممىسى كەيپىياتنى كونترول قىلىش ئۇسلۇب تىزگىنى سوئالغا ئاساسەن 5 سېكۇنتلۇق كۆچۈرۈش
ئەڭ ياخشىسى:: كۆچۈرۈلگەن ئاۋاز ۋە كەيپىياتنى كونترول قىلىش ئارقىلىق مەزمۇنلارنى يارىتىش پروگراممىسى

GPT-SoVITSGPT-SoVITS

Standard

GPT-SoVITS GPT-style language modeling بىلەن SoVITS (Singing Voice Inference via Translation and Synthesis) نى بىرلەشتۈرۈپ، كۈچلۈك voice clone قىلىش پروگراممىسىدۇر. 5 سېكۇنتتىن ئاز ۋاقىت ئىچىدە ئاۋازنى تەپسىلىي ھالدا كۆچۈرۈپ، سۆزلىگۈچىنىڭ ئالاھىدىلىكلىرىنى ساقلاپ، يېڭى سۆزلەرنى ھاسىل قىلىشقا بولىدۇ. بۇ پروگرامما سۆزلەش ۋە ناخشا ئېيتىش ئاۋازىنى بىرلەشتۈرۈش جەھەتتە ناھايىتى ئۈنۈملۈك.

ئىجاد قىلغۇچى::
RVC-Boss
ئىجازەتنامە::
MIT
تېزلىك:
Slow
سۈپىتى::
تىللار:
en, zh, ja, ko
VRAM:
6GB
ئاۋازنى كۆچۈرۈش پروگراممىسى:
ھەئە
ھەر بىر 1K ھەرپنىڭ باھاسى:
2
5 سېكۇنتلۇق كۆچۈرۈش ناخشا ئېيتىش ئاۋازى ئاز-شوتلۇق ئۆگىنىش يۇقىرى راستچىللىق كۆپ تىللىق
ئەڭ ياخشىسى:: ئاۋازنى كۆچۈرۈش، ناخشا ياساش، مەزمۇن ياراتقۇچىنىڭ ئاۋازىنى كۆچۈرۈش

OrpheusOrpheus

Standard

Orpheus ئىنسان دەرىجىلىك ھېسسىيات ئىپادىلەشنى قولغا كەلتۈرىدىغان چوڭ كۆلەملىك تېكىستتىن سۆزگە ئۆزگەرتىش مودېلى. 100،000 سائەتتىن ئارتۇق تۈرلۈك سۆز سانلىق-مەلۇماتىغا ئاساسەن تەربىيەلەنگەن، تەبىئىي ھېسسىيات، ئالاھىدىلىك ۋە سۆزلەش ئۇسلۇبىغا ئىگە سۆزلەرنى يارىتىشتا ئۈستۈنلۈككە ئىگە. Orpheus ئىنساننىڭ ئاۋازلىق خاتىرىسىدىن قەتئىي پەرقلەنمەيدىغان سۆزلەرنى يارىتىشقا قادىر.

ئىجاد قىلغۇچى::
Canopy Labs
ئىجازەتنامە::
Llama 3.2 Community
تېزلىك:
Medium
سۈپىتى::
تىللار:
en
VRAM:
4GB
ئاۋازنى كۆچۈرۈش پروگراممىسى:
ئۇنداق ئەمەس
ھەر بىر 1K ھەرپنىڭ باھاسى:
2
ئىنسان دەرىجىلىك ھېسسىيات 100K سائەت تەربىيەلەش تەبىئىي ئېنىقلاش ئىپادىلەش سۆزى
ئەڭ ياخشىسى:: يۇقىرى سۈپەتلىك ھېسسىياتلىق سۆزلەش، ئاۋازلىق كىتابلار، ئاۋاز ئويناش

ChatterboxChatterbox

Premium

Resemble AI تەرىپىدىن ياسالغان Chatterbox ئەڭ يېڭى تىپتىكى ئاۋازنى تۇنۇشتۇرۇش پروگراممىسىدۇر. بۇ پروگرامما بىرلا ئاۋاز نۇسخىسىدىن ھەرقانداق ئاۋازنى تۇنۇشتۇرالايدۇ، پەقەت ئاۋازنىلا ئەمەس، يەنە سۆزلەش ئۇسلۇبىنى ۋە ھېسسىياتنىمۇ تۇنۇشتۇرالايدۇ. Chatterbox يەنە ھېسسىياتنى كونترول قىلىش ئىقتىدارىغا ئىگە بولۇپ، ئاۋازنى تونۇشتۇرۇشتىن ئايرىلىپ تۇرۇپ، ھاسىل قىلىنغان سۆزنىڭ ھېسسىياتلىق ئاۋازىنى تەڭشەش ئىقتىدارىغا ئىگە.

ئىجاد قىلغۇچى::
Resemble AI
ئىجازەتنامە::
MIT
تېزلىك:
Medium
سۈپىتى::
تىللار:
en
VRAM:
4GB
ئاۋازنى كۆچۈرۈش پروگراممىسى:
ھەئە
ھەر بىر 1K ھەرپنىڭ باھاسى:
4
Zero-shot كلونلاش كەيپىياتنى كونترول قىلىش يۇقىرى راستچىللىق ئۇسلۇبنى يۆتكەش بىر قېتىملىق تەكشۈرۈشنى كۆچۈرۈش
ئەڭ ياخشىسى:: ھېسسىياتنى كونترول قىلىدىغان ۋە مەزمۇنلارنى يارىتىدىغان كەسپىي ئاۋازنى كۆچۈرۈش پروگراممىسى

Tortoise TTSTortoise TTS

Premium

Tortoise TTS ئۈننىڭ سۈپىتىنى تېزلىكتىن ئۈستۈن قويىدىغان كۆپ ئاۋازلىق تېكىستتىن سۆزلەش سىستېمىسىدۇر. بۇ سىستېما DALL-E تىن ئىلھام ئالغان قۇرۇلمىسىنى ئىشلىتىپ، ناھايىتى تەبىئىي ئاۋاز ۋە ئاڭلىغۇچىغا ئوخشايدىغان ئاۋازنى پەيدا قىلىدۇ. Tortoise نۇرغۇن ئالماشتۇرغۇچلارغا قارىغاندا تېزرەك بولسىمۇ، ئەمما ئېچىۋېتىلگەن مەنبەلىك ئېكولوگىيە سىستېمىسىدا ئەڭ راستچىل بولغان بىر قىسىم سىمۋوللۇق ئاۋازنى پەيدا قىلىدۇ.

ئىجاد قىلغۇچى::
James Betker
ئىجازەتنامە::
Apache 2.0
تېزلىك:
Slow
سۈپىتى::
تىللار:
en
VRAM:
8GB
ئاۋازنى كۆچۈرۈش پروگراممىسى:
ھەئە
ھەر بىر 1K ھەرپنىڭ باھاسى:
4
ئەڭ يۇقىرى سۈپەتلىك كۆپ ئاۋازلىق DALL-E قۇرۇلمىسى ئاۋازنى كۆچۈرۈش پروگراممىسى ئۆز-ئۆزىدىن قايتىش
ئەڭ ياخشىسى:: ئاۋازلىق كىتابلار، يۇقىرى سۈپەتلىك مەزمۇنلار، يۇقىرى سۈپەتلىك پروگرامما

StyleTTS 2StyleTTS 2

Premium

StyleTTS 2 چوڭ ئاۋاز تىلى مودېللىرىنى ئىشلىتىپ، ئاۋازنىڭ تارقىلىش ئۇسۇلى بىلەن قارشى تەرەپنىڭ تەربىيەلەش ئۇسۇلىنى بىرلەشتۈرۈپ، ئىنسان دەرىجىلىك TTS سىنىمىنى قولغا كەلتۈرىدۇ. ئۇ بىر ئاۋازلىق مودېللار ئىچىدە ئەڭ تەبىئىي ئاۋازلىق ئاۋازنى پەيدا قىلىدۇ. StyleTTS 2 ئاۋازنىڭ تارقىلىش ئۇسۇلىغا ئاساسەن ئاۋازنىڭ تەربىيەلەش ئۇسۇلىنى ئىشلىتىپ، ئىنسان ئاۋازىنىڭ بارلىق خىللىرىنى قولغا كەلتۈرىدۇ.

ئىجاد قىلغۇچى::
Columbia University
ئىجازەتنامە::
MIT
تېزلىك:
Medium
سۈپىتى::
تىللار:
en
VRAM:
4GB
ئاۋازنى كۆچۈرۈش پروگراممىسى:
ئۇنداق ئەمەس
ھەر بىر 1K ھەرپنىڭ باھاسى:
4
ئىنسان دەرىجىسى ئۇسلۇب تارقىتىش رىقابەتچىلىك تەلىم-تەربىيە تەبىئىي ئۆزگىرىش يۇقىرى راستچىللىق
ئەڭ ياخشىسى:: ستۇدىيو دەرىجىلىك بىر ئاۋازلىق بىرىكتۈرگۈچ، كەسپىي سۆزلەش

OpenVoiceOpenVoice

Premium

MyShell.ai تەرىپىدىن ياسالغان OpenVoice، ئاۋاز ئۇسلۇبى، ھېسسىيات، ئاۋاز كۈچەيتىش، رىتىم، توختىتىش ۋە ئىپادىلەش قاتارلىقلارنى تەپسىلىي كونترول قىلىپ، ئاۋازنى دەرھال كۆچۈرۈشكە ياردەم بېرىدۇ. ئۇ قىسقا ئاۋازنى كۆچۈرۈپ بىر قانچە تىلدا سۆزلەشكە ياردەم بېرىدۇ ھەمدە سۆزلىگۈچىنىڭ سۈپىتىنى ساقلايدۇ. OpenVoice يەنە ئاۋاز ئۆزگەرتكۈچ بولۇپ، راستىنلا ئاۋازنى ئۆزگەرتىشكە ياردەم بېرىدۇ.

ئىجاد قىلغۇچى::
MyShell.ai / MIT
ئىجازەتنامە::
MIT
تېزلىك:
Medium
سۈپىتى::
تىللار:
en, zh, ja, ko, fr, de, es, it
VRAM:
4GB
ئاۋازنى كۆچۈرۈش پروگراممىسى:
ھەئە
ھەر بىر 1K ھەرپنىڭ باھاسى:
4
دەرھال كۆچۈرۈش پروگراممىسى ئاۋاز ئايلاندۇرۇش پروگراممىسى كەيپىياتنى كونترول قىلىش ئاۋاز تەڭشىكى كۆپ تىللىق
ئەڭ ياخشىسى:: ئاۋازنى كۆچۈرۈش، ئاۋازنى ئۆزگەرتىش

Qwen3 TTSQwen3 TTS

Standard

Qwen3-TTS Alibaba نىڭ Qwen گۇرۇپپىسىنىڭ 1.7 مىليارد پارامېتىرلىق تېكىستتىن سۆزگە ئۆزگەرتىش مودېلى. ئۇ ئۈچ خىل ھالەتنى قوللايدۇ: ھېسسىيات كونتروللۇقى بىلەن ئالدىن تەڭشەلگەن ئاۋازلار (9 ئاۋازلىق)، ئاۋازنى پەقەت 3 سېكۇنتلۇق ئاۋازدىن قۇرۇپ چىقىش، ۋە سىز خالىغان ئاۋازنى تەبىئىي تىلدا چۈشەندۈرەلەيدىغان ئالاھىدە ئاۋاز لايىھەلەش ھالىتى. ئۇ 10 تىلنى يۇقىرى ئىپادىلەش ۋە تەبىئىي ئاۋازلىق بىلەن قوللايدۇ.

ئىجاد قىلغۇچى::
Alibaba (Qwen)
ئىجازەتنامە::
Apache 2.0
تېزلىك:
Medium
سۈپىتى::
تىللار:
en, zh, ja, ko, de, fr, ru, pt, es, it
VRAM:
7GB
ئاۋازنى كۆچۈرۈش پروگراممىسى:
ھەئە
ھەر بىر 1K ھەرپنىڭ باھاسى:
2
ئاۋازنى كۆچۈرۈش پروگراممىسى ئالدىن تەڭشەلگەن 9 ئاۋاز تېكىستتىن ئاۋاز ياساش پروگراممىسى كەيپىياتنى كونترول قىلىش تىللار
ئەڭ ياخشىسى:: كۆپ تىللىق مەزمۇن، ئاۋازنى كۆچۈرۈش ياكى ئۆزىڭىزنىڭ ئاۋازىنى ياساش پروگراممىسى

KokoroKokoro

بوش

Kokoro is an 82 million parameter text-to-speech model that punches well above its weight class. Despite its tiny size, it produces remarkably natural and expressive speech. Kokoro supports multiple languages including English, Japanese, Chinese, and Korean with a variety of expressive voices. It runs incredibly fast — generating audio nearly 100x faster than real-time on a GPU.

ئىجاد قىلغۇچى::
Hexgrad
ئىجازەتنامە::
Apache 2.0
تېزلىك:
Fast
سۈپىتى::
تىللار: en, ja, zh, ko, fr, de, it, pt, es, hi, ru
ئەڭ ياخشىسى:: High-quality TTS with minimal latency, streaming applications

PiperPiper

بوش

Piper is a lightweight text-to-speech engine developed by Rhasspy that uses VITS and larynx architectures. It runs entirely on CPU, making it ideal for edge devices, home automation, and applications requiring offline TTS. With over 100 voices across 30+ languages, Piper delivers natural-sounding speech at real-time speeds even on a Raspberry Pi 4.

ئىجاد قىلغۇچى::
Rhasspy
ئىجازەتنامە::
MIT
تېزلىك:
Fast
سۈپىتى::
تىللار: en, de, fr, es, it, pt, nl, pl, ru, zh, ja, ko, ar, cs, da, fi, el, hu, is, ka, kk, ne, no, ro, sk, sr, sv, sw, tr, uk, vi
ئەڭ ياخشىسى:: Quick previews, accessibility, and embedded applications

VITSVITS

بوش

VITS (Variational Inference with adversarial learning for end-to-end Text-to-Speech) is a parallel end-to-end TTS method that generates more natural sounding audio than current two-stage models. It adopts variational inference augmented with normalizing flows and an adversarial training process, achieving a significant improvement in naturalness.

ئىجاد قىلغۇچى::
Jaehyeon Kim et al.
ئىجازەتنامە::
MIT
تېزلىك:
Fast
سۈپىتى::
تىللار: en, zh, ja, ko
ئەڭ ياخشىسى:: General-purpose text-to-speech with natural prosody

MeloTTSMeloTTS

بوش

MeloTTS by MyShell.ai is a multilingual TTS library supporting English (American, British, Indian, Australian), Spanish, French, Chinese, Japanese, and Korean. It is extremely fast, processing text at near real-time speed on CPU alone. MeloTTS is designed for production use and supports both CPU and GPU inference.

ئىجاد قىلغۇچى::
MyShell.ai
ئىجازەتنامە::
MIT
تېزلىك:
Fast
سۈپىتى::
تىللار: en, es, fr, zh, ja, ko
ئەڭ ياخشىسى:: Production applications needing fast, multilingual TTS

BarkBark

ئۆلچەملىك

Bark by Suno is a transformer-based text-to-audio model that can generate highly realistic, multilingual speech as well as other audio like music, background noise, and sound effects. It can produce nonverbal communications like laughing, sighing, and crying. Bark supports over 100 speaker presets and 13+ languages.

ئىجاد قىلغۇچى::
Suno
ئىجازەتنامە::
MIT
تېزلىك:
Slow
سۈپىتى::
تىللار:
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
ئاۋازنى كۆچۈرۈش پروگراممىسى:
ئۇنداق ئەمەس
Sound effectsLaughing/sighingMusic generation100+ speakersMultilingual
ئەڭ ياخشىسى:: Creative audio content, audiobooks with emotion, sound effects

Bark SmallBark Small

ئۆلچەملىك

Bark Small is a distilled version of the Bark model that trades some audio quality for significantly faster inference speeds and lower memory requirements. It retains Bark's ability to generate speech with emotions, laughter, and multiple languages.

ئىجاد قىلغۇچى::
Suno
ئىجازەتنامە::
MIT
تېزلىك:
Medium
سۈپىتى::
تىللار:
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
ئاۋازنى كۆچۈرۈش پروگراممىسى:
ئۇنداق ئەمەس
LightweightFaster than full BarkEmotional speechMultilingual
ئەڭ ياخشىسى:: Quick creative audio when full Bark is too slow

CosyVoice 2CosyVoice 2

ئۆلچەملىك

CosyVoice 2 by Alibaba's Tongyi Lab achieves human-comparable speech quality with extremely low latency, making it ideal for real-time applications. It uses a finite scalar quantization approach for streaming synthesis and supports zero-shot voice cloning, cross-lingual synthesis, and fine-grained emotion control. It outperforms many commercial TTS systems in subjective evaluations.

ئىجاد قىلغۇچى::
Alibaba (Tongyi Lab)
ئىجازەتنامە::
Apache 2.0
تېزلىك:
Medium
سۈپىتى::
تىللار:
en, zh, ja, ko, fr, de, it, es
ئاۋازنى كۆچۈرۈش پروگراممىسى:
ھەئە
StreamingZero-shot cloningCross-lingualEmotion controlHuman-parity
ئەڭ ياخشىسى:: Real-time applications, streaming TTS, voice assistants

Dia TTSDia TTS

ئۆلچەملىك

Dia by Nari Labs is a 1.6B parameter text-to-speech model designed specifically for generating multi-speaker dialogue. It can produce natural-sounding conversations between two speakers with appropriate turn-taking, prosody, and emotional expression. Dia is perfect for creating podcast-style content, audiobook dialogues, and interactive conversational AI.

ئىجاد قىلغۇچى::
Nari Labs
ئىجازەتنامە::
Apache 2.0
تېزلىك:
Medium
سۈپىتى::
تىللار:
en
ئاۋازنى كۆچۈرۈش پروگراممىسى:
ئۇنداق ئەمەس
Multi-speakerDialog generationNatural turn-takingEmotional expression1.6B parameters
ئەڭ ياخشىسى:: Podcasts, audiobook dialogues, conversational content

Parler TTSParler TTS

ئۆلچەملىك

Parler TTS is a text-to-speech model that uses natural language voice descriptions to control the generated speech. Instead of selecting from preset voices, you describe the voice you want (e.g., "a warm female voice with a slight British accent, speaking slowly and clearly") and Parler generates speech matching that description. This makes it uniquely flexible for creative applications.

ئىجاد قىلغۇچى::
Hugging Face
ئىجازەتنامە::
Apache 2.0
تېزلىك:
Medium
سۈپىتى::
تىللار:
en
ئاۋازنى كۆچۈرۈش پروگراممىسى:
ئۇنداق ئەمەس
Voice descriptionNatural language controlFlexible voice creationNo preset voices needed
ئەڭ ياخشىسى:: Creative applications where you need custom voice characteristics

IndexTTS-2IndexTTS-2

ئۆلچەملىك

IndexTTS-2 is an advanced text-to-speech system that excels at zero-shot voice synthesis with fine-grained emotion control. It can generate speech with specific emotional tones like happy, sad, angry, or fearful without requiring emotion-specific training data. The model uses emotion vectors to precisely control the emotional expression of generated speech.

ئىجاد قىلغۇچى::
Index Team
ئىجازەتنامە::
Apache 2.0
تېزلىك:
Medium
سۈپىتى::
تىللار:
en, zh
ئاۋازنى كۆچۈرۈش پروگراممىسى:
ھەئە
Emotion controlZero-shotEmotion vectorsExpressive speechFine-grained control
ئەڭ ياخشىسى:: Emotionally expressive content, audiobooks, virtual assistants

Spark TTSSpark TTS

ئۆلچەملىك

Spark TTS by SparkAudio is a text-to-speech model that combines voice cloning with controllable emotion and speaking style. Using just 5 seconds of reference audio, it can clone a voice and then generate speech with different emotions, speeds, and styles while maintaining the cloned voice identity. Spark TTS uses a prompt-based control system.

ئىجاد قىلغۇچى::
SparkAudio
ئىجازەتنامە::
Apache 2.0
تېزلىك:
Medium
سۈپىتى::
تىللار:
en, zh
ئاۋازنى كۆچۈرۈش پروگراممىسى:
ھەئە
Voice cloningEmotion controlStyle controlPrompt-based5-second cloning
ئەڭ ياخشىسى:: Content creation with cloned voices and emotional control

GPT-SoVITSGPT-SoVITS

ئۆلچەملىك

GPT-SoVITS combines GPT-style language modeling with SoVITS (Singing Voice Inference via Translation and Synthesis) for powerful few-shot voice cloning. With as little as 5 seconds of reference audio, it can accurately clone a voice and generate new speech while preserving the speaker's unique characteristics. It excels at both speaking and singing voice synthesis.

ئىجاد قىلغۇچى::
RVC-Boss
ئىجازەتنامە::
MIT
تېزلىك:
Slow
سۈپىتى::
تىللار:
en, zh, ja, ko
ئاۋازنى كۆچۈرۈش پروگراممىسى:
ھەئە
5-second cloningSinging voiceFew-shot learningHigh fidelityCross-lingual
ئەڭ ياخشىسى:: Voice cloning, singing synthesis, content creator voice replication

OrpheusOrpheus

ئۆلچەملىك

Orpheus is a large-scale text-to-speech model that achieves human-level emotional expression. Trained on over 100,000 hours of diverse speech data, it excels at generating speech with natural emotions, emphasis, and speaking styles. Orpheus can produce speech that is virtually indistinguishable from human recordings.

ئىجاد قىلغۇچى::
Canopy Labs
ئىجازەتنامە::
Llama 3.2 Community
تېزلىك:
Medium
سۈپىتى::
تىللار:
en
ئاۋازنى كۆچۈرۈش پروگراممىسى:
ئۇنداق ئەمەس
Human-level emotion100K hours trainingNatural emphasisExpressive speech
ئەڭ ياخشىسى:: High-quality emotional speech, audiobooks, voice acting

Qwen3 TTSQwen3 TTS

ئۆلچەملىك

Qwen3-TTS is a 1.7 billion parameter text-to-speech model from Alibaba's Qwen team. It supports three modes: preset voices with emotion control (9 speakers), voice cloning from just 3 seconds of audio, and a unique voice design mode where you describe the voice you want in natural language. It covers 10 languages with high expressiveness and natural prosody.

ئىجاد قىلغۇچى::
Alibaba (Qwen)
ئىجازەتنامە::
Apache 2.0
تېزلىك:
Medium
سۈپىتى::
تىللار:
en, zh, ja, ko, de, fr, ru, pt, es, it
ئاۋازنى كۆچۈرۈش پروگراممىسى:
ھەئە
Voice cloning9 preset voicesVoice design from textEmotion control10 languages
ئەڭ ياخشىسى:: Multilingual content with voice cloning or custom voice design

ChatterboxChatterbox

ئالىي دەرىجىلىك

Chatterbox by Resemble AI is a cutting-edge zero-shot voice cloning model. It can replicate any voice from a single audio sample with remarkable accuracy, capturing not just the timbre but also the speaking style and emotional nuances. Chatterbox also features fine-grained emotion control, allowing you to adjust the emotional tone of the generated speech independently from the voice identity.

ئىجاد قىلغۇچى::
Resemble AI
ئىجازەتنامە::
MIT
تېزلىك:
Medium
سۈپىتى::
تىللار:
en
ئاۋازنى كۆچۈرۈش پروگراممىسى:
ھەئە
VRAM:
4GB
ھەر بىر 1K ھەرپنىڭ باھاسى:
4
Zero-shot cloningEmotion controlHigh fidelityStyle transferSingle sample cloning
ئەڭ ياخشىسى:: Professional voice cloning with emotional control, content creation

Tortoise TTSTortoise TTS

ئالىي دەرىجىلىك

Tortoise TTS is an autoregressive multi-voice text-to-speech system that prioritizes audio quality over speed. It uses DALL-E-inspired architecture to generate highly natural speech with excellent prosody and speaker similarity. While slower than many alternatives, Tortoise produces some of the most realistic synthetic speech available in the open-source ecosystem.

ئىجاد قىلغۇچى::
James Betker
ئىجازەتنامە::
Apache 2.0
تېزلىك:
Slow
سۈپىتى::
تىللار:
en
ئاۋازنى كۆچۈرۈش پروگراممىسى:
ھەئە
VRAM:
8GB
ھەر بىر 1K ھەرپنىڭ باھاسى:
4
Highest qualityMulti-voiceDALL-E architectureVoice cloningAutoregressive
ئەڭ ياخشىسى:: Audiobooks, premium content, quality-first applications

StyleTTS 2StyleTTS 2

ئالىي دەرىجىلىك

StyleTTS 2 achieves human-level TTS synthesis by combining style diffusion with adversarial training using large speech language models. It generates the most natural sounding speech among single-speaker models, rivaling human recordings. StyleTTS 2 uses diffusion-based style modeling to capture the full range of human speech variation.

ئىجاد قىلغۇچى::
Columbia University
ئىجازەتنامە::
MIT
تېزلىك:
Medium
سۈپىتى::
تىللار:
en
ئاۋازنى كۆچۈرۈش پروگراممىسى:
ئۇنداق ئەمەس
VRAM:
4GB
ھەر بىر 1K ھەرپنىڭ باھاسى:
4
Human-levelStyle diffusionAdversarial trainingNatural variationHigh fidelity
ئەڭ ياخشىسى:: Studio-quality single-speaker synthesis, professional narration

OpenVoiceOpenVoice

ئالىي دەرىجىلىك

OpenVoice by MyShell.ai enables instant voice cloning with granular control over voice style, emotion, accent, rhythm, pauses, and intonation. It can clone a voice from a short audio clip and generate speech in multiple languages while maintaining the speaker identity. OpenVoice also functions as a voice converter, allowing real-time voice transformation.

ئىجاد قىلغۇچى::
MyShell.ai / MIT
ئىجازەتنامە::
MIT
تېزلىك:
Medium
سۈپىتى::
تىللار:
en, zh, ja, ko, fr, de, es, it
ئاۋازنى كۆچۈرۈش پروگراممىسى:
ھەئە
VRAM:
4GB
ھەر بىر 1K ھەرپنىڭ باھاسى:
4
Instant cloningVoice conversionEmotion controlAccent controlMultilingual
ئەڭ ياخشىسى:: Voice cloning with fine-grained style control, voice conversion

مودېل سېلىشتۇرۇش جەدۋىلى

مودېل ئىجاد قىلغۇچى: ھايۋان سۈپىتى: تېزلىك تىللار ئاۋازنى كۆچۈرۈش پروگراممىسى VRAM ئىجازەتنامە: پۇل
Kokoro Hexgrad Free Fast 11 1.5GB Apache 2.0 بوش ئىشلىتىش
Piper Rhasspy Free Fast 31 0 (CPU only) MIT بوش ئىشلىتىش
VITS Jaehyeon Kim et al. Free Fast 4 1GB MIT بوش ئىشلىتىش
MeloTTS MyShell.ai Free Fast 6 0.5GB (GPU optional) MIT بوش ئىشلىتىش
Bark Suno Standard Slow 13 5GB MIT 2 ئىشلىتىش
Bark Small Suno Standard Medium 13 2GB MIT 2 ئىشلىتىش
CosyVoice 2 Alibaba (Tongyi Lab) Standard Medium 8 4GB Apache 2.0 2 ئىشلىتىش
Dia TTS Nari Labs Standard Medium 1 4GB Apache 2.0 2 ئىشلىتىش
Parler TTS Hugging Face Standard Medium 1 4GB Apache 2.0 2 ئىشلىتىش
IndexTTS-2 Index Team Standard Medium 2 4GB Apache 2.0 2 ئىشلىتىش
Spark TTS SparkAudio Standard Medium 2 4GB Apache 2.0 2 ئىشلىتىش
GPT-SoVITS RVC-Boss Standard Slow 4 6GB MIT 2 ئىشلىتىش
Orpheus Canopy Labs Standard Medium 1 4GB Llama 3.2 Community 2 ئىشلىتىش
Chatterbox Resemble AI Premium Medium 1 4GB MIT 4 ئىشلىتىش
Tortoise TTS James Betker Premium Slow 1 8GB Apache 2.0 4 ئىشلىتىش
StyleTTS 2 Columbia University Premium Medium 1 4GB MIT 4 ئىشلىتىش
OpenVoice MyShell.ai / MIT Premium Medium 8 4GB MIT 4 ئىشلىتىش
Qwen3 TTS Alibaba (Qwen) Standard Medium 10 7GB Apache 2.0 2 ئىشلىتىش

ئەڭ كەڭ كۆلەملىك AI تېكىستتىن سۆزگە ئۆزگەرتىش پروگراممىسى

تېكىستتىن سۆزگە ئۆزگەرتىش ئۈچۈن نېمە ئۈچۈن TTS.ai نى تاللاش كېرەك؟

TTS.ai دۇنيانى بىرلەشتۈرىدۇ

ھەر بىر مودېل MIT، Apache 2.0 ياكى شۇنىڭغا ئوخشاش ئىجازەت بېرىش ئىجازىتى بويىچە ئوچۇق مەنبەلىك بولۇپ، سىزنىڭ قۇرۇلۇشىڭىزدا ياسالغان ئاۋازنى ئىشلىتىش ئۈچۈن پۈتۈن تىجارىي ھوقۇقىڭىز بارلىقىنى كاپالەتكە ئىگە قىلىدۇ. سىز ھەقىقىي ۋاقىتتىكى پروگراممىلار ئۈچۈن تېز، يېنىك بىرلەشتۈرگۈچ ياكى ئاۋازلىق كىتابلار ۋە پودكاستلار ئۈچۈن يۇقىرى سۈپەتلىك بىرلەشتۈرگۈچكە ئېھتىياجلىق بولسىڭىزمۇ، TTS.ai ھەر قانداق ئىشلىتىش ئەھۋالى ئۈچۈن توغرا بىرلەشتۈرگۈچكە ئىگە.

ھەقسىز مودىللار، ھېسابات تەلەپ قىلىنمايدۇ

تۆۋەندىكى ئۈچ ھەقسىز TTS مودېلىنى ئىشلىتىشكە باشلايسىز: Piper (ئۇلار ئىنتايىن تېز، يېنىك)، VITS (ئۈچۈن يۇقىرى سۈپەتلىك نېرۋا بىرىكتۈرگۈچ) ۋە MeloTTS (ئۈچ خىل تىلنى قوللايدۇ). ھېچقانداق تىزىملاش، ھېچقانداق كرېدىت كارتىسى، ھېچقانداق چەكلىمىلەر يوق. ھەقسىز TTS مودېلى ئىنگىلىزچە ۋە باشقا نۇرغۇن تىللارنى قوللايدۇ، نۇرغۇن پروگراممىلارغا لايىق بولغان تەبىئىي ئاۋازلىق چىقىرىشقا ئىگە.

GPU تېزلىتىپ ئىشلەتكۈچىسى

TTS نىڭ ھەممىسى NVIDIA نىڭ GPU لىرىدا ئىشلەيدۇ، شۇڭا تېز ۋە مۇۋاپىق ئۈن چىقىرىدۇ. ھەقسىز TTS نىڭ ئۈن چىقىرىش ۋاقتى ئادەتتە 2 سېكۇنتتىن ئاز بولىدۇ. Kokoro، CosyVoice 2 ۋە Bark نىڭ ئۈن چىقىرىش ۋاقتى ئوتتۇرىچە 3-5 سېكۇنت بولىدۇ. Tortoise ۋە Chatterbox نىڭ ئۈن چىقىرىش ۋاقتى تېكىست ئۇزۇنلۇقىغا قاراپ 5-15 سېكۇنت بولىدۇ.

30 دىن ئارتۇق تىلنى قوللايدۇ

ئىنگىلىزچە، ئىسپانچە، فرانسۇزچە، گېرمانچە، ئىتالىيەچە، پورتۇگالچە، خەنزۇچە، ياپونچە، كورىيەچە، ئەرەبچە، ھىندىچە، رۇسچە ۋە باشقا 30 دىن ئارتۇق تىلدا سۆزلەرنى ياساش پروگراممىسى. نۇرغۇن پروگراممىلار تىللار ئارىسىدىكى بىرلەشتۈرۈش ئىقتىدارىنى قوللايدۇ، بۇ دېگەنلىك تىللار ئارىسىدىكى بىرلەشتۈرۈش ئىقتىدارىغا ئىگە پروگراممىلارنى ياساش پروگراممىسى. CosyVoice 2 ۋە GPT-SoVITS تىللار ئارىسىدىكى سۆزلەرنى ياساش پروگراممىسى.

ئىجادىيەتچىلەرگە لايىق API

OpenAI بىلەن ماس كېلىدىغان REST API ئارقىلىق TTS.ai نى پروگراممىلىرىڭىزغا بىرلەشتۈرۈڭ. 24+ تىپتىكى بارلىق پروگراممىلار ئۈچۈن بىرلا ئاخىرلاشتۇرۇش نۇقتىسى. Python، JavaScript، cURL ۋە Go SDK. رېئال ۋاقىتتىكى پروگراممىلار ئۈچۈن سۈرەتكە ئېلىش قوللايدۇ. چوڭ مىقداردىكى مەزمۇنلارنى ياساش ئۈچۈن توپلاش ئۇسۇلىنى قوللايدۇ. async خەۋەرلىشىش ئۈچۈن Webhooks. Pro ۋە Enterprise پروگراممىلىرىدا قوللىنىلىدۇ.

كۆپ سورالغان سوئاللار

تېكىستتىن سۆزگە (TTS) يېزىلغان تېكىستنى تەبىئىي ئاۋازغا ئايلاندۇرىدىغان AI تېخنىكىسىدۇر. Kokoro، Chatterbox ۋە CosyVoice 2 دەك زامانىۋى نەيرونلۇق TTS مودېللىرى تەبىئىي ئاۋاز، ھېسسىيات ۋە رىتىم بىلەن ئادەمگە ئوخشاپ كېتىدىغان سۆزلەرنى چىقىرىش ئۈچۈن چوڭقۇر ئۆگىنىشنى ئىشلىتىدۇ.

بۇ سىزنىڭ ئېھتىياجىڭىزغا باغلىق. تېز ئالدىن كۆزىتىش ئۈچۈن Piper ياكى MeloTTS (ئەركىن، تېز) نى ئىشلىتىڭ. يۇقىرى سۈپەتلىك بولۇش ئۈچۈن Kokoro ياكى CosyVoice 2 (ستاندارت دەرىجىلىك) نى ئىشلىتىڭ. ئاۋازنى كۆچۈرۈش ئۈچۈن Chatterbox ياكى GPT-SoVITS (باھالىق) نى ئىشلىتىڭ. مۇنازىرە/پودكاست مەزمۇنلىرى ئۈچۈن Dia TTS نى ئىشلىتىڭ. ھەر بىر مودېلنىڭ ئوخشىمىغان كۈچى بار — ئەڭ ياخشىسىنى تېپىپ چىقىش ئۈچۈن تەجرىبە قىلىڭ.

ئۇنداق ئەمەس! TTS.ai Kokoro، Piper، VITS ۋە MeloTTS نىڭ تېكىستتىن سۆزگە ئۆزگەرتىش پروگراممىسىنى ھەقسىز تەمىنلەيدۇ. 500 ھەرپ ۋە ھەر سائەتتە 3 نەشىر ئۈچۈن ھېسابات ئېچىش كېرەك ئەمەس. ھەقسىز ھېسابات ئېچىش ئارقىلىق 50 كرېدىت ئېلىپ، بارلىق پروگراممىغا ئېرىشەلەيسىز.

بىزنىڭ TTS مودېللىرىمىز جەمئىي 30 دىن ئارتۇق تىلنى قوللايدۇ، بۇنىڭ ئىچىدە ئىنگىلىزچە، ئىسپانچە، فرانسۇزچە، ئالمانچە، ئىتالىيەچە، پورتۇگالچە، خەنزۇچە، ياپونچە، كورىيەچە، ئەرەبچە، رۇسچە، ھىندىچە ۋە باشقا نۇرغۇن تىللار بار.

ئۇنداق، TTS.ai ئارقىلىق ھاسىل قىلىنغان ئاۋازنى تىجارەت ئۈچۈن ئىشلىتىشكە بولىدۇ. بىزنىڭ بارلىق مودېللىرىمىز ئوچۇق مەنبەلىك ئىجازەتنامە (MIT، Apache 2.0) نى ئىشلىتىدۇ. ھەر بىر مودېلنىڭ ئىجازەتنامىسىنى تەكشۈرۈپ بېقىشىڭىزنى تەۋسىيە قىلىمىز. سىزنىڭ لايىھەڭىزدە ئىشلىتىدىغان مۇشۇ مودېلنىڭ ئىجازەتنامىسىنى تەكشۈرۈپ بېقىشىڭىزنى تەۋسىيە قىلىمىز.

TTS.ai MP3، WAV، OGG ۋە FLAC چىقىرىش پىچىملىرىنى قوللايدۇ. MP3 توردا قويۇش ئۈچۈن كۆڭۈلدىكىدەك پىچىمدۇر. ئاۋازنى داۋاملىق ئىشلەش ئۈچۈن WAV نى ئىشلىتىشنى تەۋسىيە قىلىمىز. ئاۋاز ئايلاندۇرغۇچ قورالى ئارقىلىق پىچىملارنى ئايلاندۇرغىلى بولىدۇ.

ئاۋازنى كۆچۈرۈش ئادەتتە 5-30 سېكۇنت داۋام قىلىدىغان قىسقا ئاۋاز نۇسخىسىدىن ئالاھىدە ئاۋازنى كۆچۈرۈش ئۈچۈن AI نى ئىشلىتىدۇ. مەقسەت قىلغان ئاۋازنى ئېلان قىلسىڭىز، Chatterbox، GPT-SoVITS ياكى OpenVoice قاتارلىق پروگراممىلار بۇ ئاۋازدا يېڭى ئاۋازنى ھاسىل قىلىدۇ. ئاۋازنىڭ سۈپىتى تېخىمۇ ياخشى بولىدۇ.

ھەقسىز ئىشلەتكۈچىلەر بىر قېتىملىق تەلەپتە 500 ھەرپ تولدۇرۇشقا بولىدۇ. تىزىملىتىلغان ئىشلەتكۈچىلەر بىر قېتىملىق تەلەپتە 5000 ھەرپ تولدۇرۇشقا بولىدۇ. ئۇزۇن مەزمۇنلار ئۈچۈن، ئاۋاز قىسقا قىسىملارغا بۆلۈنۈپ ئۆزلۈكىدىن بىرلەشتۈرۈلىدۇ. API ئىشلەتكۈچىلىرى بىر قېتىملىق تەلەپتە 10000 ھەرپ تولدۇرۇشقا بولىدۇ.

SSML (Speech Synthesis Markup Language) نى قوللايدۇ. Piper ۋە باشقا بىر قىسىم تىپلار توختاشنى، تەكىتلەشنى ۋە سۆزلەشنى كونترول قىلىش ئۈچۈن ئاساسىي SSML تېگلىرىنى قوللايدۇ. SSML نى قوللىمىغان تىپلار ئۈچۈن، تەبىئىي نۇقتا قويۇش ۋە سۈرەتنى ئايرىشنى ئىشلىتىپ سۆزلىشىشكە تەسىر يەتكۈزەلەيسىز.

ئۇنداق ئەمەس، نۇرغۇن مودېللار 0.5x دىن 2.0x گە قەدەر تېزلىك تەڭشەشنى قوللايدۇ. Bark ۋە Parler دەك بىر قىسىم مودېللار يەنە تېزلىك ۋە ئۇسلۇب تەڭشەشنى قوللايدۇ. تېزلىك پارامېتىرلىرىنى ئالىي تەڭشەش كۆزنىكى ياكى API تېزلىك پارامېتىرلىرى ئارقىلىق تەڭشەيسىز.

ئۇنداق، بىزنىڭ API مىز ئارقىلىق كۆپ قېتىملىق تەھرىرلەش قوللىنىلىدۇ. بىر قېتىملىق API چاقىرىقى ياكى سىزىقچە ئارقىلىق كۆپ قېتىملىق تېكىست قىسىملىرىنى تەھرىرلىيالايسىز، ھەر بىر قىسىم تەھرىرلىنىپ ئايرىم ئاۋاز ھۆججىتى سۈپىتىدە قايتۇرۇلىدۇ. بۇ ئاۋازلىق كىتاب قىسىملىرى، ئېلېكترونلۇق ئۆگىنىش مودۇللىرى ياكى ئويۇن مۇنازىرە سىزىقچىلىرى ئۈچۈن ئەڭ ياخشى.

ھېساباتىڭىزدىن API ئاچقۇچىنى ھاسىل قىلىڭ، ئاندىن تېكىست، مودېل ۋە ئاۋاز پارامېتىرلىرى بىلەن REST API ئاخىرقى نۇقتىسىغا POST تەلەپلىرىنى ئەۋەتىڭ. Python، JavaScript ۋە cURL دىكى كود مىساللىرىنى تەمىنلەيمىز. API OpenAI بىلەن ماس كېلىدۇ، شۇڭا ھازىرقى بىرلەشتۈرۈشلەر ئازراق ئۆزگىرىش بىلەن ئىشلەيدۇ.
5.0/5 (1)

تېكىستنى سۆزگە ئايلاندۇرۇشنى ھازىرلا باشلاش

TTS.ai نى ئىشلىتىپ مىڭلارچە ياراتقۇچىغا قوشۇلۇڭ. يېڭى ھېسابات ئېچىپ 50 ھەقسىز كرېدىت ئالغىن. ھەقسىز مودېللار قوشۇلمىغاندا ئىشلىتىشكە بولىدۇ.