AI Text to Speech

Açıq mənbəli AI modelləri ilə mətni təbii səsli danışmaya çevir. İstifadəsi pulsuzdur, hesab tələb olunmur.

Sizin dilində hələlik TTS səsləri yoxdur. Bizə öz səslərinizi əlavə etməyə kömək edin! Səsini Sat
Qeyd Et 5,000 karakter həddi

Düzgün idarə üçün mətninizi SSML lentlərinə sarılın:

<speak><prosody rate="slow">Slow speech</prosody></speak>

Göndərməyə təsir etmək üçün emosiya işarələrini əlavə et (model dəstəyi dəyişir):

Özəl səsləndirmələri təsvir et (söz = səsləndirmə):

-12 +12
0.5x 2.0x
Piper, VITS, MeloTTS ilə pulsuz
Yaratdığınız səs burada görünəcək. Bir model seçin, mətni daxil edin və Yarat düyməsini basın.
Audio müvəffəqiyyətlə yaradıldı
0:00 0:00
Audio endirilsin Körpünün müddəti 24 saat ərzində başa çatır
TTS.ai xoşunuza gəldi? Dostlarınıza deyin!

Model Məlumatları

Kitten TTS

Kitten TTS

Free

Kitten TTS by KittenML is an ultra-lightweight text-to-speech model built on ONNX. With variants from 15M to 80M parameters (25-80 MB on disk), it delivers high-quality voice synthesis on CPU without requiring a GPU. Features 8 built-in voices, adjustable speech speed, and built-in text preprocessing for numbers, currencies, and units. Ideal for edge deployment and low-latency applications.

Yaradıcı: KittenML
Lisenziya: Apache 2.0
Sür'ət Fast
Keyfiyyət :
dillər 1 language
VRAM 0GB
Səs Klonlama Dəstəklənmir
Xüsusiyyətlər:
CPU-only inference Under 80MB model size 8 built-in voices Speed control ONNX-based 24kHz output
Ən Yaxşı:: Fast lightweight TTS, edge deployment, low-latency applications

Daha yaxşı nəticələr üçün məsləhətlər

  • Təbii sükut və intonasiya üçün düzgün nişanlama istifadə et
  • Rəqəmləri və qısaltmaları daha aydın oxumaq üçün imla et
  • Fərqli cümlələr arasında qısa fasilə yaratmaq üçün vergül əlavə et
  • Uzun dramatik fasilələrə üçün üç nöqtə (...) istifadə et
  • Ən təbii nəticələr üçün Kokoro və ya CosyVoice 2-ni sınayın
  • Dia-nı çoxlu səsləndirici dialoqu və podcast məzmunu üçün istifadə et

Karakter İstifadəsi

Tərcümə 1K xarakterin qiyməti
Pulsuz 0 kredit (sığortasız)
Ön qurğulu 2 kredit / 1K simvol
Premium 4 kredit / 1K simvol

AI Text to Speech necə işləyir

Üç sadə addımla peşəkar keyfiyyətli səs yazıları yaradın. Texniki bilik tələb olunmur.

Addım 1

Mətni daxil edin

Sənəddə çevirmək istədiyiniz mətni yazın, yapışdırın və ya yükləyin. Giriş etmiş istifadəçilər üçün hər nəsildə 5000-ə qədər xarakter dəstəklənir. Tərcümə, fasilə və vurğu üzərində daha geniş nəzarət üçün sadə mətn istifadə edin və ya SSML təyinatlarını əlavə edin.

Addım 2

Model və səs seç

Üç səviyyədə 20+ AI modeli arasından seçin. İçərişinizi uyğunlaşdıran səsi seçin, məqsəd dilinizi seçin, oynatma sürətini 0.5x-dən 2.0x-ə qədər düzəldin və istədiyiniz çıxış formatını (MP3, WAV, OGG, ya da FLAC) seçin.

Addım 3

Yüklə

Yarat düyməsini basın və səsiniz saniyələr içində hazır olacaq. İçindəki pleyerlə əvvəlcədən baxın, seçdiyiniz formatda yükləyin, ya da paylaşıla bilən bir körpünü kopyalayın. İş axınınıza birləşdirmək və paketləmək üçün API istifadə edin.

Mətndən Söhbətə İstifadə Halı

AI-powered text-to-speech insanların düzən sənayelərində audio məzmunla necə yaratmaq, istehlak etmək və ünsiyyət qurmalarını dəyişir.

Bütün Text-to-Speech Modelləri

TTS.ai-də mövcud olan hər bir AI modeli üçün ətraflı spesifikasiyalar. Proqramınız üçün mükəmməl modeli tapmaq üçün keyfiyyət, sürət, dil dəstəyi və xüsusiyyətləri müqayisə edin.

KokoroKokoro

Free

Kokoro 82 milyon parametrli mətndən-sözə modeldir və öz ağırlıq sinfindən çox üstündür. Kiçik ölçüsünə baxmayaraq, o, çox təbii və ifadəli bir səs istehsal edir. Kokoro ingilis, yapon, çin və koreyalı dilləri də daxil olmaqla bir çox dilləri dəstəkləyir və müxtəlif ifadəli səslər istehsal edir. O, inanılmaz sürətlə işləyir - GPU-da real vaxtda səsi 100x sürətlə istehsal edir.

Yaradıcı::
Hexgrad
Lisenziya::
Apache 2.0
Sür'ət:
Fast
Keyfiyyət ::
dillər:
en, ja, zh, ko, fr, de, it, pt, es, hi, ru
VRAM:
1.5GB
Səs Klonlama:
_Yox
1K xarakterin qiyməti:
Pulsuz
82M parametrlər Çox sürətli Ekspressiv səslər Çoxdilli İşıqlandırma dəstəyi
Ən Yaxşı:: Minimal gecikmə ilə yüksək keyfiyyətli TTS, axın tətbiqetmələri

PiperPiper

Free

Piper Rhasspy tərəfindən inkişaf etdirilmiş VITS və larynx arxitekturalarını istifadə edən yüngül mətn-söhbətə motordur. CPU-da işləyir, bu da onu edge cihazları, ev avtomatlaşdırması və offlayn TTS tələb edən proqramlar üçün ideal edir. 30-dan çox dildə 100 səslə Piper Raspberry Pi 4-də belə real vaxt sürətində təbii səsli sözlər təqdim edir.

Yaradıcı::
Rhasspy
Lisenziya::
MIT
Sür'ət:
Fast
Keyfiyyət ::
dillər:
en, de, fr, es, it, pt, nl, pl, ru, zh, ja, ko, ar, cs, da, fi, el, hu, is, ka, kk, ne, no, ro, sk, sr, sv, sw, tr, uk, vi
VRAM:
0 (CPU only)
Səs Klonlama:
_Yox
1K xarakterin qiyməti:
Pulsuz
CPU-ya uyğun Xətt kənarında ola bilər 100+ səs 30+ dil SSML dəstək
Ən Yaxşı:: Tez önizləmələr, əlçatanlıq və daxili proqramlar

VITSVITS

Free

VITS (variasiyalı nəticə ilə qarşılıqlı öyrənmə üçün son-son Text-to-Speech) hazırkı iki mərhələli modellərdən daha təbii səslənən səsi yaradan paralel son-son TTS metodudur. Normallaşdırma axınları ilə artırılmış variasiyalı nəticəni və qarşılıqlı öyrənmə prosesini qəbul edir, təbiiliyi əhəmiyyətli dərəcədə yaxşılaşdırır.

Yaradıcı::
Jaehyeon Kim et al.
Lisenziya::
MIT
Sür'ət:
Fast
Keyfiyyət ::
dillər:
en, zh, ja, ko
VRAM:
1GB
Səs Klonlama:
_Yox
1K xarakterin qiyməti:
Pulsuz
Son-son sintez Təbii üsul Tez-tez Birdən çox səsləndirici
Ən Yaxşı:: Təbii prozodiya ilə ümumi məqsədli mətn-söhbətə çevirici

MeloTTSMeloTTS

Free

MyShell.ai tərəfindən yaradılan MeloTTS İngilis (Amerika, İngiltərə, Hindistan, Avstraliya), İspan, Fransız, Çin, Yapon və Koreya dillərini dəstəkləyən çoxdilli TTS kitabxanasıdır. Bu kitabxana çox sürətlidir, yalnız CPU-da mətni real vaxt sürəti ilə işləyir. MeloTTS istehsal üçün hazırlanmışdır və CPU və GPU-nun nəticələrini dəstəkləyir.

Yaradıcı::
MyShell.ai
Lisenziya::
MIT
Sür'ət:
Fast
Keyfiyyət ::
dillər:
en, es, fr, zh, ja, ko
VRAM:
0.5GB (GPU optional)
Səs Klonlama:
_Yox
1K xarakterin qiyməti:
Pulsuz
CPU optimallaşdırılmış Çoxdilli Çoxlu Aksentlər Proqram hazırdır Az gözləmə müddəti
Ən Yaxşı:: Çoxdilli və sürətli TTS tələb edən proqramlar

BarkBark

Standard

Suno tərəfindən hazırlanmış Bark, çox dildə çox real səs və musiqi, arxa fon səsləri və səs effektləri kimi digər səsləri yarada bilən transformator əsaslı mətn-səs modelidir. Gülüş, inilti və ağlama kimi sözsüz ünsiyyəti yarada bilir. Bark 100-dən çox səsləndiricinin əvvəlcədən qurğularını və 13-dən çox dili dəstəkləyir.

Yaradıcı::
Suno
Lisenziya::
MIT
Sür'ət:
Slow
Keyfiyyət ::
dillər:
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
VRAM:
5GB
Səs Klonlama:
_Yox
1K xarakterin qiyməti:
2x
Səs effektləri Gülmək/Nəsihət vermək Musiqi yaradılması 100+ səsləndirici Çoxdilli
Ən Yaxşı:: Yaradıcı audio məzmun, emosional audiokitablar, səs effektləri

Bark SmallBark Small

Standard

Bark Small Bark modelinin daha sürətli nəticələmə sürəti və daha az yaddaş tələbləri üçün bəzi səs keyfiyyətini dəyişən distillasiya edilmiş versiyasıdır. Bark'ın emosional, gülüş və çoxlu dillərlə danışmaq qabiliyyətini saxlayır.

Yaradıcı::
Suno
Lisenziya::
MIT
Sür'ət:
Medium
Keyfiyyət ::
dillər:
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
VRAM:
2GB
Səs Klonlama:
_Yox
1K xarakterin qiyməti:
2x
Yüngül Tam qabıqdan daha sürətli Emosional nitq Çoxdilli
Ən Yaxşı:: Tam Bark çox yavaş olduqda sürətli yaradıcı səs

CosyVoice 2CosyVoice 2

Standard

Alibaba'nın Tongyi Lab tərəfindən hazırlanan CosyVoice 2 insan səsi ilə müqayisəli səs keyfiyyətinə malikdir və çox aşağı gecikmə ilə real vaxt tətbiqləri üçün idealdır. O, axın sintezinə sonlu skalar kvantlaşdırma yanaşmasını istifadə edir və zero-shot səs klonlaşdırmasını, dillərarası sintezini və incə hisslər nəzarətini dəstəkləyir. O, subyektiv qiymətləndirmələrdə bir çox kommersiya TTS sistemlərini üstələyir.

Yaradıcı::
Alibaba (Tongyi Lab)
Lisenziya::
Apache 2.0
Sür'ət:
Medium
Keyfiyyət ::
dillər:
en, zh, ja, ko, fr, de, it, es
VRAM:
4GB
Səs Klonlama:
Bəli
1K xarakterin qiyməti:
2x
Dağıdım Zero-shot klonlama Dillərarası Emosional idarəetmə İnsan-paritet
Ən Yaxşı:: Rəsmi proqramlar, TTS axını, səs köməkçiləri

Dia TTSDia TTS

Standard

Dia Nari Labs tərəfindən hazırlanmış 1.6B parametrli mətn-söhbətə modeldir. Bu model xüsusi olaraq çoxlu-söhbətçili dialoq yaratmaq üçün hazırlanmışdır. Dia iki danışan arasında uyğun dönüş, prosodiya və emosional ifadə ilə təbii səsli söhbətlər yarada bilər. Dia podcast-style məzmun, audiobook dialoqları və interaktiv danışıq AI yaratmaq üçün mükəmməldir.

Yaradıcı::
Nari Labs
Lisenziya::
Apache 2.0
Sür'ət:
Medium
Keyfiyyət ::
dillər:
en
VRAM:
4GB
Səs Klonlama:
_Yox
1K xarakterin qiyməti:
2x
Birdən çox səsləndirici Dialog yaradılır Təbii dönmə Emosional İfadə Parametrlər
Ən Yaxşı:: Podcastlar, audiokitab dialoqları, söhbət məzmunu

Parler TTSParler TTS

Standard

Parler TTS, yaradılan danışığı idarə etmək üçün təbii dil səs təsvirini istifadə edən mətndən-sözə modeldir. Ön qurulmuş səslərdən seçmək əvəzinə, istədiyiniz səsi təsvir edə bilərsiniz (məsələn, "yavaş və aydın danışan, kiçik Britaniya aksenti olan qız səsi") və Parler bu təsviri uyğunlaşdıraraq danışığı yaradır. Bu onu yaradıcı proqramlar üçün unikal elastik edir.

Yaradıcı::
Hugging Face
Lisenziya::
Apache 2.0
Sür'ət:
Medium
Keyfiyyət ::
dillər:
en
VRAM:
4GB
Səs Klonlama:
_Yox
1K xarakterin qiyməti:
2x
Səs təsviri Təbii dil idarəsi Elastik səs yaradılması Ön qurğulu səslər lazım deyil
Ən Yaxşı:: Özəl səs xüsusiyyətlərinə ehtiyacınız olan yaradıcı tətbiqlər

GLM-TTSGLM-TTS

Standard

Zhipu AI tərəfindən hazırlanmış GLM-TTS, Llama mimarisinə əsaslanan və axın uyğunlaşdırması ilə işləyən mətn-söhbətə çevirmə sistemidir. Bu sistem açıq mənbəli TTS modelləri arasında ən aşağı xarakter səhv dərəcəsinə nail olur, bu da ən dəqiq səslənməni təmin edir. GLM-TTS 3-10 saniyəlik səs nümunələrindən səs klonlaşdırması ilə İngilis və Çin dillərini dəstəkləyir.

Yaradıcı::
Zhipu AI
Lisenziya::
GLM-4 License
Sür'ət:
Medium
Keyfiyyət ::
dillər:
en, zh
VRAM:
4GB
Səs Klonlama:
Bəli
1K xarakterin qiyməti:
2x
Ən aşağı xəta dərəcəsi Səs klonlama Flow matching Təbii üsul
Ən Yaxşı:: Maksimum səsləndirmə dəqiqliyi tələb edən proqramlar

IndexTTS-2IndexTTS-2

Standard

IndexTTS-2, zəif səs sintezində və emosional nəzarətdə üstün olan inkişaf etmiş mətn-söhbət sistemidir. O, emosional təlim məlumatları tələb etmədən xoşbəxt, kədərli, qəzəbli və qorxu kimi xüsusi emosional tonlarla danışa bilər. Model, yaradılan danışığın emosional ifadəsini dəqiq idarə etmək üçün emosional vektorlardan istifadə edir.

Yaradıcı::
Index Team
Lisenziya::
Bilibili Model License
Sür'ət:
Medium
Keyfiyyət ::
dillər:
en, zh
VRAM:
4GB
Səs Klonlama:
Bəli
1K xarakterin qiyməti:
2x
Emosiyalar Zero-shot Hiss Vektorları Ekspressiv danışıq İdarəetmə
Ən Yaxşı:: Emosional ifadəli məzmun, audiokitablar, virtual köməkçilər

Spark TTSSpark TTS

Standard

Spark TTS SparkAudio tərəfindən səs klonlaşdırmasını idarəolunan hiss və danışıq üslubu ilə birləşdirən mətn-söhbət modelidir. Yalnız 5 saniyəlik istinad səsi istifadə edərək səsi klonlaşdıra bilər və sonra klonlaşdırılmış səs kimliyini qoruyaraq fərqli hisslər, sürətlər və üslublarla danışıq yarada bilər. Spark TTS prompt əsaslı idarəetmə sistemini istifadə edir.

Yaradıcı::
SparkAudio
Lisenziya::
CC BY-NC-SA 4.0
Sür'ət:
Medium
Keyfiyyət ::
dillər:
en, zh
VRAM:
4GB
Səs Klonlama:
Bəli
1K xarakterin qiyməti:
2x
Sesi təkrarla Emosional idarəetmə Tərtib İdarəetmə Prompt-based 5 saniyəlik klonlama
Ən Yaxşı:: Klon səslər və emosional nəzarətlə məzmun yaratmaq

GPT-SoVITSGPT-SoVITS

Standard

GPT-SoVITS GPT-style dil modelləşdirmə ilə SoVITS (Singing Voice Inference via Translation and Synthesis)-i güclü az-şot səs klonlaşdırması üçün birləşdirir. 5 saniyəlik istinad səsi ilə səsi dəqiq klonlaşdıra və yeni səsi yaratmaqla danışanın unikal xüsusiyyətlərini qoruya bilir. Həm danışıq həm də səs sintezini yaxşı edir.

Yaradıcı::
RVC-Boss
Lisenziya::
MIT
Sür'ət:
Slow
Keyfiyyət ::
dillər:
en, zh, ja, ko
VRAM:
6GB
Səs Klonlama:
Bəli
1K xarakterin qiyməti:
2x
5 saniyəlik klonlama Şarkı Sesi Bir neçə dəfə öyrən Yüksək keyfiyyətli Dilli
Ən Yaxşı:: Sesi klonlama, səs sintezisi, məzmun yaradıcısı səsi təkrarlama

OrpheusOrpheus

Standard

Orpheus insan səviyyəli emosional ifadəyə nail olan böyük ölçülü mətn-söhbətə modeldir. 100,000 saatdan çox müxtəlif səs məlumatları üzərində təlim edilmişdir, təbii emosiyalar, vurğulamalar və danışıq üslubları ilə danışıq yaratmaqda üstündür. Orpheus insan səs yazılarından virtual olaraq ayırd edilə bilməyən danışıq istehsal edə bilər.

Yaradıcı::
Canopy Labs
Lisenziya::
Llama 3.2 Community
Sür'ət:
Medium
Keyfiyyət ::
dillər:
en
VRAM:
4GB
Səs Klonlama:
_Yox
1K xarakterin qiyməti:
2x
İnsan səviyyəli hisslər 100K saat təlim Təbii işıqlandırma Ekspressiv danışıq
Ən Yaxşı:: Yüksək keyfiyyətli emosional danışıq, audiokitablar, səs aktyorluğu

ChatterboxChatterbox

Premium

Resemble AI tərəfindən hazırlanmış Chatterbox səs klonlama modelidir. Bu model tək bir səs nümunəsindən istənilən səsi çox dəqiqliklə təkrarlaya bilər, təkcə səs tonunu deyil, həm də danışıq üslubunu və emosional nüansları da ələ keçirə bilir. Chatterbox həmçinin sizə səs kimliyindən asılı olmayaraq səsin emosional tonunu düzəltməyinizə imkan verən çox incə emosional idarəetmə xüsusiyyətlərinə də malikdir.

Yaradıcı::
Resemble AI
Lisenziya::
MIT
Sür'ət:
Medium
Keyfiyyət ::
dillər:
en
VRAM:
4GB
Səs Klonlama:
Bəli
1K xarakterin qiyməti:
4x
Zero-shot klonlama Emosiyalar High Fidelity Tərcümə Tək nümunə klonlama
Ən Yaxşı:: Emosional nəzarətlə professional səs klonlama, məzmun yaratma

Tortoise TTSTortoise TTS

Premium

Tortoise TTS, audio keyfiyyətini sürətdən üstün tutan çox səsli mətn-söhbətə çevirmə sistemidir. DALL-E-dən ilhamlanan arxitekturadan istifadə edərək parlaq prozodiya və danışanın bənzərliyi ilə çox təbiidir. Bir çox alternativlərdən daha yavaş olsa da, Tortoise açıq mənbəli ekosistemdə mövcud olan ən realist sintetik sözləri istehsal edir.

Yaradıcı::
James Betker
Lisenziya::
Apache 2.0
Sür'ət:
Slow
Keyfiyyət ::
dillər:
en
VRAM:
8GB
Səs Klonlama:
Bəli
1K xarakterin qiyməti:
4x
Ən yüksək keyfiyyət Çox səsli DALL-E arxitekturası Sesi təkrarla Avtomatik geriləmə
Ən Yaxşı:: Audiokitablar, premium məzmun, keyfiyyətli tətbiqlər

StyleTTS 2StyleTTS 2

Premium

StyleTTS 2, böyük səs dil modelləri ilə rəqabətçi təlimləri birləşdirərək insan səviyyəli TTS sintezini əldə edir. İnsan səs qeydləri ilə rəqabət aparan tək-oxuma modelləri arasında ən təbii səslənən səsi yaradır. StyleTTS 2, insan səs dəyişikliyinin bütün diapazonunu tutmaq üçün diffuziya əsaslı üslub modelləşdirməsini istifadə edir.

Yaradıcı::
Columbia University
Lisenziya::
MIT
Sür'ət:
Medium
Keyfiyyət ::
dillər:
en
VRAM:
4GB
Səs Klonlama:
_Yox
1K xarakterin qiyməti:
4x
İnsan səviyyəsi Tərcümə Mübarizə Təbii dəyişən Yüksək keyfiyyətli
Ən Yaxşı:: Studio keyfiyyətli tək səsləndirici sintezisi, peşəkar danışıq

OpenVoiceOpenVoice

Premium

MyShell.ai tərəfindən yaradılan OpenVoice səs üslubu, emosiyası, aksenti, ritmi, fasilə və intonasiyası üzərində nəzarəti ilə səsin dərhal klonlanmasına imkan verir. O, qısa audio klipdən səsi klonlaya və danışan şəxsiyyətini qoruyaraq bir çox dildə danışığı yarada bilər. OpenVoice real vaxt səs dəyişdirmə imkan verən səs çevirici kimi də işləyir.

Yaradıcı::
MyShell.ai / MIT
Lisenziya::
MIT
Sür'ət:
Medium
Keyfiyyət ::
dillər:
en, zh, ja, ko, fr, de, es, it
VRAM:
4GB
Səs Klonlama:
Bəli
1K xarakterin qiyməti:
4x
Dərhal klonlama Səs çeviricisi Emosiyalar Aksent idarəsi Çoxdilli
Ən Yaxşı:: Sesi təkrarlamaq üçün incə-tərtib edilmiş üslub idarəsi, səsi çevirmə

Qwen3 TTSQwen3 TTS

Standard

Qwen3-TTS Alibaba'nın Qwen komandasından olan 1.7 milyard parametrli mətndən-sözə modeldir. Üç rejimi dəstəkləyir: emosional nəzarətlə əvvəlcədən qurulmuş səslər (9 səsləndirici), yalnız 3 saniyədən səs klonlaşdırması və istədiyiniz səsi təbii dildə təsvir etdiyiniz unikal səs dizaynı rejimi. Yüksək ifadəliliyi və təbii prozodiya ilə 10 dili əhatə edir.

Yaradıcı::
Alibaba (Qwen)
Lisenziya::
Apache 2.0
Sür'ət:
Medium
Keyfiyyət ::
dillər:
en, zh, ja, ko, de, fr, ru, pt, es, it
VRAM:
7GB
Səs Klonlama:
Bəli
1K xarakterin qiyməti:
2x
Sesi təkrarla 9 əvvəlcədən qurulmuş səs Mətndən səs dizaynı Emosional idarəetmə Dillər
Ən Yaxşı:: Sesi klonlaşdırma və ya öz səs dizaynı ilə çoxdilli məzmun

Sesame CSMSesame CSM

Premium

Sesame CSM (Conversational Speech Model) 1 milyard parametrdən ibarət olan və söhbət yaratmaq üçün xüsusi olaraq hazırlanmış modeldir. Bu model insan söhbətinin təbiət nümunələrini modelləşdirir. Bu nümunələr arasında dönmə vaxtı, backchannel cavabları, emosional reaksiyalar və söhbət axını da var. CSM sintetik söhbət deyil, təbiət söhbəti kimi səslənən səsi yaradır.

Yaradıcı::
Sesame
Lisenziya::
Apache 2.0
Sür'ət:
Slow
Keyfiyyət ::
dillər:
en
VRAM:
8GB
Səs Klonlama:
_Yox
1K xarakterin qiyməti:
4x
Konversasiya Təbii vaxt Dönüş Geri kanal Parametrlər
Ən Yaxşı:: AI köməkçiləri, chatbotlar, danışıq AI tətbiqləri

Kitten TTSKitten TTS

Free

Kitten TTS by KittenML is an ultra-lightweight text-to-speech model built on ONNX. With variants from 15M to 80M parameters (25-80 MB on disk), it delivers high-quality voice synthesis on CPU without requiring a GPU. Features 8 built-in voices, adjustable speech speed, and built-in text preprocessing for numbers, currencies, and units. Ideal for edge deployment and low-latency applications.

Yaradıcı::
KittenML
Lisenziya::
Apache 2.0
Sür'ət:
Fast
Keyfiyyət ::
dillər:
en
VRAM:
0GB
Səs Klonlama:
_Yox
1K xarakterin qiyməti:
Pulsuz
CPU-only inference Under 80MB model size 8 built-in voices Speed control ONNX-based 24kHz output
Ən Yaxşı:: Fast lightweight TTS, edge deployment, low-latency applications

KokoroKokoro

Pulsuz

Kokoro is an 82 million parameter text-to-speech model that punches well above its weight class. Despite its tiny size, it produces remarkably natural and expressive speech. Kokoro supports multiple languages including English, Japanese, Chinese, and Korean with a variety of expressive voices. It runs incredibly fast — generating audio nearly 100x faster than real-time on a GPU.

Yaradıcı::
Hexgrad
Lisenziya::
Apache 2.0
Sür'ət:
Fast
Keyfiyyət ::
dillər: en, ja, zh, ko, fr, de, it, pt, es, hi, ru
Ən Yaxşı:: High-quality TTS with minimal latency, streaming applications

PiperPiper

Pulsuz

Piper is a lightweight text-to-speech engine developed by Rhasspy that uses VITS and larynx architectures. It runs entirely on CPU, making it ideal for edge devices, home automation, and applications requiring offline TTS. With over 100 voices across 30+ languages, Piper delivers natural-sounding speech at real-time speeds even on a Raspberry Pi 4.

Yaradıcı::
Rhasspy
Lisenziya::
MIT
Sür'ət:
Fast
Keyfiyyət ::
dillər: en, de, fr, es, it, pt, nl, pl, ru, zh, ja, ko, ar, cs, da, fi, el, hu, is, ka, kk, ne, no, ro, sk, sr, sv, sw, tr, uk, vi
Ən Yaxşı:: Quick previews, accessibility, and embedded applications

VITSVITS

Pulsuz

VITS (Variational Inference with adversarial learning for end-to-end Text-to-Speech) is a parallel end-to-end TTS method that generates more natural sounding audio than current two-stage models. It adopts variational inference augmented with normalizing flows and an adversarial training process, achieving a significant improvement in naturalness.

Yaradıcı::
Jaehyeon Kim et al.
Lisenziya::
MIT
Sür'ət:
Fast
Keyfiyyət ::
dillər: en, zh, ja, ko
Ən Yaxşı:: General-purpose text-to-speech with natural prosody

MeloTTSMeloTTS

Pulsuz

MeloTTS by MyShell.ai is a multilingual TTS library supporting English (American, British, Indian, Australian), Spanish, French, Chinese, Japanese, and Korean. It is extremely fast, processing text at near real-time speed on CPU alone. MeloTTS is designed for production use and supports both CPU and GPU inference.

Yaradıcı::
MyShell.ai
Lisenziya::
MIT
Sür'ət:
Fast
Keyfiyyət ::
dillər: en, es, fr, zh, ja, ko
Ən Yaxşı:: Production applications needing fast, multilingual TTS

Kitten TTSKitten TTS

Pulsuz

Kitten TTS by KittenML is an ultra-lightweight text-to-speech model built on ONNX. With variants from 15M to 80M parameters (25-80 MB on disk), it delivers high-quality voice synthesis on CPU without requiring a GPU. Features 8 built-in voices, adjustable speech speed, and built-in text preprocessing for numbers, currencies, and units. Ideal for edge deployment and low-latency applications.

Yaradıcı::
KittenML
Lisenziya::
Apache 2.0
Sür'ət:
Fast
Keyfiyyət ::
dillər: en
Ən Yaxşı:: Fast lightweight TTS, edge deployment, low-latency applications

BarkBark

Ön qurğulu

Bark by Suno is a transformer-based text-to-audio model that can generate highly realistic, multilingual speech as well as other audio like music, background noise, and sound effects. It can produce nonverbal communications like laughing, sighing, and crying. Bark supports over 100 speaker presets and 13+ languages.

Yaradıcı::
Suno
Lisenziya::
MIT
Sür'ət:
Slow
Keyfiyyət ::
dillər:
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
Səs Klonlama:
_Yox
Sound effectsLaughing/sighingMusic generation100+ speakersMultilingual
Ən Yaxşı:: Creative audio content, audiobooks with emotion, sound effects

Bark SmallBark Small

Ön qurğulu

Bark Small is a distilled version of the Bark model that trades some audio quality for significantly faster inference speeds and lower memory requirements. It retains Bark's ability to generate speech with emotions, laughter, and multiple languages.

Yaradıcı::
Suno
Lisenziya::
MIT
Sür'ət:
Medium
Keyfiyyət ::
dillər:
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
Səs Klonlama:
_Yox
LightweightFaster than full BarkEmotional speechMultilingual
Ən Yaxşı:: Quick creative audio when full Bark is too slow

CosyVoice 2CosyVoice 2

Ön qurğulu

CosyVoice 2 by Alibaba's Tongyi Lab achieves human-comparable speech quality with extremely low latency, making it ideal for real-time applications. It uses a finite scalar quantization approach for streaming synthesis and supports zero-shot voice cloning, cross-lingual synthesis, and fine-grained emotion control. It outperforms many commercial TTS systems in subjective evaluations.

Yaradıcı::
Alibaba (Tongyi Lab)
Lisenziya::
Apache 2.0
Sür'ət:
Medium
Keyfiyyət ::
dillər:
en, zh, ja, ko, fr, de, it, es
Səs Klonlama:
Bəli
StreamingZero-shot cloningCross-lingualEmotion controlHuman-parity
Ən Yaxşı:: Real-time applications, streaming TTS, voice assistants

Dia TTSDia TTS

Ön qurğulu

Dia by Nari Labs is a 1.6B parameter text-to-speech model designed specifically for generating multi-speaker dialogue. It can produce natural-sounding conversations between two speakers with appropriate turn-taking, prosody, and emotional expression. Dia is perfect for creating podcast-style content, audiobook dialogues, and interactive conversational AI.

Yaradıcı::
Nari Labs
Lisenziya::
Apache 2.0
Sür'ət:
Medium
Keyfiyyət ::
dillər:
en
Səs Klonlama:
_Yox
Multi-speakerDialog generationNatural turn-takingEmotional expression1.6B parameters
Ən Yaxşı:: Podcasts, audiobook dialogues, conversational content

Parler TTSParler TTS

Ön qurğulu

Parler TTS is a text-to-speech model that uses natural language voice descriptions to control the generated speech. Instead of selecting from preset voices, you describe the voice you want (e.g., "a warm female voice with a slight British accent, speaking slowly and clearly") and Parler generates speech matching that description. This makes it uniquely flexible for creative applications.

Yaradıcı::
Hugging Face
Lisenziya::
Apache 2.0
Sür'ət:
Medium
Keyfiyyət ::
dillər:
en
Səs Klonlama:
_Yox
Voice descriptionNatural language controlFlexible voice creationNo preset voices needed
Ən Yaxşı:: Creative applications where you need custom voice characteristics

GLM-TTSGLM-TTS

Ön qurğulu

GLM-TTS by Zhipu AI is a text-to-speech system built on the Llama architecture with flow matching. It achieves the lowest character error rate among open-source TTS models, meaning it produces the most accurate pronunciation. GLM-TTS supports English and Chinese with voice cloning from 3-10 second audio samples.

Yaradıcı::
Zhipu AI
Lisenziya::
GLM-4 License
Sür'ət:
Medium
Keyfiyyət ::
dillər:
en, zh
Səs Klonlama:
Bəli
Lowest error rateVoice cloningFlow matchingNatural prosody
Ən Yaxşı:: Applications requiring maximum pronunciation accuracy

IndexTTS-2IndexTTS-2

Ön qurğulu

IndexTTS-2 is an advanced text-to-speech system that excels at zero-shot voice synthesis with fine-grained emotion control. It can generate speech with specific emotional tones like happy, sad, angry, or fearful without requiring emotion-specific training data. The model uses emotion vectors to precisely control the emotional expression of generated speech.

Yaradıcı::
Index Team
Lisenziya::
Bilibili Model License
Sür'ət:
Medium
Keyfiyyət ::
dillər:
en, zh
Səs Klonlama:
Bəli
Emotion controlZero-shotEmotion vectorsExpressive speechFine-grained control
Ən Yaxşı:: Emotionally expressive content, audiobooks, virtual assistants

Spark TTSSpark TTS

Ön qurğulu

Spark TTS by SparkAudio is a text-to-speech model that combines voice cloning with controllable emotion and speaking style. Using just 5 seconds of reference audio, it can clone a voice and then generate speech with different emotions, speeds, and styles while maintaining the cloned voice identity. Spark TTS uses a prompt-based control system.

Yaradıcı::
SparkAudio
Lisenziya::
CC BY-NC-SA 4.0
Sür'ət:
Medium
Keyfiyyət ::
dillər:
en, zh
Səs Klonlama:
Bəli
Voice cloningEmotion controlStyle controlPrompt-based5-second cloning
Ən Yaxşı:: Content creation with cloned voices and emotional control

GPT-SoVITSGPT-SoVITS

Ön qurğulu

GPT-SoVITS combines GPT-style language modeling with SoVITS (Singing Voice Inference via Translation and Synthesis) for powerful few-shot voice cloning. With as little as 5 seconds of reference audio, it can accurately clone a voice and generate new speech while preserving the speaker's unique characteristics. It excels at both speaking and singing voice synthesis.

Yaradıcı::
RVC-Boss
Lisenziya::
MIT
Sür'ət:
Slow
Keyfiyyət ::
dillər:
en, zh, ja, ko
Səs Klonlama:
Bəli
5-second cloningSinging voiceFew-shot learningHigh fidelityCross-lingual
Ən Yaxşı:: Voice cloning, singing synthesis, content creator voice replication

OrpheusOrpheus

Ön qurğulu

Orpheus is a large-scale text-to-speech model that achieves human-level emotional expression. Trained on over 100,000 hours of diverse speech data, it excels at generating speech with natural emotions, emphasis, and speaking styles. Orpheus can produce speech that is virtually indistinguishable from human recordings.

Yaradıcı::
Canopy Labs
Lisenziya::
Llama 3.2 Community
Sür'ət:
Medium
Keyfiyyət ::
dillər:
en
Səs Klonlama:
_Yox
Human-level emotion100K hours trainingNatural emphasisExpressive speech
Ən Yaxşı:: High-quality emotional speech, audiobooks, voice acting

Qwen3 TTSQwen3 TTS

Ön qurğulu

Qwen3-TTS is a 1.7 billion parameter text-to-speech model from Alibaba's Qwen team. It supports three modes: preset voices with emotion control (9 speakers), voice cloning from just 3 seconds of audio, and a unique voice design mode where you describe the voice you want in natural language. It covers 10 languages with high expressiveness and natural prosody.

Yaradıcı::
Alibaba (Qwen)
Lisenziya::
Apache 2.0
Sür'ət:
Medium
Keyfiyyət ::
dillər:
en, zh, ja, ko, de, fr, ru, pt, es, it
Səs Klonlama:
Bəli
Voice cloning9 preset voicesVoice design from textEmotion control10 languages
Ən Yaxşı:: Multilingual content with voice cloning or custom voice design

ChatterboxChatterbox

Premium

Chatterbox by Resemble AI is a cutting-edge zero-shot voice cloning model. It can replicate any voice from a single audio sample with remarkable accuracy, capturing not just the timbre but also the speaking style and emotional nuances. Chatterbox also features fine-grained emotion control, allowing you to adjust the emotional tone of the generated speech independently from the voice identity.

Yaradıcı::
Resemble AI
Lisenziya::
MIT
Sür'ət:
Medium
Keyfiyyət ::
dillər:
en
Səs Klonlama:
Bəli
VRAM:
4GB
1K xarakterin qiyməti:
4x
Zero-shot cloningEmotion controlHigh fidelityStyle transferSingle sample cloning
Ən Yaxşı:: Professional voice cloning with emotional control, content creation

Tortoise TTSTortoise TTS

Premium

Tortoise TTS is an autoregressive multi-voice text-to-speech system that prioritizes audio quality over speed. It uses DALL-E-inspired architecture to generate highly natural speech with excellent prosody and speaker similarity. While slower than many alternatives, Tortoise produces some of the most realistic synthetic speech available in the open-source ecosystem.

Yaradıcı::
James Betker
Lisenziya::
Apache 2.0
Sür'ət:
Slow
Keyfiyyət ::
dillər:
en
Səs Klonlama:
Bəli
VRAM:
8GB
1K xarakterin qiyməti:
4x
Highest qualityMulti-voiceDALL-E architectureVoice cloningAutoregressive
Ən Yaxşı:: Audiobooks, premium content, quality-first applications

StyleTTS 2StyleTTS 2

Premium

StyleTTS 2 achieves human-level TTS synthesis by combining style diffusion with adversarial training using large speech language models. It generates the most natural sounding speech among single-speaker models, rivaling human recordings. StyleTTS 2 uses diffusion-based style modeling to capture the full range of human speech variation.

Yaradıcı::
Columbia University
Lisenziya::
MIT
Sür'ət:
Medium
Keyfiyyət ::
dillər:
en
Səs Klonlama:
_Yox
VRAM:
4GB
1K xarakterin qiyməti:
4x
Human-levelStyle diffusionAdversarial trainingNatural variationHigh fidelity
Ən Yaxşı:: Studio-quality single-speaker synthesis, professional narration

OpenVoiceOpenVoice

Premium

OpenVoice by MyShell.ai enables instant voice cloning with granular control over voice style, emotion, accent, rhythm, pauses, and intonation. It can clone a voice from a short audio clip and generate speech in multiple languages while maintaining the speaker identity. OpenVoice also functions as a voice converter, allowing real-time voice transformation.

Yaradıcı::
MyShell.ai / MIT
Lisenziya::
MIT
Sür'ət:
Medium
Keyfiyyət ::
dillər:
en, zh, ja, ko, fr, de, es, it
Səs Klonlama:
Bəli
VRAM:
4GB
1K xarakterin qiyməti:
4x
Instant cloningVoice conversionEmotion controlAccent controlMultilingual
Ən Yaxşı:: Voice cloning with fine-grained style control, voice conversion

Sesame CSMSesame CSM

Premium

Sesame CSM (Conversational Speech Model) is a 1 billion parameter model designed specifically for generating conversational speech. It models the natural patterns of human conversation including turn-taking timing, backchannel responses, emotional reactions, and conversational flow. CSM generates audio that sounds like a natural human conversation rather than synthetic speech.

Yaradıcı::
Sesame
Lisenziya::
Apache 2.0
Sür'ət:
Slow
Keyfiyyət ::
dillər:
en
Səs Klonlama:
_Yox
VRAM:
8GB
1K xarakterin qiyməti:
4x
ConversationalNatural timingTurn-takingBackchannel1B parameters
Ən Yaxşı:: AI assistants, chatbots, conversational AI applications

Model müqayisə cədvəli

Model Yaradıcı: Tərcümə Keyfiyyət : Sür'ət dillər Səs Klonlama VRAM Lisenziya: kreditlər
Kokoro Hexgrad Free Fast 11 1.5GB Apache 2.0 Pulsuz İstifadə et
Piper Rhasspy Free Fast 31 0 (CPU only) MIT Pulsuz İstifadə et
VITS Jaehyeon Kim et al. Free Fast 4 1GB MIT Pulsuz İstifadə et
MeloTTS MyShell.ai Free Fast 6 0.5GB (GPU optional) MIT Pulsuz İstifadə et
Bark Suno Standard Slow 13 5GB MIT 2 İstifadə et
Bark Small Suno Standard Medium 13 2GB MIT 2 İstifadə et
CosyVoice 2 Alibaba (Tongyi Lab) Standard Medium 8 4GB Apache 2.0 2 İstifadə et
Dia TTS Nari Labs Standard Medium 1 4GB Apache 2.0 2 İstifadə et
Parler TTS Hugging Face Standard Medium 1 4GB Apache 2.0 2 İstifadə et
GLM-TTS Zhipu AI Standard Medium 2 4GB GLM-4 License 2 İstifadə et
IndexTTS-2 Index Team Standard Medium 2 4GB Bilibili Model License 2 İstifadə et
Spark TTS SparkAudio Standard Medium 2 4GB CC BY-NC-SA 4.0 2 İstifadə et
GPT-SoVITS RVC-Boss Standard Slow 4 6GB MIT 2 İstifadə et
Orpheus Canopy Labs Standard Medium 1 4GB Llama 3.2 Community 2 İstifadə et
Chatterbox Resemble AI Premium Medium 1 4GB MIT 4 İstifadə et
Tortoise TTS James Betker Premium Slow 1 8GB Apache 2.0 4 İstifadə et
StyleTTS 2 Columbia University Premium Medium 1 4GB MIT 4 İstifadə et
OpenVoice MyShell.ai / MIT Premium Medium 8 4GB MIT 4 İstifadə et
Qwen3 TTS Alibaba (Qwen) Standard Medium 10 7GB Apache 2.0 2 İstifadə et
Sesame CSM Sesame Premium Slow 1 8GB Apache 2.0 4 İstifadə et
Kitten TTS KittenML Free Fast 1 0GB Apache 2.0 Pulsuz İstifadə et

Ən genişləndirilmiş AI Text to Speech platforması

Niyə TTS.ai-ni Text to Speech üçün seçmək lazımdır?

TTS.ai dünyanın ən yaxşı açıq mənbəli mətndən-sözə modellərini tək, istifadəsi asan platformada birləşdirir. Sizi tək səs mühərriki ilə bağlayan mülkiyyət xidmətlərindən fərqli olaraq, TTS.ai sizə Coqui, MyShell, Amphion, NVIDIA, Suno, HuggingFace, Tsinghua Universiteti və daha çoxunu da daxil olmaqla lider tədqiqat laboratoriyalarından 20+ modelə çıxış verir.

Hər bir model MIT, Apache 2.0 və ya buna bənzər icazəli lisenziyalar altında açıq mənbədir, sizin layihələrinizdə yaradılan səsi istifadə etmək üçün tam kommersiya hüquqlarınız təmin edilir. Real vaxt tətbiqləri üçün sürətli, yüngül sintez və ya audio kitablar və podcastlar üçün premium studiya keyfiyyətli çıxarışa ehtiyacınız olsun, TTS.ai hər istifadə halı üçün doğru modelə malikdir.

Pulsuz Modellər, Hesab İstənilmir

Üç pulsuz TTS modeli ilə dərhal başlayın: Piper (ultra sürətli, yüngül), VITS (yüksək keyfiyyətli sinir sintezi) və MeloTTS (çox dil dəstəyi). Qeydiyyat olmadan, kredit kartı olmadan, nəsillər arasında məhdudiyyət olmadan. Pulsuz modellər İngilis və bir çox digər dilləri dəstəkləyir və bir çox tətbiqlər üçün uyğun olan təbii səsli çıxışı dəstəkləyir.

GPU sürətləndirilmiş işləmə

Bütün TTS modelləri sürətli, davamlı istehsal vaxtları üçün xüsusi NVIDIA GPU-larda işləyir. Pulsuz modellər adətən səsi 2 saniyədən az müddətdə istehsal edirlər. Kokoro, CosyVoice 2 və Bark kimi standart modellər orta hesabla 3-5 saniyə ərzində. Tortoise və Chatterbox kimi ən yüksək keyfiyyətli premium modellər mətnin uzunluğuna görə 5-15 saniyədə işləyir.

30+ dil dəstəklənir

İngilis, İspan, Fransız, Alman, İtalyan, Portuqaliya, Çin, Yapon, Koreya, Ərəb, Hind, Rus və daha çox dillərdə 30-dan çox səsi yarada bilərsiniz. Bir çox modellər dillərarası sintezini dəstəkləyir, bu da siz orijinal səsin öyrədilmədiyi dildə səs yarada bilərsiniz deməkdir. CosyVoice 2 və GPT-SoVITS dillərarası səs klonlamada üstündür.

Yaradıcıya hazır API

TTS.ai-i OpenAI-yə uyğun REST API-mizlə tətbiqlərinizə birləşdirin. Bütün 20+ modellər üçün bir son nöqtə. Python, JavaScript, cURL və Go SDK-ları. Real vaxt tətbiqləri üçün axın dəstəyi. Böyük miqyaslı məzmun istehsalı üçün batch prosesi. Async bildirişləri üçün Webhooks. Pro və Enterprise planlarında mövcuddur.

Tez-tez Sorulan Sual

Text-to-speech (TTS) yazılı mətni təbii səslənən danışan səsə çevirən bir AI texnologiyasıdır. Kokoro, Chatterbox və CosyVoice 2 kimi müasir neyron TTS modelləri dərin öyrənməni istifadə edərək təbii prozodiya, emosionallıq və ritmlə insan kimi səslənən danışığı istehsal edirlər.

Bu sizin ehtiyaclarınıza bağlıdır. Tez-tez nəzərdən keçirmək üçün Piper və ya MeloTTS (pulsuz, sürətli) istifadə edin. Yüksək keyfiyyət üçün Kokoro və ya CosyVoice 2 (standart səviyyə) istifadə edin. Sesi klonlaşdırmaq üçün Chatterbox və ya GPT-SoVITS (premium) istifadə edin. Dialoq/podkast məzmunu üçün Dia TTS istifadə edin. Hər bir modelin fərqli gücləri var - ən uyğununu tapmaq üçün sınayın.

Bəli! TTS.ai Kokoro, Piper, VITS və MeloTTS modelləri ilə pulsuz mətn-söhbətə çevirmə təklif edir. 500-ə qədər xarakter və saatda 3 nəsil üçün hesab tələb olunmur. 15,000 xarakter və bütün modellərə çıxış üçün pulsuz hesab üçün qeydiyyatdan keçin.

Bizim TTS modellərimiz ümumilikdə ingilis, ispan, fransız, alman, italyan, portuqal, çin, yapon, koreya, ərəb, rus, hindi və daha çox dilləri dəstəkləyir. Dillərin mövcudluğu modeldən asılı olaraq dəyişir.

Bəli, TTS.ai vasitəsilə yaradılan səs kommersiya məqsədləri üçün istifadə edilə bilər. Bütün modellərimiz açıq mənbə lisenziyaları (MIT, Apache 2.0) istifadə edir. Müəyyən şərtlər üçün fərdi model lisenziyalarını yoxlayın. Proqramınız üçün istifadə etdiyiniz xüsusi modelin lisenziyasını nəzərdən keçirməyi tövsiyə edirik.

TTS.ai MP3, WAV, OGG və FLAC çıxış formatlarını dəstəkləyir. MP3 veb oynatma üçün ön qurğuludur. Daha sonra səs prosesi üçün WAV tövsiyə olunur. Audio Converter aləti ilə formatları dəyişdirə bilərsiniz.

Səs klonlaması qısa səs nümunəsindən (adətən 5-30 saniyə) müəyyən səsi təkrarlamaq üçün Dİ-ni istifadə edir. Məqsəd səsin aydın bir qeydini yükləyin və Chatterbox, GPT-SoVITS, ya da OpenVoice kimi modellər bu səsdə yeni danışıq yaradacaq. Keyfiyyət daha təmiz, daha uzun istinad səsi ilə yaxşılaşır.

Pulsuz istifadəçilər istək başına 500-ə qədər xarakter yarada bilərlər. Qeydiyyatdan keçmiş istifadəçilər istək başına 5000-ə qədər xarakter əldə edə bilərlər. Uzun mətnlər üçün səs parça-parça yaradılır və avtomatik olaraq birləşdirilir. API istifadəçiləri istək başına 10000-ə qədər xarakter işlədə bilərlər.

SSML (Speech Synthesis Markup Language) dəstəkləməsi modeldən modelə dəyişir. Piper və bəzi digər modellər fasilə, vurğu və nitq nəzarəti üçün əsas SSML təqvimləri dəstəkləyir. Yerli SSML dəstəkləməsi olmayan modellər üçün, prozodiya təsiri üçün təbii nişan və sətir qırışları istifadə edə bilərsiniz.

Bəli, modellərin əksəriyyəti 0.5x-dən 2.0x-ə qədər sürət tənzimləməsini dəstəkləyir. Bark və Parler kimi bəzi modellər həmçinin səs və üslub tənzimləməsini də dəstəkləyir. Sürət parametrlərini inkişaf etmiş qurğular panelində və ya API sürət parametri vasitəsilə təyin edə bilərsiniz.

Bəli, paket işləmə API vasitəsilə mövcuddur. Bir neçə mətn hissəsini tək bir API çağırışı və ya skripti ilə göndərə bilərsiniz və hər biri ayrı səs faylları kimi işlənəcək və geri qaytarılacaqdır. Bu audiokitab fəsilləri, e-öyrənmə modulları və ya oyun dialoq skriptləri üçün idealdır.

Hesabınızdakı idarə panelindən bir API açarı yaradın, sonra REST API son nöqtəsinə mətn, model və səs parametrləri ilə POST istəkləri göndərin. Python, JavaScript və cURL-də kod nümunələri təqdim edirik. API OpenAI ilə uyğundur, buna görə mövcud inteqrasiyalar minimal dəyişikliklərlə işləyir.
5.0/5 (2)

Nəyi yaxşılaşdıra bilərik? Sizin rəyiniz problemləri düzəltməyə kömək edir.

Mətnə-Söhbətə Dəyişməni İndi Başlat

TTS.ai istifadə edərək minlərlə yaradıcıya qoşulun. Yeni hesabla 15,000 pulsuz xarakter əldə edin. Pulsuz modellər qeydiyyat olmadan mövcuddur.