AI ليکنه وينا ته
د 24+ خلاص سرچینې AI ماډلونو سره طبیعي غږیز وینا ته متن بدل کړئ. د کارولو لپاره وړیا، هیڅ حساب ته اړتیا نشته.
د دقیق کنټرول لپاره په SSML نښانونو خپل متن واچوئ:
<speak><prosody rate="slow">Slow speech</prosody></speak>
احساس مارکر اضافه کړئ چې د تحویل اغیزه وکړي (د ماډل ملاتړ توپیر لري):
دوديزه لوستنه پېژندل (ويې = لوستنه):
بېلګه خبرتياوې
Kokoro
Kokoro is an 82 million parameter text-to-speech model that punches well above its weight class. Despite its tiny size, it produces remarkably natural and expressive speech. Kokoro supports multiple languages including English, Japanese, Chinese, and Korean with a variety of expressive voices. It runs incredibly fast — generating audio nearly 100x faster than real-time on a GPU.
| : جوړوونکی | Hexgrad |
| : منښتليک | Apache 2.0 |
| چټکتيا | Fast |
| :څرنګوالی | |
| ژبې | 11 ژبې |
| ويرام | 1.5GB |
| غږ نقلول | نه منل کېږي |
د ښه پایلو لپاره لارښوونې
- د طبیعي وقفو او غږونو لپاره سمې نښانې کارول
- د روښانه لوستنې لپاره شمېرې او لنډيزونه ليکل
- د ويېونو تر منځ د لنډو وځنډونو جوړولو لپاره کمې زياتول
- د اوږدو ډراماتیکو ځنډونو لپاره (...) کارول
- هڅه Kokoro یا CosyVoice 2 لپاره تر ټولو طبیعي پایلې
- د ګڼ غږوونکي کړکۍ او پوډکاسټ منځپانګې لپاره Dia کارول
کریډیټ لګښتونه
| ځناور | هر ١ک لوښه لګښت |
|---|---|
| وړیا | ۰ کرېډېټونه (بې حده) |
| تلواله | 2 کریډیټونه / 1K کارتونه |
| وړومبی | 4 کریډیټونه / 1K کارتونه |
څنګه AI متن ته د وینا کارونه
په درې ساده ګامونو کې مسلکي کیفیت voiceovers توليد کړئ. هیڅ تخنیکي پوهه اړینه نده.
ليکنه وليکﺉ
ټایپ، نښلول، یا د متن چې تاسو غواړئ چې د وینا ته بدل شي پورته. د ننوتل-په کاروونکو لپاره په هر نسل کې تر 5،000 کرکټرونو ملاتړ کوي. ساده متن وکاروئ یا د تلفظ، وقفې، او ټینګار پر پرمختللي کنټرول SSML توري اضافه کړئ.
بېلګه او غږ وټاکﺉ
د 24+ AI ماډلونو څخه په دریو برخو کې غوره کړئ. یو غږ غوره کړئ چې ستاسو محتوا سره سمون لري، خپل هدف ژبه غوره کړئ، د 0.5x څخه 2.0x ته د لوبې سرعت تنظیم کړئ، او خپل غوره محصول بڼه (MP3، WAV، OGG، یا FLAC) غوره کړئ.
رالېښنې
په تولید کلیک وکړئ او ستاسو آډیو په ثانیو کې چمتو دی. د جوړ شوي لوبغاړي سره مخکینۍ لیدنه، ستاسو په ټاکل شوي بڼه کې ډاونلوډ کړئ، یا د شریکولو لینک کاپي کړئ. د خپل کاري جریان کې د بسته پروسس او ادغام لپاره API وکاروئ.
د ليکنې څخه د وينا کارولو پېښې
AI-powered text-to-speech د دې په بدلولو کې مرسته کوي چې څنګه خلک په لسګونو صنعتونو کې د غږیز موادو سره تولید، مصرف او تعامل کوي.
ټوله ليکنه د وينا لپاره بېلګه
په TTS.ai کې د هر AI ماډل لپاره تفصیلي مشخصات شتون لري. د کیفیت، سرعت، ژبې ملاتړ، او ځانګړتیاوې پرتله کړئ ترڅو ستاسو د پروژې لپاره بشپړ ماډل ومومئ.
Kokoro
Free
کوکورو د 82 ملیون پارامتر متن-to-speech ماډل دی چې د خپل وزن ټولګي څخه پورته ښه ټوټې کوي. د دې کوچني اندازې سره سره، دا د پام وړ طبیعي او څرګند وینا تولیدوي. کوکورو د انګلیسي، جاپاني، چینایي، او کوریایي په شمول ډیری ژبې ملاتړ کوي چې د څرګندو غږونو سره مختلف دي. دا په حیرانتیا سره چټک دی - په GPU کې د ریښتیني وخت څخه نږدې 100x غږ تولیدوي.
Hexgrad
Apache 2.0
Fast
en, ja, zh, ko, fr, de, it, pt, es, hi, ru
1.5GB
نه
وړیا
Piper
Free
پیپر د Rhasspy لخوا رامینځته شوی یو لږ وزن لرونکی متن دی چې د VITS او larynx معمارۍ کاروي. دا په بشپړ ډول په CPU کې چلیږي، دا د edge وسیلو، کور اتومات، او غوښتنلیکونو لپاره مثالی کوي چې آفلاین TTS ته اړتیا لري. د 30 + ژبو په اوږدو کې د 100 غږونو سره، پیپر حتی د Raspberry Pi 4 کې د ریښتیني وخت سرعت کې طبیعي غږیز وینا وړاندې کوي.
Rhasspy
MIT
Fast
en, de, fr, es, it, pt, nl, pl, ru, zh, ja, ko, ar, cs, da, fi, el, hu, is, ka, kk, ne, no, ro, sk, sr, sv, sw, tr, uk, vi
0 (CPU only)
نه
وړیا
VITS
Free
VITS (د پای څخه تر پای پورې د متن څخه د خبرو اترو لپاره د مقابلې زده کړې سره توپیر) یو موازي پای ته رسیدلی TTS میتود دی چې د اوسني دوه مرحلو ماډلونو په پرتله ډیر طبیعي غږیز غږ رامینځته کوي. دا د عادي جریانونو او د مقابلې روزنې پروسې سره د توپیر استنباط غوره کوي، په طبیعي کې د پام وړ ښه والی ترلاسه کوي.
Jaehyeon Kim et al.
MIT
Fast
en, zh, ja, ko
1GB
نه
وړیا
MeloTTS
Free
د MyShell.ai لخوا MeloTTS یو څو ژبنی TTS کتابتون دی چې د انګلیسي (امریکایی، برتانوي، هند، آسټرالیا)، هسپانوي، فرانسوي، چینایي، جاپاني، او کوریایي ملاتړ کوي. دا خورا ګړندی دی، یوازې د CPU په نږدې ریښتیني وخت سرعت کې د متن پروسس کول. MeloTTS د تولید کارولو لپاره ډیزاین شوی او د CPU او GPU دواړو استنباط ملاتړ کوي.
MyShell.ai
MIT
Fast
en, es, fr, zh, ja, ko
0.5GB (GPU optional)
نه
وړیا
Bark
Standard
Bark by Suno یو د بدلون پر بنسټ متن-to-audio ماډل دی چې کولای شي په لوړه کچه واقعي، څو ژبو خبرې او همدارنګه د نورو غږونو لکه موسیقۍ، پس منظر غږ، او د غږ اغېزې توليد کړي. دا کولای شي لکه خندا، خندا، او ژړا nonverbal مخابراتو توليد کړي. Bark د 100 غږونکي presets او 13 + ژبو ملاتړ کوي.
Suno
MIT
Slow
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
5GB
نه
2
Bark Small
Standard
Bark کوچنۍ د Bark ماډل یو تقطیر شوی نسخه ده چې د خورا چټک استنباط سرعت او ټیټ حافظې اړتیاو لپاره ځینې آډیو کیفیت تجارت کوي. دا د Bark د وړتیا ساتي چې د احساساتو، خندا او څو ژبو سره وینا رامینځته کړي.
Suno
MIT
Medium
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
2GB
نه
2
CosyVoice 2
Standard
CosyVoice 2 د Alibaba's Tongyi Lab لخوا د خورا ټیټ latency سره د انسان په پرتله د وینا کیفیت ترلاسه کوي، دا د ریښتیني وخت غوښتنلیکونو لپاره ایډیال کوي. دا د جریان ترکیب لپاره یو محدود سکالر کوانټیشن تګلاره کاروي او د صفر شوټ غږ کلونینګ، کراس ژبني ترکیب، او د Fine-grained احساس کنټرول ملاتړ کوي. دا په موضوعي ارزونو کې ډیری سوداګریز TTS سیسټمونه پرمخ وړي.
Alibaba (Tongyi Lab)
Apache 2.0
Medium
en, zh, ja, ko, fr, de, it, es
4GB
هو
2
Dia TTS
Standard
د ناري لابراتوارونو لخوا ډیا د 1.6B پارامتر متن - د وینا ماډل دی چې په ځانګړي توګه د څو ویناوالو د خبرو اترو رامینځته کولو لپاره ډیزاین شوی. دا کولی شي د دوه ویناوالو ترمینځ د طبیعي غږیز خبرو اترو تولید کړي چې د مناسب پړاو اخیستلو، پروسیسي، او احساساتي څرګندونې سره. ډیا د پوډکاسټ-سټایل مینځپانګې، آډیوبوک خبرو اترو، او تعاملي خبرو اترو AI رامینځته کولو لپاره مثالی دی.
Nari Labs
Apache 2.0
Medium
en
4GB
نه
2
Parler TTS
Standard
Parler TTS د متن څخه د وینا ماډل دی چې د تولید شوي وینا کنټرول لپاره د طبیعي ژبې غږ تشریحات کاروي. د مخکښ غږونو څخه د انتخاب کولو پرځای، تاسو هغه غږ تشریح کوئ چې تاسو یې غواړئ (د بیلګې په توګه، "د لږ برتانوي غږ سره یو ګرم ښځینه غږ، په ورو او روښانه توګه خبرې کول") او Parler د هغه تشریح مطابق خبرې رامینځته کوي. دا د تخلیقي غوښتنلیکونو لپاره ځانګړي انعطاف وړ کوي.
Hugging Face
Apache 2.0
Medium
en
4GB
نه
2
IndexTTS-2
Standard
IndexTTS-2 یو پرمختللی متن-to-speech سیسټم دی چې د fine-grained احساس کنټرول سره په صفر-شوټ غږ ترکیب کې excels. دا کولی شي د ځانګړو احساساتي ټونونو سره خبرې وکړي لکه خوشحاله، غمجن، خفه، یا د احساس ځانګړي روزنې ډاټا ته اړتیا پرته ویره. ماډل د احساس وکتورونه کاروي ترڅو د تولید شوي وینا احساساتي څرګندونه په دقیق ډول کنټرول کړي.
Index Team
Apache 2.0
Medium
en, zh
4GB
هو
2
Spark TTS
Standard
د SparkAudio لخوا Spark TTS د متن-to-speech ماډل دی چې د کنټرول وړ احساس او خبرې کولو سټایل سره د غږ کلونینګ ترکیب کوي. د حوالې آډیو یوازې د 5 ثانیو په کارولو سره، دا کولی شي غږ کلون کړي او بیا د مختلفو احساساتو، سرعتونو او سټایلونو سره وینا رامینځته کړي پداسې حال کې چې د کلون شوي غږ پیژندنه ساتي. Spark TTS د prompt-based control system کاروي.
SparkAudio
Apache 2.0
Medium
en, zh
4GB
هو
2
GPT-SoVITS
Standard
GPT-SoVITS د GPT-سټایل ژبې ماډل کولو سره د SoVITS سره یوځای کوي (د ژباړې او ترکیب له لارې د غږ غږ استنباط). د 5 ثانیو په څیر د حوالې غږ سره، دا کولی شي په سمه توګه غږ کلون کړي او نوی وینا رامینځته کړي پداسې حال کې چې د وینا کونکي ځانګړي ځانګړتیاوې ساتي. دا په دواړو خبرو اترو او غږ غږ ترکیب کې ښه دی.
RVC-Boss
MIT
Slow
en, zh, ja, ko
6GB
هو
2
Orpheus
Standard
Orpheus یو لوی-په پیمانه متن-to-تصویر ماډل دی چې د انسان په کچه احساساتي څرګندونه ترلاسه کوي. د مختلفو خبرو معلوماتو د 100،000 ساعتونو څخه زیات روزل شوي، دا د طبیعي احساساتو، ټینګار او خبرې کولو سټایلونو سره د وینا په جوړولو کې ښه دی. Orpheus کولی شي وینا تولید کړي چې د انساني ریکارډونو څخه په حقیقت کې بې تفاوته وي.
Canopy Labs
Llama 3.2 Community
Medium
en
4GB
نه
2
Chatterbox
Premium
د Resemble AI لخوا Chatterbox یو cutting-edge zero-shot غږ کلون کولو ماډل دی. دا کولی شي د پام وړ دقت سره د یو واحد آډیو نمونې څخه هر غږ تکرار کړي، نه یوازې د timbre نیول بلکه د خبرو اترو سټایل او احساساتي رنګونه هم. Chatterbox هم د fine-grained احساس کنټرول ځانګړتیاوې لري، چې تاسو ته اجازه درکوي چې د غږ پیژندنې څخه خپلواکه د تولید شوي وینا احساساتي ټون تنظیم کړئ.
Resemble AI
MIT
Medium
en
4GB
هو
4
Tortoise TTS
Premium
Tortoise TTS یو autoregressive څو غږ متن-to-تصویر سیسټم دی چې د سرعت په پرتله د غږ کیفیت ته لومړیتوب ورکوي. دا د DALL-E-inspired معمارۍ کاروي چې د ښه prosody او د ويناوالو د ورتهوالي سره په لوړه کچه طبیعي وينا توليد کړي. په داسې حال کې چې د ډېرو بديلونو په پرتله ورو، Tortoise په خلاصه سرچينه ecosystem کې د تر ټولو واقعي مصنوعي وينا ځینې تولیدوي.
James Betker
Apache 2.0
Slow
en
8GB
هو
4
StyleTTS 2
Premium
StyleTTS 2 د لویو وینا د ژبې ماډلونو په کارولو سره د مخالفو روزنې سره د سټایل خپریدو ترکیب کولو سره د انساني کچې TTS ترکیب ترلاسه کوي. دا د یو واحد ویناوال ماډلونو ترمینځ ترټولو طبیعي غږیز وینا رامینځته کوي، د انسان ریکارډونو سره سیالي کوي. StyleTTS 2 د خپریدو پر بنسټ سټایل ماډل کولو کاروي ترڅو د انساني وینا بدلون بشپړ لړۍ ونیسي.
Columbia University
MIT
Medium
en
4GB
نه
4
OpenVoice
Premium
د MyShell.ai لخوا OpenVoice د غږ سټایل، احساس، احساس، ریتم، وقفې، او انتونیشن باندې د غوړ کنټرول سره د فوري غږ کلون کولو ته اجازه ورکوي. دا کولی شي د لنډ غږ کلیپ څخه غږ کلون کړي او په څو ژبو کې خبرې وکړي پداسې حال کې چې د وینا کونکي پیژندنه ساتي. OpenVoice د غږ بدلونکي په توګه هم کار کوي، د ریښتیني وخت غږ بدلون ته اجازه ورکوي.
MyShell.ai / MIT
MIT
Medium
en, zh, ja, ko, fr, de, es, it
4GB
هو
4
Qwen3 TTS
Standard
Qwen3-TTS د Alibaba's Qwen ټیم څخه د 1.7 ملیاردو پارامترونو متن-to-speech ماډل دی. دا درې ډولونه ملاتړ کوي: د احساس کنټرول سره مخکښ غږونه (9 غږونه)، د غږ کلونینګ یوازې د 3 ثانیو څخه، او یو ځانګړی غږ ډیزاین حالت چیرې چې تاسو په طبیعي ژبه کې غواړئ غږ تشریح کړئ. دا د لوړ بیان او طبیعي prosody سره 10 ژبې پوښي.
Alibaba (Qwen)
Apache 2.0
Medium
en, zh, ja, ko, de, fr, ru, pt, es, it
7GB
هو
2
Sesame CSM
Premium
Sesame CSM (د خبرو اترو وینا ماډل) د 1 ملیارد پارامتر ماډل دی چې په ځانګړې توګه د خبرو اترو خبرو لپاره ډیزاین شوی. دا د انسان د خبرو اترو طبیعي نمونې ماډل کوي پشمول د دورې اخیستلو وخت، backchannel غبرګونونه، احساساتي غبرګونونه، او د خبرو اترو جریان. CSM غږ تولیدوي چې د مصنوعي وینا پرځای د طبیعي انساني خبرو اترو په څیر غږ کوي.
Sesame
Apache 2.0
Slow
en
8GB
نه
4
Kokoro
وړیا
Kokoro is an 82 million parameter text-to-speech model that punches well above its weight class. Despite its tiny size, it produces remarkably natural and expressive speech. Kokoro supports multiple languages including English, Japanese, Chinese, and Korean with a variety of expressive voices. It runs incredibly fast — generating audio nearly 100x faster than real-time on a GPU.
Hexgrad
Apache 2.0
Fast
Piper
وړیا
Piper is a lightweight text-to-speech engine developed by Rhasspy that uses VITS and larynx architectures. It runs entirely on CPU, making it ideal for edge devices, home automation, and applications requiring offline TTS. With over 100 voices across 30+ languages, Piper delivers natural-sounding speech at real-time speeds even on a Raspberry Pi 4.
Rhasspy
MIT
Fast
VITS
وړیا
VITS (Variational Inference with adversarial learning for end-to-end Text-to-Speech) is a parallel end-to-end TTS method that generates more natural sounding audio than current two-stage models. It adopts variational inference augmented with normalizing flows and an adversarial training process, achieving a significant improvement in naturalness.
Jaehyeon Kim et al.
MIT
Fast
MeloTTS
وړیا
MeloTTS by MyShell.ai is a multilingual TTS library supporting English (American, British, Indian, Australian), Spanish, French, Chinese, Japanese, and Korean. It is extremely fast, processing text at near real-time speed on CPU alone. MeloTTS is designed for production use and supports both CPU and GPU inference.
MyShell.ai
MIT
Fast
Bark
تلواله
Bark by Suno is a transformer-based text-to-audio model that can generate highly realistic, multilingual speech as well as other audio like music, background noise, and sound effects. It can produce nonverbal communications like laughing, sighing, and crying. Bark supports over 100 speaker presets and 13+ languages.
Suno
MIT
Slow
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
نه
Bark Small
تلواله
Bark Small is a distilled version of the Bark model that trades some audio quality for significantly faster inference speeds and lower memory requirements. It retains Bark's ability to generate speech with emotions, laughter, and multiple languages.
Suno
MIT
Medium
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
نه
CosyVoice 2
تلواله
CosyVoice 2 by Alibaba's Tongyi Lab achieves human-comparable speech quality with extremely low latency, making it ideal for real-time applications. It uses a finite scalar quantization approach for streaming synthesis and supports zero-shot voice cloning, cross-lingual synthesis, and fine-grained emotion control. It outperforms many commercial TTS systems in subjective evaluations.
Alibaba (Tongyi Lab)
Apache 2.0
Medium
en, zh, ja, ko, fr, de, it, es
هو
Dia TTS
تلواله
Dia by Nari Labs is a 1.6B parameter text-to-speech model designed specifically for generating multi-speaker dialogue. It can produce natural-sounding conversations between two speakers with appropriate turn-taking, prosody, and emotional expression. Dia is perfect for creating podcast-style content, audiobook dialogues, and interactive conversational AI.
Nari Labs
Apache 2.0
Medium
en
نه
Parler TTS
تلواله
Parler TTS is a text-to-speech model that uses natural language voice descriptions to control the generated speech. Instead of selecting from preset voices, you describe the voice you want (e.g., "a warm female voice with a slight British accent, speaking slowly and clearly") and Parler generates speech matching that description. This makes it uniquely flexible for creative applications.
Hugging Face
Apache 2.0
Medium
en
نه
IndexTTS-2
تلواله
IndexTTS-2 is an advanced text-to-speech system that excels at zero-shot voice synthesis with fine-grained emotion control. It can generate speech with specific emotional tones like happy, sad, angry, or fearful without requiring emotion-specific training data. The model uses emotion vectors to precisely control the emotional expression of generated speech.
Index Team
Apache 2.0
Medium
en, zh
هو
Spark TTS
تلواله
Spark TTS by SparkAudio is a text-to-speech model that combines voice cloning with controllable emotion and speaking style. Using just 5 seconds of reference audio, it can clone a voice and then generate speech with different emotions, speeds, and styles while maintaining the cloned voice identity. Spark TTS uses a prompt-based control system.
SparkAudio
Apache 2.0
Medium
en, zh
هو
GPT-SoVITS
تلواله
GPT-SoVITS combines GPT-style language modeling with SoVITS (Singing Voice Inference via Translation and Synthesis) for powerful few-shot voice cloning. With as little as 5 seconds of reference audio, it can accurately clone a voice and generate new speech while preserving the speaker's unique characteristics. It excels at both speaking and singing voice synthesis.
RVC-Boss
MIT
Slow
en, zh, ja, ko
هو
Orpheus
تلواله
Orpheus is a large-scale text-to-speech model that achieves human-level emotional expression. Trained on over 100,000 hours of diverse speech data, it excels at generating speech with natural emotions, emphasis, and speaking styles. Orpheus can produce speech that is virtually indistinguishable from human recordings.
Canopy Labs
Llama 3.2 Community
Medium
en
نه
Qwen3 TTS
تلواله
Qwen3-TTS is a 1.7 billion parameter text-to-speech model from Alibaba's Qwen team. It supports three modes: preset voices with emotion control (9 speakers), voice cloning from just 3 seconds of audio, and a unique voice design mode where you describe the voice you want in natural language. It covers 10 languages with high expressiveness and natural prosody.
Alibaba (Qwen)
Apache 2.0
Medium
en, zh, ja, ko, de, fr, ru, pt, es, it
هو
د بېلګه پرتله جدول
| بېلګه | : جوړوونکی | ځناور | :څرنګوالی | چټکتيا | ژبې | غږ نقلول | ويرام | : منښتليک | کرېډېټونه | |
|---|---|---|---|---|---|---|---|---|---|---|
| Kokoro | Hexgrad | Free | Fast | 11 | 1.5GB | Apache 2.0 | وړیا | کارول | ||
| Piper | Rhasspy | Free | Fast | 31 | 0 (CPU only) | MIT | وړیا | کارول | ||
| VITS | Jaehyeon Kim et al. | Free | Fast | 4 | 1GB | MIT | وړیا | کارول | ||
| MeloTTS | MyShell.ai | Free | Fast | 6 | 0.5GB (GPU optional) | MIT | وړیا | کارول | ||
| Bark | Suno | Standard | Slow | 13 | 5GB | MIT | 2 | کارول | ||
| Bark Small | Suno | Standard | Medium | 13 | 2GB | MIT | 2 | کارول | ||
| CosyVoice 2 | Alibaba (Tongyi Lab) | Standard | Medium | 8 | 4GB | Apache 2.0 | 2 | کارول | ||
| Dia TTS | Nari Labs | Standard | Medium | 1 | 4GB | Apache 2.0 | 2 | کارول | ||
| Parler TTS | Hugging Face | Standard | Medium | 1 | 4GB | Apache 2.0 | 2 | کارول | ||
| IndexTTS-2 | Index Team | Standard | Medium | 2 | 4GB | Apache 2.0 | 2 | کارول | ||
| Spark TTS | SparkAudio | Standard | Medium | 2 | 4GB | Apache 2.0 | 2 | کارول | ||
| GPT-SoVITS | RVC-Boss | Standard | Slow | 4 | 6GB | MIT | 2 | کارول | ||
| Orpheus | Canopy Labs | Standard | Medium | 1 | 4GB | Llama 3.2 Community | 2 | کارول | ||
| Chatterbox | Resemble AI | Premium | Medium | 1 | 4GB | MIT | 4 | کارول | ||
| Tortoise TTS | James Betker | Premium | Slow | 1 | 8GB | Apache 2.0 | 4 | کارول | ||
| StyleTTS 2 | Columbia University | Premium | Medium | 1 | 4GB | MIT | 4 | کارول | ||
| OpenVoice | MyShell.ai / MIT | Premium | Medium | 8 | 4GB | MIT | 4 | کارول | ||
| Qwen3 TTS | Alibaba (Qwen) | Standard | Medium | 10 | 7GB | Apache 2.0 | 2 | کارول | ||
| Sesame CSM | Sesame | Premium | Slow | 1 | 8GB | Apache 2.0 | 4 | کارول |
د وینا پلیټ فارم ته ترټولو جامع AI متن
ولې TTS.ai د متن لپاره د وینا لپاره غوره کړئ؟
TTS.ai نړۍ سره یوځای کوي
هر ماډل د MIT، Apache 2.0، یا ورته اجازه لرونکي جوازونو لاندې خلاص سرچینه ده، ډاډ ترلاسه کوي چې تاسو بشپړ سوداګریز حقونه لرئ چې ستاسو په پروژو کې رامینځته شوي آډیو وکاروئ. که تاسو د ریښتیني وخت غوښتنلیکونو لپاره ګړندي، سپک وزن ترکیب ته اړتیا لرئ یا د آډیو کتابونو او پوډکاسټونو لپاره د پریمیم سټوډیو کیفیت محصول، TTS.ai د هرې کارونې قضیې لپاره سم ماډل لري.
وړیا ماډلونه، هیڅ حساب ته اړتیا نشته
د درې وړیا TTS ماډلونو سره سمدلاسه پیل کړئ: Piper (ultra-fast، lightweight)، VITS (د لوړ کیفیت عصبي ترکیب)، او MeloTTS (د څو ژبو ملاتړ). نه لاسلیک، نه کریډیټ کارت، په نسلونو کې هیڅ محدودیتونه. وړیا ماډلونه د انګلیسي او ډیری نورو ژبو ملاتړ کوي چې د ډیری غوښتنلیکونو لپاره مناسب طبیعي غږ تولید لري.
ځغلېدلی بهير GPU-
ټول TTS ماډلونه د وقف شوي NVIDIA GPUs لپاره د چټک، ثابت نسل وختونو لپاره چلیږي. وړیا ماډلونه معمولا د 2 ثانیو لاندې غږ تولیدوي. معیاري ماډلونه لکه Kokoro، CosyVoice 2، او Bark اوسط 3-5 ثانیې. د لوړ کیفیت سره پریمیم ماډلونه، لکه Tortoise او Chatterbox، د متن اوږدوالي پورې اړه لري په 5-15 ثانیو کې پروسس کیږي.
30+ ژبې ملاتړ
په 30 ژبو په شمول د انګلیسي، هسپانوي، فرانسوي، جرمني، ایټالوي، پرتګالي، چینايي، جاپاني، کوریا، عربي، هندي، روسي، او ډیر نور. څو ماډلونه د کراس-لغوي ترکیب ملاتړ کوي، د دې معنی چې تاسو کولی شئ په یوه ژبه کې د کراس-لغوي د غږ کلون کولو کې خبرې وکړئ. CosyVoice 2 او GPT-SoVITS excel.
پرمخبيونکی- چمتو API
د ټولو 24 + ماډلونو لپاره یو پای ټکی. پیټین، جاواسکریپټ، cURL، او Go SDKs. د ریښتیني وخت غوښتنلیکونو لپاره د سټرینګ ملاتړ. د لوی کچې محتوا نسل لپاره د باچ پروسس. د انزیک خبرتیاو لپاره ویبوکس. په پرو او انټرپرائز پلانونو کې شتون لري.
ډېرې پوښتنې
اوس ليکنه وينا ته بدلول پېلول
د TTS.ai په کارولو سره د زرګونو جوړونکو سره یوځای شئ. د نوي حساب سره د 50 وړیا کریډیټ ترلاسه کړئ. وړیا ماډلونه د راجستر کولو پرته شتون لري.