AI متن کان ڳالھائڻName
24+ اوپن سورس AI ماڊلز سان متن کي قدرتي آواز واري ڳالهائڻ ۾ تبديل ڪريو. استعمال ڪرڻ مفت آهي، ڪوبه اڪائونٽ نه گھرجي.
صحيح ڪنٽرول لاءِ پنھنجو متن SSML ٽيگ ۾ ويڙھيو:
<speak><prosody rate="slow">Slow speech</prosody></speak>
ايموشن نشان شامل ڪريو (ماڊل مدد مختلف آهي):
پنھنجو آواز بيان ڪريو (شيء = آواز):
ماڊل جون وضاحتون
StyleTTS 2
StyleTTS 2 achieves human-level TTS synthesis by combining style diffusion with adversarial training using large speech language models. It generates the most natural sounding speech among single-speaker models, rivaling human recordings. StyleTTS 2 uses diffusion-based style modeling to capture the full range of human speech variation.
| ڊيولپر: | Columbia University |
| لائسنس: | MIT |
| رفتار | Medium |
| معيار: | |
| ٻوليون | 1 ٻولي |
| ورام | 4GB |
| آواز جو کلون | مدد نه ڏنل |
بهتر نتيجن لاءِ صلاحون
- قدرتي وقفن ۽ انتونيشن لاءِ صحيح ويڙهاڪ استعمال ڪريو
- واضح اُچار لاءِ نمبرن ۽ مختصر لفظن جو اچار
- جملن جي وچ ۾ مختصر وقفا ٺاهڻ لاءِ ڪاما شامل ڪريو
- ڊگهين ڊرامائي وقفن لاءِ (...) استعمال ڪريو
- تمام قدرتي نتيجن لاءِ ڪوڪورو يا ڪوسي واءِس 2 استعمال ڪريو
- ڪجھه اسپيڪر ڊائيلوگ ۽ پوڊ ڪاسٽ مواد لاءِ Dia استعمال ڪريو
قرض
| جانور | هر 1K حرف جي قيمت |
|---|---|
| مفت | 0 ڪريڊٽس (لامحدود) |
| معياري | 2 ڪرنٽ / 1K ڪارٽس |
| پريميئم | 4 ڪرنٽ / 1K ڪارٽس |
AI متن کان ڳالهائڻ ڪيئن ڪم ڪري ٿو
ٽين آسان قدمن ۾ پروفيشنل-ڪواليٽي وڊيوز پيدا ڪريو. ڪوبه ٽيڪنيڪل ڄاڻ جي ضرورت ناهي.
پنھنجو متن داخل ڪريو
متن لکو، چٽيو يا اپ لوڊ ڪريو جيڪو توهان ڳالهائڻ ۾ تبديل ڪرڻ چاهيو ٿا. لاگ ان ٿيل صارفين لاءِ 5000 حرفن تائين هر نسل جي حمايت ڪري ٿو. عام متن استعمال ڪريو يا SSML ٽيگ شامل ڪريو ڳالهائڻ، وقفن ۽ زور ڏيڻ تي وڌيڪ ڪنٽرول لاءِ.
ماڊل ۽ آواز چونڊيو
24+ AI ماڊلز مان چونڊيو. هڪ آواز چونڊيو جيڪو توهان جي مواد سان مطابقت رکي، توهان جي مقصد جي ٻولي چونڊيو، 0.5x کان 2.0x تائين پليئر جي رفتار کي ترتيب ڏيو، ۽ توهان جي پسنديده خروجي فارميٽ (MP3، WAV، OGG، يا FLAC) چونڊيو.
ڊائون لوڊ
ٺاھڻ تي ڪلڪ ڪريو ۽ اوھان جو آڊيو سيڪنڊن ۾ تيار ٿيندو. ٺاھيل پليئر سان اڳيان ڏسو، پنھنجي چونڊيل شڪل ۾ ڊائون لوڊ ڪريو، يا حصيداري ڪرڻ جي لنڪ ڪاپي ڪريو. آپريشن جي عمل ۽ پنھنجي ورڪ فلو ۾ شامل ٿيڻ لاءِ API استعمال ڪريو.
متن کان ڳالھائڻ جا استعمال جا ڪيس
AI-powered text-to-speech تبديل ڪري رهيو آهي ته ماڻهو ڪيترن ئي صنعتن ۾ آڊيو مواد کي ڪيئن ٺاهيندا، استعمال ڪندا ۽ ان سان رابطو ڪندا آهن.
سڀ ليکڪ کان ڳالھائڻ جا ماڊل
TTS.ai تي موجود هر AI ماڊل لاءِ تفصيلي وضاحتون. معيار، رفتار، ٻوليءَ جي مدد ۽ خاصيتن جو مقابلو ڪريو ته جيئن توهان جي منصوبي لاءِ مڪمل ماڊل ڳولي سگهو.
Kokoro
Free
ڪوڪورو هڪ 82 ملين پاراميٽرن وارو متن کان ڳالهائڻ وارو ماڊل آهي جيڪو پنهنجي وزن جي ڪلاس کان مٿي آهي. پنهنجي ننڍڙي سائيز جي باوجود ، اهو تمام گهڻو قدرتي ۽ اظهاري ڳالهائڻ پيدا ڪري ٿو. ڪوڪورو ڪيترن ئي ٻولين کي سپورٽ ڪري ٿو جن ۾ انگريزي ، جاپاني ، چيني ۽ ڪورين شامل آهن جن ۾ اظهاري آوازن جي تنوع آهي. اهو ڏاڍو تيز هلندو آهي - هڪ GPU تي حقيقي وقت جي ڀيٽ ۾ تقريبن 100x تيز آواز پيدا ڪري ٿو.
Hexgrad
Apache 2.0
Fast
en, ja, zh, ko, fr, de, it, pt, es, hi, ru
1.5GB
نه
مفت
Piper
Free
پيپر هڪ ھلڪو متن کان ڳالھائڻ وارو انجن آهي جيڪو Rhasspy پاران ترقي يافته آهي جيڪو VITS ۽ larynx architectures استعمال ڪري ٿو. اهو مڪمل طور تي سي پي يو تي هلندو آهي، ان کي ايج ڊيوائسز، گھر جي خودڪار، ۽ آف لائن TTS جي ضرورت وارين ايپليڪيشنن لاءِ مثالي بڻائيندو آهي. 30+ ٻولين ۾ 100 کان وڌيڪ آوازن سان، پيپر هڪ Raspberry Pi 4 تي به حقيقي وقت جي رفتار تي طبعي آواز واري ڳالھائڻ مهيا ڪري ٿو.
Rhasspy
MIT
Fast
en, de, fr, es, it, pt, nl, pl, ru, zh, ja, ko, ar, cs, da, fi, el, hu, is, ka, kk, ne, no, ro, sk, sr, sv, sw, tr, uk, vi
0 (CPU only)
نه
مفت
VITS
Free
VITS (Variation Inference with adversarial learning for end-to-end Text-to-Speech) هڪ متوازي end-to-end TTS طريقو آهي جيڪو موجوده ٻن مرحلن جي ماڊلن جي ڀيٽ ۾ وڌيڪ قدرتي آواز وارو آڊيو پيدا ڪري ٿو. اهو مختلف انفريشن کي قبول ڪري ٿو جيڪو معمولي وهڪري سان وڌايو ويو آهي ۽ هڪ مقابلي واري تربيت واري عمل سان، طبيعت ۾ وڏي بهتري حاصل ڪري ٿو.
Jaehyeon Kim et al.
MIT
Fast
en, zh, ja, ko
1GB
نه
مفت
MeloTTS
Free
MyShell.ai طرفان MeloTTS هڪ ٻن ٻولين جي TTS لائبريري آهي جيڪا انگريزي (آمريڪي، برطانوي، هندي، آسٽريليا)، اسپينش، فرانسيسي، چيني، جاپاني ۽ ڪورين کي سپورٽ ڪري ٿي. اهو تمام تيز آهي، صرف سي پي يو تي حقيقي وقت جي رفتار تي متن کي پروسيس ڪري ٿو. MeloTTS پيداوار جي استعمال لاءِ ٺاهيو ويو آهي ۽ سي پي يو ۽ جي پي يو ٻنهي کي سپورٽ ڪري ٿو.
MyShell.ai
MIT
Fast
en, es, fr, zh, ja, ko
0.5GB (GPU optional)
نه
مفت
Bark
Standard
Bark by Suno هڪ ٽرانسميٽر تي ٻڌل متن کان آڊيو ماڊل آهي جيڪو تمام حقيقي، ڪيترن ٻولين جي ڳالهائڻ ۽ ٻين آڊيو جهڙوڪ موسيقي، پس منظر جي شور ۽ آواز جي اثرن کي پيدا ڪري سگهي ٿو. اهو غير لفظي رابطن جهڙوڪ کلڻ، ساهه کڻڻ ۽ روئڻ کي پيدا ڪري سگهي ٿو. Bark 100 کان وڌيڪ اسپيڪر پريسيٽ ۽ 13+ ٻولين کي سپورٽ ڪري ٿو.
Suno
MIT
Slow
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
5GB
نه
2
Bark Small
Standard
Bark Small Bark ماڊل جو هڪ ڊسٽليٽ ٿيل ورزن آهي جيڪو ڪجهه آڊيو معيار کي وڌيڪ تيز فيصلي جي رفتار ۽ گهٽ ياد رکڻ جي ضرورتن لاءِ وڪرو ڪري ٿو. اهو Bark جي ڳالهائڻ جي صلاحيت کي جذبن، کلڻ ۽ ڪيترن ئي ٻولين سان پيدا ڪرڻ جي صلاحيت برقرار رکي ٿو.
Suno
MIT
Medium
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
2GB
نه
2
CosyVoice 2
Standard
Alibaba's Tongyi Lab پاران CosyVoice 2 انسان جي مقابلي واري ڳالهائڻ جي معيار کي تمام گهٽ دير سان حاصل ڪري ٿو، ان کي ريئل ٽائيم ايپليڪيشنن لاءِ مثالي بڻائي ٿو. اهو اسٽريمنگ سنسڪرت لاءِ هڪ محدود اسڪالر ڪائونٽيزيشن طريقيڪار استعمال ڪري ٿو ۽ صفر-شوٽ آواز جي کلوننگ، ڪراس-لنگوي سنسڪرت، ۽ وڻندڙ احساس ڪنٽرول جي حمايت ڪري ٿو. اهو ڪيترن ئي تجارتي TTS سسٽمن کي موضوعي جائزن ۾ اڳتي وڌائي ٿو.
Alibaba (Tongyi Lab)
Apache 2.0
Medium
en, zh, ja, ko, fr, de, it, es
4GB
ھائو
2
Dia TTS
Standard
Dia by Nari Labs a 1.6B parameter text-to-speech model designed specifically for generating multi-speaker dialogue. It can produce natural-sounding conversations between two speakers with appropriate turn-taking, prosody, and emotional expression. Dia is perfect for creating podcast-style content, audiobook dialogues, and interactive conversational AI.
Nari Labs
Apache 2.0
Medium
en
4GB
نه
2
Parler TTS
Standard
پارلر TTS هڪ متن کان ڳالھائڻ وارو ماڊل آھي جيڪو پيدا ڪيل ڳالھائڻ کي ڪنٽرول ڪرڻ لاءِ قدرتي ٻوليءَ جي آواز جي بيانن کي استعمال ڪندو آھي. اڳ ٺھرايل آوازن مان چونڊڻ جي بدران، توھان ان آواز کي بيان ڪري سگھو ٿا جيڪو توھان چاھيو ٿا (مثال طور، "ھڪ گرم عورت جو آواز ٿوري برطانوي ڌڙڪ سان، ھلڪو ۽ پڌرو ڳالهائيندو آھي") ۽ پارلر ان بيان سان ٺھندڙ ڳالھائڻ پيدا ڪندو آھي. اھو ان کي تخليقي ايپليڪيشنن لاءِ خاص طور تي لچڪدار بڻائيندو آھي.
Hugging Face
Apache 2.0
Medium
en
4GB
نه
2
IndexTTS-2
Standard
IndexTTS-2 هڪ ترقي يافته متن کان ڳالهائڻ وارو سسٽم آهي جيڪو صفر-شوٽ آواز جي سنٿسيٽ ۾ بهترين آهي. اهو خاص جذباتي ٽون جهڙوڪ خوش، ڏکيو، ڪاوڙ يا ڊڄندڙ سان ڳالهائي سگهي ٿو بغير احساس خاص تربيت واري ڊيٽا جي ضرورت جي. ماڊل جذباتي ويڪٽر استعمال ڪري ٿو پيدا ڪيل ڳالهائڻ جي جذباتي اظهار کي درست ڪنٽرول ڪرڻ لاءِ.
Index Team
Apache 2.0
Medium
en, zh
4GB
ھائو
2
Spark TTS
Standard
Spark TTS by SparkAudio هڪ متن کان ڳالهائڻ وارو ماڊل آهي جيڪو آواز جي کلوننگ کي ڪنٽرول ٿيل جذبي ۽ ڳالهائڻ جي انداز سان گڏ ڪري ٿو. رڳو 5 سيڪنڊن جي حوالي آڊيو جي استعمال سان، اهو آواز کي کلون ڪري سگهي ٿو ۽ پوءِ مختلف جذبن، رفتارن ۽ اندازن سان ڳالهائڻ پيدا ڪري سگهي ٿو جڏهن ته ڪلون ٿيل آواز جي شناخت کي برقرار رکي. Spark TTS هڪ پروموشن تي ٻڌل ڪنٽرول سسٽم استعمال ڪري ٿو.
SparkAudio
Apache 2.0
Medium
en, zh
4GB
ھائو
2
GPT-SoVITS
Standard
GPT-SoVITS GPT-style language modeling کي SoVITS (Singing Voice Inference via Translation and Synthesis) سان ڳنڍي ٿو طاقتور ٿورڙن شاٽن جي آواز جي کلوننگ لاءِ. 5 سيڪنڊن جي حوالي آڊيو سان، اهو صحيح طرح آواز کي کلون ڪري سگھي ٿو ۽ نئين ڳالهائڻ کي پيدا ڪري سگھي ٿو جڏهن ته ڳالهائيندڙ جي منفرد خاصيتن کي محفوظ ڪري ٿو. اهو ٻنهي ڳالهائڻ ۽ ڳائڻ واري آواز جي سنٿس ۾ بهترين آهي.
RVC-Boss
MIT
Slow
en, zh, ja, ko
6GB
ھائو
2
Orpheus
Standard
Orpheus هڪ وڏي پيماني تي متن کان ڳالهائڻ وارو ماڊل آهي جيڪو انسان جي سطح جي جذباتي اظهار کي حاصل ڪري ٿو. 100,000 ڪلاڪن کان وڌيڪ مختلف ڳالهائڻ جي ڊيٽا تي تربيت ڏني وئي آهي، اهو قدرتي جذبن، زور ۽ ڳالهائڻ جي انداز سان ڳالهائڻ پيدا ڪرڻ ۾ بهترين آهي. Orpheus ڳالهائڻ پيدا ڪري سگهي ٿو جيڪو انسان جي رڪارڊنگ کان تقريبن غير متمايز آهي.
Canopy Labs
Llama 3.2 Community
Medium
en
4GB
نه
2
Chatterbox
Premium
Chatterbox by Resemble AI ھڪ جديد zero-shot آواز کلوننگ ماڊل آھي. اھو ڪنھن به آواز کي ھڪ آڊيو نموني مان قابل ذڪر دقت سان نقل ڪري سگھي ٿو، نه رڳو ٽائمبر پر ڳالھائڻ جي انداز ۽ جذباتي رنگن کي به پڪڙي سگھي ٿو. Chatterbox پڻ fine-grained احساس ڪنٽرول جي خاصيت رکي ٿو، جيڪو توھان کي آواز جي سڃاڻپ کان آزاديءَ سان پيدا ڪيل ڳالھائڻ جي جذباتي رنگ کي ترتيب ڏيڻ جي اجازت ڏئي ٿو.
Resemble AI
MIT
Medium
en
4GB
ھائو
4
Tortoise TTS
Premium
Tortoise TTS ھڪ پاڻمرادو گھڻو آواز وارو متن کان ڳالھائڻ وارو سسٽم آھي جيڪو رفتار کان وڌيڪ آواز جي معيار کي ترجيح ڏيندو آھي. اھو DALL-E-inspired architecture کي استعمال ڪري ٿو ته جيئن تمام قدرتي ڳالھائڻ کي اعليٰ پروسوڊي ۽ ڳالھائيندڙ جي مشابهت سان پيدا ڪري. جڏھن ته گھڻن متبادلن کان ھلڪو آھي، Tortoise اوپن سورس ايڪو سسٽم ۾ موجود سڀ کان حقيقي سنٿيٽڪ ڳالھائڻ کي پيدا ڪري ٿو.
James Betker
Apache 2.0
Slow
en
8GB
ھائو
4
StyleTTS 2
Premium
StyleTTS 2 ماڻھوءَ جي سطح تي TTS سنٿسيٽ حاصل ڪري ٿو وڏين ڳالھائيندڙ ٻولين جا ماڊل استعمال ڪندي انداز جي پکڙجڻ ۽ مقابلي واري تربيت جي گڏجاڻي سان. اھو ھڪڙي ڳالھائيندڙ ماڊلن جي وچ ۾ سڀ کان وڌيڪ قدرتي آواز واري ڳالھائيندڙ پيدا ڪري ٿو، ماڻھوءَ جي رڪارڊنگ جي مقابلي ۾. StyleTTS 2 ماڻھوءَ جي ڳالھائيندڙ ٻوليءَ جي تبديلين جي پوري حد کي پڪڙڻ لاءِ انداز تي ٻڌل انداز جي ماڊلنگ استعمال ڪري ٿو.
Columbia University
MIT
Medium
en
4GB
نه
4
OpenVoice
Premium
OpenVoice by MyShell.ai آواز جي انداز، جذبي، ڌڙڪڻ، ريتم، وقفن، ۽ انتونيشن تي granular ڪنٽرول سان فوري آواز جي کلوننگ جي اجازت ڏئي ٿو. اهو مختصر آڊيو ڪلپ مان آواز کي کلون ڪري سگھي ٿو ۽ ڳالهائيندڙ جي شناخت کي برقرار رکندي ڪيترن ئي ٻولين ۾ ڳالهائڻ پيدا ڪري سگھي ٿو. OpenVoice پڻ آواز جي تبديلي جي طور تي ڪم ڪري ٿو، حقيقي وقت جي آواز جي تبديلي جي اجازت ڏئي ٿو.
MyShell.ai / MIT
MIT
Medium
en, zh, ja, ko, fr, de, es, it
4GB
ھائو
4
Qwen3 TTS
Standard
Qwen3-TTS Alibaba's Qwen ٽيم جو 1.7 بلين پاراميٽر متن کان ڳالهائڻ وارو ماڊل آھي. اھو ٽي طريقا سپورٽ ڪري ٿو: احساس ڪنٽرول سان اڳ ٺاھيل آواز (9 اسپيڪر)، آواز جي ڪلوننگ صرف 3 سيڪنڊن جي آڊيو کان، ۽ ھڪ منفرد آواز ڊزائين موڊ جنھن ۾ توھان پنھنجي پسنديده آواز کي قدرتي ٻوليءَ ۾ بيان ڪري سگھو ٿا. اھو 10 ٻولين کي اعليٰ اظهار ۽ طبعي پروسوڊي سان ڍڪي ٿو.
Alibaba (Qwen)
Apache 2.0
Medium
en, zh, ja, ko, de, fr, ru, pt, es, it
7GB
ھائو
2
Kokoro
مفت
Kokoro is an 82 million parameter text-to-speech model that punches well above its weight class. Despite its tiny size, it produces remarkably natural and expressive speech. Kokoro supports multiple languages including English, Japanese, Chinese, and Korean with a variety of expressive voices. It runs incredibly fast — generating audio nearly 100x faster than real-time on a GPU.
Hexgrad
Apache 2.0
Fast
Piper
مفت
Piper is a lightweight text-to-speech engine developed by Rhasspy that uses VITS and larynx architectures. It runs entirely on CPU, making it ideal for edge devices, home automation, and applications requiring offline TTS. With over 100 voices across 30+ languages, Piper delivers natural-sounding speech at real-time speeds even on a Raspberry Pi 4.
Rhasspy
MIT
Fast
VITS
مفت
VITS (Variational Inference with adversarial learning for end-to-end Text-to-Speech) is a parallel end-to-end TTS method that generates more natural sounding audio than current two-stage models. It adopts variational inference augmented with normalizing flows and an adversarial training process, achieving a significant improvement in naturalness.
Jaehyeon Kim et al.
MIT
Fast
MeloTTS
مفت
MeloTTS by MyShell.ai is a multilingual TTS library supporting English (American, British, Indian, Australian), Spanish, French, Chinese, Japanese, and Korean. It is extremely fast, processing text at near real-time speed on CPU alone. MeloTTS is designed for production use and supports both CPU and GPU inference.
MyShell.ai
MIT
Fast
Bark
معياري
Bark by Suno is a transformer-based text-to-audio model that can generate highly realistic, multilingual speech as well as other audio like music, background noise, and sound effects. It can produce nonverbal communications like laughing, sighing, and crying. Bark supports over 100 speaker presets and 13+ languages.
Suno
MIT
Slow
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
نه
Bark Small
معياري
Bark Small is a distilled version of the Bark model that trades some audio quality for significantly faster inference speeds and lower memory requirements. It retains Bark's ability to generate speech with emotions, laughter, and multiple languages.
Suno
MIT
Medium
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
نه
CosyVoice 2
معياري
CosyVoice 2 by Alibaba's Tongyi Lab achieves human-comparable speech quality with extremely low latency, making it ideal for real-time applications. It uses a finite scalar quantization approach for streaming synthesis and supports zero-shot voice cloning, cross-lingual synthesis, and fine-grained emotion control. It outperforms many commercial TTS systems in subjective evaluations.
Alibaba (Tongyi Lab)
Apache 2.0
Medium
en, zh, ja, ko, fr, de, it, es
ھائو
Dia TTS
معياري
Dia by Nari Labs is a 1.6B parameter text-to-speech model designed specifically for generating multi-speaker dialogue. It can produce natural-sounding conversations between two speakers with appropriate turn-taking, prosody, and emotional expression. Dia is perfect for creating podcast-style content, audiobook dialogues, and interactive conversational AI.
Nari Labs
Apache 2.0
Medium
en
نه
Parler TTS
معياري
Parler TTS is a text-to-speech model that uses natural language voice descriptions to control the generated speech. Instead of selecting from preset voices, you describe the voice you want (e.g., "a warm female voice with a slight British accent, speaking slowly and clearly") and Parler generates speech matching that description. This makes it uniquely flexible for creative applications.
Hugging Face
Apache 2.0
Medium
en
نه
IndexTTS-2
معياري
IndexTTS-2 is an advanced text-to-speech system that excels at zero-shot voice synthesis with fine-grained emotion control. It can generate speech with specific emotional tones like happy, sad, angry, or fearful without requiring emotion-specific training data. The model uses emotion vectors to precisely control the emotional expression of generated speech.
Index Team
Apache 2.0
Medium
en, zh
ھائو
Spark TTS
معياري
Spark TTS by SparkAudio is a text-to-speech model that combines voice cloning with controllable emotion and speaking style. Using just 5 seconds of reference audio, it can clone a voice and then generate speech with different emotions, speeds, and styles while maintaining the cloned voice identity. Spark TTS uses a prompt-based control system.
SparkAudio
Apache 2.0
Medium
en, zh
ھائو
GPT-SoVITS
معياري
GPT-SoVITS combines GPT-style language modeling with SoVITS (Singing Voice Inference via Translation and Synthesis) for powerful few-shot voice cloning. With as little as 5 seconds of reference audio, it can accurately clone a voice and generate new speech while preserving the speaker's unique characteristics. It excels at both speaking and singing voice synthesis.
RVC-Boss
MIT
Slow
en, zh, ja, ko
ھائو
Orpheus
معياري
Orpheus is a large-scale text-to-speech model that achieves human-level emotional expression. Trained on over 100,000 hours of diverse speech data, it excels at generating speech with natural emotions, emphasis, and speaking styles. Orpheus can produce speech that is virtually indistinguishable from human recordings.
Canopy Labs
Llama 3.2 Community
Medium
en
نه
Qwen3 TTS
معياري
Qwen3-TTS is a 1.7 billion parameter text-to-speech model from Alibaba's Qwen team. It supports three modes: preset voices with emotion control (9 speakers), voice cloning from just 3 seconds of audio, and a unique voice design mode where you describe the voice you want in natural language. It covers 10 languages with high expressiveness and natural prosody.
Alibaba (Qwen)
Apache 2.0
Medium
en, zh, ja, ko, de, fr, ru, pt, es, it
ھائو
ماڊل جي مقابلي جو جدول
| ماڊل | ڊيولپر: | جانور | معيار: | رفتار | ٻوليون | آواز جو کلون | ورام | لائسنس: | ڪارڊ | |
|---|---|---|---|---|---|---|---|---|---|---|
| Kokoro | Hexgrad | Free | Fast | 11 | 1.5GB | Apache 2.0 | مفت | استعمال | ||
| Piper | Rhasspy | Free | Fast | 31 | 0 (CPU only) | MIT | مفت | استعمال | ||
| VITS | Jaehyeon Kim et al. | Free | Fast | 4 | 1GB | MIT | مفت | استعمال | ||
| MeloTTS | MyShell.ai | Free | Fast | 6 | 0.5GB (GPU optional) | MIT | مفت | استعمال | ||
| Bark | Suno | Standard | Slow | 13 | 5GB | MIT | 2 | استعمال | ||
| Bark Small | Suno | Standard | Medium | 13 | 2GB | MIT | 2 | استعمال | ||
| CosyVoice 2 | Alibaba (Tongyi Lab) | Standard | Medium | 8 | 4GB | Apache 2.0 | 2 | استعمال | ||
| Dia TTS | Nari Labs | Standard | Medium | 1 | 4GB | Apache 2.0 | 2 | استعمال | ||
| Parler TTS | Hugging Face | Standard | Medium | 1 | 4GB | Apache 2.0 | 2 | استعمال | ||
| IndexTTS-2 | Index Team | Standard | Medium | 2 | 4GB | Apache 2.0 | 2 | استعمال | ||
| Spark TTS | SparkAudio | Standard | Medium | 2 | 4GB | Apache 2.0 | 2 | استعمال | ||
| GPT-SoVITS | RVC-Boss | Standard | Slow | 4 | 6GB | MIT | 2 | استعمال | ||
| Orpheus | Canopy Labs | Standard | Medium | 1 | 4GB | Llama 3.2 Community | 2 | استعمال | ||
| Chatterbox | Resemble AI | Premium | Medium | 1 | 4GB | MIT | 4 | استعمال | ||
| Tortoise TTS | James Betker | Premium | Slow | 1 | 8GB | Apache 2.0 | 4 | استعمال | ||
| StyleTTS 2 | Columbia University | Premium | Medium | 1 | 4GB | MIT | 4 | استعمال | ||
| OpenVoice | MyShell.ai / MIT | Premium | Medium | 8 | 4GB | MIT | 4 | استعمال | ||
| Qwen3 TTS | Alibaba (Qwen) | Standard | Medium | 10 | 7GB | Apache 2.0 | 2 | استعمال |
تمام جامع AI متن کان ڳالھائڻ وارو پليٽ فارم
TTS.ai کي متن کان ڳالهائڻ لاءِ ڇو چونڊيو؟
TTS.ai دنيا کي گڏ ڪري ٿو
هر ماڊل MIT، Apache 2.0، يا اهڙي قسم جي اجازت واري لائسنس جي تحت مفت آهي، يقيني بڻائي ٿو ته توهان کي پنهنجي منصوبن ۾ پيدا ڪيل آڊيو استعمال ڪرڻ جا مڪمل تجارتي حق آهن. جيڪڏهن توهان کي جلدي، هلڪو سنٿسيشن جي ضرورت آهي حقيقي وقت جي ايپليڪيشنن لاءِ يا آڊيو ڪتابن ۽ پوڊ ڪاسٽن لاءِ پريميئم اسٽوڊيو-ڪواليٽي جي خروجي لاءِ، TTS.ai وٽ هر استعمال جي صورت لاءِ صحيح ماڊل آهي.
مفت ماڊل، ڪوبه اڪائونٽ نه گھرجي
ٽي مفت TTS ماڊلز سان فوري طور شروع ڪريو: پيپر (وڌيڪ تيز، هلڪو وزن)، VITS (وڌيڪ معياري نيورال سنٿس) ۽ MeloTTS (ٻئي ٻولين جي مدد). ڪوبه رجسٽريشن، ڪوبه ڪريڊٽ ڪارڊ، نسلن تي ڪابه حد. مفت ماڊلز انگريزي ۽ ڪيترن ئي ٻين ٻولين کي سپورٽ ڪن ٿا جيڪي ڪيترن ئي ايپليڪيشنن لاءِ مناسب آهن.
GPU تيز رفتار پروسيسنگ
سڀ TTS ماڊل مخصوص NVIDIA GPUs تي ڊرائيو ڪن ٿا، جلدي، مسلسل پيدائش واري وقت لاءِ. مفت ماڊل عام طور تي 2 سيڪنڊن ۾ آڊيو پيدا ڪن ٿا. معياري ماڊل جهڙوڪ Kokoro، CosyVoice 2، ۽ Bark اوسط 3-5 سيڪنڊن ۾. اعليٰ معيار جا پريميئم ماڊل، جهڙوڪ Tortoise ۽ Chatterbox، 5-15 سيڪنڊن ۾ عمل ڪن ٿا، متن جي ڊيگهه تي منحصر.
30+ ٻوليون مدد ڏنل
30 کان وڌيڪ ٻولين ۾ ڳالهائڻ پيدا ڪريو جن ۾ انگريزي، اسپيني، فرانسيسي، جرمن، اطالوي، پرتگالي، چيني، جاپاني، ڪورين، عربي، هندي، روسي ۽ ٻيون به شامل آهن. ڪيترا ماڊل زبانن جي وچ ۾ ڳنڍڻ جي حمايت ڪن ٿا، جنهن جو مطلب ته توهان اهڙي ٻولي ۾ ڳالهائڻ پيدا ڪري سگهو ٿا جنهن ۾ اصل آواز کي ڪڏهن به تربيت نه ڏني وئي آهي. CosyVoice 2 ۽ GPT-SoVITS زبانن جي وچ ۾ آواز جي کلوننگ ۾ بهترين آهن.
ڊيولپر- تيار API
اسان جي OpenAI-متوافق REST API سان TTS.ai کي پنهنجي ايپليڪيشنن ۾ شامل ڪريو. سڀني 24+ ماڊلز لاءِ هڪ انتهائي نقطو. Python، JavaScript، cURL، ۽ Go SDKs. ريئل ٽائيم ايپليڪيشنن لاءِ اسٽريمنگ حمايت. وڏي پيماني تي مواد جي پيدائش لاءِ بيٽ پروسيس. async نوٽيفڪيشنن لاءِ Webhooks. پرو ۽ انٽرپرائز منصوبن تي دستياب.
گھڻا پڇيا ويندا سوال
متن کي ڳالھائڻ ۾ مٽائڻ شروع ڪريو
TTS.ai استعمال ڪندي هزارين ٺاهيندڙن سان شامل ٿيو. نئين اڪائونٽ سان 50 مفت ڪريڊٽ حاصل ڪريو. مفت ماڊل رجسٽريشن کانسواءِ دستياب آهن.