AI ٹیکس سے بولنا

اوپن سورس AI ماڈل کے ساتھ متن کو فطری آواز والی بات میں تبدیل کريں استعمال کے ليے مفت ، کوئی اکاونٹ نيا ں

مفت میں رجسٹر کریں

آپ کی زبان میں اب تک ہمارے پاس TTS آوازیں نہیں ہیں. ہمیں آپ کی آوازیں شامل کرنے میں مدد کریں! آپ کی آواز فروخت کریں

0/500 حروف · Sign up for 5,000 per generation →

رجسٹر کریں 5000 حروف کی حد

SSML موڈ (دقيق کنٹرول کے ليے سٹک سنتھز مارکنگ لنگھ)

SSML ٹیگ میں اپنے متن کو دقيق کنٹرول کے لیے لپیٹیں:

<speak><prosody rate="slow">Slow speech</prosody></speak>

احساس / انداز ٹیگ

دليول پر اثر اندازي کے ليے احساسي نشانات شامل کريں ( ماڈل مدد مختلف هے ):

لفظي دیکشنري

خود ساختہ تلفظ (لفظ = تلفظ):

پيچ 0

-12 +12

AI ماڈل

آواز

زبان

خروجی فارمیٹ

رفتار 1.0x

0.5x 2.0x

Piper, VITS, MeloTTS کے ساتھ مفت

آپ کا بنا يا او ڊيو یہاں نظر آ ئي گا ماڈل منتخب کريں ، متن داخل کريں اور بنا ئيں کلک کريں

ماڈل تفصیلات

GPT-SoVITS

Standard

GPT-SoVITS combines GPT-style language modeling with SoVITS (Singing Voice Inference via Translation and Synthesis) for powerful few-shot voice cloning. With as little as 5 seconds of reference audio, it can accurately clone a voice and generate new speech while preserving the speaker's unique characteristics. It excels at both speaking and singing voice synthesis.

ڈیولپر:	RVC-Boss
لائسنس:	MIT
رفتار	Slow
معیار:
زبانیں	4 زبانیں
VRAM	6GB
آواز کا کلوننگ	مدد

خاصیت:

5-second cloning Singing voice Few-shot learning High fidelity Cross-lingual

بہترین:: Voice cloning, singing synthesis, content creator voice replication

بہتر نتيجے کے ليے تجويز

فطري توقف اور تنازل کے ليے صحيح وقفے استعمال کريں
واضح تلفظ کے ليے نمبر اور مختصر ناموں کي شفيع کريں
جملوں کے درمیان مختصر توقفے بنا نے کے ليے کمونز شامل کريں
طويل دراماتي توقفوں کے ليے ايليسپس استعمال کريں
سب سے فطری نتيجے کے ليے Kokoro يا CosyVoice 2 استعمال کريں
متعدد اسپیکروں کے دائیں اور پوڈکاسٹ مواد کے لیے Dia استعمال کریں

حروف کا استعمال

تير	ہر 1K حروف کی قیمت
مفت	0 کریڈٹ (لامحدود)
معیاري	2 کریڈٹ / 1K حروف
پریمیئم	4 کریڈٹ / 1K حروف

مزید حروف حاصل کریں

AI ٹیکس سے اسپیکینگ کیسا کام کرتا ہے

تین سادہ قدموں میں پیشہ ورانہ-کیفیت کی آوازیں پیدا کریں. کوئی تکنیکی علم ضروری نہیں ہے.

قدم 1

آپ کا متن داخل کریں

تا ئپ، پسٹ، يا اپ لوڈ کريں سنيپ چٹ کيد کيد ليں جو آپ بولنا چا هيتے هيں. لا گ ان صارفين کے ليے 5000 حروف تک هر نسل کي حمايت کريں. عام ٽيڪسٹ استعمال کريں يا SSML ٹیگ شامل کريں سنيپ چٹ پر اعلي سطحي کنٹرول کے ليے، توقف اور زور

قدم 2

ماڈل اور آواز منتخب کریں

تین سطحوں پر 20+ AI ماڈل سے منتخب کریں. ایک آواز منتخب کریں جو آپ کے مواد سے مطابقت رکھتا ہے، اپنی ہدف زبان منتخب کریں، 0.5x سے 2.0x تک پلے باکس کی رفتار کو تعدیل کریں، اور آپ کی پسندیدہ خروجی فارمیٹ (MP3، WAV، OGG، یا FLAC) منتخب کریں.

قدم 3

بناؤ اور ڈاؤن لوڈ کرو

جنیئر کريں کلک کريں اور آپ کا آڊيو چند سيکنڈ میں تیار ہو جاۓ گا. اندروني پليئر کے ساتھ پیش نگہانی کريں، آپ کے منتخب شدہ فارمیٹ میں ڈائون لوڈ کريں، يا آپ کاش شيئريبل لينک کاپي کريں. آپ کے ورک فلو میں باچ پروسيسنگ اور انٽيگريشن کے ليے API استعمال کريں.

ٹیکس سے کلام کے استعمال کے حالات

AI-powered text-to-speech لوگوں کو اس طرح تبدیل کررہا ہے کہ وہ کیسے تخلیق کرتے ہیں، استعمال کرتے ہیں، اور صنعتوں کے دہائیوں میں آڈیو مواد کے ساتھ تعامل کرتے ہیں۔

آڈیو کتابیں

تمام کتابوں کو سٹوڈیو کی معيار کے ساتھ نریشن کے ساتھ قدرتی آواز کی اوڈيو کتابوں میں تبدیل کریں.

ویڈیو وائٹ اوورس

یو ٹیوب، ٹیک ٹک، انسٹاگرام ریلز اور شرٹس کے لیے پیشہ ورانہ ویو اوور بناؤ۔ 100+ آوازیں یا اپنے آپ کو کلون کرو۔

پوڈکاسٹ

چند AI آوازوں کے ساتھ سکریپٹس سے پوڈکاسٹ ايپيز بنايں فطري دو اسپيکر کلام کے ليے Dia استعمال کريں

گیمنگ

اينڈی گيمز ، ويزلول نوولز اور تعاملي افسانہ کے ليے AI آواز ادا کر نے NPC ڈائيلوگ ، کٹس سين آوازیں ، 30+ زبانیں

اي- ليرننگ

کورس مواد، تقریر اور تربیتی مواد کو آڈیو میں تبدیل کریں. عالمی پلیٹ فارم کے لئے کثیر زبانوں کی مدد.

رسائی

ویب سائٹس، دستاویزات اور ایپلیکیشنز کو رسائی کے قابل بناؤ۔سکرین ریڈر API انٹیگریشن اور آرٹیکل-تو-آڈیو تبدیل.

فون سسٹم

قدرتی AI آوازوں کے ساتھ IVR نظام، فون مینو، اور کلائنٹ سروس کو طاقت دیں۔ کال سینٹرز کے لئے کم-لائٹنٹی اسٹریمنگ۔

سماجی میڈیا

ٹیک ٹک کی کہانیاں، انسٹاگرام ریلز، ٹویٹر/ ایکس کامنٹ، یو ٹیوب شرٹس۔

سٹریمنگ

Twitch TTS اشارے، چیٹ-تو- آواز، AI کو-ہسٹس، اور Discord bots. کم latency، 100+ آوازیں، StreamElements مطابقت رکھتے ہیں.

مارکیٹنگ

اشتہاری آواز، وضاحتی ویڈیوز، مصنوعات کی ڈیمو، اور فروخت کی پیشکشیں۔ مہموں کے ذریعے آڈیو مواد کی پیداوار کو پیمانہ بندی کریں۔

دوبرانگ اور لوکلائزيشن

آواز سے ملنے والی AI کے ساتھ 30+ زبانوں میں ویڈیو ترجمہ اور ڈب کریں. خودکار نقل اور اسپیکر کی دریافت.

ھمدردي اور صحت

رہنمائی مدیتیشن، نیند کی کہانیاں، سانس کے تمرینات، اور آرام سے، آرام AI آوازوں کے ساتھ تصدیق.

تمام استعمال کے حالات اور اوزار دیکھیں

تمام متن سے بوليں ماڈل

TTS.ai پر موجود ہر AI ماڈل کے ليے تفصيلي خاصيتیں آپ کے پروجیکٹ کے ليے صحيح ماڈل تلاش کر نے کے ليے معيار ، رفتار ، زباني مدد اور خاصيتوں کا موازنہ کريں

Kokoro

Free

کوکورو 82 ميليون پارامٹر ٹیکس-تو- اسپيچ ماڈل هے جو اسکے وزن کلاس سے اوپر خوبي طرح سے مچتا هے اسکے چھوٹے سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا

ڈیولپر::
Hexgrad

لائسنس::
Apache 2.0

رفتار:
Fast

معیار::

زبانیں:
en, ja, zh, ko, fr, de, it, pt, es, hi, ru

VRAM:
1.5GB

آواز کا کلوننگ:
نہیں

ہر 1K حروف کی قیمت:
مفت

82M پیرامیٹرز بہت تیز اظہاري آوازیں کثیر زبانی اسٹریمنگ امداد

بہترین:: کم سے کم لاٹنسی کے ساتھ اعلیٰ معیار TTS، اسٹریمنگ ایپلیکیشنز

کوشش کریں Kokoro

Piper

Free

پيپر رال سس پي کے ذريعے ترقي يافته ھيں جو VITS اور larynx architectures کا استعمال کر تا هے ۔ یہ پورے طور پر سي پي يو پر چلتا هے ، اس کو ايج ڈیوائس ، گھري خودکاري ، اور آپريشنز کے ليے مثالي بنا تا هے جن کو آف لائن TTS کا احتياج هے ۔ 30+ زبانوں میں 100 سے زائد آوازوں کے ساتھ ، پيپر رال سس پي 4 پر بھی ريئل ٽائم رفتار پر فطري آوازوں کا اظہار کر تا هے ۔

ڈیولپر::
Rhasspy

لائسنس::
MIT

رفتار:
Fast

معیار::

زبانیں:
en, de, fr, es, it, pt, nl, pl, ru, zh, ja, ko, ar, cs, da, fi, el, hu, is, ka, kk, ne, no, ro, sk, sr, sv, sw, tr, uk, vi

VRAM:
0 (CPU only)

آواز کا کلوننگ:
نہیں

ہر 1K حروف کی قیمت:
مفت

سی پی یو دوستانہ آف لائن قابل 100+ آوازیں 30+ زبانیں SSML مدد

بہترین:: تیز پیش نگوئی، رسائی، اور شامل ایپلیکیشنز

کوشش کریں Piper

VITS

Free

VITS (Variation Inference with adversarial learning for end-to-end Text-to-Speech) ایک متوازی انتہا سے انتہا تک TTS طریقہ کار ہے جو کہ دو مرحلہ ماڈل سے زیادہ قدرتی آواز کی آڈیو پیدا کرتا ہے یہ variation inference کو قبول کرتا ہے جو کہ normalizing flows اور ایک مخالف تربیت کے عمل کے ساتھ بڑھایا جاتا ہے، جس سے قدرتی میں ایک اہم بہتری حاصل ہوتی ہے.

ڈیولپر::
Jaehyeon Kim et al.

لائسنس::
MIT

رفتار:
Fast

معیار::

زبانیں:
en, zh, ja, ko

VRAM:
1GB

آواز کا کلوننگ:
نہیں

ہر 1K حروف کی قیمت:
مفت

آخري سے آخري ترکیب فطري نظم جلدي نتيجه نگي متعدد اسپیکر

بہترین:: عام مقصد کا متن-سے-زبان با فطری پروسوڈی

کوشش کریں VITS

MeloTTS

Free

MyShell.ai کے طرف سے MeloTTS ایک کثیر زبانوں TTS لائبريري ہے جو انگريزي (امريکائي، برطانوي، هندي، آسٽريليائي)، اسپيني، فرانسيسي، چيني، جاپاني اور کو رياني کو مدد دے سکتی هے ۔ یہ انتہائي تیز ہے ، صرف سي پي يو پر تقريباً ريئل ٹائم رفتار پر متن پروسيس کر سکتی هے ۔ MeloTTS پروڈکشن استعمال کے ليے بنا يا گيا هے اور سي پي يو اور جي پي يو دو کے ليے مدد دے سکتی هے ۔

ڈیولپر::
MyShell.ai

لائسنس::
MIT

رفتار:
Fast

معیار::

زبانیں:
en, es, fr, zh, ja, ko

VRAM:
0.5GB (GPU optional)

آواز کا کلوننگ:
نہیں

ہر 1K حروف کی قیمت:
مفت

سی پی یو- بہتر چند زبانوں والا کثیر حروف تیار کم وقفہ

بہترین:: پروڈکشن ایپلیکیشنز کو تیز، متعدد زبانوں کے TTS کی ضرورت ہے

کوشش کریں MeloTTS

Bark

Standard

برک by Suno ایک ترانسفرميٽر پر مبنی متن سے آ ديو ماڈل هے جو بلند حقيقت پسندي، چند زباني بولي اور اور آ ديو کي طرح ميوزک، پس منظر شور اور آواز کے اثرات پيدا کر سکتا هے ۔ یہ غير لفظي مواصلات مثل ہنسنا ، خنکا اور رونا پيدا کر سکتا هے ۔ برک 100 سے زائد اسپيکر پريسٹ اور 13+ زبانوں کو مدد ديتا هے

ڈیولپر::
Suno

لائسنس::
MIT

رفتار:
Slow

معیار::

زبانیں:
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr

VRAM:
5GB

آواز کا کلوننگ:
نہیں

ہر 1K حروف کی قیمت:
2x

آواز کے اثرات ہنستے/سھتے موسیقی کی پیداوار 100+ اسپیکرز کثیر زبانی

بہترین:: تخلیقی اوڈيو مواد، احساسات کے ساتھ اوڈيو بک، آواز کے اثرات

کوشش کریں Bark

Bark Small

Standard

Bark Small Bark ماڈل کا ایک ڈسٹل ورژن ہے جو کچھ او ديو کي معيار کو قابل ذکر طور پر تیز انفرا نسی رفتار اور کم ذہن کی ضرورت کے ليے تجارت کر تا هے ۔ یہ Bark کی جذبات ، ہنسی اور چند زبانوں کے ساتھ بولنے کی صلاحيت محفوظ رکھتا هے

ڈیولپر::
Suno

لائسنس::
MIT

رفتار:
Medium

معیار::

زبانیں:
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr

VRAM:
2GB

آواز کا کلوننگ:
نہیں

ہر 1K حروف کی قیمت:
2x

ہلکا وزن پورے Bark سے تیز جذباتي بولي چند زبانوں والا

بہترین:: جب پورے Bark بہت سست ہو تو تیز تخلیقی آڈیو

کوشش کریں Bark Small

CosyVoice 2

Standard

علی بابا کی ٹونگی لیب کی طرف سے کوسی وائٹس 2 انسانی-مقابلہ کلام کی معیار کو انتہائی کم لیٹنسی کے ساتھ حاصل کرتا ہے، اسے ریئل-ٹائم ایپلیکیشنز کے لئے ایڈیل بناتا ہے. یہ سٹریمینگ سنتھز کے لئے ایک محدود سکالر کوانٹائزیشن طریقہ کار استعمال کرتا ہے اور صفر-شٹ وائٹس کلوننگ، کراس-لنگوی سنتھز، اور Fine-grained احساس کنٹرول کی حمایت کرتا ہے. یہ بہت سے تجارتی TTS سسٹم کو موضوعی ایویلیویشن میں بہتر کارکردگی دیتا ہے.

ڈیولپر::
Alibaba (Tongyi Lab)

لائسنس::
Apache 2.0

رفتار:
Medium

معیار::

زبانیں:
en, zh, ja, ko, fr, de, it, es

VRAM:
4GB

آواز کا کلوننگ:
جی ہاں

ہر 1K حروف کی قیمت:
2x

سٹریمنگ صفر-شٹ کلوننگ کراس-لنگويج احساسات کا کنٹرول انسان

بہترین:: ریئل-ٹائم ایپلیکیشنز، اسٹریمنگ TTS، وائٹ اسسٹنٹ

کوشش کریں CosyVoice 2

Dia TTS

Standard

نا ري ليبز کے طرف سے دي آ ئے ايک 1.6 بي پيرامڈ ٹیکس-تو- اسپيچ ماڈل خاص طور پر ملٹی اسپيکر ڈائيلوگ کي پيدائش کے ليے ديزاین کريے گيا هے ۔ یہ دو اسپيکر کے درمیان مناسب تير گي ، پروزو ڈي اور جذباتي اظہار کے ساتھ فطري آواز کے ساتھ گفتگو کر سکتا هے ۔ دي آ ئے پوڈکاسٹ-سٹائل مواد ، او ديو بک ڈائيلو گ اور تعاملي گفتگو اي آ ئي بنا نے کے ليے پورا مناسب هے ۔

ڈیولپر::
Nari Labs

لائسنس::
Apache 2.0

رفتار:
Medium

معیار::

زبانیں:
en

VRAM:
4GB

آواز کا کلوننگ:
نہیں

ہر 1K حروف کی قیمت:
2x

ملٹی اسپیکر ڈائیلاگ پیدائش فطري تير گي جذباتي اظہار 1.6B پیرامیٹرز

بہترین:: پوڈکاسٹ، اوڈیو بک گفتگو، گفتگو کے مواد

کوشش کریں Dia TTS

Parler TTS

Standard

Parler TTS ایک متن سے بولنے کا ماڈل ہے جو فطری زبان کی آواز کی وضاحت کو استعمال کرتا ہے تا کہ مصنوعي بولنے کو کنٹرول کر سکے. اسکے برعڪس آپ آواز کو جسے آپ چاہتے ہیں بیان کر سکتے ہیں (مثلا "ایسی گرم عورتي آواز جس میں خفيه برطانوي لہجے ہیں، سست اور واضح طور پر بولتے ہیں) اور Parler اس بيان سے مطابقت رکھنے والی بولنے کو پیدا کرتا ہے. یہ اسے تخلیقي ايپليکيشنز کے ليے غير معمولي لينجبل بناتا هے

ڈیولپر::
Hugging Face

لائسنس::
Apache 2.0

رفتار:
Medium

معیار::

زبانیں:
en

VRAM:
4GB

آواز کا کلوننگ:
نہیں

ہر 1K حروف کی قیمت:
2x

آواز کی وضاحت فطری زبان کا کنٹرول لنچبل آواز بنانا کوئی پرائزٹ آوازیں ضرورت نہیں

بہترین:: تخلیقی ایپلیکیشنیں جہاں آپ کو اپنی آواز کی خصوصیت کی ضرورت ہے

کوشش کریں Parler TTS

GLM-TTS

Standard

GLM-TTS Zhipu AI کے ذريعے لاما فن تعمير پر بنا يا گيا هے جو فلو ميچنگ کے ساتھ متن سے کلام کا نظام هے ۔ اس سے اوپن سورس TTS ماڈل کے درمیان سب سے کم کر کٹ اير ريٹ حاصل کريں گيا هے ، اس کا مطلب هيں کہ اس سے سب سے صحيح لفظ حاصل کريں گيا هے ۔ GLM-TTS 3-10 سيکنڈ آ ڊيو نمونوں سے آواز کے کلوننگ کے ساتھ انگريزي اور چيني کو مدد ديتا هے

ڈیولپر::
Zhipu AI

لائسنس::
GLM-4 License

رفتار:
Medium

معیار::

زبانیں:
en, zh

VRAM:
4GB

آواز کا کلوننگ:
جی ہاں

ہر 1K حروف کی قیمت:
2x

کم سے کم غلطی شرح آواز کا کلوننگ فلو ميچنگ فطري نظم

بہترین:: استعمالات جنہیں زیادہ سے زیادہ لفظی درستگي کی ضرورت هے

کوشش کریں GLM-TTS

IndexTTS-2

Standard

IndexTTS-2اُخرو ر متن سے کلام کا نظام هے جو صفر شٹ آواز کي سنتز ميں زبردست هے جو حسي کنٹرول کے ساتھ هے یہ خاص حسي تنا ر سے کلام بنا سکتا هے جیسے خوش ، غمگين ، غصہ يا خوف زدہ حسي خاص تربيت کے اعدادوشمار کے ضرورت کے بغیر ماڈل حسي ویکٹرز کا استعمال کرتا هے تا هے جلتے کلام کے حسي اظہار کو درست طور پر کنٹرول کريں

ڈیولپر::
Index Team

لائسنس::
Bilibili Model License

رفتار:
Medium

معیار::

زبانیں:
en, zh

VRAM:
4GB

آواز کا کلوننگ:
جی ہاں

ہر 1K حروف کی قیمت:
2x

احساسات کا کنٹرول صفر-شٹ احساسات اظہاري بولي فائنل-گرینڈ کنٹرول

بہترین:: جذباتی طور پر اظہاری مواد، آڈیو بک، ورچوئل اسسٹنٹ

کوشش کریں IndexTTS-2

Spark TTS

Standard

SparkAudioکے ذريعے SparkTTS يه متن سے کلام کا ماڈل هے جو آواز کي کلوننگ کو کنٹرو لي جا سکنے والے احساس اور بولنے کے انداز کے ساتھ ملا تا هے صرف 5 سيکنڈ رفرنس آ ڊيو کا استعمال کر کے ، وہ آواز کي کلوننگ کر سکتا هے اور پھر مختلف احساسات ، رفتار اور اندازوں کے ساتھ کلام پيدا کر سکتا هے اور کلون کی گيجٹ کو محفوظ رکھ سکتا هے SparkTTS يه پرو موٹ پر مبنی کنٹرول سسٹم استعمال کرتا هے

ڈیولپر::
SparkAudio

لائسنس::
CC BY-NC-SA 4.0

رفتار:
Medium

معیار::

زبانیں:
en, zh

VRAM:
4GB

آواز کا کلوننگ:
جی ہاں

ہر 1K حروف کی قیمت:
2x

آواز کا کلوننگ احساسات کا کنٹرول انداز کنٹرول پرومم-بائز 5 سیکنڈ کلوننگ

بہترین:: کلونڈ آوازوں اور جذباتی کنٹرول کے ساتھ مواد کی تخلیق

کوشش کریں Spark TTS

GPT-SoVITS

Standard

GPT-SoVITS GPT-شئے زبان ماڈلنگ کو SoVITS (ترجمہ اور سنتز کے ذریعے آواز سننے کا اندازہ لگانا) کے ساتھ طاقتور چند شوٹ آواز کلوننگ کے ليے ملا تا هے 5 سيکنڈ ريفرنس آ ڊيو کے ليے ، هيں صحيح طور پر آواز کي کلوننگ کر سکتا هے اور اسپيکر کے منفرد خاصيتوں کو محفوظ رکھتے ہوئے نئے بولنے کي پيدا کر سکتا هے ۔ هيں دوئي بات کرنے اور آواز سننے کے سنتھز ميں ممتاز هے

ڈیولپر::
RVC-Boss

لائسنس::
MIT

رفتار:
Slow

معیار::

زبانیں:
en, zh, ja, ko

VRAM:
6GB

آواز کا کلوننگ:
جی ہاں

ہر 1K حروف کی قیمت:
2x

5 سیکنڈ کلوننگ آواز گاني چند شوٹ سکھنا اعلیٰ وفاداري کراس-لنگويج

بہترین:: آواز کلوننگ، گائيں سنتھس، مواد بنانے والا آواز نقل

کوشش کریں GPT-SoVITS

Orpheus

Standard

Orpheus 100,000 گھنٹوں سے زائد مختلف بولنے کے اعداد و شمار پر تربيت حاصل کر نے والا ایک بڑے پیمانے پر متن سے بولنے کا ماڈل هے جو انسانی سطح کے جذباتی اظہار کو حاصل کر تا هے ، یہ قدرتی جذبات ، زور اور بولنے کے انداز کے ساتھ بولنے کو پیدا کر نے میں ممتاز هے Orpheus انسانی ریکارڈز سے تقریبا ً ممتاز بولنے کو پیدا کر سکتا هے

ڈیولپر::
Canopy Labs

لائسنس::
Llama 3.2 Community

رفتار:
Medium

معیار::

زبانیں:
en

VRAM:
4GB

آواز کا کلوننگ:
نہیں

ہر 1K حروف کی قیمت:
2x

انسان کے سطح پر احساس 100K گھنٹے تربیت فطری تاثير بياني بولي

بہترین:: اعلیٰ معياری جذباتی بولنا، آڈیو بک، آواز اداکاری

کوشش کریں Orpheus

Chatterbox

Premium

چاٹر باکس by Resemble AI ایک cutting-edge zero-shot آواز کلوننگ ماڈل هے یہ ایک واحد او ڈیو نمونے سے کوئی آواز قابل ذکر دقت کے ساتھ نقل کر سکتا هے ، صرف تير پر قبضہ نہیں کرتا بلکہ بات کرنے کا انداز اور جذباتی نونانس بھی ۔ چاٹر باکس میں بھی fine-grained احساسات کو کنٹرول کرنے کی خاصيت هے ، آپ کو آواز کی شناخت سے آزاد طور پر پیدا کی گئي بات کے جذباتی تنا ر کو تعديل کرنے کی اجازت دےتا هے

ڈیولپر::
Resemble AI

لائسنس::
MIT

رفتار:
Medium

معیار::

زبانیں:
en

VRAM:
4GB

آواز کا کلوننگ:
جی ہاں

ہر 1K حروف کی قیمت:
4x

صفر-شٹ کلوننگ احساسات کا کنٹرول اعلیٰ وفاداري انداز منتقلی ایک نمونے کا کلوننگ

بہترین:: جذباتی کنٹرول کے ساتھ پیشہ ور آواز کلوننگ، مواد کی تخلیق

کوشش کریں Chatterbox

Tortoise TTS

Premium

Tortoise TTS ایک خودکار واپسی والی ملٹی وائٹس ٹیکس-تو-سپیچ سسٹم ہے جو رفتار پر آڈیو کی کیفیت کو ترجیح دیتا ہے یہ DALL-E سے متاثرہ فن تعمیر کو استعمال کرتا ہے تاکہ بہترین prosody اور اسپیکر کی مشابهت کے ساتھ انتہائی قدرتی بولنے کو پیدا کر سکے۔ جبکہ بہت سے متبادل سے سست، Tortoise کھلے-سورس ماحولیاتی نظام میں دستیاب کچھ زیادہ حقیقی مصنوعی بولنے کو پیدا کرتا ہے.

ڈیولپر::
James Betker

لائسنس::
Apache 2.0

رفتار:
Slow

معیار::

زبانیں:
en

VRAM:
8GB

آواز کا کلوننگ:
جی ہاں

ہر 1K حروف کی قیمت:
4x

اعلیٰ معیار چند آوازیں DALL-E فن تعمير آواز کا کلوننگ خودکار واپسی

بہترین:: اوڈیو بک، پرائم مواد، معیاری اپلیکیشنز

کوشش کریں Tortoise TTS

StyleTTS 2

Premium

StyleTTS2 انسان کے سطح پر TTS synthesizing حاصل کرتا ہے بڑے بولنے کے زبان ماڈل استعمال کر کے تنازعہ يي تربيت کے ساتھ انداز انکشاف کو جوڑ کر۔ یہ انسان کی ریکارڈنگ کے مقابلے میں ایک ناطق ماڈل کے درمیان سب سے فطری آواز والی بات پیدا کرتا ہے۔ StyleTTS2 انسانی بولنے کے مختلف اندازوں کو پورے حد تک حاصل کرنے کے ليے انکشاف پر مبنی انداز ماڈلنگ کا استعمال کرتا ہے ۔

ڈیولپر::
Columbia University

لائسنس::
MIT

رفتار:
Medium

معیار::

زبانیں:
en

VRAM:
4GB

آواز کا کلوننگ:
نہیں

ہر 1K حروف کی قیمت:
4x

انسان انداز مخالف تربيت فطري فرق اعلیٰ وفاداري

بہترین:: سٹوڈیو-کیفیت ایک اسپیکر ترکیب، پیشہ ور روایت

کوشش کریں StyleTTS 2

OpenVoice

Premium

MyShell.aiکے طرف سے اوپن ويز آواز کے انداز، احساس، نغمات، ريتم، توقف اور تنازل پر گيڑي کنٹرول کے ساتھ فوري آواز کي کلوننگ کي اجازت ديتا هے ۔ یہ مختصر آ ڊيو کلپ سے آواز کي کلوننگ کر سکتا هے اور اسپيکر کي شناخت محفوظ رکھتے ہوئے متعدد زبانوں ميں آواز پيدا کر سکتا هے ۔ اوپن ويز آواز کے تبديل کر نے کے طور پر بھی کام کر سکتا هے ، ريل ٹائم آواز کي تبديلي کي اجازت ديتا هے

ڈیولپر::
MyShell.ai / MIT

لائسنس::
MIT

رفتار:
Medium

معیار::

زبانیں:
en, zh, ja, ko, fr, de, es, it

VRAM:
4GB

آواز کا کلوننگ:
جی ہاں

ہر 1K حروف کی قیمت:
4x

فوری کلوننگ آواز تبدیل احساسات کا کنٹرول اکر کنٹرول کثیر زبانی

بہترین:: آواز کا کلوننگ fine-grained انداز کے ساتھ کنٹرول، آواز تبدیل

کوشش کریں OpenVoice

Qwen3 TTS

Standard

Qwen3-TTS Alibaba کے Qwen ٹیم سے 1.7 ارب پارامٹر ٹیکس-تو- اسپيچ ماڈل هے یہ تین موڈس کو مدد ديتا هے: احساسات کے کنٹرول کے ساتھ پیش سے مقرر آوازیں (9 اسپيکر)، آواز کا کلوننگ صرف 3 سيکنڈ کے آڈیو سے، اور ایک منفرد آواز ڈزائين موڈ جہاں آپ اپنی چا لي ہوئی آواز کو فطري زبان میں بيان کر سکتے هيں ۔ اس ميں 10 زبانیں شامل هيں جو اعلي اظہار اور فطري پروسو ڈي سے ليے جا نے پائيں

ڈیولپر::
Alibaba (Qwen)

لائسنس::
Apache 2.0

رفتار:
Medium

معیار::

زبانیں:
en, zh, ja, ko, de, fr, ru, pt, es, it

VRAM:
7GB

آواز کا کلوننگ:
جی ہاں

ہر 1K حروف کی قیمت:
2x

آواز کا کلوننگ 9 پرائزٹ آوازیں متن سے آواز کا ڈیزائن احساسات کا کنٹرول زبانیں

بہترین:: آواز کلوننگ یا مختص آواز ڈیزائن کے ساتھ متعدد زبانوں کا مواد

کوشش کریں Qwen3 TTS

Sesame CSM

Premium

Sesame CSM (Conversational Speech Model) 1 ارب پارامٹر ماڈل خاص طور پر گفتگو کي حصول کے ليے بنا يا گيا هے انسان کے گفتگو کے فطري نمونے کو ماڈل کر تا هے جس ميں تير گيٹنگ ٹائمنگ، با کينل ري سپانس ، جذباتي رد عمل اور گفتگو کے فلو شامل هے CSM او ڊيو پيدا کر تا هے جو مصنوعی گفتگو کے بجاي فطري انسان کے گفتگو کے طور پر آواز ديتا هے

ڈیولپر::
Sesame

لائسنس::
Apache 2.0

رفتار:
Slow

معیار::

زبانیں:
en

VRAM:
8GB

آواز کا کلوننگ:
نہیں

ہر 1K حروف کی قیمت:
4x

گفتگو فطری وقت لٹ-تیکشن بیکٹيريل 1B پارامٹر

بہترین:: AI مددگار، چٹ باٹس، گفتگو AI ایپلیکيشنز

کوشش کریں Sesame CSM

Chatterbox Turbo

Standard

چاٹر باکس ٹوربا ے ريزمل AI سے چاٹر باکس کے ليے 350 ميگا پيراميٹر اپ گرڈ هے ، 6x ريئل ٽائم رفتار 200 ميگا بيس ليٹ نسي کے ساتھ پيش کر تا هے ۔ یہ متن ميں [ ہنسی ] ، [ کوش ] اور [ خندہ ] کے ليے براہ راست paralinguistic ٹیگ کو مدد دے تا هے ۔ اس ميں پرتھ واٹرمارکنگ شامل هے تمام پيدا کيے گئے او ديو پر provenance تلا ش کے ليے

ڈیولپر::
Resemble AI

لائسنس::
MIT

رفتار:
Fast

معیار::

زبانیں:
en

VRAM:
2GB

آواز کا کلوننگ:
جی ہاں

ہر 1K حروف کی قیمت:
2x

200ms کے نیچے کی تاخیر علامات 6x ریئل-ٹائم آواز کا کلوننگ وائیرڈ

بہترین:: ریئل-ٹائم وائٹ ایجنٹ، قدرتی آوازوں کے ساتھ اظہاری بولنا

کوشش کریں Chatterbox Turbo

Zonos

Standard

زيفرا کے ذريعے زونوس v0.1 1.6 بي پيرامڈ ماڈل هے جو خوشي ، غصہ ، غم ، خوف اور حیرت کے ليے سليڈرز کے ساتھ دقيق احساساتي کنٹرول کي خاصيت رکھتا هے ۔ یہ دوئي کو تحول اور جديد SSM (سسٹم اسپيس ماڈل) وِرجين پيش کر تا هے ۔ 10-30 سيکنڈ ريفرنس آڊيو سے صفر شوٹ ويز کلونينگ کے ساتھ 200K+ گھڑيوں کے کثیر زباني بولنے پر تربيت دئي جا ئيے

ڈیولپر::
Zyphra

لائسنس::
Apache 2.0

رفتار:
Medium

معیار::

زبانیں:
en, ja, zh, fr, de

VRAM:
6GB

آواز کا کلوننگ:
جی ہاں

ہر 1K حروف کی قیمت:
2x

احساسات کا کنٹرول آواز کا کلوننگ SSM فن تعمير چند زبانوں والا پيچ/ريٹ ڪنٽرول

بہترین:: احساسات کو کنٹرول کر نے کے ليے اظہاري بولي، آواز ڈزائين سٹو ديو

کوشش کریں Zonos

Dia 2

Standard

Dia2 Nari Labs کے ذريعے Dia کے ليے 1B اور 2B پرائمر ورجنز ميں دستياب Dia2 کا 1B اور 2B پرائمر ورجنز ميں دستياب Dia2 Dia کے ليے 1B اور 2B پرائمر ورجنز ميں دستياب Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia2 Dia

ڈیولپر::
Nari Labs

لائسنس::
Apache 2.0

رفتار:
Fast

معیار::

زبانیں:
en

VRAM:
4GB

آواز کا کلوننگ:
نہیں

ہر 1K حروف کی قیمت:
2x

سٹریمنگ اوت پورٹ ملٹی اسپیکر کم وقفہ Paralinguistic اشارے 2 منٹ تک آؤٹ پٹ

بہترین:: ریئل-ٹائم وائٹ ایجنٹ، ڈائیلاگ جنریشن، اسٹریمنگ ایپلیکیشنز

کوشش کریں Dia 2

VoxCPM

Standard

VoxCPM 1.5 OpenBMB کے ذريعے يک نوو ئل tokenizer-free TTS ماڈل هے جو تقسيمي ٹکنز کے بجاي مسلسل فضا ميں آپريشن کر تا هے ۔ یہ اعليٰ وفاداري 44.1kHz آ ڊيو پيدا کر تا هے ، 3-10 سيکنڈ سے صفر شوٹ ويز کلوننگ کو مدد ديتا هے ، اور پرا گراف کے اندر مطابقت کو برقرار رکھتا هے ۔ کرس-لنگے کلونينگ آپ کو چيني بولي میں انگريزي آواز کو لا گنا اور اس کے برعکس اجازت ديتا هے ۔

ڈیولپر::
OpenBMB

لائسنس::
Apache 2.0

رفتار:
Fast

معیار::

زبانیں:
en, zh

VRAM:
4GB

آواز کا کلوننگ:
جی ہاں

ہر 1K حروف کی قیمت:
2x

آڈیو ٹوکنائزر-آزاد کراس-لنگويج کلوننگ متن پر غور لورا فائين ٹونيننگ

بہترین:: اعلیٰ وفاداری آڈیو، آڈیو بک، آواز کے ساتھ طویل فارم مواد

کوشش کریں VoxCPM

OuteTTS

Free

OuteTTS اصل فن تعمير کو محفوظ رکھتے ہوئے متن سے بولنے کی صلاحیتوں کے ساتھ بڑے زباني ماڈل کو پھیلا تا هے ۔ یہ مختلف باقائدہ گيوں کو مدد دیتا هے جن ميں llama.cpp (CPU/GPU) ، Hugging Face Transformers ، ExLlamaV2 ، VLLM ، اور Transformers.js کے ذریعے براؤزر انفريشن شامل هے ۔ JSON کے طور پر محفوظ کئے گئے اسپيکر پروفا ئل کے ذریعے صفر شوٹ ويز کلوننگ کي خاصيت هے ۔

ڈیولپر::
OuteAI

لائسنس::
Apache 2.0

رفتار:
Fast

معیار::

زبانیں:
en

VRAM:
2GB

آواز کا کلوننگ:
جی ہاں

ہر 1K حروف کی قیمت:
مفت

سی پی یو براؤزر انفریکشن آواز کا کلوننگ متعدد باقائدہ اسپیکر پروفا ئل

بہترین:: ایج ڈیبائیلنگ، براؤزر-بنا ہوا TTS، کم وسعت ماحول

کوشش کریں OuteTTS

TADA

Standard

TADA (Text-Acoustic Dual Alignment) Hume AI کے ذریعہ ایک بنیادی TTS ماڈل ہے جو Llama 3.2 پر بنائے گئے ایک نئے دوہرے alignment architecture کے ذریعے وهم کو ختم کرتا ہے. 1B (انگلیسی) اور 3B (کثیر زبانوں) میں دستیاب، TADA 0.09 کے RTF کو حاصل کرتا ہے - LLM پر مبنی TTS ماڈل سے 5x تیز. یہ 700 سیکنڈ تک آڈیو کنٹینسٹ کی حمایت کرتا ہے اور معیاری بینک مارکوں پر صفر وهم کے ساتھ جذباتی طور پر اظہاری بات کا پیداوار کرتا ہے.

ڈیولپر::
Hume AI

لائسنس::
MIT

رفتار:
Fast

معیار::

زبانیں:
en

VRAM:
5GB

آواز کا کلوننگ:
نہیں

ہر 1K حروف کی قیمت:
2x

صفر وهم LLM TTS سے 5x تیز جذباتي اظہار 700s آڈیو متن دوہرا تناسب

بہترین:: اعلیٰ معیاری وهم-آزاد بولنا، جذباتی اظہار، تیز انفرازی

کوشش کریں TADA

VibeVoice

Standard

مائیکروسافٹ کے وائب وائٹس دو قسموں میں آتا ہے: ایک 1.5B ماڈل طویل فارم مواد کے لئے (90 منٹ تک، 4 اسپیکر) اور ایک ریئل ٹائم 0.5B ماڈل ~200ms پہلے آڈیو لاٹینسی کے ساتھ اسٹریم کے لئے۔ 1.5B ماڈل پوڈکاسٹ اور آڈیو بک میں بلند ہے اور طویل حصوں پر اسپیکر کی ہم آہنگی ہے۔ یاد رکھیں: مائیکروسافٹ نے TTS کوڈ کو ریپائزری سے ہٹا دیا اور پیدا کردہ آڈیو میں سننے والے AI ڈسگریمیشن شامل ہیں۔

ڈیولپر::
Microsoft

لائسنس::
MIT

رفتار:
Fast

معیار::

زبانیں:
en, zh

VRAM:
4GB

آواز کا کلوننگ:
نہیں

ہر 1K حروف کی قیمت:
2x

ملٹی اسپیکر 90 منٹ تک پوڈکاسٹ پیدائش اسپیکر 200ms اسٹریمنگ

بہترین:: پوڈکاسٹ، اوڈیو بک، لمبے فارم ملٹی اسپیکر مواد

کوشش کریں VibeVoice

Pocket TTS

Free

پوک ٹي ٹی ايس کيو ٹائ ( مو شي کے بنا ئے والے) کے ذريعے 100 ميگا با ڑي پيراميٹر ٹیکس- ٹو- اسپيچ ماڈل هے جو اس کے وزن سے زياد گيں ۔ یہ سي پي يو پر موثر طور پر چلتا هے ، ایک واحد او ڊيو نمونے سے صفر شوٹ ويز کلوننگ کي مدد کرتا هے اور فطري آواز کا آواز بناتا هے ۔ چھوٹا ماڈل سايز اس کو ايج ڈیبائيلنگ اور کم وسيله والا ماحول کے ليے مثالي بنا تا هے

ڈیولپر::
Kyutai

لائسنس::
MIT

رفتار:
Fast

معیار::

زبانیں:
en, fr

VRAM:
1GB

آواز کا کلوننگ:
جی ہاں

ہر 1K حروف کی قیمت:
مفت

100M پیرامیٹرز سی پی یو آواز کا کلوننگ ایک نمونے کا کلوننگ کنارے تیار

بہترین:: ہلکا ڈیبلوپمنٹ، CPU-only ماحول، تیز آواز کلوننگ

کوشش کریں Pocket TTS

Kitten TTS

Free

Kitten TTS by KittenML is an ultra-lightweight text-to-speech model built on ONNX. With variants from 15M to 80M parameters (25-80 MB on disk), it delivers high-quality voice synthesis on CPU without requiring a GPU. Features 8 built-in voices, adjustable speech speed, and built-in text preprocessing for numbers, currencies, and units. Ideal for edge deployment and low-latency applications.

ڈیولپر::
KittenML

لائسنس::
Apache 2.0

رفتار:
Fast

معیار::

زبانیں:
en

VRAM:
0GB

آواز کا کلوننگ:
نہیں

ہر 1K حروف کی قیمت:
مفت

CPU-only inference Under 80MB model size 8 built-in voices Speed control ONNX-based 24kHz output

بہترین:: Fast lightweight TTS, edge deployment, low-latency applications

کوشش کریں Kitten TTS

CosyVoice3

Standard

CosyVoice3 is the latest evolution from Alibaba's FunAudioLLM team. It features bi-streaming inference with ~150ms latency, instruction-based control for emotion/speed/volume, and improved speaker similarity for zero-shot cloning. Supports 9 languages plus 18 Chinese dialects. RL-tuned variant delivers state-of-the-art prosody.

ڈیولپر::
Alibaba (FunAudioLLM)

لائسنس::
Apache 2.0

رفتار:
Fast

معیار::

زبانیں:
en, zh, ja, ko, de, es, fr, it, ru

VRAM:
4GB

آواز کا کلوننگ:
جی ہاں

ہر 1K حروف کی قیمت:
2x

Bi-streaming Emotion control Voice cloning Speed/volume control Instruction following

بہترین:: Multilingual production TTS, real-time applications, voice cloning

کوشش کریں CosyVoice3

MOSS-TTS

Premium

MOSS-TTS from OpenMOSS supports generation of up to 1 hour of continuous speech across 20 languages. Features token-level duration control, phoneme-level pronunciation control via IPA/Pinyin, and code-switching between languages. The 8B production model delivers state-of-the-art quality with zero-shot voice cloning from reference audio.

ڈیولپر::
OpenMOSS

لائسنس::
Apache 2.0

رفتار:
Medium

معیار::

زبانیں:
en, zh, de, es, fr, ja, it, hu, ko, ru, fa, ar, pl, pt, cs, da, sv, el, tr

VRAM:
16GB

آواز کا کلوننگ:
جی ہاں

ہر 1K حروف کی قیمت:
4x

Ultra-long generation 20 languages Voice cloning Duration control Pronunciation control Code-switching

بہترین:: Audiobooks, long-form content, multilingual production

کوشش کریں MOSS-TTS

MegaTTS3

Premium

MegaTTS3 from ByteDance uses a novel sparse alignment mechanism combined with a latent diffusion transformer. Features adjustable trade-off between speech intelligibility and speaker similarity for zero-shot voice cloning.

ڈیولپر::
ByteDance

لائسنس::
Apache 2.0

رفتار:
Slow

معیار::

زبانیں:
en, zh

VRAM:
8GB

آواز کا کلوننگ:
جی ہاں

ہر 1K حروف کی قیمت:
4x

Voice cloning Adjustable similarity Cross-lingual

بہترین:: High-fidelity voice cloning

کوشش کریں MegaTTS3

Kokoro

مفت

Kokoro is an 82 million parameter text-to-speech model that punches well above its weight class. Despite its tiny size, it produces remarkably natural and expressive speech. Kokoro supports multiple languages including English, Japanese, Chinese, and Korean with a variety of expressive voices. It runs incredibly fast — generating audio nearly 100x faster than real-time on a GPU.

ڈیولپر::
Hexgrad

لائسنس::
Apache 2.0

رفتار:
Fast

معیار::

زبانیں: en, ja, zh, ko, fr, de, it, pt, es, hi, ru

بہترین:: High-quality TTS with minimal latency, streaming applications

مفت آزمائیں

Piper

مفت

Piper is a lightweight text-to-speech engine developed by Rhasspy that uses VITS and larynx architectures. It runs entirely on CPU, making it ideal for edge devices, home automation, and applications requiring offline TTS. With over 100 voices across 30+ languages, Piper delivers natural-sounding speech at real-time speeds even on a Raspberry Pi 4.

ڈیولپر::
Rhasspy

لائسنس::
MIT

رفتار:
Fast

معیار::

زبانیں: en, de, fr, es, it, pt, nl, pl, ru, zh, ja, ko, ar, cs, da, fi, el, hu, is, ka, kk, ne, no, ro, sk, sr, sv, sw, tr, uk, vi

بہترین:: Quick previews, accessibility, and embedded applications

مفت آزمائیں

VITS

مفت

VITS (Variational Inference with adversarial learning for end-to-end Text-to-Speech) is a parallel end-to-end TTS method that generates more natural sounding audio than current two-stage models. It adopts variational inference augmented with normalizing flows and an adversarial training process, achieving a significant improvement in naturalness.

ڈیولپر::
Jaehyeon Kim et al.

لائسنس::
MIT

رفتار:
Fast

معیار::

زبانیں: en, zh, ja, ko

بہترین:: General-purpose text-to-speech with natural prosody

مفت آزمائیں

MeloTTS

مفت

MeloTTS by MyShell.ai is a multilingual TTS library supporting English (American, British, Indian, Australian), Spanish, French, Chinese, Japanese, and Korean. It is extremely fast, processing text at near real-time speed on CPU alone. MeloTTS is designed for production use and supports both CPU and GPU inference.

ڈیولپر::
MyShell.ai

لائسنس::
MIT

رفتار:
Fast

معیار::

زبانیں: en, es, fr, zh, ja, ko

بہترین:: Production applications needing fast, multilingual TTS

مفت آزمائیں

OuteTTS

مفت

OuteTTS extends large language models with text-to-speech capabilities while preserving the original architecture. It supports multiple backends including llama.cpp (CPU/GPU), Hugging Face Transformers, ExLlamaV2, VLLM, and even browser inference via Transformers.js. Features zero-shot voice cloning through speaker profiles saved as JSON.

ڈیولپر::
OuteAI

لائسنس::
Apache 2.0

رفتار:
Fast

معیار::

زبانیں: en

بہترین:: Edge deployment, browser-based TTS, low-resource environments

مفت آزمائیں

Pocket TTS

مفت

Pocket TTS by Kyutai (creators of Moshi) is a compact 100M parameter text-to-speech model that punches well above its weight. It runs efficiently on CPU, supports zero-shot voice cloning from a single audio sample, and produces natural-sounding speech. The small model size makes it ideal for edge deployment and low-resource environments.

ڈیولپر::
Kyutai

لائسنس::
MIT

رفتار:
Fast

معیار::

زبانیں: en, fr

معیاري

ڈیولپر::
RVC-Boss

لائسنس::
MIT

رفتار:
Slow

معیار::

زبانیں:
en, zh, ja, ko

آواز کا کلوننگ:
جی ہاں

5-second cloningSinging voiceFew-shot learningHigh fidelityCross-lingual

بہترین:: Voice cloning, singing synthesis, content creator voice replication

کوشش کریں GPT-SoVITS

Orpheus

معیاري

Orpheus is a large-scale text-to-speech model that achieves human-level emotional expression. Trained on over 100,000 hours of diverse speech data, it excels at generating speech with natural emotions, emphasis, and speaking styles. Orpheus can produce speech that is virtually indistinguishable from human recordings.

ڈیولپر::
Canopy Labs

لائسنس::
Llama 3.2 Community

رفتار:
Medium

معیار::

زبانیں:
en

آواز کا کلوننگ:
نہیں

Human-level emotion100K hours trainingNatural emphasisExpressive speech

بہترین:: High-quality emotional speech, audiobooks, voice acting

کوشش کریں Orpheus

Qwen3 TTS

معیاري

Qwen3-TTS is a 1.7 billion parameter text-to-speech model from Alibaba's Qwen team. It supports three modes: preset voices with emotion control (9 speakers), voice cloning from just 3 seconds of audio, and a unique voice design mode where you describe the voice you want in natural language. It covers 10 languages with high expressiveness and natural prosody.

ڈیولپر::
Alibaba (Qwen)

لائسنس::
Apache 2.0

رفتار:
Medium

معیار::

زبانیں:
en, zh, ja, ko, de, fr, ru, pt, es, it

آواز کا کلوننگ:
جی ہاں

Voice cloning9 preset voicesVoice design from textEmotion control10 languages

بہترین:: Multilingual content with voice cloning or custom voice design

کوشش کریں Qwen3 TTS

Chatterbox Turbo

معیاري

Chatterbox Turbo by Resemble AI is a 350M parameter upgrade to Chatterbox, delivering up to 6x real-time speed with sub-200ms latency. It supports paralinguistic tags like [laugh], [cough], and [chuckle] directly in text. Includes Perth watermarking on all generated audio for provenance tracking.

ڈیولپر::
Resemble AI

لائسنس::
MIT

رفتار:
Fast

معیار::

زبانیں:
en

آواز کا کلوننگ:
جی ہاں

Sub-200ms latencyParalinguistic tags6x real-timeVoice cloningWatermarking

بہترین:: Real-time voice agents, expressive speech with natural sounds

کوشش کریں Chatterbox Turbo

Zonos

معیاري

Zonos v0.1 by Zyphra is a 1.6B parameter model featuring fine-grained emotion control with sliders for happiness, anger, sadness, fear, and surprise. It offers both a Transformer and a novel SSM (state-space model) variant. Trained on 200K+ hours of multilingual speech with zero-shot voice cloning from 10-30 seconds of reference audio.

ڈیولپر::
Zyphra

لائسنس::
Apache 2.0

رفتار:
Medium

معیار::

زبانیں:
en, ja, zh, fr, de

آواز کا کلوننگ:
جی ہاں

Emotion controlVoice cloningSSM architectureMultilingualPitch/rate control

بہترین:: Expressive speech with emotion control, voice design studio

کوشش کریں Zonos

Dia 2

معیاري

Dia2 by Nari Labs is a streaming-first upgrade to Dia, available in 1B and 2B parameter variants. It begins synthesizing audio from the first few tokens, making it ideal for real-time voice agents and speech-to-speech pipelines. Supports multi-speaker dialogue with [S1]/[S2] tags and paralinguistic cues like (laughs), (coughs).

ڈیولپر::
Nari Labs

لائسنس::
Apache 2.0

رفتار:
Fast

معیار::

زبانیں:
en

آواز کا کلوننگ:
نہیں

Streaming outputMulti-speakerLow latencyParalinguistic cuesUp to 2 min output

بہترین:: Real-time voice agents, dialogue generation, streaming applications

کوشش کریں Dia 2

VoxCPM

معیاري

VoxCPM 1.5 by OpenBMB is a novel tokenizer-free TTS model that operates in continuous space rather than discrete tokens. It produces high-fidelity 44.1kHz audio, supports zero-shot voice cloning from 3-10 seconds, and maintains consistency across paragraphs. Cross-language cloning lets you apply an English voice to Chinese speech and vice versa.

ڈیولپر::
OpenBMB

لائسنس::
Apache 2.0

رفتار:
Fast

معیار::

زبانیں:
en, zh

آواز کا کلوننگ:
جی ہاں

44.1kHz audioTokenizer-freeCross-lingual cloningContext-awareLoRA fine-tuning

بہترین:: High-fidelity audio, audiobooks, long-form content with voice consistency

کوشش کریں VoxCPM

TADA

معیاري

TADA (Text-Acoustic Dual Alignment) by Hume AI is a groundbreaking TTS model that eliminates hallucinations through a novel dual alignment architecture built on Llama 3.2. Available in 1B (English) and 3B (multilingual) variants, TADA achieves an RTF of 0.09 — 5x faster than comparable LLM-based TTS models. It supports up to 700 seconds of audio context and produces emotionally expressive speech with zero hallucinations on standard benchmarks.

ڈیولپر::
Hume AI

لائسنس::
MIT

رفتار:
Fast

معیار::

زبانیں:
en

آواز کا کلوننگ:
نہیں

Zero hallucinations5x faster than LLM TTSEmotional expression700s audio contextDual alignment

بہترین:: High-quality hallucination-free speech, emotional expression, fast inference

کوشش کریں TADA

VibeVoice

معیاري

VibeVoice from Microsoft generates long-form speech up to 90 minutes with support for 4 simultaneous speakers, making it ideal for podcasts and dialogues. The Realtime 0.5B variant achieves ~300ms latency for interactive use. Supports speaker tags for multi-turn dialogue generation.

ڈیولپر::
Microsoft

لائسنس::
MIT

رفتار:
Fast

معیار::

زبانیں:
en, zh

آواز کا کلوننگ:
نہیں

Multi-speakerLong-form (90 min)Podcast generationDialogueLow latency

پریمیئم

ڈیولپر::
OpenMOSS

لائسنس::
Apache 2.0

رفتار:
Medium

معیار::

زبانیں:
en, zh, de, es, fr, ja, it, hu, ko, ru, fa, ar, pl, pt, cs, da, sv, el, tr

آواز کا کلوننگ:
جی ہاں

VRAM:
16GB

ہر 1K حروف کی قیمت:
4x

Ultra-long generation20 languagesVoice cloningDuration controlPronunciation controlCode-switching

بہترین:: Audiobooks, long-form content, multilingual production

کوشش کریں MOSS-TTS

MegaTTS3

پریمیئم

ڈیولپر::
ByteDance

لائسنس::
Apache 2.0

رفتار:
Slow

معیار::

زبانیں:
en, zh

آواز کا کلوننگ:
جی ہاں

VRAM:
8GB

ہر 1K حروف کی قیمت:
4x

Voice cloningAdjustable similarityCross-lingual

بہترین:: High-fidelity voice cloning

کوشش کریں MegaTTS3

ماڈل موازنہ ٹیبل

ماڈل	ڈیولپر:	تير	رفتار	زبانیں	VRAM	لائسنس:	کریڈٹس
Kokoro	Hexgrad	Free	Fast	11	1.5GB	Apache 2.0	مفت	استعمال
Piper	Rhasspy	Free	Fast	31	0 (CPU only)	MIT	مفت	استعمال
VITS	Jaehyeon Kim et al.	Free	Fast	4	1GB	MIT	مفت	استعمال
MeloTTS	MyShell.ai	Free	Fast	6	0.5GB (GPU optional)	MIT	مفت	استعمال
Bark	Suno	Standard	Slow	13	5GB	MIT	2	استعمال
Bark Small	Suno	Standard	Medium	13	2GB	MIT	2	استعمال
CosyVoice 2	Alibaba (Tongyi Lab)	Standard	Medium	8	4GB	Apache 2.0	2	استعمال
Dia TTS	Nari Labs	Standard	Medium	1	4GB	Apache 2.0	2	استعمال
Parler TTS	Hugging Face	Standard	Medium	1	4GB	Apache 2.0	2	استعمال
GLM-TTS	Zhipu AI	Standard	Medium	2	4GB	GLM-4 License	2	استعمال
IndexTTS-2	Index Team	Standard	Medium	2	4GB	Bilibili Model License	2	استعمال
Spark TTS	SparkAudio	Standard	Medium	2	4GB	CC BY-NC-SA 4.0	2	استعمال
GPT-SoVITS	RVC-Boss	Standard	Slow	4	6GB	MIT	2	استعمال
Orpheus	Canopy Labs	Standard	Medium	1	4GB	Llama 3.2 Community	2	استعمال
Chatterbox	Resemble AI	Premium	Medium	1	4GB	MIT	4	استعمال
Tortoise TTS	James Betker	Premium	Slow	1	8GB	Apache 2.0	4	استعمال
StyleTTS 2	Columbia University	Premium	Medium	1	4GB	MIT	4	استعمال
OpenVoice	MyShell.ai / MIT	Premium	Medium	8	4GB	MIT	4	استعمال
Qwen3 TTS	Alibaba (Qwen)	Standard	Medium	10	7GB	Apache 2.0	2	استعمال
Sesame CSM	Sesame	Premium	Slow	1	8GB	Apache 2.0	4	استعمال
Chatterbox Turbo	Resemble AI	Standard	Fast	1	2GB	MIT	2	استعمال
Zonos	Zyphra	Standard	Medium	5	6GB	Apache 2.0	2	استعمال
Dia 2	Nari Labs	Standard	Fast	1	4GB	Apache 2.0	2	استعمال
VoxCPM	OpenBMB	Standard	Fast	2	4GB	Apache 2.0	2	استعمال
OuteTTS	OuteAI	Free	Fast	1	2GB	Apache 2.0	مفت	استعمال
TADA	Hume AI	Standard	Fast	1	5GB	MIT	2	استعمال
VibeVoice	Microsoft	Standard	Fast	2	4GB	MIT	2	استعمال
Pocket TTS	Kyutai	Free	Fast	2	1GB	MIT	مفت	استعمال
Kitten TTS	KittenML	Free	Fast	1	0GB	Apache 2.0	مفت	استعمال
CosyVoice3	Alibaba (FunAudioLLM)	Standard	Fast	9	4GB	Apache 2.0	2	استعمال
MOSS-TTS	OpenMOSS	Premium	Medium	19	16GB	Apache 2.0	4	استعمال
MegaTTS3	ByteDance	Premium	Slow	2	8GB	Apache 2.0	4	استعمال

سب سے وسیع AI ٹیکس سے کلام پلٹ فارم

ٹیکسٹ سے اسپیکینگ کے لئے TTS.ai کیوں منتخب کریں؟

TTS.ai دنیا کے بہترین اوپن سورس ٹیکس-ٹو-سپیچ ماڈلز کو ایک واحد، آسان استعمال کرنے والے پلیٹ فارم میں ایک ساتھ لاتا ہے۔ آپ کو ایک آواز انجن میں بند کرنے والی مختص خدمات کی برعکس، TTS.ai آپ کو Coqui، MyShell، Amphion، NVIDIA، Suno، HuggingFace، Tsinghua University، اور مزید سمیت پیشرو تحقیقی لیبارٹریوں سے 20+ ماڈلز تک رسائی دیتا ہے۔

ہر ماڈل MIT، Apache 2.0، یا اس طرح کی اجازت ناموں کے تحت اوپن سورس ہے، آپ کو اپنے پروجیکٹ میں پیدا شدہ آڈیو استعمال کرنے کے لئے مکمل تجارتی حقوق فراہم کرتے ہوئے۔ چاہے آپ کو ریل-ٹائم ایپلیکیشنز کے لئے تیز، ہلکا وزن سینتھسس یا آڈیو بک اور پوڈکاسٹ کے لئے پرائم سٹوڈیو-کیو لٹ کی ضرورت ہو۔ TTS.ai کے پاس ہر استعمال کے معاملے کے لئے صحیح ماڈل ہے۔

مفت ماڈل، کوئی اکاؤنٹ نہیں چاہیے

تین مفت TTS ماڈلز کے ساتھ فوراً شروع کريں: Piper (الٹرا تیز، ہلکا وزن)، VITS (اعلى معياري نيورال سنتھسيز)، اور MeloTTS (ملٹی-لنگے سپورٹ). کوئی سائن اپ نہیں، کوئی کریڈٹ کارڈ نہیں، نسلوں پر کوئی حد نہیں. مفت ماڈلز انگریزی اور بہت سی دیگر زبانوں کی حمایت کرتے ہیں اکثر ایپلیکيشنوں کے ليے مناسب قدرتی آواز کے آؤٹ پٹ کے ساتھ.

جی پی یو تیز رفتار پروسیسنگ

تمام TTS ماڈلs تیز، مسلسل پیداوار کے وقت کے لئے NVIDIA GPUs پر چلتے ہیں. مفت ماڈلs عام طور پر 2 سیکنڈ کے اندر آڈیو پیدا کرتے ہیں. Kokoro، CosyVoice2، اور Bark جیسے معیاری ماڈلs اوسط 3-5 سیکنڈ. اعلیٰ معیار کے ساتھ پرائم ماڈلs، جیسے Tortoise اور Chatterbox، متن کی لمبائی کے لحاظ سے 5-15 سیکنڈ میں پروسیسنگ کرتے ہیں.

30+ زبانوں کی مدد

30 سے زائد زبانوں میں بولي بنايں جن ميں انگريزي، اسپيني، فرانسيسي، جرمن، اطالوي، پرتگالي، چيني، جاپاني، کو ريائي، عربي، ہندي، روسي اور اور بہت سے زبانیں شامل هے ۔کچھ ماڈل کراس-لنگوي سنتھز کي مدد کريں ، جس کا مطلب هے آپ اصل آواز کو اس زبان ميں بولي بنا سکتے هيں جس پر تربيت نہيں ملي ۔CosyVoice2 اور GPT-SoVITS کراس-لنگوي آواز کلونينگ ميں ممتاز هے

ڈیولپر-رکھی API

TTS.ai کو آپ کے ایپلیکیشن میں ہمارے اوپن اے آئی-مطابق REST API کے ساتھ شامل کریں۔ تمام 20+ ماڈلز کے لئے ایک انتہا نقطہ۔ پائتھون، جاواسکریپت، cURL، اور Go SDKs۔ ریل ٹائم ایپلیکیشنز کے لئے اسٹریمنگ حمایت۔ بڑے پیمانے پر مواد کی پیداوار کے لئے بٹک پروسیسنگ۔ غیر سنیک نوٹیفیکیشن کے لئے ویب ہوکس۔ پرو اور انٹرپرائز پلانز پر دستیاب۔

بار بار پوچھے گئے سوالات

ٹیکس ٹو اسپیچ (TTS) ایک AI ٹیکنالوجی ہے جو لکھی ہوئی تحریر کو قدرتی آوازوں میں تبدیل کرتی ہے۔ جدید نیورال TTS ماڈل جیسے کوکورو، چیٹر باکس، اور کوسی وائٹس 2 بات کرنے کے لئے گہرے سیکھنے کا استعمال کرتے ہیں جو قابل ذکر انسانی آواز، قدرتی پروسوڈی، جذبات، اور ریتمی کے ساتھ آواز دیتے ہیں۔

یہ آپ کی ضرورت پر منحصر هے ۔ جلدي پيش نما ئي کے ليے Piper يا MeloTTS استعمال کريں ( مفت ، جلدي ) اعلي معيار کے ليے Kokoro يا CosyVoice2کويں استعمال کريں (معياري سطح ) آواز کے کلوننگ کے ليے Chatterbox يا GPT-SoVITS استعمال کريں (پريميئم ) ڈائيلوگ/پڈکاسٹ مواد کے ليے Dia TTS کويں استعمال کريں ہر ماڈل ميں مختلف قوتیں هے ۔ بهترين مناسب تلاش کر نے کے ليے تجربہ کريں

ہاں! TTS.ai کوکورو، پائپر، VITS اور MeloTTS ماڈلز کے ساتھ مفت متن سے بولنے کا سروس پيش کرتا هے ۔ 500 حروف تک اور ہر گھنٹے 3 نسلوں کے ليے کوئی اڪاؤنٹ ضروري نهيں ۔ 15 کرڈٹ حاصل کر نے کے ليے مفت اکاؤنٹ کے ليے رجسٽري کريں اور تمام ماڈلز تک رسائي حاصل کريں

ہمارے TTS ماڈل مجموعی طور پر 30+ زبانوں کی حمایت کرتے ہیں جن میں انگریزی، ہسپانوی، فرانسیسی، جرمن، اٹلی، پرتگالی، چینی، جاپانی، کوریا، عربی، روسی، ہندی، اور بہت سی دیگر زبانیں شامل ہیں۔

ہاں، TTS.ai کے ذریعے پیدا کی گئی آڈیو تجارتي طور پر استعمال کی جا سکتی ہے۔ ہمارے تمام ماڈل اوپن سورس لائسنس استعمال کرتے ہیں (MIT، Apache 2.0)۔ مخصوص شرطوں کے لئے انفرادی ماڈل لائسنس کو چکیں۔ ہم آپ کے پروجیکٹ کے لئے استعمال کئے گئے مخصوص ماڈل کی لائسنس کو دیکھنے کی سفارش کرتے ہیں۔

TTS.ai MP3, WAV, OGG, اور FLAC OUTPUT فارمیٹ کو سپورٹ کرتا ہے. MP3 ویب پلے باکس کے لیے دیفالٹ ہے. WAV کو مزید آڈیو پروسیسنگ کے لیے سفارش کی جاتی ہے. آپ ہمارے آڈیو کنورٹر ٹول کے ذریعے فارمیٹ کے درمیان تبدیل کرسکتے ہیں.

آواز کلوننگ AI کو استعمال کرتا ہے ایک مختصر او ڈیو نمونے سے ایک مخصوص آواز کو نقل کرنے کے ليے (معمولاً 5-30 سيکنڈ). مقصد کی آواز کا واضح ریکارڈ اپ لوڈ کريں اور Chatterbox، GPT-SoVITS، يا OpenVoice جیسے ماڈل اس آواز میں نئے بولنے کو پيدا کريں گے. صفائي صاف، طويل ريفرنس او ڈیو کے ساتھ معيار بہتر ہوتا ہے.

مفت استعمال کرنے والے ہر درخواست پر 500 حروف تک پیدا کرسکتے ہیں. رجسٹرڈ استعمال کرنے والے ہر درخواست پر 5000 حروف تک حاصل کرسکتے ہیں. طویل تحریروں کے لیے، آڈیو کو ٹکڑے ٹکڑے بنایا جاتا ہے اور خودکار طور پر ایک ساتھ جوڑ دیا جاتا ہے. API استعمال کرنے والے ہر درخواست پر 10000 حروف تک پروسیسنگ کر سکتے ہیں.

SSML (Speak Synthesis Markup Language) کا سا ئے ماڈل مختلف ہوتا هے Piper اور بعض اور ماڈل وقفے ، زور اور لفظي کنٹرول کے ليے SSML کے بنيادي ٹگ کو سا ئے ميں رکھتے هيں SSML کے نا ئے ماڈل کے ليے آپ طبيعي وقفے اور لائين برک استعمال کر سکتے هيں

ہاں ، اکثر ماڈل 0.5x سے 2.0x تک رفتار تعديل کو مدد ديتے هيں بعض ماڈل مثلا Bark اور Parler پيچ اور انداز کو کنٹرول کر نے کي اجازت ديتے هيں آپ رفتار کي پارا ميٽرز کو اعلی ترتيبات کے پينل ميں يا API رفتار کے پارا مٹر کے ذریعے مقرر کر سکتے هيں

ہاں ، با چ پروسیسنگ ہمارے API کے ذریعے دستیاب ہے آپ ایک API کال يا سکريبٹ میں متعدد متن کے حصوں کو پيش کر سکتے هيں اور ہر ایک کو پروسيس اور جدا جدا او ڊيو فائ لن کے طور پر واپس کر دیا جا تا هے یہ او ڈیو بک کے بابوں ، اي لرننگ ماڈولز يا گيم ڈائيلوگ سکريبٹ کے ليے مثالي هے

آپ کے اکاؤنٹ ڈیش بورڈ سے ایک API کلید پیدا کریں، پھر اپنے متن، ماڈل، اور آواز کے پیرامیٹروں کے ساتھ ہمارے REST API انتہا پوائنٹ کو POST درخواستیں بھیجیں۔ ہم Python، JavaScript، اور cURL میں کوڈ مثالیں فراہم کرتے ہیں۔ API OpenAI-compatible ہے، تو موجود ادغام کم سے کم تبدیلیوں کے ساتھ کام کرتے ہیں۔

5.0/5 (3)

لکھائی کو اب بولنے میں تبدیل کرنا شروع کریں

TTS.ai استعمال کر کے ہزاروں تخلیق کاروں سے ملیں۔ ایک نئے اکاؤنٹ کے ساتھ 15،000 مفت کردار حاصل کریں۔ مفت ماڈل رجسٹريشن کے بغیر دستیاب ہیں۔

مفت میں رجسٹر کریں قیمت دیکھیں

AI ٹیکس سے بولنا

TTS.ai سے محبت؟ اپنے دوستوں کو بتائیں!

ماڈل تفصیلات

GPT-SoVITS

بہتر نتيجے کے ليے تجويز

حروف کا استعمال

AI ٹیکس سے اسپیکینگ کیسا کام کرتا ہے

آپ کا متن داخل کریں

ماڈل اور آواز منتخب کریں

بناؤ اور ڈاؤن لوڈ کرو

ٹیکس سے کلام کے استعمال کے حالات

آڈیو کتابیں

ویڈیو وائٹ اوورس

پوڈکاسٹ

گیمنگ

اي- ليرننگ

رسائی

فون سسٹم

سماجی میڈیا

سٹریمنگ

مارکیٹنگ

دوبرانگ اور لوکلائزيشن

ھمدردي اور صحت

تمام متن سے بوليں ماڈل

Kokoro

Piper

VITS

MeloTTS

Bark

Bark Small

CosyVoice 2

Dia TTS

Parler TTS

GLM-TTS

IndexTTS-2

Spark TTS

GPT-SoVITS

Orpheus

Chatterbox

Tortoise TTS

StyleTTS 2

OpenVoice

Qwen3 TTS

Sesame CSM

Chatterbox Turbo

Zonos

Dia 2

VoxCPM

OuteTTS

TADA

VibeVoice

Pocket TTS

Kitten TTS

CosyVoice3

MOSS-TTS

MegaTTS3

Kokoro

Piper

VITS

MeloTTS

OuteTTS

Pocket TTS

Kitten TTS

Bark

Bark Small

CosyVoice 2

Dia TTS

Parler TTS

GLM-TTS

IndexTTS-2

Spark TTS

GPT-SoVITS

Orpheus

Qwen3 TTS

Chatterbox Turbo

Zonos

Dia 2

VoxCPM

TADA

VibeVoice