Report Bug / Feature Request

AI ٹیکس سے بولنا

اوپن سورس AI ماڈل کے ساتھ متن کو فطری آواز والی بات میں تبدیل کريں استعمال کے ليے مفت ، کوئی اکاونٹ نيا ں

مفت میں رجسٹر کریں

آپ کی زبان میں اب تک ہمارے پاس TTS آوازیں نہیں ہیں. ہمیں آپ کی آوازیں شامل کرنے میں مدد کریں! آپ کی آواز فروخت کریں

0/500 حروف · Sign up for 5,000 per generation →

رجسٹر کریں 5000 حروف کی حد

SSML موڈ (دقيق کنٹرول کے ليے سٹک سنتھز مارکنگ لنگھ)

SSML ٹیگ میں اپنے متن کو دقيق کنٹرول کے لیے لپیٹیں:

<speak><prosody rate="slow">Slow speech</prosody></speak>

احساس / انداز ٹیگ

دليول پر اثر اندازي کے ليے احساسي نشانات شامل کريں ( ماڈل مدد مختلف هے ):

لفظي دیکشنري

خود ساختہ تلفظ (لفظ = تلفظ):

پيچ 0

-12 +12

AI ماڈل

آواز

زبان

خروجی فارمیٹ

رفتار 1.0x

0.5x 2.0x

Piper, VITS, MeloTTS کے ساتھ مفت

آپ کا بنا يا او ڊيو یہاں نظر آ ئي گا ماڈل منتخب کريں ، متن داخل کريں اور بنا ئيں کلک کريں

ماڈل تفصیلات

Kitten TTS

Free

Kitten TTS by KittenML is an ultra-lightweight text-to-speech model built on ONNX. With variants from 15M to 80M parameters (25-80 MB on disk), it delivers high-quality voice synthesis on CPU without requiring a GPU. Features 8 built-in voices, adjustable speech speed, and built-in text preprocessing for numbers, currencies, and units. Ideal for edge deployment and low-latency applications.

ڈیولپر:	KittenML
لائسنس:	Apache 2.0
رفتار	Fast
معیار:
زبانیں	1 زبان
VRAM	0GB
آواز کا کلوننگ	مدد نہیں دی جاتی

خاصیت:

CPU-only inference Under 80MB model size 8 built-in voices Speed control ONNX-based 24kHz output

بہترین:: Fast lightweight TTS, edge deployment, low-latency applications

بہتر نتيجے کے ليے تجويز

فطري توقف اور تنازل کے ليے صحيح وقفے استعمال کريں
واضح تلفظ کے ليے نمبر اور مختصر ناموں کي شفيع کريں
جملوں کے درمیان مختصر توقفے بنا نے کے ليے کمونز شامل کريں
طويل دراماتي توقفوں کے ليے ايليسپس استعمال کريں
سب سے فطری نتيجے کے ليے Kokoro يا CosyVoice 2 استعمال کريں
متعدد اسپیکروں کے دائیں اور پوڈکاسٹ مواد کے لیے Dia استعمال کریں

حروف کا استعمال

تير	ہر 1K حروف کی قیمت
مفت	0 کریڈٹ (لامحدود)
معیاري	2 کریڈٹ / 1K حروف
پریمیئم	4 کریڈٹ / 1K حروف

مزید حروف حاصل کریں

AI ٹیکس سے اسپیکینگ کیسا کام کرتا ہے

تین سادہ قدموں میں پیشہ ورانہ-کیفیت کی آوازیں پیدا کریں. کوئی تکنیکی علم ضروری نہیں ہے.

قدم 1

آپ کا متن داخل کریں

تا ئپ، پسٹ، يا اپ لوڈ کريں سنيپ چٹ کيد کيد ليں جو آپ بولنا چا هيتے هيں. لا گ ان صارفين کے ليے 5000 حروف تک هر نسل کي حمايت کريں. عام ٽيڪسٹ استعمال کريں يا SSML ٹیگ شامل کريں سنيپ چٹ پر اعلي سطحي کنٹرول کے ليے، توقف اور زور

قدم 2

ماڈل اور آواز منتخب کریں

تین سطحوں پر 20+ AI ماڈل سے منتخب کریں. ایک آواز منتخب کریں جو آپ کے مواد سے مطابقت رکھتا ہے، اپنی ہدف زبان منتخب کریں، 0.5x سے 2.0x تک پلے باکس کی رفتار کو تعدیل کریں، اور آپ کی پسندیدہ خروجی فارمیٹ (MP3، WAV، OGG، یا FLAC) منتخب کریں.

قدم 3

بناؤ اور ڈاؤن لوڈ کرو

جنیئر کريں کلک کريں اور آپ کا آڊيو چند سيکنڈ میں تیار ہو جاۓ گا. اندروني پليئر کے ساتھ پیش نگہانی کريں، آپ کے منتخب شدہ فارمیٹ میں ڈائون لوڈ کريں، يا آپ کاش شيئريبل لينک کاپي کريں. آپ کے ورک فلو میں باچ پروسيسنگ اور انٽيگريشن کے ليے API استعمال کريں.

ٹیکس سے کلام کے استعمال کے حالات

AI-powered text-to-speech لوگوں کو اس طرح تبدیل کررہا ہے کہ وہ کیسے تخلیق کرتے ہیں، استعمال کرتے ہیں، اور صنعتوں کے دہائیوں میں آڈیو مواد کے ساتھ تعامل کرتے ہیں۔

آڈیو کتابیں

تمام کتابوں کو سٹوڈیو کی معيار کے ساتھ نریشن کے ساتھ قدرتی آواز کی اوڈيو کتابوں میں تبدیل کریں.

ویڈیو وائٹ اوورس

یو ٹیوب، ٹیک ٹک، انسٹاگرام ریلز اور شرٹس کے لیے پیشہ ورانہ ویو اوور بناؤ۔ 100+ آوازیں یا اپنے آپ کو کلون کرو۔

پوڈکاسٹ

چند AI آوازوں کے ساتھ سکریپٹس سے پوڈکاسٹ ايپيز بنايں فطري دو اسپيکر کلام کے ليے Dia استعمال کريں

گیمنگ

اينڈی گيمز ، ويزلول نوولز اور تعاملي افسانہ کے ليے AI آواز ادا کر نے NPC ڈائيلوگ ، کٹس سين آوازیں ، 30+ زبانیں

اي- ليرننگ

کورس مواد، تقریر اور تربیتی مواد کو آڈیو میں تبدیل کریں. عالمی پلیٹ فارم کے لئے کثیر زبانوں کی مدد.

رسائی

ویب سائٹس، دستاویزات اور ایپلیکیشنز کو رسائی کے قابل بناؤ۔سکرین ریڈر API انٹیگریشن اور آرٹیکل-تو-آڈیو تبدیل.

فون سسٹم

قدرتی AI آوازوں کے ساتھ IVR نظام، فون مینو، اور کلائنٹ سروس کو طاقت دیں۔ کال سینٹرز کے لئے کم-لائٹنٹی اسٹریمنگ۔

سماجی میڈیا

ٹیک ٹک کی کہانیاں، انسٹاگرام ریلز، ٹویٹر/ ایکس کامنٹ، یو ٹیوب شرٹس۔

سٹریمنگ

Twitch TTS اشارے، چیٹ-تو- آواز، AI کو-ہسٹس، اور Discord bots. کم latency، 100+ آوازیں، StreamElements مطابقت رکھتے ہیں.

مارکیٹنگ

اشتہاری آواز، وضاحتی ویڈیوز، مصنوعات کی ڈیمو، اور فروخت کی پیشکشیں۔ مہموں کے ذریعے آڈیو مواد کی پیداوار کو پیمانہ بندی کریں۔

دوبرانگ اور لوکلائزيشن

آواز سے ملنے والی AI کے ساتھ 30+ زبانوں میں ویڈیو ترجمہ اور ڈب کریں. خودکار نقل اور اسپیکر کی دریافت.

ھمدردي اور صحت

رہنمائی مدیتیشن، نیند کی کہانیاں، سانس کے تمرینات، اور آرام سے، آرام AI آوازوں کے ساتھ تصدیق.

تمام استعمال کے حالات اور اوزار دیکھیں

تمام متن سے بوليں ماڈل

TTS.ai پر موجود ہر AI ماڈل کے ليے تفصيلي خاصيتیں آپ کے پروجیکٹ کے ليے صحيح ماڈل تلاش کر نے کے ليے معيار ، رفتار ، زباني مدد اور خاصيتوں کا موازنہ کريں

Kokoro

Free

کوکورو 82 ميليون پارامٹر ٹیکس-تو- اسپيچ ماڈل هے جو اسکے وزن کلاس سے اوپر خوبي طرح سے مچتا هے اسکے چھوٹے سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا سا

ڈیولپر::
Hexgrad

لائسنس::
Apache 2.0

رفتار:
Fast

معیار::

زبانیں:
en, ja, zh, fr, it, pt, es, hi

VRAM:
1.5GB

آواز کا کلوننگ:
نہیں

ہر 1K حروف کی قیمت:
مفت

82M پیرامیٹرز بہت تیز اظہاري آوازیں کثیر زبانی اسٹریمنگ امداد

بہترین:: کم سے کم لاٹنسی کے ساتھ اعلیٰ معیار TTS، اسٹریمنگ ایپلیکیشنز

کوشش کریں Kokoro

Piper

Free

پيپر رال سس پي کے ذريعے ترقي يافته ھيں جو VITS اور larynx architectures کا استعمال کر تا هے ۔ یہ پورے طور پر سي پي يو پر چلتا هے ، اس کو ايج ڈیوائس ، گھري خودکاري ، اور آپريشنز کے ليے مثالي بنا تا هے جن کو آف لائن TTS کا احتياج هے ۔ 30+ زبانوں میں 100 سے زائد آوازوں کے ساتھ ، پيپر رال سس پي 4 پر بھی ريئل ٽائم رفتار پر فطري آوازوں کا اظہار کر تا هے ۔

ڈیولپر::
Rhasspy

لائسنس::
MIT

رفتار:
Fast

معیار::

زبانیں:
en, de, fr, es, it, pt, nl, pl, ru, zh, ar, cs, da, fi, el, hu, is, ka, kk, ne, no, ro, sk, sr, sv, sw, tr, uk, vi

VRAM:
0 (CPU only)

آواز کا کلوننگ:
نہیں

ہر 1K حروف کی قیمت:
مفت

سی پی یو دوستانہ آف لائن قابل 100+ آوازیں 30+ زبانیں SSML مدد

بہترین:: تیز پیش نگوئی، رسائی، اور شامل ایپلیکیشنز

کوشش کریں Piper

VITS

Free

VITS (Variation Inference with adversarial learning for end-to-end Text-to-Speech) ایک متوازی انتہا سے انتہا تک TTS طریقہ کار ہے جو کہ دو مرحلہ ماڈل سے زیادہ قدرتی آواز کی آڈیو پیدا کرتا ہے یہ variation inference کو قبول کرتا ہے جو کہ normalizing flows اور ایک مخالف تربیت کے عمل کے ساتھ بڑھایا جاتا ہے، جس سے قدرتی میں ایک اہم بہتری حاصل ہوتی ہے.

ڈیولپر::
Jaehyeon Kim et al.

لائسنس::
MIT

رفتار:
Fast

معیار::

زبانیں:
en, de, es, fr, pt, nl, fi, hu, bg, uk, pl

VRAM:
1GB

آواز کا کلوننگ:
نہیں

ہر 1K حروف کی قیمت:
مفت

آخري سے آخري ترکیب فطري نظم جلدي نتيجه نگي متعدد اسپیکر

بہترین:: عام مقصد کا متن-سے-زبان با فطری پروسوڈی

کوشش کریں VITS

MeloTTS

Free

MyShell.ai کے طرف سے MeloTTS ایک کثیر زبانوں TTS لائبريري ہے جو انگريزي (امريکائي، برطانوي، هندي، آسٽريليائي)، اسپيني، فرانسيسي، چيني، جاپاني اور کو رياني کو مدد دے سکتی هے ۔ یہ انتہائي تیز ہے ، صرف سي پي يو پر تقريباً ريئل ٹائم رفتار پر متن پروسيس کر سکتی هے ۔ MeloTTS پروڈکشن استعمال کے ليے بنا يا گيا هے اور سي پي يو اور جي پي يو دو کے ليے مدد دے سکتی هے ۔

ڈیولپر::
MyShell.ai

لائسنس::
MIT

رفتار:
Fast

معیار::

زبانیں:
en, es, fr, zh, ja, ko

VRAM:
0.5GB (GPU optional)

آواز کا کلوننگ:
نہیں

ہر 1K حروف کی قیمت:
مفت

سی پی یو- بہتر چند زبانوں والا کثیر حروف تیار کم وقفہ

بہترین:: پروڈکشن ایپلیکیشنز کو تیز، متعدد زبانوں کے TTS کی ضرورت ہے

کوشش کریں MeloTTS

Bark

Standard

برک by Suno ایک ترانسفرميٽر پر مبنی متن سے آ ديو ماڈل هے جو بلند حقيقت پسندي، چند زباني بولي اور اور آ ديو کي طرح ميوزک، پس منظر شور اور آواز کے اثرات پيدا کر سکتا هے ۔ یہ غير لفظي مواصلات مثل ہنسنا ، خنکا اور رونا پيدا کر سکتا هے ۔ برک 100 سے زائد اسپيکر پريسٹ اور 13+ زبانوں کو مدد ديتا هے

ڈیولپر::
Suno

لائسنس::
MIT

رفتار:
Slow

معیار::

زبانیں:
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr

VRAM:
5GB

آواز کا کلوننگ:
نہیں

ہر 1K حروف کی قیمت:
2x

آواز کے اثرات ہنستے/سھتے موسیقی کی پیداوار 100+ اسپیکرز کثیر زبانی

بہترین:: تخلیقی اوڈيو مواد، احساسات کے ساتھ اوڈيو بک، آواز کے اثرات

کوشش کریں Bark

Bark Small

Standard

Bark Small Bark ماڈل کا ایک ڈسٹل ورژن ہے جو کچھ او ديو کي معيار کو قابل ذکر طور پر تیز انفرا نسی رفتار اور کم ذہن کی ضرورت کے ليے تجارت کر تا هے ۔ یہ Bark کی جذبات ، ہنسی اور چند زبانوں کے ساتھ بولنے کی صلاحيت محفوظ رکھتا هے

ڈیولپر::
Suno

لائسنس::
MIT

رفتار:
Medium

معیار::

زبانیں:
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr

VRAM:
2GB

آواز کا کلوننگ:
نہیں

ہر 1K حروف کی قیمت:
2x

ہلکا وزن پورے Bark سے تیز جذباتي بولي چند زبانوں والا

بہترین:: جب پورے Bark بہت سست ہو تو تیز تخلیقی آڈیو

کوشش کریں Bark Small

CosyVoice 2

Standard

علی بابا کی ٹونگی لیب کی طرف سے کوسی وائٹس 2 انسانی-مقابلہ کلام کی معیار کو انتہائی کم لیٹنسی کے ساتھ حاصل کرتا ہے، اسے ریئل-ٹائم ایپلیکیشنز کے لئے ایڈیل بناتا ہے. یہ سٹریمینگ سنتھز کے لئے ایک محدود سکالر کوانٹائزیشن طریقہ کار استعمال کرتا ہے اور صفر-شٹ وائٹس کلوننگ، کراس-لنگوی سنتھز، اور Fine-grained احساس کنٹرول کی حمایت کرتا ہے. یہ بہت سے تجارتی TTS سسٹم کو موضوعی ایویلیویشن میں بہتر کارکردگی دیتا ہے.

ڈیولپر::
Alibaba (Tongyi Lab)

لائسنس::
Apache 2.0

رفتار:
Medium

معیار::

زبانیں:
en, zh, ja, ko, fr, de, it, es

VRAM:
4GB

آواز کا کلوننگ:
جی ہاں

ہر 1K حروف کی قیمت:
2x

سٹریمنگ صفر-شٹ کلوننگ کراس-لنگويج احساسات کا کنٹرول انسان

بہترین:: ریئل-ٹائم ایپلیکیشنز، اسٹریمنگ TTS، وائٹ اسسٹنٹ

کوشش کریں CosyVoice 2

Dia TTS

Standard

نا ري ليبز کے طرف سے دي آ ئے ايک 1.6 بي پيرامڈ ٹیکس-تو- اسپيچ ماڈل خاص طور پر ملٹی اسپيکر ڈائيلوگ کي پيدائش کے ليے ديزاین کريے گيا هے ۔ یہ دو اسپيکر کے درمیان مناسب تير گي ، پروزو ڈي اور جذباتي اظہار کے ساتھ فطري آواز کے ساتھ گفتگو کر سکتا هے ۔ دي آ ئے پوڈکاسٹ-سٹائل مواد ، او ديو بک ڈائيلو گ اور تعاملي گفتگو اي آ ئي بنا نے کے ليے پورا مناسب هے ۔

ڈیولپر::
Nari Labs

لائسنس::
Apache 2.0

رفتار:
Medium

معیار::

زبانیں:
en

VRAM:
4GB

آواز کا کلوننگ:
نہیں

ہر 1K حروف کی قیمت:
2x

ملٹی اسپیکر ڈائیلاگ پیدائش فطري تير گي جذباتي اظہار 1.6B پیرامیٹرز

بہترین:: پوڈکاسٹ، اوڈیو بک گفتگو، گفتگو کے مواد

کوشش کریں Dia TTS

Parler TTS

Standard

Parler TTS ایک متن سے بولنے کا ماڈل ہے جو فطری زبان کی آواز کی وضاحت کو استعمال کرتا ہے تا کہ مصنوعي بولنے کو کنٹرول کر سکے. اسکے برعڪس آپ آواز کو جسے آپ چاہتے ہیں بیان کر سکتے ہیں (مثلا "ایسی گرم عورتي آواز جس میں خفيه برطانوي لہجے ہیں، سست اور واضح طور پر بولتے ہیں) اور Parler اس بيان سے مطابقت رکھنے والی بولنے کو پیدا کرتا ہے. یہ اسے تخلیقي ايپليکيشنز کے ليے غير معمولي لينجبل بناتا هے

ڈیولپر::
Hugging Face

لائسنس::
Apache 2.0

رفتار:
Medium

معیار::

زبانیں:
en

VRAM:
4GB

آواز کا کلوننگ:
نہیں

ہر 1K حروف کی قیمت:
2x

آواز کی وضاحت فطری زبان کا کنٹرول لنچبل آواز بنانا کوئی پرائزٹ آوازیں ضرورت نہیں

بہترین:: تخلیقی ایپلیکیشنیں جہاں آپ کو اپنی آواز کی خصوصیت کی ضرورت ہے

کوشش کریں Parler TTS

GLM-TTS

Standard

GLM-TTS Zhipu AI کے ذريعے لاما فن تعمير پر بنا يا گيا هے جو فلو ميچنگ کے ساتھ متن سے کلام کا نظام هے ۔ اس سے اوپن سورس TTS ماڈل کے درمیان سب سے کم کر کٹ اير ريٹ حاصل کريں گيا هے ، اس کا مطلب هيں کہ اس سے سب سے صحيح لفظ حاصل کريں گيا هے ۔ GLM-TTS 3-10 سيکنڈ آ ڊيو نمونوں سے آواز کے کلوننگ کے ساتھ انگريزي اور چيني کو مدد ديتا هے

ڈیولپر::
Zhipu AI

لائسنس::
GLM-4 License

رفتار:
Medium

معیار::

زبانیں:
en, zh

VRAM:
4GB

آواز کا کلوننگ:
جی ہاں

ہر 1K حروف کی قیمت:
2x

کم سے کم غلطی شرح آواز کا کلوننگ فلو ميچنگ فطري نظم

بہترین:: استعمالات جنہیں زیادہ سے زیادہ لفظی درستگي کی ضرورت هے

کوشش کریں GLM-TTS

IndexTTS-2

Standard

IndexTTS-2اُخرو ر متن سے کلام کا نظام هے جو صفر شٹ آواز کي سنتز ميں زبردست هے جو حسي کنٹرول کے ساتھ هے یہ خاص حسي تنا ر سے کلام بنا سکتا هے جیسے خوش ، غمگين ، غصہ يا خوف زدہ حسي خاص تربيت کے اعدادوشمار کے ضرورت کے بغیر ماڈل حسي ویکٹرز کا استعمال کرتا هے تا هے جلتے کلام کے حسي اظہار کو درست طور پر کنٹرول کريں

ڈیولپر::
Index Team

لائسنس::
Bilibili Model License

رفتار:
Medium

معیار::

زبانیں:
en, zh

VRAM:
4GB

آواز کا کلوننگ:
جی ہاں

ہر 1K حروف کی قیمت:
2x

احساسات کا کنٹرول صفر-شٹ احساسات اظہاري بولي فائنل-گرینڈ کنٹرول

بہترین:: جذباتی طور پر اظہاری مواد، آڈیو بک، ورچوئل اسسٹنٹ

کوشش کریں IndexTTS-2

Spark TTS

Standard

SparkAudioکے ذريعے SparkTTS يه متن سے کلام کا ماڈل هے جو آواز کي کلوننگ کو کنٹرو لي جا سکنے والے احساس اور بولنے کے انداز کے ساتھ ملا تا هے صرف 5 سيکنڈ رفرنس آ ڊيو کا استعمال کر کے ، وہ آواز کي کلوننگ کر سکتا هے اور پھر مختلف احساسات ، رفتار اور اندازوں کے ساتھ کلام پيدا کر سکتا هے اور کلون کی گيجٹ کو محفوظ رکھ سکتا هے SparkTTS يه پرو موٹ پر مبنی کنٹرول سسٹم استعمال کرتا هے

ڈیولپر::
SparkAudio

لائسنس::
CC BY-NC-SA 4.0

رفتار:
Medium

معیار::

زبانیں:
en, zh

VRAM:
4GB

آواز کا کلوننگ:
جی ہاں

ہر 1K حروف کی قیمت:
2x

آواز کا کلوننگ احساسات کا کنٹرول انداز کنٹرول پرومم-بائز 5 سیکنڈ کلوننگ

بہترین:: کلونڈ آوازوں اور جذباتی کنٹرول کے ساتھ مواد کی تخلیق

کوشش کریں Spark TTS

GPT-SoVITS

Standard

GPT-SoVITS GPT-شئے زبان ماڈلنگ کو SoVITS (ترجمہ اور سنتز کے ذریعے آواز سننے کا اندازہ لگانا) کے ساتھ طاقتور چند شوٹ آواز کلوننگ کے ليے ملا تا هے 5 سيکنڈ ريفرنس آ ڊيو کے ليے ، هيں صحيح طور پر آواز کي کلوننگ کر سکتا هے اور اسپيکر کے منفرد خاصيتوں کو محفوظ رکھتے ہوئے نئے بولنے کي پيدا کر سکتا هے ۔ هيں دوئي بات کرنے اور آواز سننے کے سنتھز ميں ممتاز هے

ڈیولپر::
RVC-Boss

لائسنس::
MIT

رفتار:
Slow

معیار::

زبانیں:
en, zh, ja, ko

VRAM:
6GB

آواز کا کلوننگ:
جی ہاں

ہر 1K حروف کی قیمت:
2x

5 سیکنڈ کلوننگ آواز گاني چند شوٹ سکھنا اعلیٰ وفاداري کراس-لنگويج

بہترین:: آواز کلوننگ، گائيں سنتھس، مواد بنانے والا آواز نقل

کوشش کریں GPT-SoVITS

Orpheus

Standard

Orpheus 100,000 گھنٹوں سے زائد مختلف بولنے کے اعداد و شمار پر تربيت حاصل کر نے والا ایک بڑے پیمانے پر متن سے بولنے کا ماڈل هے جو انسانی سطح کے جذباتی اظہار کو حاصل کر تا هے ، یہ قدرتی جذبات ، زور اور بولنے کے انداز کے ساتھ بولنے کو پیدا کر نے میں ممتاز هے Orpheus انسانی ریکارڈز سے تقریبا ً ممتاز بولنے کو پیدا کر سکتا هے

ڈیولپر::
Canopy Labs

لائسنس::
Llama 3.2 Community

رفتار:
Medium

معیار::

زبانیں:
en

VRAM:
4GB

آواز کا کلوننگ:
نہیں

ہر 1K حروف کی قیمت:
2x

انسان کے سطح پر احساس 100K گھنٹے تربیت فطری تاثير بياني بولي

بہترین:: اعلیٰ معياری جذباتی بولنا، آڈیو بک، آواز اداکاری

کوشش کریں Orpheus

Chatterbox

Premium

چاٹر باکس by Resemble AI ایک cutting-edge zero-shot آواز کلوننگ ماڈل هے یہ ایک واحد او ڈیو نمونے سے کوئی آواز قابل ذکر دقت کے ساتھ نقل کر سکتا هے ، صرف تير پر قبضہ نہیں کرتا بلکہ بات کرنے کا انداز اور جذباتی نونانس بھی ۔ چاٹر باکس میں بھی fine-grained احساسات کو کنٹرول کرنے کی خاصيت هے ، آپ کو آواز کی شناخت سے آزاد طور پر پیدا کی گئي بات کے جذباتی تنا ر کو تعديل کرنے کی اجازت دےتا هے

ڈیولپر::
Resemble AI

لائسنس::
MIT

رفتار:
Medium

معیار::

زبانیں:
en

VRAM:
4GB

آواز کا کلوننگ:
جی ہاں

ہر 1K حروف کی قیمت:
4x

صفر-شٹ کلوننگ احساسات کا کنٹرول اعلیٰ وفاداري انداز منتقلی ایک نمونے کا کلوننگ

بہترین:: جذباتی کنٹرول کے ساتھ پیشہ ور آواز کلوننگ، مواد کی تخلیق

کوشش کریں Chatterbox

Tortoise TTS

Premium

Tortoise TTS ایک خودکار واپسی والی ملٹی وائٹس ٹیکس-تو-سپیچ سسٹم ہے جو رفتار پر آڈیو کی کیفیت کو ترجیح دیتا ہے یہ DALL-E سے متاثرہ فن تعمیر کو استعمال کرتا ہے تاکہ بہترین prosody اور اسپیکر کی مشابهت کے ساتھ انتہائی قدرتی بولنے کو پیدا کر سکے۔ جبکہ بہت سے متبادل سے سست، Tortoise کھلے-سورس ماحولیاتی نظام میں دستیاب کچھ زیادہ حقیقی مصنوعی بولنے کو پیدا کرتا ہے.

ڈیولپر::
James Betker

لائسنس::
Apache 2.0

رفتار:
Slow

معیار::

زبانیں:
en

VRAM:
8GB

آواز کا کلوننگ:
جی ہاں

ہر 1K حروف کی قیمت:
4x

اعلیٰ معیار چند آوازیں DALL-E فن تعمير آواز کا کلوننگ خودکار واپسی

بہترین:: اوڈیو بک، پرائم مواد، معیاری اپلیکیشنز

کوشش کریں Tortoise TTS

StyleTTS 2

Premium

StyleTTS2 انسان کے سطح پر TTS synthesizing حاصل کرتا ہے بڑے بولنے کے زبان ماڈل استعمال کر کے تنازعہ يي تربيت کے ساتھ انداز انکشاف کو جوڑ کر۔ یہ انسان کی ریکارڈنگ کے مقابلے میں ایک ناطق ماڈل کے درمیان سب سے فطری آواز والی بات پیدا کرتا ہے۔ StyleTTS2 انسانی بولنے کے مختلف اندازوں کو پورے حد تک حاصل کرنے کے ليے انکشاف پر مبنی انداز ماڈلنگ کا استعمال کرتا ہے ۔

ڈیولپر::
Columbia University

لائسنس::
MIT

رفتار:
Medium

معیار::

زبانیں:
en

VRAM:
4GB

آواز کا کلوننگ:
نہیں

ہر 1K حروف کی قیمت:
4x

انسان انداز مخالف تربيت فطري فرق اعلیٰ وفاداري

بہترین:: سٹوڈیو-کیفیت ایک اسپیکر ترکیب، پیشہ ور روایت

کوشش کریں StyleTTS 2

OpenVoice

Premium

MyShell.aiکے طرف سے اوپن ويز آواز کے انداز، احساس، نغمات، ريتم، توقف اور تنازل پر گيڑي کنٹرول کے ساتھ فوري آواز کي کلوننگ کي اجازت ديتا هے ۔ یہ مختصر آ ڊيو کلپ سے آواز کي کلوننگ کر سکتا هے اور اسپيکر کي شناخت محفوظ رکھتے ہوئے متعدد زبانوں ميں آواز پيدا کر سکتا هے ۔ اوپن ويز آواز کے تبديل کر نے کے طور پر بھی کام کر سکتا هے ، ريل ٹائم آواز کي تبديلي کي اجازت ديتا هے

ڈیولپر::
MyShell.ai / MIT

لائسنس::
MIT

رفتار:
Medium

معیار::

زبانیں:
en, zh, ja, ko, fr, es

VRAM:
4GB

آواز کا کلوننگ:
جی ہاں

ہر 1K حروف کی قیمت:
4x

فوری کلوننگ آواز تبدیل احساسات کا کنٹرول اکر کنٹرول کثیر زبانی

بہترین:: آواز کا کلوننگ fine-grained انداز کے ساتھ کنٹرول، آواز تبدیل

کوشش کریں OpenVoice

Qwen3 TTS

Standard

Qwen3-TTS Alibaba کے Qwen ٹیم سے 1.7 ارب پارامٹر ٹیکس-تو- اسپيچ ماڈل هے یہ تین موڈس کو مدد ديتا هے: احساسات کے کنٹرول کے ساتھ پیش سے مقرر آوازیں (9 اسپيکر)، آواز کا کلوننگ صرف 3 سيکنڈ کے آڈیو سے، اور ایک منفرد آواز ڈزائين موڈ جہاں آپ اپنی چا لي ہوئی آواز کو فطري زبان میں بيان کر سکتے هيں ۔ اس ميں 10 زبانیں شامل هيں جو اعلي اظہار اور فطري پروسو ڈي سے ليے جا نے پائيں

ڈیولپر::
Alibaba (Qwen)

لائسنس::
Apache 2.0

رفتار:
Medium

معیار::

زبانیں:
en, zh, ja, ko, de, fr, ru, pt, es, it

VRAM:
7GB

آواز کا کلوننگ:
جی ہاں

ہر 1K حروف کی قیمت:
2x

آواز کا کلوننگ 9 پرائزٹ آوازیں متن سے آواز کا ڈیزائن احساسات کا کنٹرول زبانیں

بہترین:: آواز کلوننگ یا مختص آواز ڈیزائن کے ساتھ متعدد زبانوں کا مواد

کوشش کریں Qwen3 TTS

Sesame CSM

Premium

Sesame CSM (Conversational Speech Model) 1 ارب پارامٹر ماڈل خاص طور پر گفتگو کي حصول کے ليے بنا يا گيا هے انسان کے گفتگو کے فطري نمونے کو ماڈل کر تا هے جس ميں تير گيٹنگ ٹائمنگ، با کينل ري سپانس ، جذباتي رد عمل اور گفتگو کے فلو شامل هے CSM او ڊيو پيدا کر تا هے جو مصنوعی گفتگو کے بجاي فطري انسان کے گفتگو کے طور پر آواز ديتا هے

ڈیولپر::
Sesame

لائسنس::
Apache 2.0

رفتار:
Slow

معیار::

زبانیں:
en

VRAM:
8GB

آواز کا کلوننگ:
نہیں

ہر 1K حروف کی قیمت:
4x

گفتگو فطری وقت لٹ-تیکشن بیکٹيريل 1B پارامٹر

بہترین:: AI مددگار، چٹ باٹس، گفتگو AI ایپلیکيشنز

کوشش کریں Sesame CSM

Chatterbox Turbo

Standard

چاٹر باکس ٹوربا ے ريزمل AI سے چاٹر باکس کے ليے 350 ميگا پيراميٹر اپ گرڈ هے ، 6x ريئل ٽائم رفتار 200 ميگا بيس ليٹ نسي کے ساتھ پيش کر تا هے ۔ یہ متن ميں [ ہنسی ] ، [ کوش ] اور [ خندہ ] کے ليے براہ راست paralinguistic ٹیگ کو مدد دے تا هے ۔ اس ميں پرتھ واٹرمارکنگ شامل هے تمام پيدا کيے گئے او ديو پر provenance تلا ش کے ليے

ڈیولپر::
Resemble AI

لائسنس::
MIT

رفتار:
Fast

معیار::

زبانیں:
en

VRAM:
2GB

آواز کا کلوننگ:
جی ہاں

ہر 1K حروف کی قیمت:
2x

200ms کے نیچے کی تاخیر علامات 6x ریئل-ٹائم آواز کا کلوننگ وائیرڈ

بہترین:: ریئل-ٹائم وائٹ ایجنٹ، قدرتی آوازوں کے ساتھ اظہاری بولنا

کوشش کریں Chatterbox Turbo

VoxCPM

Standard

VoxCPM 1.5 OpenBMB کے ذريعے يک نوو ئل tokenizer-free TTS ماڈل هے جو تقسيمي ٹکنز کے بجاي مسلسل فضا ميں آپريشن کر تا هے ۔ یہ اعليٰ وفاداري 44.1kHz آ ڊيو پيدا کر تا هے ، 3-10 سيکنڈ سے صفر شوٹ ويز کلوننگ کو مدد ديتا هے ، اور پرا گراف کے اندر مطابقت کو برقرار رکھتا هے ۔ کرس-لنگے کلونينگ آپ کو چيني بولي میں انگريزي آواز کو لا گنا اور اس کے برعکس اجازت ديتا هے ۔

ڈیولپر::
OpenBMB

لائسنس::
Apache 2.0

رفتار:
Fast

معیار::

زبانیں:
en, zh

VRAM:
4GB

آواز کا کلوننگ:
جی ہاں

ہر 1K حروف کی قیمت:
2x

آڈیو ٹوکنائزر-آزاد کراس-لنگويج کلوننگ متن پر غور لورا فائين ٹونيننگ

بہترین:: اعلیٰ وفاداری آڈیو، آڈیو بک، آواز کے ساتھ طویل فارم مواد

کوشش کریں VoxCPM

Kani TTS 2

Free

Kani-TTS-2 by NineNineSix ایک الٹرا-ہلکا وزن 400M پیرامیٹر ماڈل ہے جو NVIDIA NanoCodec کے ساتھ Liquid AI LFM2 backbone پر بنایا گیا ہے یہ صرف 3GB VRAM میں چلتا ہے اور A100 (RTF 0.2) پر ~2 ثانیوں میں ~10 سیکنڈ کی بات کا اظہار کرتا ہے.حالی میں عوامی رلیز صرف انگریزی میں `kani-tts-2-en` چک پوائنٹ بھیجتا ہے اور آواز کے کلوننگ کے لئے ضروری اسپیکر-امباڈینگ ہوک کو ظاہر نہیں کرتا - کلوننگ کے لئے Chatterbox / IndexTTS2 / F5-TTS استعمال کریں، یا غیر انگریزی کے لئے Kokoro / MeloTTS.

ڈیولپر::
NineNineSix

لائسنس::
Apache 2.0

رفتار:
Fast

معیار::

زبانیں:
en

VRAM:
3GB

آواز کا کلوننگ:
نہیں

ہر 1K حروف کی قیمت:
مفت

3GB VRAM بہت تیز ہلکا وزن نانو کوڈک مفت

بہترین:: کم VRAM ہارڈ ویئر پر تیز انگریزی پیداوار، تیز پیش نگوئی

کوشش کریں Kani TTS 2

OuteTTS

Free

OuteTTS اصل فن تعمير کو محفوظ رکھتے ہوئے متن سے بولنے کی صلاحیتوں کے ساتھ بڑے زباني ماڈل کو پھیلا تا هے ۔ یہ مختلف باقائدہ گيوں کو مدد دیتا هے جن ميں llama.cpp (CPU/GPU) ، Hugging Face Transformers ، ExLlamaV2 ، VLLM ، اور Transformers.js کے ذریعے براؤزر انفريشن شامل هے ۔ JSON کے طور پر محفوظ کئے گئے اسپيکر پروفا ئل کے ذریعے صفر شوٹ ويز کلوننگ کي خاصيت هے ۔

ڈیولپر::
OuteAI

لائسنس::
Apache 2.0

رفتار:
Fast

معیار::

زبانیں:
en

VRAM:
2GB

آواز کا کلوننگ:
جی ہاں

ہر 1K حروف کی قیمت:
مفت

سی پی یو براؤزر انفریکشن آواز کا کلوننگ متعدد باقائدہ اسپیکر پروفا ئل

بہترین:: ایج ڈیبائیلنگ، براؤزر-بنا ہوا TTS، کم وسعت ماحول

کوشش کریں OuteTTS

VibeVoice

Standard

مائیکروسافٹ کے وائب وائٹس دو قسموں میں آتا ہے: ایک 1.5B ماڈل طویل فارم مواد کے لئے (90 منٹ تک، 4 اسپیکر) اور ایک ریئل ٹائم 0.5B ماڈل ~200ms پہلے آڈیو لاٹینسی کے ساتھ اسٹریم کے لئے۔ 1.5B ماڈل پوڈکاسٹ اور آڈیو بک میں بلند ہے اور طویل حصوں پر اسپیکر کی ہم آہنگی ہے۔ یاد رکھیں: مائیکروسافٹ نے TTS کوڈ کو ریپائزری سے ہٹا دیا اور پیدا کردہ آڈیو میں سننے والے AI ڈسگریمیشن شامل ہیں۔

ڈیولپر::
Microsoft

لائسنس::
MIT

رفتار:
Fast

معیار::

زبانیں:
en, zh

VRAM:
4GB

آواز کا کلوننگ:
نہیں

ہر 1K حروف کی قیمت:
2x

ملٹی اسپیکر 90 منٹ تک پوڈکاسٹ پیدائش اسپیکر 200ms اسٹریمنگ

بہترین:: پوڈکاسٹ، اوڈیو بک، لمبے فارم ملٹی اسپیکر مواد

کوشش کریں VibeVoice

Pocket TTS

Free

پوک ٹي ٹی ايس کيو ٹائ ( مو شي کے بنا ئے والے) کے ذريعے 100 ميگا با ڑي پيراميٹر ٹیکس- ٹو- اسپيچ ماڈل هے جو اس کے وزن سے زياد گيں ۔ یہ سي پي يو پر موثر طور پر چلتا هے ، ایک واحد او ڊيو نمونے سے صفر شوٹ ويز کلوننگ کي مدد کرتا هے اور فطري آواز کا آواز بناتا هے ۔ چھوٹا ماڈل سايز اس کو ايج ڈیبائيلنگ اور کم وسيله والا ماحول کے ليے مثالي بنا تا هے

ڈیولپر::
Kyutai

لائسنس::
MIT

رفتار:
Fast

معیار::

زبانیں:
en, fr

VRAM:
1GB

آواز کا کلوننگ:
جی ہاں

ہر 1K حروف کی قیمت:
مفت

100M پیرامیٹرز سی پی یو آواز کا کلوننگ ایک نمونے کا کلوننگ کنارے تیار

بہترین:: ہلکا ڈیبلوپمنٹ، CPU-only ماحول، تیز آواز کلوننگ

کوشش کریں Pocket TTS

Kitten TTS

Free

ڈیولپر::
KittenML

لائسنس::
Apache 2.0

رفتار:
Fast

معیار::

زبانیں:
en

VRAM:
0GB

آواز کا کلوننگ:
نہیں

ہر 1K حروف کی قیمت:
مفت

CPU-only inference Under 80MB model size 8 built-in voices Speed control ONNX-based 24kHz output

بہترین:: Fast lightweight TTS, edge deployment, low-latency applications

کوشش کریں Kitten TTS

CosyVoice3

Standard

CosyVoice3 is the latest evolution from Alibaba's FunAudioLLM team. It features bi-streaming inference with ~150ms latency, instruction-based control for emotion/speed/volume, and improved speaker similarity for zero-shot cloning. Supports 9 languages plus 18 Chinese dialects. RL-tuned variant delivers state-of-the-art prosody.

ڈیولپر::
Alibaba (FunAudioLLM)

لائسنس::
Apache 2.0

رفتار:
Fast

معیار::

زبانیں:
en, zh, ja, ko, de, es, fr, it, ru

VRAM:
4GB

آواز کا کلوننگ:
جی ہاں

ہر 1K حروف کی قیمت:
2x

Bi-streaming Emotion control Voice cloning Speed/volume control Instruction following

بہترین:: Multilingual production TTS, real-time applications, voice cloning

کوشش کریں CosyVoice3

NAMAA Saudi TTS

Standard

NAMAA Saudi TTS TTS.ai پر TTS.ai پر TTS.ai پر TTS.ai پر TTS.ai پر TTS.ai پر TTS.ai پر TTS.ai پر TTS.ai پر TTS.ai پر TTS.ai پر TTS.ai پر TTS.ai پر TTS.ai پر TTS.ai پر TTS.ai پر TTS.ai پر TTS.ai پر TTS.ai پر TTS.ai پر TTS.ai پر TTS.ai پر TTS.ai پر TTS.ai پر TTS.ai پر TTS.ai پر TTS.ai پر TTS.ai پر TTS.ai پر TTS.ai پر TTS.ai پر TTS.ai پر TTS.ai پر TTS.ai پر TTS.ai پر TTS.ai پر TTS.ai پر TTS.ai پر TTS.ai پر TTS.ai پر TTS.ai پر TTS.ai پر TTS.ai پر TTS.ai پر TTS.ai پر TTS.ai پر TTS.ai پر TTS.ai پر TTS.ai پر TTS.ai پر TTS.ai پر TTS.ai پر TTS.ai پر TTS.ai پر TTS.ai پر TTS.ai پر TTS.ai پر TTS.ai پر TTS.ai پر TTS.ai پر TTS.ai پر TTS.ai پر TTS.ai پر TTS.ai پر TTS.ai پر TTS.ai پر TTS.ai پر TTS.ai پر TTS.ai پر TTS.ai پر TTS.ai پر TTS.ai پر 8

ڈیولپر::
NAMAA Space

لائسنس::
MIT

رفتار:
Medium

معیار::

زبانیں:
ar

VRAM:
6GB

آواز کا کلوننگ:
جی ہاں

ہر 1K حروف کی قیمت:
2x

سودي عربي جديد سٹنڈرڈ عربي صفر-شٹ آواز کلوننگ احساسات کا کنٹرول مقامي تلفظ

بہترین:: سعودی سامعین کے لیے عربی مواد، ایم ایس اے کی روایت، خلیجی-زبانی آواز کے ایجنٹ، عربی اوڈیو بک

کوشش کریں NAMAA Saudi TTS

Darwin TTS

Standard

داروين-TTS-1.7B-کراس فائنل-بنچ کے ذريعے Qwen3-TTS-1.7B کا ريسرچ ورجن هے جہاں 84 talk-FFN tensors (8.6%) کو α=3% پر Qwen3-1.7B-بيس سے ملنے والے tensors کے ساتھ ملا يا جاتا هے ۔ یہ ملنا بغير تربيت کے بنا يا جاتا هے اور کو ريائي ، انگريزي ، جاپاني اور چيني زبانوں میں واضح طور پر کراس-لنگوي آواز کا کلوننگ بناتا هے ۔ صفر-شٹ ويز-کلون موڈ میں کام کرتا هے (3 سيکنڈ ريفرنس او ڊيو)

ڈیولپر::
FINAL-Bench

لائسنس::
Apache 2.0

رفتار:
Medium

معیار::

زبانیں:
en, ko, ja, zh

VRAM:
7GB

آواز کا کلوننگ:
جی ہاں

ہر 1K حروف کی قیمت:
2x

آواز کا کلوننگ کراس-لنگويج FFN-بھڑکا ہوا 4 بنيادي زبانیں Qwen3 رکاوٹ

بہترین:: ایک واحد حوالہ آواز کے ساتھ انگریزی / کورین / جاپانی / چینی کے درمیان زبانوں کے درمیان آواز کا کلوننگ

کوشش کریں Darwin TTS

MOSS-TTSD

Standard

MOSS-TTSD v1.0 OpenMOSS سے 7B ڈائیلاگ ٹیکس-ٹو-سپیچ ماڈل ہے جو مختصر اوڈيو پروموشن سے گفتگو جاری رکھتا ہے. [S1]/[S2] ٹیگ کے ذریعے 5 تک ایک ساتھ اسپیکرز کو مدد دیتا ہے، 3-10s ریفرنس اوڈيو سے صفر-شٹ وائٹ کلوننگ، اور 20 زبانوں میں 60 منٹ تک منسجم ملٹی-ٹورن ڈائیلاگ. MOSS-TTS سے مختلف - TTSD پوڈکاسٹ/اوڈیو بک/ڈوبنگ ورک فلو کے ليے خاص ہے.

ڈیولپر::
OpenMOSS

لائسنس::
Apache 2.0

رفتار:
Medium

معیار::

زبانیں:
en, zh

VRAM:
12GB

آواز کا کلوننگ:
جی ہاں

ہر 1K حروف کی قیمت:
2x

کثیر اسپیکر ڈائیلاگ 5 اسپیکرس تک 60 منٹ منسجم آڈیو آواز کا کلوننگ پوڈکاسٹ بہتری

بہترین:: پوڈکاسٹ، اوڈیو بک، ڈبلڈ ڈائیلاگ، متعدد آوازوں کے ساتھ گفتگو کے مواد

کوشش کریں MOSS-TTSD

Ming-Omni TTS

Free

InclusionAI کے ذريعے Ming-omni-tts-0.5B BailingMM کے گھنے پسماند پر بنا يا گيا هے جو پيچ-بائي پچ فلو-مطابق آ ڊيو دي کوڈر کے ساتھ 44.1kHz آ وٹ پٹ (CD کي معيار کے قریب) ديا تا هے ، 3+ سيکنڈ ريفرنس سے صفر شوٹ ويز کلونينگ کو مدد دیتا هے اور JSON اشاروں کے ذریعے بنا يا گيا احساس / ڈالیکٹ / BGM کنٹرول شامل کر تا هے ۔ چيني بينک مارکز پر 0.83% WER کا ممتاز استحکام ۔

ڈیولپر::
inclusionAI

لائسنس::
Apache 2.0

رفتار:
Medium

معیار::

زبانیں:
en, zh

VRAM:
3GB

آواز کا کلوننگ:
جی ہاں

ہر 1K حروف کی قیمت:
مفت

44.1kHz آؤٹ پٹ آواز کا کلوننگ احساسات کا کنٹرول ڈائيلکٹ ڪنٹرول BGM پیدائش کمپیکٹ 0.5B

بہترین:: اعلیٰ وفاداری دو زبانوں کی روایت، جذبات سے کنٹرول آواز اداکاری، چینی اوڈیو بک مواد

کوشش کریں Ming-Omni TTS

Kokoro

مفت

Kokoro is an 82 million parameter text-to-speech model that punches well above its weight class. Despite its tiny size, it produces remarkably natural and expressive speech. Kokoro supports multiple languages including English, Japanese, Chinese, and Korean with a variety of expressive voices. It runs incredibly fast — generating audio nearly 100x faster than real-time on a GPU.

ڈیولپر::
Hexgrad

لائسنس::
Apache 2.0

رفتار:
Fast

معیار::

زبانیں: en, ja, zh, fr, it, pt, es, hi

بہترین:: High-quality TTS with minimal latency, streaming applications

مفت آزمائیں

Piper

مفت

Piper is a lightweight text-to-speech engine developed by Rhasspy that uses VITS and larynx architectures. It runs entirely on CPU, making it ideal for edge devices, home automation, and applications requiring offline TTS. With over 100 voices across 30+ languages, Piper delivers natural-sounding speech at real-time speeds even on a Raspberry Pi 4.

ڈیولپر::
Rhasspy

لائسنس::
MIT

رفتار:
Fast

معیار::

زبانیں: en, de, fr, es, it, pt, nl, pl, ru, zh, ar, cs, da, fi, el, hu, is, ka, kk, ne, no, ro, sk, sr, sv, sw, tr, uk, vi

بہترین:: Quick previews, accessibility, and embedded applications

مفت آزمائیں

VITS

مفت

VITS (Variational Inference with adversarial learning for end-to-end Text-to-Speech) is a parallel end-to-end TTS method that generates more natural sounding audio than current two-stage models. It adopts variational inference augmented with normalizing flows and an adversarial training process, achieving a significant improvement in naturalness.

ڈیولپر::
Jaehyeon Kim et al.

لائسنس::
MIT

رفتار:
Fast

معیار::

زبانیں: en, de, es, fr, pt, nl, fi, hu, bg, uk, pl

بہترین:: General-purpose text-to-speech with natural prosody

مفت آزمائیں

MeloTTS

مفت

MeloTTS by MyShell.ai is a multilingual TTS library supporting English (American, British, Indian, Australian), Spanish, French, Chinese, Japanese, and Korean. It is extremely fast, processing text at near real-time speed on CPU alone. MeloTTS is designed for production use and supports both CPU and GPU inference.

ڈیولپر::
MyShell.ai

لائسنس::
MIT

رفتار:
Fast

معیار::

زبانیں: en, es, fr, zh, ja, ko

بہترین:: Production applications needing fast, multilingual TTS

مفت آزمائیں

Kani TTS 2

مفت

Kani-TTS-2 by NineNineSix is an ultra-lightweight 400M parameter model built on a Liquid AI LFM2 backbone with NVIDIA NanoCodec. It runs in just 3GB VRAM and produces ~10 seconds of speech in ~2 seconds on an A100 (RTF 0.2). The current public release ships an English-only `kani-tts-2-en` checkpoint and does not expose the speaker-embedding hook needed for voice cloning — use Chatterbox / IndexTTS2 / F5-TTS for cloning, or Kokoro / MeloTTS for non-English.

ڈیولپر::
NineNineSix

لائسنس::
Apache 2.0

رفتار:
Fast

معیار::

زبانیں: en

بہترین:: Fast English generation on low-VRAM hardware, quick previews

مفت آزمائیں

OuteTTS

مفت

OuteTTS extends large language models with text-to-speech capabilities while preserving the original architecture. It supports multiple backends including llama.cpp (CPU/GPU), Hugging Face Transformers, ExLlamaV2, VLLM, and even browser inference via Transformers.js. Features zero-shot voice cloning through speaker profiles saved as JSON.

ڈیولپر::
OuteAI

لائسنس::
Apache 2.0

رفتار:
Fast

معیار::

زبانیں: en

بہترین:: Edge deployment, browser-based TTS, low-resource environments

مفت آزمائیں

Pocket TTS

مفت

Pocket TTS by Kyutai (creators of Moshi) is a compact 100M parameter text-to-speech model that punches well above its weight. It runs efficiently on CPU, supports zero-shot voice cloning from a single audio sample, and produces natural-sounding speech. The small model size makes it ideal for edge deployment and low-resource environments.

ڈیولپر::
Kyutai

لائسنس::
MIT

رفتار:
Fast

معیار::

زبانیں: en, fr

بہترین:: Lightweight deployment, CPU-only environments, quick voice cloning

مفت آزمائیں

Kitten TTS

مفت

ڈیولپر::
KittenML

لائسنس::
Apache 2.0

رفتار:
Fast

معیار::

زبانیں: en

بہترین:: Fast lightweight TTS, edge deployment, low-latency applications

معیاري

ڈیولپر::
Alibaba (FunAudioLLM)

لائسنس::
Apache 2.0

رفتار:
Fast

معیار::

زبانیں:
en, zh, ja, ko, de, es, fr, it, ru

آواز کا کلوننگ:
جی ہاں

Bi-streamingEmotion controlVoice cloningSpeed/volume controlInstruction following

بہترین:: Multilingual production TTS, real-time applications, voice cloning

کوشش کریں CosyVoice3

NAMAA Saudi TTS

معیاري

NAMAA Saudi TTS is a Saudi Arabic fine-tune of Resemble AI's ChatterboxMultilingual. Trained by NAMAA Space on authentic Saudi-dialect speech, it produces natural Modern Standard Arabic and Saudi colloquial pronunciation that generic multilingual models cannot match. Inherits Chatterbox's zero-shot voice cloning and emotion control via reference audio prompts. The first open-weights Arabic TTS deployed on TTS.ai.

ڈیولپر::
NAMAA Space

لائسنس::
MIT

رفتار:
Medium

معیار::

زبانیں:
ar

آواز کا کلوننگ:
جی ہاں

Saudi Arabic dialectModern Standard ArabicZero-shot voice cloningEmotion controlNative pronunciation

بہترین:: Arabic content for Saudi audiences, MSA narration, Khaleeji-dialect voice agents, Arabic audiobooks

کوشش کریں NAMAA Saudi TTS

Darwin TTS

معیاري

Darwin-TTS-1.7B-Cross by FINAL-Bench is a research variant of Qwen3-TTS-1.7B where 84 talker-FFN tensors (8.6%) are blended at α=3% with the matching tensors from Qwen3-1.7B-Base. The blend is built without retraining and produces noticeably crisper cross-lingual voice cloning across Korean, English, Japanese, and Chinese. Operates in zero-shot voice-clone mode (3 seconds reference audio).

ڈیولپر::
FINAL-Bench

لائسنس::
Apache 2.0

رفتار:
Medium

معیار::

زبانیں:
en, ko, ja, zh

آواز کا کلوننگ:
جی ہاں

Voice cloningCross-lingualFFN-blended4 core languagesQwen3 backbone

بہترین:: Cross-lingual voice cloning between English / Korean / Japanese / Chinese with a single reference voice

ماڈل	ڈیولپر:	تير	رفتار	زبانیں	VRAM	لائسنس:	کریڈٹس
Kokoro	Hexgrad	Free	Fast	8	1.5GB	Apache 2.0	مفت	استعمال
Piper	Rhasspy	Free	Fast	29	0 (CPU only)	MIT	مفت	استعمال
VITS	Jaehyeon Kim et al.	Free	Fast	11	1GB	MIT	مفت	استعمال
MeloTTS	MyShell.ai	Free	Fast	6	0.5GB (GPU optional)	MIT	مفت	استعمال
Bark	Suno	Standard	Slow	13	5GB	MIT	2	استعمال
Bark Small	Suno	Standard	Medium	13	2GB	MIT	2	استعمال
CosyVoice 2	Alibaba (Tongyi Lab)	Standard	Medium	8	4GB	Apache 2.0	2	استعمال
Dia TTS	Nari Labs	Standard	Medium	1	4GB	Apache 2.0	2	استعمال
Parler TTS	Hugging Face	Standard	Medium	1	4GB	Apache 2.0	2	استعمال
GLM-TTS	Zhipu AI	Standard	Medium	2	4GB	GLM-4 License	2	استعمال
IndexTTS-2	Index Team	Standard	Medium	2	4GB	Bilibili Model License	2	استعمال
Spark TTS	SparkAudio	Standard	Medium	2	4GB	CC BY-NC-SA 4.0	2	استعمال
GPT-SoVITS	RVC-Boss	Standard	Slow	4	6GB	MIT	2	استعمال
Orpheus	Canopy Labs	Standard	Medium	1	4GB	Llama 3.2 Community	2	استعمال
Chatterbox	Resemble AI	Premium	Medium	1	4GB	MIT	4	استعمال
Tortoise TTS	James Betker	Premium	Slow	1	8GB	Apache 2.0	4	استعمال
StyleTTS 2	Columbia University	Premium	Medium	1	4GB	MIT	4	استعمال
OpenVoice	MyShell.ai / MIT	Premium	Medium	6	4GB	MIT	4	استعمال
Qwen3 TTS	Alibaba (Qwen)	Standard	Medium	10	7GB	Apache 2.0	2	استعمال
Sesame CSM	Sesame	Premium	Slow	1	8GB	Apache 2.0	4	استعمال
Chatterbox Turbo	Resemble AI	Standard	Fast	1	2GB	MIT	2	استعمال
VoxCPM	OpenBMB	Standard	Fast	2	4GB	Apache 2.0	2	استعمال
Kani TTS 2	NineNineSix	Free	Fast	1	3GB	Apache 2.0	مفت	استعمال
OuteTTS	OuteAI	Free	Fast	1	2GB	Apache 2.0	مفت	استعمال
VibeVoice	Microsoft	Standard	Fast	2	4GB	MIT	2	استعمال
Pocket TTS	Kyutai	Free	Fast	2	1GB	MIT	مفت	استعمال
Kitten TTS	KittenML	Free	Fast	1	0GB	Apache 2.0	مفت	استعمال
CosyVoice3	Alibaba (FunAudioLLM)	Standard	Fast	9	4GB	Apache 2.0	2	استعمال
NAMAA Saudi TTS	NAMAA Space	Standard	Medium	1	6GB	MIT	2	استعمال
Darwin TTS	FINAL-Bench	Standard	Medium	4	7GB	Apache 2.0	2	استعمال
MOSS-TTSD	OpenMOSS	Standard	Medium	2	12GB	Apache 2.0	2	استعمال
Ming-Omni TTS	inclusionAI	Free	Medium	2	3GB	Apache 2.0	مفت	استعمال

سب سے وسیع AI ٹیکس سے کلام پلٹ فارم

ٹیکسٹ سے اسپیکینگ کے لئے TTS.ai کیوں منتخب کریں؟

TTS.ai دنیا کے بہترین اوپن سورس ٹیکس-ٹو-سپیچ ماڈلز کو ایک واحد، آسان استعمال کرنے والے پلیٹ فارم میں ایک ساتھ لاتا ہے۔ آپ کو ایک آواز انجن میں بند کرنے والی مختص خدمات کی برعکس، TTS.ai آپ کو Coqui، MyShell، Amphion، NVIDIA، Suno، HuggingFace، Tsinghua University، اور مزید سمیت پیشرو تحقیقی لیبارٹریوں سے 20+ ماڈلز تک رسائی دیتا ہے۔

ہر ماڈل MIT، Apache 2.0، یا اس طرح کی اجازت ناموں کے تحت اوپن سورس ہے، آپ کو اپنے پروجیکٹ میں پیدا شدہ آڈیو استعمال کرنے کے لئے مکمل تجارتی حقوق فراہم کرتے ہوئے۔ چاہے آپ کو ریل-ٹائم ایپلیکیشنز کے لئے تیز، ہلکا وزن سینتھسس یا آڈیو بک اور پوڈکاسٹ کے لئے پرائم سٹوڈیو-کیو لٹ کی ضرورت ہو۔ TTS.ai کے پاس ہر استعمال کے معاملے کے لئے صحیح ماڈل ہے۔

مفت ماڈل، کوئی اکاؤنٹ نہیں چاہیے

تین مفت TTS ماڈلز کے ساتھ فوراً شروع کريں: Piper (الٹرا تیز، ہلکا وزن)، VITS (اعلى معياري نيورال سنتھسيز)، اور MeloTTS (ملٹی-لنگے سپورٹ). کوئی سائن اپ نہیں، کوئی کریڈٹ کارڈ نہیں، نسلوں پر کوئی حد نہیں. مفت ماڈلز انگریزی اور بہت سی دیگر زبانوں کی حمایت کرتے ہیں اکثر ایپلیکيشنوں کے ليے مناسب قدرتی آواز کے آؤٹ پٹ کے ساتھ.

جی پی یو تیز رفتار پروسیسنگ

تمام TTS ماڈلs تیز، مسلسل پیداوار کے وقت کے لئے NVIDIA GPUs پر چلتے ہیں. مفت ماڈلs عام طور پر 2 سیکنڈ کے اندر آڈیو پیدا کرتے ہیں. Kokoro، CosyVoice2، اور Bark جیسے معیاری ماڈلs اوسط 3-5 سیکنڈ. اعلیٰ معیار کے ساتھ پرائم ماڈلs، جیسے Tortoise اور Chatterbox، متن کی لمبائی کے لحاظ سے 5-15 سیکنڈ میں پروسیسنگ کرتے ہیں.

30+ زبانوں کی مدد

30 سے زائد زبانوں میں بولي بنايں جن ميں انگريزي، اسپيني، فرانسيسي، جرمن، اطالوي، پرتگالي، چيني، جاپاني، کو ريائي، عربي، ہندي، روسي اور اور بہت سے زبانیں شامل هے ۔کچھ ماڈل کراس-لنگوي سنتھز کي مدد کريں ، جس کا مطلب هے آپ اصل آواز کو اس زبان ميں بولي بنا سکتے هيں جس پر تربيت نہيں ملي ۔CosyVoice2 اور GPT-SoVITS کراس-لنگوي آواز کلونينگ ميں ممتاز هے

ڈیولپر-رکھی API

Integrate TTS.ai into your applications with our OpenAI-compatible REST API. One endpoint for all 20+ models. Python, JavaScript, cURL, and Go SDKs. Streaming support for real-time applications. Batch processing for large-scale content generation. Webhooks for async notifications. API access included on every plan including free.

بار بار پوچھے گئے سوالات

ٹیکس ٹو اسپیچ (TTS) ایک AI ٹیکنالوجی ہے جو لکھی ہوئی تحریر کو قدرتی آوازوں میں تبدیل کرتی ہے۔ جدید نیورال TTS ماڈل جیسے کوکورو، چیٹر باکس، اور کوسی وائٹس 2 بات کرنے کے لئے گہرے سیکھنے کا استعمال کرتے ہیں جو قابل ذکر انسانی آواز، قدرتی پروسوڈی، جذبات، اور ریتمی کے ساتھ آواز دیتے ہیں۔

یہ آپ کی ضرورت پر منحصر هے ۔ جلدي پيش نما ئي کے ليے Piper يا MeloTTS استعمال کريں ( مفت ، جلدي ) اعلي معيار کے ليے Kokoro يا CosyVoice2کويں استعمال کريں (معياري سطح ) آواز کے کلوننگ کے ليے Chatterbox يا GPT-SoVITS استعمال کريں (پريميئم ) ڈائيلوگ/پڈکاسٹ مواد کے ليے Dia TTS کويں استعمال کريں ہر ماڈل ميں مختلف قوتیں هے ۔ بهترين مناسب تلاش کر نے کے ليے تجربہ کريں

ہاں! TTS.ai کوکورو، پائپر، VITS اور MeloTTS ماڈلز کے ساتھ مفت متن سے بولنے کا سروس پيش کرتا هے ۔ 500 حروف تک اور ہر گھنٹے 3 نسلوں کے ليے کوئی اڪاؤنٹ ضروري نهيں ۔ 15 کرڈٹ حاصل کر نے کے ليے مفت اکاؤنٹ کے ليے رجسٽري کريں اور تمام ماڈلز تک رسائي حاصل کريں

ہمارے TTS ماڈل مجموعی طور پر 30+ زبانوں کی حمایت کرتے ہیں جن میں انگریزی، ہسپانوی، فرانسیسی، جرمن، اٹلی، پرتگالی، چینی، جاپانی، کوریا، عربی، روسی، ہندی، اور بہت سی دیگر زبانیں شامل ہیں۔

ہاں، TTS.ai کے ذریعے پیدا کی گئی آڈیو تجارتي طور پر استعمال کی جا سکتی ہے۔ ہمارے تمام ماڈل اوپن سورس لائسنس استعمال کرتے ہیں (MIT، Apache 2.0)۔ مخصوص شرطوں کے لئے انفرادی ماڈل لائسنس کو چکیں۔ ہم آپ کے پروجیکٹ کے لئے استعمال کئے گئے مخصوص ماڈل کی لائسنس کو دیکھنے کی سفارش کرتے ہیں۔

TTS.ai MP3, WAV, OGG, اور FLAC OUTPUT فارمیٹ کو سپورٹ کرتا ہے. MP3 ویب پلے باکس کے لیے دیفالٹ ہے. WAV کو مزید آڈیو پروسیسنگ کے لیے سفارش کی جاتی ہے. آپ ہمارے آڈیو کنورٹر ٹول کے ذریعے فارمیٹ کے درمیان تبدیل کرسکتے ہیں.

آواز کلوننگ AI کو استعمال کرتا ہے ایک مختصر او ڈیو نمونے سے ایک مخصوص آواز کو نقل کرنے کے ليے (معمولاً 5-30 سيکنڈ). مقصد کی آواز کا واضح ریکارڈ اپ لوڈ کريں اور Chatterbox، GPT-SoVITS، يا OpenVoice جیسے ماڈل اس آواز میں نئے بولنے کو پيدا کريں گے. صفائي صاف، طويل ريفرنس او ڈیو کے ساتھ معيار بہتر ہوتا ہے.

مفت استعمال کرنے والے ہر درخواست پر 500 حروف تک پیدا کرسکتے ہیں. رجسٹرڈ استعمال کرنے والے ہر درخواست پر 5000 حروف تک حاصل کرسکتے ہیں. طویل تحریروں کے لیے، آڈیو کو ٹکڑے ٹکڑے بنایا جاتا ہے اور خودکار طور پر ایک ساتھ جوڑ دیا جاتا ہے. API استعمال کرنے والے ہر درخواست پر 10000 حروف تک پروسیسنگ کر سکتے ہیں.

SSML (Speak Synthesis Markup Language) کا سا ئے ماڈل مختلف ہوتا هے Piper اور بعض اور ماڈل وقفے ، زور اور لفظي کنٹرول کے ليے SSML کے بنيادي ٹگ کو سا ئے ميں رکھتے هيں SSML کے نا ئے ماڈل کے ليے آپ طبيعي وقفے اور لائين برک استعمال کر سکتے هيں

ہاں ، اکثر ماڈل 0.5x سے 2.0x تک رفتار تعديل کو مدد ديتے هيں بعض ماڈل مثلا Bark اور Parler پيچ اور انداز کو کنٹرول کر نے کي اجازت ديتے هيں آپ رفتار کي پارا ميٽرز کو اعلی ترتيبات کے پينل ميں يا API رفتار کے پارا مٹر کے ذریعے مقرر کر سکتے هيں

ہاں ، با چ پروسیسنگ ہمارے API کے ذریعے دستیاب ہے آپ ایک API کال يا سکريبٹ میں متعدد متن کے حصوں کو پيش کر سکتے هيں اور ہر ایک کو پروسيس اور جدا جدا او ڊيو فائ لن کے طور پر واپس کر دیا جا تا هے یہ او ڈیو بک کے بابوں ، اي لرننگ ماڈولز يا گيم ڈائيلوگ سکريبٹ کے ليے مثالي هے

آپ کے اکاؤنٹ ڈیش بورڈ سے ایک API کلید پیدا کریں، پھر اپنے متن، ماڈل، اور آواز کے پیرامیٹروں کے ساتھ ہمارے REST API انتہا پوائنٹ کو POST درخواستیں بھیجیں۔ ہم Python، JavaScript، اور cURL میں کوڈ مثالیں فراہم کرتے ہیں۔ API OpenAI-compatible ہے، تو موجود ادغام کم سے کم تبدیلیوں کے ساتھ کام کرتے ہیں۔

5.0/5 (4)

لکھائی کو اب بولنے میں تبدیل کرنا شروع کریں

TTS.ai استعمال کر کے ہزاروں تخلیق کاروں سے ملیں۔ ایک نئے اکاؤنٹ کے ساتھ 15،000 مفت کردار حاصل کریں۔ مفت ماڈل رجسٹريشن کے بغیر دستیاب ہیں۔

مفت میں رجسٹر کریں قیمت دیکھیں

AI ٹیکس سے بولنا

TTS.ai سے محبت؟ اپنے دوستوں کو بتائیں!

ماڈل تفصیلات

Kitten TTS

بہتر نتيجے کے ليے تجويز

حروف کا استعمال

AI ٹیکس سے اسپیکینگ کیسا کام کرتا ہے

آپ کا متن داخل کریں

ماڈل اور آواز منتخب کریں

بناؤ اور ڈاؤن لوڈ کرو

ٹیکس سے کلام کے استعمال کے حالات

آڈیو کتابیں

ویڈیو وائٹ اوورس

پوڈکاسٹ

گیمنگ

اي- ليرننگ

رسائی

فون سسٹم

سماجی میڈیا

سٹریمنگ

مارکیٹنگ

دوبرانگ اور لوکلائزيشن

ھمدردي اور صحت

تمام متن سے بوليں ماڈل

Kokoro

Piper

VITS

MeloTTS

Bark

Bark Small

CosyVoice 2

Dia TTS

Parler TTS

GLM-TTS

IndexTTS-2

Spark TTS

GPT-SoVITS

Orpheus

Chatterbox

Tortoise TTS

StyleTTS 2

OpenVoice

Qwen3 TTS

Sesame CSM

Chatterbox Turbo

VoxCPM

Kani TTS 2

OuteTTS

VibeVoice

Pocket TTS

Kitten TTS

CosyVoice3

NAMAA Saudi TTS

Darwin TTS

MOSS-TTSD

Ming-Omni TTS

Kokoro

Piper

VITS

MeloTTS

Kani TTS 2

OuteTTS

Pocket TTS

Kitten TTS

Ming-Omni TTS

Bark

Bark Small

CosyVoice 2

Dia TTS

Parler TTS

GLM-TTS

IndexTTS-2

Spark TTS

GPT-SoVITS

Orpheus

Qwen3 TTS

Chatterbox Turbo

VoxCPM

VibeVoice

CosyVoice3