متن به گفتارComment

تبدیل متن به گفتار طبیعی با مدل‌های هوش مصنوعی متن باز. استفاده از آن رایگان است، حسابی نیاز نیست.

هنوز صداهای TTS برای زبان شما نداریم. به ما کمک کنید تا صداهای خودتان را اضافه کنیم! فروش صدای خود
0/500 نویسه‌ها
ثبت نام برای حد ۵۰۰۰ کاراکتر

برای کنترل دقیق ، متن خود را در برچسبهای SSML بپیچید:

<speak><prosody rate="slow">Slow speech</prosody></speak>

اضافه کردن نشانگرهای احساس برای تأثیر بر تحویل (مدل پشتیبانی متفاوت است):

تعریف تلفظ سفارشی) کلمه = تلفظ (:

-12 +12
0.5x 2.0x
آزاد با Piper, VITS, MeloTTS
صدای تولید شده شما در اینجا ظاهر خواهد شد. یک مدل را انتخاب کنید ، متن را وارد کنید ، و تولید را فشار دهید.
صدا با موفقیت تولید شد
بارگیری صدا پیوند در ۲۴ ساعت پایان می‌یابد
دوست داريد TTS.ai؟ به دوستانتون بگو!

جزئیات مدل

GPT-SoVITS

GPT-SoVITS

Standard

GPT-SoVITS combines GPT-style language modeling with SoVITS (Singing Voice Inference via Translation and Synthesis) for powerful few-shot voice cloning. With as little as 5 seconds of reference audio, it can accurately clone a voice and generate new speech while preserving the speaker's unique characteristics. It excels at both speaking and singing voice synthesis.

توسعه‌دهنده: RVC-Boss
مجوز: MIT
سرعت Slow
کیفیت:
زبانها 4 زبانها
حافظۀ تصویری 6GB
شبیه‌سازی صدا پشتیبانی‌شده
ویژگیها:
5-second cloning Singing voice Few-shot learning High fidelity Cross-lingual
بهترین برای:: Voice cloning, singing synthesis, content creator voice replication

نکات برای نتایج بهتر

  • استفاده از نشانه گذاری مناسب برای توقفهای طبیعی و نت
  • اعداد و مخففها را برای تلفظ واضح تر تلفظ کنید
  • افزودن فاصلۀ میانی برای ایجاد وقفه‌های کوتاه بین جملات
  • از نقطهٔ سه نقطه (...) برای توقف‌های طولانی‌تر استفاده کنید
  • Kokoro یا CosyVoice 2 را برای طبیعی ترین نتایج امتحان کنید
  • استفاده از Dia برای محاورۀ چند بلندگو و محتوای پادکست

استفاده از نویسه‌ها

حیوان هزینه برای هر ۱K نویسه
آزاد ۰ امتیاز) نامحدود (
پیش‌فرض 2 اعتبار / 1K کاراکتر
پریمیوم 4 امتیاز / 1K کاراکتر

چگونه هوش مصنوعی متن به گفتار کار می‌کند

تولید صداگذاری با کیفیت حرفه‌ای در سه گام ساده. هیچ دانش فنی مورد نیاز نیست.

گام ۱

وارد کردن متن شما

متنی را که می‌خواهید به گفتار تبدیل کنید ، تایپ ، چسباندن یا بارگذاری کنید. تا ۵۰۰۰ کاراکتر در هر نسل برای کاربران وارد شده پشتیبانی می‌شود. از متن ساده استفاده کنید یا برچسب‌های SSML را برای کنترل پیشرفته بر روی تلفظ ، مکثها و تأکید اضافه کنید.

گام دوم

برگزیدن مدل و صدا

از میان ۲۰ مدل هوش مصنوعی در سه سطح انتخاب کنید. یک صدا را که با محتوای شما مطابقت دارد انتخاب کنید، زبان هدف خود را انتخاب کنید، سرعت پخش را از ۰٫۵x تا ۲٫۰x تنظیم کنید، و قالب خروجی مورد علاقه خود را انتخاب کنید (MP3، WAV، OGG، یا FLAC).

گام ۳

& بارگیری‌

تولید را فشار دهید و صدای شما در چند ثانیه آماده خواهد شد. با پخش‌کننده داخلی پیش‌نمایش کنید ، در قالب انتخابی خود بارگیری کنید ، یا یک پیوند قابل اشتراک را رونوشت کنید. از API برای پردازش گروهی و ادغام در جریان کار خود استفاده کنید.

موردهای استفاده متن به گفتارName

متن به گفتار با استفاده از هوش مصنوعی در حال دگرگونی نحوه ایجاد، مصرف و تعامل مردم با محتوای صوتی در ده‌ها صنعت است.

همۀ مدلهای متن به گفتار

مشخصات مفصل برای هر مدل هوش مصنوعی در دسترس در TTS.ai. مقایسه کیفیت، سرعت، پشتیبانی زبان و ویژگی‌ها برای یافتن مدل کامل برای پروژه شما.

KokoroKokoro

Free

Kokoro یک مدل ۸۲ میلیون پارامتر متن به گفتار است که بسیار بالاتر از کلاس وزن خود عمل می‌کند. با وجود اندازه کوچکش، سخنرانی‌های بسیار طبیعی و بیانی تولید می‌کند. Kokoro از زبان‌های متعددی از جمله انگلیسی، ژاپنی، چینی و کره‌ای با صداهای بیانی متنوع پشتیبانی می‌کند. به طرز باورنکردنی سریع اجرا می‌شود — تولید صدا تقریباً ۱۰۰ برابر سریعتر از زمان واقعی در یک GPU است.

توسعه‌دهنده::
Hexgrad
مجوز::
Apache 2.0
سرعت:
Fast
کیفیت::
زبانها:
en, ja, zh, ko, fr, de, it, pt, es, hi, ru
حافظۀ تصویری:
1.5GB
شبیه‌سازی صدا:
نه
هزینه برای هر ۱K نویسه:
آزاد
پارامترهای ۸۲M فوق سریع صداهای بیانگر چندزبانه پشتیبانی جریان
بهترین برای:: ترجمه متن به گفتار با کیفیت بالا و تأخیر کم، برنامه‌های کاربردی پخش

PiperPiper

Free

پایپر یک موتور متن به گفتار سبک است که توسط راشسپی توسعه یافته و از معماری‌های VITS و larynx استفاده می‌کند. این موتور به‌طور کامل بر روی CPU اجرا می‌شود، که این باعث می‌شود برای دستگاه‌های کناری، اتوماسیون خانگی و برنامه‌هایی که نیاز به TTS آفلاین دارند ایده‌آل باشد. با بیش از ۱۰۰ صدا در ۳۰ زبان، پایپر حتی در یک Raspberry Pi 4 نیز گفتار طبیعی را با سرعت بی‌درنگ ارائه می‌دهد.

توسعه‌دهنده::
Rhasspy
مجوز::
MIT
سرعت:
Fast
کیفیت::
زبانها:
en, de, fr, es, it, pt, nl, pl, ru, zh, ja, ko, ar, cs, da, fi, el, hu, is, ka, kk, ne, no, ro, sk, sr, sv, sw, tr, uk, vi
حافظۀ تصویری:
0 (CPU only)
شبیه‌سازی صدا:
نه
هزینه برای هر ۱K نویسه:
آزاد
پردازنده دوستدار قابلیت برون‌خط صدها صدا 30 زبان پشتیبانی SSML
بهترین برای:: پیش‌نمایش سریع، دسترسی‌پذیری، و برنامه‌های کاربردی جاسازی شده

VITSVITS

Free

VITS (استنتاج متغیر با یادگیری رقابتی برای متن به گفتار پایان به پایان) یک روش TTS موازی پایان به پایان است که صدای طبیعی تر را نسبت به مدل‌های دو مرحله ای فعلی تولید می‌کند.

توسعه‌دهنده::
Jaehyeon Kim et al.
مجوز::
MIT
سرعت:
Fast
کیفیت::
زبانها:
en, zh, ja, ko
حافظۀ تصویری:
1GB
شبیه‌سازی صدا:
نه
هزینه برای هر ۱K نویسه:
آزاد
ترکیب پایان به پایان نظم طبیعی استنتاج سریع چند بلندگو
بهترین برای:: متن به گفتار کاربردی با نظم طبیعیName

MeloTTSMeloTTS

Free

MeloTTS توسط MyShell.ai یک کتابخانه چندزبانه TTS است که از انگلیسی (آمریکایی، بریتانیایی، هندی، استرالیایی)، اسپانیایی، فرانسوی، چینی، ژاپنی و کره‌ای پشتیبانی می‌کند. این کتابخانه بسیار سریع است و متن را با سرعتی نزدیک به زمان واقعی بر روی CPU پردازش می‌کند. MeloTTS برای استفاده در تولید طراحی شده و از استنتاج CPU و GPU پشتیبانی می‌کند.

توسعه‌دهنده::
MyShell.ai
مجوز::
MIT
سرعت:
Fast
کیفیت::
زبانها:
en, es, fr, zh, ja, ko
حافظۀ تصویری:
0.5GB (GPU optional)
شبیه‌سازی صدا:
نه
هزینه برای هر ۱K نویسه:
آزاد
بهینه‌سازی پردازنده چندزبانه لهجه‌های چندگانه آماده تولید تأخیر کم
بهترین برای:: برنامه‌های کاربردی تولید نیازمند TTS سریع و چندزبانه هستند

BarkBark

Standard

Bark by Suno یک مدل متن به صدا بر پایهٔ تبدیل‌کننده است که می‌تواند سخنرانی چندزبانه بسیار واقعی و همچنین صداهای دیگر مانند موسیقی، سر و صدای پس‌زمینه و جلوه‌های صوتی را تولید کند. می‌تواند ارتباطات غیرکلامی مانند خنده، ناله و گریه را تولید کند. Bark از بیش از ۱۰۰ پیش‌فرض بلندگو و ۱۳ زبان پشتیبانی می‌کند.

توسعه‌دهنده::
Suno
مجوز::
MIT
سرعت:
Slow
کیفیت::
زبانها:
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
حافظۀ تصویری:
5GB
شبیه‌سازی صدا:
نه
هزینه برای هر ۱K نویسه:
2x
جلوه‌های صوتی خنده/آهسته نفس کشيدن تولید موسیقی 100+ سخنران چندزبانه
بهترین برای:: محتوای صوتی خلاقانه، کتاب‌های صوتی با احساسات، جلوه‌های صوتی

Bark SmallBark Small

Standard

Bark Small یک نسخه تقطیر شده از مدل Bark است که برخی از کیفیت صدا را برای سرعت استنتاج سریعتر و نیازهای حافظه کمتر معامله می‌کند.

توسعه‌دهنده::
Suno
مجوز::
MIT
سرعت:
Medium
کیفیت::
زبانها:
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
حافظۀ تصویری:
2GB
شبیه‌سازی صدا:
نه
هزینه برای هر ۱K نویسه:
2x
سبک سریعتر از پوست کامل گفتار احساسی چندزبانه
بهترین برای:: صدای خلاقانه سریع هنگامی که Bark کامل خیلی کند است

CosyVoice 2CosyVoice 2

Standard

این نرم‌افزار از یک روش کوانتیزه کردن مقیاسی متناهی برای سنتز جریانی استفاده می‌کند و از شبیه‌سازی صدای صفر-شلیک، سنتز زبانی و کنترل احساسات دانه ریز پشتیبانی می‌کند.

توسعه‌دهنده::
Alibaba (Tongyi Lab)
مجوز::
Apache 2.0
سرعت:
Medium
کیفیت::
زبانها:
en, zh, ja, ko, fr, de, it, es
حافظۀ تصویری:
4GB
شبیه‌سازی صدا:
آره
هزینه برای هر ۱K نویسه:
2x
جریان شبیه‌سازی شلیک صفر زبان‌شناسی کنترل احساسات تناسب انسانی
بهترین برای:: برنامه‌های کاربردی زمان واقعی، انتقال TTS، دستیارهای صوتی

Dia TTSDia TTS

Standard

Dia توسط Nari Labs یک مدل متن به گفتار با پارامتر ۱٫۶ بی است که به طور خاص برای تولید مکالمات چندگوینده طراحی شده است. می‌تواند مکالمات طبیعی بین دو سخنران با نوبت‌گیری مناسب، نظم و بیان احساسی تولید کند. Dia برای ایجاد محتوای سبک پادکست ، مکالمات کتاب صوتی و هوش مصنوعی مکالمه‌ای تعاملی عالی است.

توسعه‌دهنده::
Nari Labs
مجوز::
Apache 2.0
سرعت:
Medium
کیفیت::
زبانها:
en
حافظۀ تصویری:
4GB
شبیه‌سازی صدا:
نه
هزینه برای هر ۱K نویسه:
2x
چند بلندگو تولید محاوره‌ها نوبت گرفتن طبيعي بیان احساسات پارامترهای ۱٫ ۶ب
بهترین برای:: پادکست‌ها، گفتگوهای کتاب صوتی، محتوای مکالمه

Parler TTSParler TTS

Standard

Parler TTS یک مدل متن به گفتار است که از توصیف‌های صدای زبان طبیعی برای کنترل گفتار تولید شده استفاده می‌کند. به جای انتخاب از صداهای پیش‌فرض ، صدایی را که می‌خواهید توصیف کنید (مثلاً ، « یک صدای گرم زنانه با لهجه کم بریتانیایی ، آهسته و واضح صحبت می‌کند ») و Parler گفتاری را تولید می‌کند که با آن توصیف مطابقت دارد. این آن را برای کاربردهای خلاقانه منحصربه‌فرد می‌کند.

توسعه‌دهنده::
Hugging Face
مجوز::
Apache 2.0
سرعت:
Medium
کیفیت::
زبانها:
en
حافظۀ تصویری:
4GB
شبیه‌سازی صدا:
نه
هزینه برای هر ۱K نویسه:
2x
توصیف صوتی کنترل زبان طبیعی ایجاد صدای انعطاف‌پذیر نیازی به صداهای پیش‌فرض نیست
بهترین برای:: کاربردهای خلاقانه که در آن به ویژگی‌های صدای سفارشی نیاز داریدName

GLM-TTSGLM-TTS

Standard

GLM-TTS توسط Zhipu AI یک سیستم متن به گفتار است که بر اساس معماری Lama با تطابق جریان ساخته شده است. این سیستم به پایین‌ترین نرخ خطای کاراکتر در میان مدل‌های TTS منبع باز دست می‌یابد، به این معنی که دقت بیشتری در تلفظ دارد. GLM-TTS از انگلیسی و چینی با شبیه‌سازی صدا از نمونه‌های صوتی ۳ تا ۱۰ ثانیه پشتیبانی می‌کند.

توسعه‌دهنده::
Zhipu AI
مجوز::
GLM-4 License
سرعت:
Medium
کیفیت::
زبانها:
en, zh
حافظۀ تصویری:
4GB
شبیه‌سازی صدا:
آره
هزینه برای هر ۱K نویسه:
2x
کمترین میزان خطا شبیه‌سازی صدا تطابق جریان نظم طبیعی
بهترین برای:: کاربردهایی که بیشترین دقت تلفظ را نیاز دارندName

IndexTTS-2IndexTTS-2

Standard

این سیستم می‌تواند بدون نیاز به داده‌های آموزشی خاص احساسی، گفتاری با نت‌های احساسی خاص مانند خوشحال، غمگین، عصبانی یا ترسیده را تولید کند. این مدل از بردارهای احساسی برای کنترل دقیق بیان احساسی گفتار تولید شده استفاده می‌کند.

توسعه‌دهنده::
Index Team
مجوز::
Bilibili Model License
سرعت:
Medium
کیفیت::
زبانها:
en, zh
حافظۀ تصویری:
4GB
شبیه‌سازی صدا:
آره
هزینه برای هر ۱K نویسه:
2x
کنترل احساسات شليک صفر بردارهای احساس سخنرانی بیانی کنترل دانه ریز
بهترین برای:: محتوای احساسی، کتاب‌های صوتی، دستیار مجازی

Spark TTSSpark TTS

Standard

Spark TTS توسط SparkAudio یک مدل متن به گفتار است که شبیه‌سازی صدا را با احساس قابل کنترل و سبک گفتار ترکیب می‌کند. با استفاده از تنها ۵ ثانیه از صدای مرجع، می‌تواند یک صدا را شبیه‌سازی کند و سپس گفتاری با احساسات، سرعت‌ها و سبک‌های مختلف تولید کند در حالی که هویت صدای شبیه‌سازی شده را حفظ می‌کند. Spark TTS از یک سیستم کنترل مبتنی بر دستورالعمل استفاده می‌کند.

توسعه‌دهنده::
SparkAudio
مجوز::
CC BY-NC-SA 4.0
سرعت:
Medium
کیفیت::
زبانها:
en, zh
حافظۀ تصویری:
4GB
شبیه‌سازی صدا:
آره
هزینه برای هر ۱K نویسه:
2x
شبیه‌سازی صدا کنترل احساسات کنترل سبک برپایه درخواست شبيه سازي 5 ثانيه اي
بهترین برای:: ایجاد محتوا با صداهای شبیه سازی شده و کنترل احساسات

GPT-SoVITSGPT-SoVITS

Standard

GPT- SoVITS مدل‌سازی زبان به سبک GPT را با SoVITS (استنباط صدای آوازخوانی از طریق ترجمه و ترکیب) برای شبیه‌سازی قدرتمند چند شلیک صدا ترکیب می‌کند. با کمتر از ۵ ثانیه صدای مرجع ، می‌تواند صدا را دقیقاً شبیه‌سازی کند و گفتار جدیدی تولید کند در حالی که ویژگی‌های منحصر به فرد سخنران را حفظ می‌کند. در ترکیب صدای سخنرانی و آوازخوانی نیز برتر است.

توسعه‌دهنده::
RVC-Boss
مجوز::
MIT
سرعت:
Slow
کیفیت::
زبانها:
en, zh, ja, ko
حافظۀ تصویری:
6GB
شبیه‌سازی صدا:
آره
هزینه برای هر ۱K نویسه:
2x
شبيه سازي 5 ثانيه اي صداي آواز چند تا شليک ياد گرفتم دقيق زبانهای مختلف
بهترین برای:: شبيه سازي صدا، سنتز آواز، بازيافت صداي سازنده محتوا

OrpheusOrpheus

Standard

Orpheus یک مدل متن به گفتار در مقیاس بزرگ است که به بیان احساسات در سطح انسانی می‌رسد. آموزش دیده بر روی بیش از ۱۰۰،۰۰۰ ساعت داده‌های گوناگون گفتار، در تولید گفتار با احساسات طبیعی، تأکید و سبک‌های گفتار برتری دارد. Orpheus می‌تواند گفتاری را تولید کند که عملاً از ضبط‌های انسانی قابل تشخیص نیست.

توسعه‌دهنده::
Canopy Labs
مجوز::
Llama 3.2 Community
سرعت:
Medium
کیفیت::
زبانها:
en
حافظۀ تصویری:
4GB
شبیه‌سازی صدا:
نه
هزینه برای هر ۱K نویسه:
2x
احساسات سطح انسان صد هزار ساعت آموزش تأکید طبیعی سخنرانی بیانی
بهترین برای:: گفتار احساسی با کیفیت بالا، کتاب‌های صوتی، صداپیشگی

ChatterboxChatterbox

Premium

Chatterbox توسط Resemble AI یک مدل شبیه‌سازی صدای صفر- شلیک پیشرفته است. می‌تواند هر صدایی را از یک نمونه صوتی با دقت قابل توجهی تکرار کند ، نه تنها با گرفتن صدای صدا بلکه همچنین سبک صحبت کردن و سایه‌های احساسی. Chatterbox همچنین دارای کنترل احساسات با دانه ریز است ، که به شما اجازه می‌دهد تا صدای احساسی سخن تولید شده را مستقل از هویت صدا تنظیم کنید.

توسعه‌دهنده::
Resemble AI
مجوز::
MIT
سرعت:
Medium
کیفیت::
زبانها:
en
حافظۀ تصویری:
4GB
شبیه‌سازی صدا:
آره
هزینه برای هر ۱K نویسه:
4x
شبیه‌سازی با شلیک صفر کنترل احساسات دقيق انتقال سبک شبیه‌سازی نمونه تکی
بهترین برای:: شبيه سازي حرفه اي صدا با کنترل احساسات، خلق محتوا

Tortoise TTSTortoise TTS

Premium

Tortoise TTS یک سیستم متن به گفتار چند صدای خودبازگشتی است که کیفیت صدا را بر سرعت اولویت می‌دهد. از معماری الهام گرفته از DALL- E برای تولید گفتار بسیار طبیعی با شباهت عالی به صدا و سخنران استفاده می‌کند. در حالی که نسبت به بسیاری از جایگزین‌ها کندتر است ، Tortoise برخی از واقعی‌ترین گفتارهای ترکیبی را در اکوسیستم منبع باز تولید می‌کند.

توسعه‌دهنده::
James Betker
مجوز::
Apache 2.0
سرعت:
Slow
کیفیت::
زبانها:
en
حافظۀ تصویری:
8GB
شبیه‌سازی صدا:
آره
هزینه برای هر ۱K نویسه:
4x
بالاترین کیفیت چند صدا معماری DALL-E شبیه‌سازی صدا خودبازگشتی
بهترین برای:: کتاب‌های صوتی، محتوای پرمیوم، برنامه‌های کاربردی با کیفیت اول

StyleTTS 2StyleTTS 2

Premium

StyleTTS 2 با ترکیب پخش سبک با آموزش رقابتی با استفاده از مدل‌های بزرگ زبان گفتار، به سنتز TTS سطح انسانی می‌رسد. این نرم‌افزار طبیعی‌ترین صدای سخنرانی را در میان مدل‌های تک‌گوینده تولید می‌کند، که با ضبط‌های انسانی رقابت می‌کند.

توسعه‌دهنده::
Columbia University
مجوز::
MIT
سرعت:
Medium
کیفیت::
زبانها:
en
حافظۀ تصویری:
4GB
شبیه‌سازی صدا:
نه
هزینه برای هر ۱K نویسه:
4x
سطح انسانی انتشار سبک آموزش رقابتی تنوع طبیعی دقيق
بهترین برای:: سنتز تک‌گویی با کیفیت استودیویی، روایت حرفه‌ای

OpenVoiceOpenVoice

Premium

OpenVoice توسط MyShell.ai امکان شبیه‌سازی صدای فوری را با کنترل دقیق بر روی سبک صدا، احساس، لهجه، ریتم، توقف و نغمه را فراهم می‌کند. می‌تواند صدایی را از یک کلیپ صوتی کوتاه شبیه‌سازی کند و سخنرانی را در چندین زبان تولید کند در حالی که هویت سخنران را حفظ می‌کند. OpenVoice همچنین به عنوان یک مبدل صدا عمل می‌کند، که به تبدیل صدا در زمان واقعی اجازه می‌دهد.

توسعه‌دهنده::
MyShell.ai / MIT
مجوز::
MIT
سرعت:
Medium
کیفیت::
زبانها:
en, zh, ja, ko, fr, de, es, it
حافظۀ تصویری:
4GB
شبیه‌سازی صدا:
آره
هزینه برای هر ۱K نویسه:
4x
شبیه‌سازی فوری تبدیل صدا کنترل احساسات کنترل لهجه چندزبانه
بهترین برای:: شبیه‌سازی صدا با کنترل سبک دانه ریز، تبدیل صدا

Qwen3 TTSQwen3 TTS

Standard

Qwen3-TTS یک مدل متن به گفتار با ۱٫۷ میلیارد پارامتر از تیم Qwen در Alibaba است. از سه حالت پشتیبانی می‌کند: صداهای پیش‌فرض با کنترل احساس (۹ بلندگو)، شبیه‌سازی صدا از تنها ۳ ثانیه صدا، و حالت طراحی صدای منحصر به فرد که در آن صدایی را که می‌خواهید به زبان طبیعی توصیف کنید. ۱۰ زبان را با بیان بالا و نظم طبیعی پوشش می‌دهد.

توسعه‌دهنده::
Alibaba (Qwen)
مجوز::
Apache 2.0
سرعت:
Medium
کیفیت::
زبانها:
en, zh, ja, ko, de, fr, ru, pt, es, it
حافظۀ تصویری:
7GB
شبیه‌سازی صدا:
آره
هزینه برای هر ۱K نویسه:
2x
شبیه‌سازی صدا ۹ صدای پیش‌فرض طراحی صدا از متن کنترل احساسات زبان‌ها
بهترین برای:: محتوای چندزبانه با شبیه سازی صدا یا طراحی صدای سفارشی

Sesame CSMSesame CSM

Premium

Sesame CSM (Conversational Speech Model) یک مدل ۱ میلیارد پارامتر است که به‌طور خاص برای تولید گفتار مکالمه‌ای طراحی شده است. این الگوهای طبیعی مکالمه انسانی از جمله زمان‌بندی نوبت‌گیری، پاسخ‌های کانال عقب، واکنش‌های احساسی و جریان مکالمه را مدل می‌کند. CSM صدایی تولید می‌کند که به جای گفتار مصنوعی ، مانند یک مکالمه طبیعی انسانی است.

توسعه‌دهنده::
Sesame
مجوز::
Apache 2.0
سرعت:
Slow
کیفیت::
زبانها:
en
حافظۀ تصویری:
8GB
شبیه‌سازی صدا:
نه
هزینه برای هر ۱K نویسه:
4x
مکالمه زمانبندی طبیعی نوبت گرفتن کانال عقب پارامترهای 1B
بهترین برای:: دستیارهای هوش مصنوعی، چت‌بات‌ها، برنامه‌های هوش مصنوعی مکالمه‌ای

Chatterbox TurboChatterbox Turbo

Standard

Chatterbox Turbo by Resemble AI یک ارتقای پارامتر ۳۵۰ مگابایتی به Chatterbox است که سرعتی برابر با ۶ برابر سرعت واقعی با تأخیر کمتر از ۲۰۰ مگابیت بر ثانیه ارائه می‌دهد. از برچسب‌های زبانی مانند [خنده] ، [سرفه] و [خنده] مستقیماً در متن پشتیبانی می‌کند. شامل علامت آب پرث بر روی تمام صداهای تولید شده برای ردیابی منشأ است.

توسعه‌دهنده::
Resemble AI
مجوز::
MIT
سرعت:
Fast
کیفیت::
زبانها:
en
حافظۀ تصویری:
2GB
شبیه‌سازی صدا:
آره
هزینه برای هر ۱K نویسه:
2x
تأخیر زیر ۲۰۰ میلی‌ثانیه برچسبهای زبانی زمان واقعی ۶x شبیه‌سازی صدا نشان آبی
بهترین برای:: عامل صدای زمان واقعی، گفتار بیانی با صداهای طبیعی

ZonosZonos

Standard

زونوس v0.1 توسط Zyphra یک مدل پارامتر ۱٫۶B با کنترل احساسات با اسلایدرهای خوشحالی، خشم، غم، ترس و شگفتی است. این هر دو یک ترانسفورماتور و یک نسخه جدید SSM (مدل فضای-حالت) را ارائه می‌دهد. روی ۲۰۰K+ ساعت گفتار چندزبانه با شبیه‌سازی صدای صفر-شلیک از ۱۰-۳۰ ثانیه از صدای مرجع آموزش دیده است.

توسعه‌دهنده::
Zyphra
مجوز::
Apache 2.0
سرعت:
Medium
کیفیت::
زبانها:
en, ja, zh, fr, de
حافظۀ تصویری:
6GB
شبیه‌سازی صدا:
آره
هزینه برای هر ۱K نویسه:
2x
کنترل احساسات شبیه‌سازی صدا معماری SSM چندزبانه کنترل ارتفاع/سرعت
بهترین برای:: سخنرانی بیانی با کنترل احساسات، استودیو طراحی صدا

Dia 2Dia 2

Standard

Dia2 توسط Nari Labs یک ارتقای جریان اول به Dia است، که در پارامترهای 1B و 2B موجود است. آن شروع به سنتز صدا از چند نشانه اول می‌کند، که آن را برای عوامل صدای زمان واقعی و خط لوله‌های گفتار به گفتار ایده‌آل می‌کند. از گفتگوی چند بلندگو با برچسب‌های [S1] / [S2] و نشانه‌های پارازبانی مانند (خنده)، (سرفه) پشتیبانی می‌کند.

توسعه‌دهنده::
Nari Labs
مجوز::
Apache 2.0
سرعت:
Fast
کیفیت::
زبانها:
en
حافظۀ تصویری:
4GB
شبیه‌سازی صدا:
نه
هزینه برای هر ۱K نویسه:
2x
خروجی جریان چند بلندگو تأخیر کم رمزهای پارازبانی خروجی تا ۲ دقیقه
بهترین برای:: عامل‌های صدای زمان واقعی، تولید مکالمه، برنامه‌های کاربردی پخش

VoxCPMVoxCPM

Standard

VoxCPM 1.5 توسط OpenBMB یک مدل TTS جدید بدون توکن‌ساز است که به جای توکن‌های جداگانه در فضای پیوسته عمل می‌کند. صدای ۴۴٫۱ کیلوهرتز با صدای با کیفیت بالا تولید می‌کند، از شبیه‌سازی صدای شلیک صفر از ۳ تا ۱۰ ثانیه پشتیبانی می‌کند، و ثبات را در سراسر پاراگراف‌ها حفظ می‌کند. شبیه‌سازی زبانی به شما اجازه می‌دهد که صدای انگلیسی را به گفتار چینی و برعکس اعمال کنید.

توسعه‌دهنده::
OpenBMB
مجوز::
Apache 2.0
سرعت:
Fast
کیفیت::
زبانها:
en, zh
حافظۀ تصویری:
4GB
شبیه‌سازی صدا:
آره
هزینه برای هر ۱K نویسه:
2x
صدای ۴۴٫۱ کیلوهرتز بدون توکن‌ساز شبیه‌سازی بین زبانی حساس به متن تنظیم دقیق LoRA
بهترین برای:: صدای با کیفیت بالا، کتاب‌های صوتی، محتوای طولانی با ثبات صدا

OuteTTSOuteTTS

Free

OuteTTS مدل‌های بزرگ زبان را با قابلیت‌های متن به گفتار گسترش می‌دهد در حالی که معماری اصلی را حفظ می‌کند. از چندین پشته پشتیبانی می‌کند از جمله llama.cpp (CPU / GPU)، Hugging Face Transformers، ExLlamaV2، VLLM، و حتی استنتاج مرورگر از طریق Transformers.js.

توسعه‌دهنده::
OuteAI
مجوز::
Apache 2.0
سرعت:
Fast
کیفیت::
زبانها:
en
حافظۀ تصویری:
2GB
شبیه‌سازی صدا:
آره
هزینه برای هر ۱K نویسه:
آزاد
استنتاج CPU مرورگر شبیه‌سازی صدا پشتههای چندگانه پروفایلهای بلندگو
بهترین برای:: انتشار Edge، TTS مبتنی بر مرورگر، محیط‌های کم منابع

TADATADA

Standard

TADA (Text-Acoustic Dual Alignment) توسط Hume AI یک مدل TTS پیشرو است که توهمات را از طریق یک معماری جدید دوگانه هم‌ترازسازی ساخته شده بر روی Lama 3.2 از بین می‌برد. در دسترس در 1B (انگلیسی) و 3B (چند زبانه) انواع، TADA به یک RTF 0.09 - 5x سریعتر از مدل‌های TTS قابل مقایسه بر پایه LLM می‌رسد.

توسعه‌دهنده::
Hume AI
مجوز::
MIT
سرعت:
Fast
کیفیت::
زبانها:
en
حافظۀ تصویری:
5GB
شبیه‌سازی صدا:
نه
هزینه برای هر ۱K نویسه:
2x
توهمات صفر ۵ برابر سریعتر از LLM TTS بیان احساسات متن صوتی هم‌تراز کردن دوگانه
بهترین برای:: گفتار با کیفیت بالا بدون توهمات، بیان احساسات، استنتاج سریع

VibeVoiceVibeVoice

Standard

ویب‌وایس توسط مایکروسافت در دو نوع عرضه می‌شود: مدل ۱٫۵ بیتی برای محتوای طولانی (تا ۹۰ دقیقه، ۴ بلندگو) و مدل زمان واقعی ۰٫۵ بیتی برای پخش با تاخیر صدای اولیه ~ ۲۰۰ میلی‌ثانیه.

توسعه‌دهنده::
Microsoft
مجوز::
MIT
سرعت:
Fast
کیفیت::
زبانها:
en, zh
حافظۀ تصویری:
4GB
شبیه‌سازی صدا:
نه
هزینه برای هر ۱K نویسه:
2x
چند بلندگو تا ۹۰ دقیقه تولید پادکست هماهنگی بلندگو جریان ۲۰۰ میلی‌ثانیه
بهترین برای:: پادکست‌ها، کتاب‌های صوتی، محتوای چندگویندهٔ شکل طولانی

Pocket TTSPocket TTS

Free

Pocket TTS توسط Kyutai (سازندگان Moshi) یک مدل فشرده ۱۰۰M پارامتر متن به گفتار است که بسیار بالاتر از وزن خود عمل می‌کند. این به صورت کارآمد بر روی CPU اجرا می‌شود، از شبیه‌سازی صدای شلیک صفر از یک نمونه صوتی پشتیبانی می‌کند، و گفتاری با صدای طبیعی تولید می‌کند. اندازه کوچک مدل آن را برای گسترش لبه و محیط‌های کم منابع ایده‌آل می‌کند.

توسعه‌دهنده::
Kyutai
مجوز::
MIT
سرعت:
Fast
کیفیت::
زبانها:
en, fr
حافظۀ تصویری:
1GB
شبیه‌سازی صدا:
آره
هزینه برای هر ۱K نویسه:
آزاد
پارامترهای ۱۰۰M استنتاج CPU شبیه‌سازی صدا شبیه‌سازی تک نمونه آماده برای لبه‌ها
بهترین برای:: انتشار سبک، محیط‌های تنها CPU، شبیه‌سازی سریع صدا

Kitten TTSKitten TTS

Free

Kitten TTS by KittenML یک مدل متن به گفتار فوق سبک است که بر روی ONNX ساخته شده‌است. با انواع پارامترهای ۱۵M تا ۸۰M (۲۵-۸۰ MB در دیسک)، ترکیب صدای با کیفیت بالا را در CPU بدون نیاز به GPU ارائه می‌دهد. ویژگی‌های ۸ صدای درونی، سرعت گفتار تنظیم‌پذیر، و پیش‌پردازش متن درونی برای اعداد، واحدهای پول و واحدها. ایده‌آل برای پیاده‌سازی لبه و برنامه‌های کاربردی با تأخیر کم.

توسعه‌دهنده::
KittenML
مجوز::
Apache 2.0
سرعت:
Fast
کیفیت::
زبانها:
en
حافظۀ تصویری:
0GB
شبیه‌سازی صدا:
نه
هزینه برای هر ۱K نویسه:
آزاد
استنتاج تنها CPU اندازه مدل کمتر از ۸۰ مگابایت ۸ صدای درونی کنترل سرعت مبتنی بر ONNX خروجی ۲۴ کیلوهرتز
بهترین برای:: TTS سبک و سریع، پیاده‌سازی لبه، برنامه‌های کاربردی با تأخیر کم

CosyVoice3CosyVoice3

Standard

CosyVoice3 is the latest evolution from Alibaba's FunAudioLLM team. It features bi-streaming inference with ~150ms latency, instruction-based control for emotion/speed/volume, and improved speaker similarity for zero-shot cloning. Supports 9 languages plus 18 Chinese dialects. RL-tuned variant delivers state-of-the-art prosody.

توسعه‌دهنده::
Alibaba (FunAudioLLM)
مجوز::
Apache 2.0
سرعت:
Fast
کیفیت::
زبانها:
en, zh, ja, ko, de, es, fr, it, ru
حافظۀ تصویری:
4GB
شبیه‌سازی صدا:
آره
هزینه برای هر ۱K نویسه:
2x
Bi-streaming Emotion control Voice cloning Speed/volume control Instruction following
بهترین برای:: Multilingual production TTS, real-time applications, voice cloning

MOSS-TTSMOSS-TTS

Premium

MOSS-TTS from OpenMOSS supports generation of up to 1 hour of continuous speech across 20 languages. Features token-level duration control, phoneme-level pronunciation control via IPA/Pinyin, and code-switching between languages. The 8B production model delivers state-of-the-art quality with zero-shot voice cloning from reference audio.

توسعه‌دهنده::
OpenMOSS
مجوز::
Apache 2.0
سرعت:
Medium
کیفیت::
زبانها:
en, zh, de, es, fr, ja, it, hu, ko, ru, fa, ar, pl, pt, cs, da, sv, el, tr
حافظۀ تصویری:
16GB
شبیه‌سازی صدا:
آره
هزینه برای هر ۱K نویسه:
4x
Ultra-long generation 20 languages Voice cloning Duration control Pronunciation control Code-switching
بهترین برای:: Audiobooks, long-form content, multilingual production

MegaTTS3MegaTTS3

Premium

MegaTTS3 from ByteDance uses a novel sparse alignment mechanism combined with a latent diffusion transformer. Features adjustable trade-off between speech intelligibility and speaker similarity for zero-shot voice cloning.

توسعه‌دهنده::
ByteDance
مجوز::
Apache 2.0
سرعت:
Slow
کیفیت::
زبانها:
en, zh
حافظۀ تصویری:
8GB
شبیه‌سازی صدا:
آره
هزینه برای هر ۱K نویسه:
4x
Voice cloning Adjustable similarity Cross-lingual
بهترین برای:: High-fidelity voice cloning

KokoroKokoro

آزاد

Kokoro is an 82 million parameter text-to-speech model that punches well above its weight class. Despite its tiny size, it produces remarkably natural and expressive speech. Kokoro supports multiple languages including English, Japanese, Chinese, and Korean with a variety of expressive voices. It runs incredibly fast — generating audio nearly 100x faster than real-time on a GPU.

توسعه‌دهنده::
Hexgrad
مجوز::
Apache 2.0
سرعت:
Fast
کیفیت::
زبانها: en, ja, zh, ko, fr, de, it, pt, es, hi, ru
بهترین برای:: High-quality TTS with minimal latency, streaming applications

PiperPiper

آزاد

Piper is a lightweight text-to-speech engine developed by Rhasspy that uses VITS and larynx architectures. It runs entirely on CPU, making it ideal for edge devices, home automation, and applications requiring offline TTS. With over 100 voices across 30+ languages, Piper delivers natural-sounding speech at real-time speeds even on a Raspberry Pi 4.

توسعه‌دهنده::
Rhasspy
مجوز::
MIT
سرعت:
Fast
کیفیت::
زبانها: en, de, fr, es, it, pt, nl, pl, ru, zh, ja, ko, ar, cs, da, fi, el, hu, is, ka, kk, ne, no, ro, sk, sr, sv, sw, tr, uk, vi
بهترین برای:: Quick previews, accessibility, and embedded applications

VITSVITS

آزاد

VITS (Variational Inference with adversarial learning for end-to-end Text-to-Speech) is a parallel end-to-end TTS method that generates more natural sounding audio than current two-stage models. It adopts variational inference augmented with normalizing flows and an adversarial training process, achieving a significant improvement in naturalness.

توسعه‌دهنده::
Jaehyeon Kim et al.
مجوز::
MIT
سرعت:
Fast
کیفیت::
زبانها: en, zh, ja, ko
بهترین برای:: General-purpose text-to-speech with natural prosody

MeloTTSMeloTTS

آزاد

MeloTTS by MyShell.ai is a multilingual TTS library supporting English (American, British, Indian, Australian), Spanish, French, Chinese, Japanese, and Korean. It is extremely fast, processing text at near real-time speed on CPU alone. MeloTTS is designed for production use and supports both CPU and GPU inference.

توسعه‌دهنده::
MyShell.ai
مجوز::
MIT
سرعت:
Fast
کیفیت::
زبانها: en, es, fr, zh, ja, ko
بهترین برای:: Production applications needing fast, multilingual TTS

OuteTTSOuteTTS

آزاد

OuteTTS extends large language models with text-to-speech capabilities while preserving the original architecture. It supports multiple backends including llama.cpp (CPU/GPU), Hugging Face Transformers, ExLlamaV2, VLLM, and even browser inference via Transformers.js. Features zero-shot voice cloning through speaker profiles saved as JSON.

توسعه‌دهنده::
OuteAI
مجوز::
Apache 2.0
سرعت:
Fast
کیفیت::
زبانها: en
بهترین برای:: Edge deployment, browser-based TTS, low-resource environments

Pocket TTSPocket TTS

آزاد

Pocket TTS by Kyutai (creators of Moshi) is a compact 100M parameter text-to-speech model that punches well above its weight. It runs efficiently on CPU, supports zero-shot voice cloning from a single audio sample, and produces natural-sounding speech. The small model size makes it ideal for edge deployment and low-resource environments.

توسعه‌دهنده::
Kyutai
مجوز::
MIT
سرعت:
Fast
کیفیت::
زبانها: en, fr
بهترین برای:: Lightweight deployment, CPU-only environments, quick voice cloning

Kitten TTSKitten TTS

آزاد

Kitten TTS by KittenML is an ultra-lightweight text-to-speech model built on ONNX. With variants from 15M to 80M parameters (25-80 MB on disk), it delivers high-quality voice synthesis on CPU without requiring a GPU. Features 8 built-in voices, adjustable speech speed, and built-in text preprocessing for numbers, currencies, and units. Ideal for edge deployment and low-latency applications.

توسعه‌دهنده::
KittenML
مجوز::
Apache 2.0
سرعت:
Fast
کیفیت::
زبانها: en
بهترین برای:: Fast lightweight TTS, edge deployment, low-latency applications

BarkBark

پیش‌فرض

Bark by Suno is a transformer-based text-to-audio model that can generate highly realistic, multilingual speech as well as other audio like music, background noise, and sound effects. It can produce nonverbal communications like laughing, sighing, and crying. Bark supports over 100 speaker presets and 13+ languages.

توسعه‌دهنده::
Suno
مجوز::
MIT
سرعت:
Slow
کیفیت::
زبانها:
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
شبیه‌سازی صدا:
نه
Sound effectsLaughing/sighingMusic generation100+ speakersMultilingual
بهترین برای:: Creative audio content, audiobooks with emotion, sound effects

Bark SmallBark Small

پیش‌فرض

Bark Small is a distilled version of the Bark model that trades some audio quality for significantly faster inference speeds and lower memory requirements. It retains Bark's ability to generate speech with emotions, laughter, and multiple languages.

توسعه‌دهنده::
Suno
مجوز::
MIT
سرعت:
Medium
کیفیت::
زبانها:
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
شبیه‌سازی صدا:
نه
LightweightFaster than full BarkEmotional speechMultilingual
بهترین برای:: Quick creative audio when full Bark is too slow

CosyVoice 2CosyVoice 2

پیش‌فرض

CosyVoice 2 by Alibaba's Tongyi Lab achieves human-comparable speech quality with extremely low latency, making it ideal for real-time applications. It uses a finite scalar quantization approach for streaming synthesis and supports zero-shot voice cloning, cross-lingual synthesis, and fine-grained emotion control. It outperforms many commercial TTS systems in subjective evaluations.

توسعه‌دهنده::
Alibaba (Tongyi Lab)
مجوز::
Apache 2.0
سرعت:
Medium
کیفیت::
زبانها:
en, zh, ja, ko, fr, de, it, es
شبیه‌سازی صدا:
آره
StreamingZero-shot cloningCross-lingualEmotion controlHuman-parity
بهترین برای:: Real-time applications, streaming TTS, voice assistants

Dia TTSDia TTS

پیش‌فرض

Dia by Nari Labs is a 1.6B parameter text-to-speech model designed specifically for generating multi-speaker dialogue. It can produce natural-sounding conversations between two speakers with appropriate turn-taking, prosody, and emotional expression. Dia is perfect for creating podcast-style content, audiobook dialogues, and interactive conversational AI.

توسعه‌دهنده::
Nari Labs
مجوز::
Apache 2.0
سرعت:
Medium
کیفیت::
زبانها:
en
شبیه‌سازی صدا:
نه
Multi-speakerDialog generationNatural turn-takingEmotional expression1.6B parameters
بهترین برای:: Podcasts, audiobook dialogues, conversational content

Parler TTSParler TTS

پیش‌فرض

Parler TTS is a text-to-speech model that uses natural language voice descriptions to control the generated speech. Instead of selecting from preset voices, you describe the voice you want (e.g., "a warm female voice with a slight British accent, speaking slowly and clearly") and Parler generates speech matching that description. This makes it uniquely flexible for creative applications.

توسعه‌دهنده::
Hugging Face
مجوز::
Apache 2.0
سرعت:
Medium
کیفیت::
زبانها:
en
شبیه‌سازی صدا:
نه
Voice descriptionNatural language controlFlexible voice creationNo preset voices needed
بهترین برای:: Creative applications where you need custom voice characteristics

GLM-TTSGLM-TTS

پیش‌فرض

GLM-TTS by Zhipu AI is a text-to-speech system built on the Llama architecture with flow matching. It achieves the lowest character error rate among open-source TTS models, meaning it produces the most accurate pronunciation. GLM-TTS supports English and Chinese with voice cloning from 3-10 second audio samples.

توسعه‌دهنده::
Zhipu AI
مجوز::
GLM-4 License
سرعت:
Medium
کیفیت::
زبانها:
en, zh
شبیه‌سازی صدا:
آره
Lowest error rateVoice cloningFlow matchingNatural prosody
بهترین برای:: Applications requiring maximum pronunciation accuracy

IndexTTS-2IndexTTS-2

پیش‌فرض

IndexTTS-2 is an advanced text-to-speech system that excels at zero-shot voice synthesis with fine-grained emotion control. It can generate speech with specific emotional tones like happy, sad, angry, or fearful without requiring emotion-specific training data. The model uses emotion vectors to precisely control the emotional expression of generated speech.

توسعه‌دهنده::
Index Team
مجوز::
Bilibili Model License
سرعت:
Medium
کیفیت::
زبانها:
en, zh
شبیه‌سازی صدا:
آره
Emotion controlZero-shotEmotion vectorsExpressive speechFine-grained control
بهترین برای:: Emotionally expressive content, audiobooks, virtual assistants

Spark TTSSpark TTS

پیش‌فرض

Spark TTS by SparkAudio is a text-to-speech model that combines voice cloning with controllable emotion and speaking style. Using just 5 seconds of reference audio, it can clone a voice and then generate speech with different emotions, speeds, and styles while maintaining the cloned voice identity. Spark TTS uses a prompt-based control system.

توسعه‌دهنده::
SparkAudio
مجوز::
CC BY-NC-SA 4.0
سرعت:
Medium
کیفیت::
زبانها:
en, zh
شبیه‌سازی صدا:
آره
Voice cloningEmotion controlStyle controlPrompt-based5-second cloning
بهترین برای:: Content creation with cloned voices and emotional control

GPT-SoVITSGPT-SoVITS

پیش‌فرض

GPT-SoVITS combines GPT-style language modeling with SoVITS (Singing Voice Inference via Translation and Synthesis) for powerful few-shot voice cloning. With as little as 5 seconds of reference audio, it can accurately clone a voice and generate new speech while preserving the speaker's unique characteristics. It excels at both speaking and singing voice synthesis.

توسعه‌دهنده::
RVC-Boss
مجوز::
MIT
سرعت:
Slow
کیفیت::
زبانها:
en, zh, ja, ko
شبیه‌سازی صدا:
آره
5-second cloningSinging voiceFew-shot learningHigh fidelityCross-lingual
بهترین برای:: Voice cloning, singing synthesis, content creator voice replication

OrpheusOrpheus

پیش‌فرض

Orpheus is a large-scale text-to-speech model that achieves human-level emotional expression. Trained on over 100,000 hours of diverse speech data, it excels at generating speech with natural emotions, emphasis, and speaking styles. Orpheus can produce speech that is virtually indistinguishable from human recordings.

توسعه‌دهنده::
Canopy Labs
مجوز::
Llama 3.2 Community
سرعت:
Medium
کیفیت::
زبانها:
en
شبیه‌سازی صدا:
نه
Human-level emotion100K hours trainingNatural emphasisExpressive speech
بهترین برای:: High-quality emotional speech, audiobooks, voice acting

Qwen3 TTSQwen3 TTS

پیش‌فرض

Qwen3-TTS is a 1.7 billion parameter text-to-speech model from Alibaba's Qwen team. It supports three modes: preset voices with emotion control (9 speakers), voice cloning from just 3 seconds of audio, and a unique voice design mode where you describe the voice you want in natural language. It covers 10 languages with high expressiveness and natural prosody.

توسعه‌دهنده::
Alibaba (Qwen)
مجوز::
Apache 2.0
سرعت:
Medium
کیفیت::
زبانها:
en, zh, ja, ko, de, fr, ru, pt, es, it
شبیه‌سازی صدا:
آره
Voice cloning9 preset voicesVoice design from textEmotion control10 languages
بهترین برای:: Multilingual content with voice cloning or custom voice design

Chatterbox TurboChatterbox Turbo

پیش‌فرض

Chatterbox Turbo by Resemble AI is a 350M parameter upgrade to Chatterbox, delivering up to 6x real-time speed with sub-200ms latency. It supports paralinguistic tags like [laugh], [cough], and [chuckle] directly in text. Includes Perth watermarking on all generated audio for provenance tracking.

توسعه‌دهنده::
Resemble AI
مجوز::
MIT
سرعت:
Fast
کیفیت::
زبانها:
en
شبیه‌سازی صدا:
آره
Sub-200ms latencyParalinguistic tags6x real-timeVoice cloningWatermarking
بهترین برای:: Real-time voice agents, expressive speech with natural sounds

ZonosZonos

پیش‌فرض

Zonos v0.1 by Zyphra is a 1.6B parameter model featuring fine-grained emotion control with sliders for happiness, anger, sadness, fear, and surprise. It offers both a Transformer and a novel SSM (state-space model) variant. Trained on 200K+ hours of multilingual speech with zero-shot voice cloning from 10-30 seconds of reference audio.

توسعه‌دهنده::
Zyphra
مجوز::
Apache 2.0
سرعت:
Medium
کیفیت::
زبانها:
en, ja, zh, fr, de
شبیه‌سازی صدا:
آره
Emotion controlVoice cloningSSM architectureMultilingualPitch/rate control
بهترین برای:: Expressive speech with emotion control, voice design studio

Dia 2Dia 2

پیش‌فرض

Dia2 by Nari Labs is a streaming-first upgrade to Dia, available in 1B and 2B parameter variants. It begins synthesizing audio from the first few tokens, making it ideal for real-time voice agents and speech-to-speech pipelines. Supports multi-speaker dialogue with [S1]/[S2] tags and paralinguistic cues like (laughs), (coughs).

توسعه‌دهنده::
Nari Labs
مجوز::
Apache 2.0
سرعت:
Fast
کیفیت::
زبانها:
en
شبیه‌سازی صدا:
نه
Streaming outputMulti-speakerLow latencyParalinguistic cuesUp to 2 min output
بهترین برای:: Real-time voice agents, dialogue generation, streaming applications

VoxCPMVoxCPM

پیش‌فرض

VoxCPM 1.5 by OpenBMB is a novel tokenizer-free TTS model that operates in continuous space rather than discrete tokens. It produces high-fidelity 44.1kHz audio, supports zero-shot voice cloning from 3-10 seconds, and maintains consistency across paragraphs. Cross-language cloning lets you apply an English voice to Chinese speech and vice versa.

توسعه‌دهنده::
OpenBMB
مجوز::
Apache 2.0
سرعت:
Fast
کیفیت::
زبانها:
en, zh
شبیه‌سازی صدا:
آره
44.1kHz audioTokenizer-freeCross-lingual cloningContext-awareLoRA fine-tuning
بهترین برای:: High-fidelity audio, audiobooks, long-form content with voice consistency

TADATADA

پیش‌فرض

TADA (Text-Acoustic Dual Alignment) by Hume AI is a groundbreaking TTS model that eliminates hallucinations through a novel dual alignment architecture built on Llama 3.2. Available in 1B (English) and 3B (multilingual) variants, TADA achieves an RTF of 0.09 — 5x faster than comparable LLM-based TTS models. It supports up to 700 seconds of audio context and produces emotionally expressive speech with zero hallucinations on standard benchmarks.

توسعه‌دهنده::
Hume AI
مجوز::
MIT
سرعت:
Fast
کیفیت::
زبانها:
en
شبیه‌سازی صدا:
نه
Zero hallucinations5x faster than LLM TTSEmotional expression700s audio contextDual alignment
بهترین برای:: High-quality hallucination-free speech, emotional expression, fast inference

VibeVoiceVibeVoice

پیش‌فرض

VibeVoice from Microsoft generates long-form speech up to 90 minutes with support for 4 simultaneous speakers, making it ideal for podcasts and dialogues. The Realtime 0.5B variant achieves ~300ms latency for interactive use. Supports speaker tags for multi-turn dialogue generation.

توسعه‌دهنده::
Microsoft
مجوز::
MIT
سرعت:
Fast
کیفیت::
زبانها:
en, zh
شبیه‌سازی صدا:
نه
Multi-speakerLong-form (90 min)Podcast generationDialogueLow latency
بهترین برای:: Podcasts, dialogues, long-form narration, multi-speaker content

CosyVoice3CosyVoice3

پیش‌فرض

CosyVoice3 is the latest evolution from Alibaba's FunAudioLLM team. It features bi-streaming inference with ~150ms latency, instruction-based control for emotion/speed/volume, and improved speaker similarity for zero-shot cloning. Supports 9 languages plus 18 Chinese dialects. RL-tuned variant delivers state-of-the-art prosody.

توسعه‌دهنده::
Alibaba (FunAudioLLM)
مجوز::
Apache 2.0
سرعت:
Fast
کیفیت::
زبانها:
en, zh, ja, ko, de, es, fr, it, ru
شبیه‌سازی صدا:
آره
Bi-streamingEmotion controlVoice cloningSpeed/volume controlInstruction following
بهترین برای:: Multilingual production TTS, real-time applications, voice cloning

ChatterboxChatterbox

پریمیوم

Chatterbox by Resemble AI is a cutting-edge zero-shot voice cloning model. It can replicate any voice from a single audio sample with remarkable accuracy, capturing not just the timbre but also the speaking style and emotional nuances. Chatterbox also features fine-grained emotion control, allowing you to adjust the emotional tone of the generated speech independently from the voice identity.

توسعه‌دهنده::
Resemble AI
مجوز::
MIT
سرعت:
Medium
کیفیت::
زبانها:
en
شبیه‌سازی صدا:
آره
حافظۀ تصویری:
4GB
هزینه برای هر ۱K نویسه:
4x
Zero-shot cloningEmotion controlHigh fidelityStyle transferSingle sample cloning
بهترین برای:: Professional voice cloning with emotional control, content creation

Tortoise TTSTortoise TTS

پریمیوم

Tortoise TTS is an autoregressive multi-voice text-to-speech system that prioritizes audio quality over speed. It uses DALL-E-inspired architecture to generate highly natural speech with excellent prosody and speaker similarity. While slower than many alternatives, Tortoise produces some of the most realistic synthetic speech available in the open-source ecosystem.

توسعه‌دهنده::
James Betker
مجوز::
Apache 2.0
سرعت:
Slow
کیفیت::
زبانها:
en
شبیه‌سازی صدا:
آره
حافظۀ تصویری:
8GB
هزینه برای هر ۱K نویسه:
4x
Highest qualityMulti-voiceDALL-E architectureVoice cloningAutoregressive
بهترین برای:: Audiobooks, premium content, quality-first applications

StyleTTS 2StyleTTS 2

پریمیوم

StyleTTS 2 achieves human-level TTS synthesis by combining style diffusion with adversarial training using large speech language models. It generates the most natural sounding speech among single-speaker models, rivaling human recordings. StyleTTS 2 uses diffusion-based style modeling to capture the full range of human speech variation.

توسعه‌دهنده::
Columbia University
مجوز::
MIT
سرعت:
Medium
کیفیت::
زبانها:
en
شبیه‌سازی صدا:
نه
حافظۀ تصویری:
4GB
هزینه برای هر ۱K نویسه:
4x
Human-levelStyle diffusionAdversarial trainingNatural variationHigh fidelity
بهترین برای:: Studio-quality single-speaker synthesis, professional narration

OpenVoiceOpenVoice

پریمیوم

OpenVoice by MyShell.ai enables instant voice cloning with granular control over voice style, emotion, accent, rhythm, pauses, and intonation. It can clone a voice from a short audio clip and generate speech in multiple languages while maintaining the speaker identity. OpenVoice also functions as a voice converter, allowing real-time voice transformation.

توسعه‌دهنده::
MyShell.ai / MIT
مجوز::
MIT
سرعت:
Medium
کیفیت::
زبانها:
en, zh, ja, ko, fr, de, es, it
شبیه‌سازی صدا:
آره
حافظۀ تصویری:
4GB
هزینه برای هر ۱K نویسه:
4x
Instant cloningVoice conversionEmotion controlAccent controlMultilingual
بهترین برای:: Voice cloning with fine-grained style control, voice conversion

Sesame CSMSesame CSM

پریمیوم

Sesame CSM (Conversational Speech Model) is a 1 billion parameter model designed specifically for generating conversational speech. It models the natural patterns of human conversation including turn-taking timing, backchannel responses, emotional reactions, and conversational flow. CSM generates audio that sounds like a natural human conversation rather than synthetic speech.

توسعه‌دهنده::
Sesame
مجوز::
Apache 2.0
سرعت:
Slow
کیفیت::
زبانها:
en
شبیه‌سازی صدا:
نه
حافظۀ تصویری:
8GB
هزینه برای هر ۱K نویسه:
4x
ConversationalNatural timingTurn-takingBackchannel1B parameters
بهترین برای:: AI assistants, chatbots, conversational AI applications

MOSS-TTSMOSS-TTS

پریمیوم

MOSS-TTS from OpenMOSS supports generation of up to 1 hour of continuous speech across 20 languages. Features token-level duration control, phoneme-level pronunciation control via IPA/Pinyin, and code-switching between languages. The 8B production model delivers state-of-the-art quality with zero-shot voice cloning from reference audio.

توسعه‌دهنده::
OpenMOSS
مجوز::
Apache 2.0
سرعت:
Medium
کیفیت::
زبانها:
en, zh, de, es, fr, ja, it, hu, ko, ru, fa, ar, pl, pt, cs, da, sv, el, tr
شبیه‌سازی صدا:
آره
حافظۀ تصویری:
16GB
هزینه برای هر ۱K نویسه:
4x
Ultra-long generation20 languagesVoice cloningDuration controlPronunciation controlCode-switching
بهترین برای:: Audiobooks, long-form content, multilingual production

MegaTTS3MegaTTS3

پریمیوم

MegaTTS3 from ByteDance uses a novel sparse alignment mechanism combined with a latent diffusion transformer. Features adjustable trade-off between speech intelligibility and speaker similarity for zero-shot voice cloning.

توسعه‌دهنده::
ByteDance
مجوز::
Apache 2.0
سرعت:
Slow
کیفیت::
زبانها:
en, zh
شبیه‌سازی صدا:
آره
حافظۀ تصویری:
8GB
هزینه برای هر ۱K نویسه:
4x
Voice cloningAdjustable similarityCross-lingual
بهترین برای:: High-fidelity voice cloning

جدول مقایسه مدل

مدل توسعه‌دهنده: حیوان کیفیت: سرعت زبانها شبیه‌سازی صدا حافظۀ تصویری مجوز: تشکر
Kokoro Hexgrad Free Fast 11 1.5GB Apache 2.0 آزاد استفاده
Piper Rhasspy Free Fast 31 0 (CPU only) MIT آزاد استفاده
VITS Jaehyeon Kim et al. Free Fast 4 1GB MIT آزاد استفاده
MeloTTS MyShell.ai Free Fast 6 0.5GB (GPU optional) MIT آزاد استفاده
Bark Suno Standard Slow 13 5GB MIT 2 استفاده
Bark Small Suno Standard Medium 13 2GB MIT 2 استفاده
CosyVoice 2 Alibaba (Tongyi Lab) Standard Medium 8 4GB Apache 2.0 2 استفاده
Dia TTS Nari Labs Standard Medium 1 4GB Apache 2.0 2 استفاده
Parler TTS Hugging Face Standard Medium 1 4GB Apache 2.0 2 استفاده
GLM-TTS Zhipu AI Standard Medium 2 4GB GLM-4 License 2 استفاده
IndexTTS-2 Index Team Standard Medium 2 4GB Bilibili Model License 2 استفاده
Spark TTS SparkAudio Standard Medium 2 4GB CC BY-NC-SA 4.0 2 استفاده
GPT-SoVITS RVC-Boss Standard Slow 4 6GB MIT 2 استفاده
Orpheus Canopy Labs Standard Medium 1 4GB Llama 3.2 Community 2 استفاده
Chatterbox Resemble AI Premium Medium 1 4GB MIT 4 استفاده
Tortoise TTS James Betker Premium Slow 1 8GB Apache 2.0 4 استفاده
StyleTTS 2 Columbia University Premium Medium 1 4GB MIT 4 استفاده
OpenVoice MyShell.ai / MIT Premium Medium 8 4GB MIT 4 استفاده
Qwen3 TTS Alibaba (Qwen) Standard Medium 10 7GB Apache 2.0 2 استفاده
Sesame CSM Sesame Premium Slow 1 8GB Apache 2.0 4 استفاده
Chatterbox Turbo Resemble AI Standard Fast 1 2GB MIT 2 استفاده
Zonos Zyphra Standard Medium 5 6GB Apache 2.0 2 استفاده
Dia 2 Nari Labs Standard Fast 1 4GB Apache 2.0 2 استفاده
VoxCPM OpenBMB Standard Fast 2 4GB Apache 2.0 2 استفاده
OuteTTS OuteAI Free Fast 1 2GB Apache 2.0 آزاد استفاده
TADA Hume AI Standard Fast 1 5GB MIT 2 استفاده
VibeVoice Microsoft Standard Fast 2 4GB MIT 2 استفاده
Pocket TTS Kyutai Free Fast 2 1GB MIT آزاد استفاده
Kitten TTS KittenML Free Fast 1 0GB Apache 2.0 آزاد استفاده
CosyVoice3 Alibaba (FunAudioLLM) Standard Fast 9 4GB Apache 2.0 2 استفاده
MOSS-TTS OpenMOSS Premium Medium 19 16GB Apache 2.0 4 استفاده
MegaTTS3 ByteDance Premium Slow 2 8GB Apache 2.0 4 استفاده

جامع‌ترین پلتفرم تبدیل متن به گفتار هوش مصنوعی

چرا TTS.ai رو براي متن به گفتار انتخاب کردي؟

TTS.ai جهان رو گرد هم مياره

هر مدل تحت MIT، Apache 2.0 یا مجوزهای مشابه آزاد است، که اطمینان حاصل می‌کند که شما حقوق تجاری کاملی برای استفاده از صدای تولید شده در پروژه‌های خود دارید. چه نیاز به ترکیب سریع و سبک برای برنامه‌های کاربردی زمان واقعی یا خروجی با کیفیت استودیویی برای کتاب‌های صوتی و پادکست داشته باشید، TTS.ai مدل مناسبی برای هر مورد استفاده دارد.

مدل‌های رایگان، حساب نیازی نیست

فوراً با سه مدل TTS رایگان شروع کنید: Piper (بسیار سریع، سبک وزن)، VITS (تصویرسازی عصبی با کیفیت بالا)، و MeloTTS (پشتیبانی چندزبانه). بدون ثبت نام، بدون کارت اعتباری، بدون محدودیت در نسل‌ها. مدل‌های رایگان از انگلیسی و چندین زبان دیگر با خروجی صدای طبیعی که برای اکثر برنامه‌ها مناسب است پشتیبانی می‌کنند.

پردازش شتاب‌دار GPU

مدل‌های رایگان معمولاً صدا را در کمتر از ۲ ثانیه تولید می‌کنند. مدل‌های استاندارد مانند Kokoro، CosyVoice ۲، و Bark به‌طور متوسط ۳ تا ۵ ثانیه. مدل‌های پریمیوم با بالاترین کیفیت، مانند Tortoise و Chatterbox، بسته به طول متن، در ۵ تا ۱۵ ثانیه پردازش می‌شوند.

پشتیبانی از بیش از ۳۰ زبان

تولید گفتار در بیش از ۳۰ زبان از جمله انگلیسی، اسپانیایی، فرانسوی، آلمانی، ایتالیایی، پرتغالی، چینی، ژاپنی، کره‌ای، عربی، هندی، روسی و بسیاری دیگر. مدل‌های متعددی از ترکیب زبانی پشتیبانی می‌کنند، به این معنی که می‌توانید گفتار را در زبانی تولید کنید که صدای اصلی هرگز به آن آموزش ندیده‌بود. CosyVoice 2 و GPT-SoVITS در شبیه‌سازی صدای زبانی برتری دارند.

رابط کاربری آماده توسعه‌دهنده

TTS.ai را در برنامه‌های کاربردی خود با API REST سازگار با OpenAI ادغام کنید. یک نقطه پایانی برای همه ۲۰ مدل. پایتون، جاوااسکریپت، cURL و Go SDK. پشتیبانی از پخش برای برنامه‌های کاربردی زمان واقعی. پردازش دسته جمعی برای تولید محتوای در مقیاس بزرگ. Webhooks برای اطلاع‌رسانی غیر همگام. در برنامه‌های Pro و Enterprise موجود است.

پرسشهای متداول

مدل‌های عصبی مدرن TTS مانند Kokoro، Chatterbox، و CosyVoice 2 از یادگیری عمیق برای تولید سخنرانی استفاده می‌کنند که صدای قابل توجه انسانی، با صدای طبیعی، احساسات و ریتم را تولید می‌کند.

بستگی به نیازهای شما دارد. برای پیش‌نمایش سریع ، از Piper یا MeloTTS ( رایگان ، سریع) استفاده کنید. برای کیفیت بالا ، Kokoro یا CosyVoice 2 ( سطح استاندارد) را امتحان کنید. برای شبیه‌سازی صدا ، از Chatterbox یا GPT-SoVITS ( پرمیوم) استفاده کنید. برای محتوای گفتگو/پادکاست ، Dia TTS را امتحان کنید. هر مدل نقاط قوت متفاوتی دارد — برای یافتن بهترین تطابق آزمایش کنید.

بله! TTS.ai با مدل‌های Kokoro، Piper، VITS و MeloTTS متن به گفتار رایگان را ارائه می‌دهد. هیچ حسابی برای تا ۵۰۰ کاراکتر و ۳ نسل در ساعت مورد نیاز نیست. برای یک حساب رایگان ثبت نام کنید تا ۵۰ کرون دریافت کنید و به تمام مدل‌ها دسترسی داشته باشید.

مدل‌های TTS ما به‌طور جمعی از ۳۰ زبان پشتیبانی می‌کنند که شامل انگلیسی، اسپانیایی، فرانسوی، آلمانی، ایتالیایی، پرتغالی، چینی، ژاپنی، کره‌ای، عربی، روسی، هندی و بسیاری دیگر می‌شود.

بله، صدای تولید شده از طریق TTS.ai می‌تواند به صورت تجاری استفاده شود. همه مدل‌های ما از مجوزهای منبع باز استفاده می‌کنند (MIT, Apache 2.0). مجوزهای مدل‌های فردی را برای شرایط خاص بررسی کنید. توصیه می‌کنیم مجوز مدل خاصی که برای پروژه خود استفاده می‌کنید را بررسی کنید.

TTS.ai از قالب‌های خروجی MP3، WAV، OGG و FLAC پشتیبانی می‌کند. MP3 پیش‌فرض برای پخش وب است. WAV برای پردازش صوتی بیشتر توصیه می‌شود. می‌توانید بین قالب‌ها با استفاده از ابزار مبدل صوتی ما تبدیل کنید.

شبیه‌سازی صدا از هوش مصنوعی برای تکرار یک صدای خاص از یک نمونه صوتی کوتاه (معمولاً ۵۰ تا ۳۰ ثانیه) استفاده می‌کند. یک ضبط واضح از صدای هدف را بارگذاری کنید و مدل‌هایی مانند Chatterbox، GPT-SoVITS یا OpenVoice گفتار جدیدی را در آن صدا تولید می‌کنند. کیفیت با صدای مرجع تمیزتر و طولانی‌تر بهبود می‌یابد.

کاربران رایگان می‌توانند تا ۵۰۰ کاراکتر در هر درخواست تولید کنند. کاربران ثبت‌نام‌شده تا ۵۰۰۰ کاراکتر در هر درخواست دریافت می‌کنند. برای متن‌های طولانی‌تر، صدا به صورت تکه‌های کوچک تولید شده و به صورت خودکار به هم متصل می‌شود. کاربران API می‌توانند تا ۱۰۰۰۰ کاراکتر در هر درخواست پردازش کنند.

پشتیبانی از SSML) Speech Synthesis Markup Language (به مدل بستگی دارد. Piper و برخی از مدلهای دیگر برچسبهای SSML اساسی را برای توقف ، تأکید و کنترل تلفظ پشتیبانی می‌کنند. برای مدلهایی که پشتیبانی SSML بومی ندارند ، می‌توانید از نشانه گذاری طبیعی و شکست خط برای تأثیر بر نظم استفاده کنید.

بله ، بیشتر مدلها از تنظیم سرعت از ۰٫۵x تا ۲٫۰x پشتیبانی می‌کنند. برخی مدلها مانند Bark و Parler همچنین اجازه کنترل ارتفاع و سبک را می‌دهند. می‌توانید پارامترهای سرعت را در قاب تنظیمات پیشرفته یا از طریق پارامتر سرعت API تنظیم کنید.

بله ، پردازش دسته ای از طریق API ما در دسترس است. می‌توانید چندین قطعه متن را در یک فراخوان یا دست‌نوشتۀ API ارسال کنید ، و هر کدام به عنوان پرونده‌های صوتی جداگانه پردازش و بازگردانده می‌شوند. این برای فصل‌های کتاب صوتی ، ماژول‌های یادگیری الکترونیکی ، یا دست‌نوشته‌های گفتگوی بازی ایده‌آل است.

یک کلید API از دسکتاپ حساب خود ایجاد کنید، سپس درخواست‌های POST را به نقطه پایانی REST API ما با متن، مدل و پارامترهای صدای خود ارسال کنید. ما مثال‌های کد را در پایتون، جاوااسکریپت و cURL ارائه می‌کنیم. API OpenAI سازگار است، بنابراین ادغام‌های موجود با تغییرات کم کار می‌کنند.
5.0/5 (2)

چه چیزی میتونیم بهتر کنیم؟ بازخورد شما به ما کمک میکنه مشکلات رو حل کنیم.

شروع تبدیل متن به گفتار

به هزاران سازنده که از TTS.ai استفاده می‌کنند بپیوندید. با یک حساب جدید ۱۵۰۰۰ کاراکتر رایگان بگیرید. مدل‌های رایگان بدون ثبت نام در دسترس هستند.