متن به گفتارComment

تبدیل متن به گفتار طبیعی با مدل‌های هوش مصنوعی متن باز. استفاده از آن رایگان است، حسابی نیاز نیست.

ثبت نام

هنوز صداهای TTS برای زبان شما نداریم. به ما کمک کنید تا صداهای خودتان را اضافه کنیم! فروش صدای خود

0/500 نویسه‌ها · Sign up for 5,000 per generation →

ثبت نام برای حد ۵۰۰۰ کاراکتر

حالت SSML (زبان نشانه‌گذاری ترکیب گفتار برای کنترل دقیق)

برای کنترل دقیق ، متن خود را در برچسبهای SSML بپیچید:

<speak><prosody rate="slow">Slow speech</prosody></speak>

برچسبهای احساس/ سبک

اضافه کردن نشانگرهای احساس برای تأثیر بر تحویل (مدل پشتیبانی متفاوت است):

واژه‌نامه تلفظ

تعریف تلفظ سفارشی) کلمه = تلفظ (:

ارتفاع 0

-12 +12

مدل

صدا

زبان

قالب خروجی

سرعت 1.0x

0.5x 2.0x

آزاد با Piper, VITS, MeloTTS

صدای تولید شده شما در اینجا ظاهر خواهد شد. یک مدل را انتخاب کنید ، متن را وارد کنید ، و تولید را فشار دهید.

جزئیات مدل

Spark TTS

Standard

Spark TTS by SparkAudio is a text-to-speech model that combines voice cloning with controllable emotion and speaking style. Using just 5 seconds of reference audio, it can clone a voice and then generate speech with different emotions, speeds, and styles while maintaining the cloned voice identity. Spark TTS uses a prompt-based control system.

توسعه‌دهنده:	SparkAudio
مجوز:	CC BY-NC-SA 4.0
سرعت	Medium
کیفیت:
زبانها	2 زبانها
حافظۀ تصویری	4GB
شبیه‌سازی صدا	پشتیبانی‌شده

ویژگیها:

Voice cloning Emotion control Style control Prompt-based 5-second cloning

بهترین برای:: Content creation with cloned voices and emotional control

نکات برای نتایج بهتر

استفاده از نشانه گذاری مناسب برای توقفهای طبیعی و نت
اعداد و مخففها را برای تلفظ واضح تر تلفظ کنید
افزودن فاصلۀ میانی برای ایجاد وقفه‌های کوتاه بین جملات
از نقطهٔ سه نقطه (...) برای توقف‌های طولانی‌تر استفاده کنید
Kokoro یا CosyVoice 2 را برای طبیعی ترین نتایج امتحان کنید
استفاده از Dia برای محاورۀ چند بلندگو و محتوای پادکست

استفاده از نویسه‌ها

حیوان	هزینه برای هر ۱K نویسه
آزاد	۰ امتیاز) نامحدود (
پیش‌فرض	2 اعتبار / 1K کاراکتر
پریمیوم	4 امتیاز / 1K کاراکتر

گرفتن نویسه‌های بیشتر

چگونه هوش مصنوعی متن به گفتار کار می‌کند

تولید صداگذاری با کیفیت حرفه‌ای در سه گام ساده. هیچ دانش فنی مورد نیاز نیست.

گام ۱

وارد کردن متن شما

متنی را که می‌خواهید به گفتار تبدیل کنید ، تایپ ، چسباندن یا بارگذاری کنید. تا ۵۰۰۰ کاراکتر در هر نسل برای کاربران وارد شده پشتیبانی می‌شود. از متن ساده استفاده کنید یا برچسب‌های SSML را برای کنترل پیشرفته بر روی تلفظ ، مکثها و تأکید اضافه کنید.

گام دوم

برگزیدن مدل و صدا

از میان ۲۰ مدل هوش مصنوعی در سه سطح انتخاب کنید. یک صدا را که با محتوای شما مطابقت دارد انتخاب کنید، زبان هدف خود را انتخاب کنید، سرعت پخش را از ۰٫۵x تا ۲٫۰x تنظیم کنید، و قالب خروجی مورد علاقه خود را انتخاب کنید (MP3، WAV، OGG، یا FLAC).

گام ۳

& بارگیری‌

تولید را فشار دهید و صدای شما در چند ثانیه آماده خواهد شد. با پخش‌کننده داخلی پیش‌نمایش کنید ، در قالب انتخابی خود بارگیری کنید ، یا یک پیوند قابل اشتراک را رونوشت کنید. از API برای پردازش گروهی و ادغام در جریان کار خود استفاده کنید.

موردهای استفاده متن به گفتارName

متن به گفتار با استفاده از هوش مصنوعی در حال دگرگونی نحوه ایجاد، مصرف و تعامل مردم با محتوای صوتی در ده‌ها صنعت است.

کتابهای صوتی

تبدیل کتاب‌های کامل به کتاب‌های صوتی با صدای طبیعی و با کیفیت استودیویی. پشتیبانی چند بلندگو با Dia برای گفتگوی کاراکتر.

صداگذاری ویدئو

صداگذاری حرفه‌ای برای یوتیوب، تیک تاک، ریلز اینستاگرام و فیلم‌های کوتاه ایجاد کنید. ۱۰۰+ صدا یا کپی خودتان را بسازید.

پادکست

تولید قسمت‌های پادکست از اسکریپت‌ها با چند صدای هوش مصنوعی. از Dia برای مکالمات طبیعی دو بلندگو استفاده کنید.

بازیName

صداگذاری هوش مصنوعی برای بازی‌های مستقل، رمان‌های بصری و داستان‌های تعاملی. دیالوگ‌های NPC، صداهای صحنه‌های کوتاه، بیش از ۳۰ زبان.

یادگیری الکترونیکی

تبدیل مواد دوره، سخنرانی‌ها و محتوای آموزشی به صدا. پشتیبانی چند زبانه برای پلتفرم‌های جهانی.

دسترسی‌پذیری

وب‌سایت‌ها، اسناد و برنامه‌های کاربردی را در دسترس قرار دهید. ادغام صفحه‌خوان API و تبدیل مقاله به صدا.

سیستمهای تلفنیName

سیستم‌های IVR، منوی تلفن و خدمات مشتری را با صداهای طبیعی هوش مصنوعی تقویت کنید.

رسانه‌های اجتماعی

TikTok narrations, Instagram Reels, Twitter/X commentary, YouTube Shorts. تولید سریع با مدل‌های رایگان.

جریان

هشدارهای Twitch TTS، گفتگوی صدا، هم‌میهنان هوش مصنوعی، و ربات‌های Discord. تأخیر کم، بیش از ۱۰۰ صدا، سازگار با StreamElements.

بازاریابی

ویدئوهای تبلیغاتی، ویدئوهای توضیحی، نمایش‌های محصول، و ارائه‌های فروش.

دوبله و بومی‌سازی

ترجمه و دوبله ویدئو به ۳۰ زبان با هوش مصنوعی مطابقت صدا. رونوشت خودکار و تشخیص سخنران.

مراقبه و سلامتی

مدیتیشن های هدایت شده، داستان های خواب، تمرینات تنفسی و تأیید با صداهای آرام و آرامش بخش هوش مصنوعی.

نمایش همۀ موارد استفاده و ابزارها

همۀ مدلهای متن به گفتار

مشخصات مفصل برای هر مدل هوش مصنوعی در دسترس در TTS.ai. مقایسه کیفیت، سرعت، پشتیبانی زبان و ویژگی‌ها برای یافتن مدل کامل برای پروژه شما.

Kokoro

Free

Kokoro یک مدل ۸۲ میلیون پارامتر متن به گفتار است که بسیار بالاتر از کلاس وزن خود عمل می‌کند. با وجود اندازه کوچکش، سخنرانی‌های بسیار طبیعی و بیانی تولید می‌کند. Kokoro از زبان‌های متعددی از جمله انگلیسی، ژاپنی، چینی و کره‌ای با صداهای بیانی متنوع پشتیبانی می‌کند. به طرز باورنکردنی سریع اجرا می‌شود — تولید صدا تقریباً ۱۰۰ برابر سریعتر از زمان واقعی در یک GPU است.

توسعه‌دهنده::
Hexgrad

مجوز::
Apache 2.0

سرعت:
Fast

کیفیت::

زبانها:
en, ja, zh, ko, fr, de, it, pt, es, hi, ru

حافظۀ تصویری:
1.5GB

شبیه‌سازی صدا:
نه

هزینه برای هر ۱K نویسه:
آزاد

پارامترهای ۸۲M فوق سریع صداهای بیانگر چندزبانه پشتیبانی جریان

بهترین برای:: ترجمه متن به گفتار با کیفیت بالا و تأخیر کم، برنامه‌های کاربردی پخش

سعی کن Kokoro

Piper

Free

پایپر یک موتور متن به گفتار سبک است که توسط راشسپی توسعه یافته و از معماری‌های VITS و larynx استفاده می‌کند. این موتور به‌طور کامل بر روی CPU اجرا می‌شود، که این باعث می‌شود برای دستگاه‌های کناری، اتوماسیون خانگی و برنامه‌هایی که نیاز به TTS آفلاین دارند ایده‌آل باشد. با بیش از ۱۰۰ صدا در ۳۰ زبان، پایپر حتی در یک Raspberry Pi 4 نیز گفتار طبیعی را با سرعت بی‌درنگ ارائه می‌دهد.

توسعه‌دهنده::
Rhasspy

مجوز::
MIT

سرعت:
Fast

کیفیت::

زبانها:
en, de, fr, es, it, pt, nl, pl, ru, zh, ja, ko, ar, cs, da, fi, el, hu, is, ka, kk, ne, no, ro, sk, sr, sv, sw, tr, uk, vi

حافظۀ تصویری:
0 (CPU only)

شبیه‌سازی صدا:
نه

هزینه برای هر ۱K نویسه:
آزاد

پردازنده دوستدار قابلیت برون‌خط صدها صدا 30 زبان پشتیبانی SSML

بهترین برای:: پیش‌نمایش سریع، دسترسی‌پذیری، و برنامه‌های کاربردی جاسازی شده

سعی کن Piper

VITS

Free

VITS (استنتاج متغیر با یادگیری رقابتی برای متن به گفتار پایان به پایان) یک روش TTS موازی پایان به پایان است که صدای طبیعی تر را نسبت به مدل‌های دو مرحله ای فعلی تولید می‌کند.

توسعه‌دهنده::
Jaehyeon Kim et al.

مجوز::
MIT

سرعت:
Fast

کیفیت::

زبانها:
en, zh, ja, ko

حافظۀ تصویری:
1GB

شبیه‌سازی صدا:
نه

هزینه برای هر ۱K نویسه:
آزاد

ترکیب پایان به پایان نظم طبیعی استنتاج سریع چند بلندگو

بهترین برای:: متن به گفتار کاربردی با نظم طبیعیName

سعی کن VITS

MeloTTS

Free

MeloTTS توسط MyShell.ai یک کتابخانه چندزبانه TTS است که از انگلیسی (آمریکایی، بریتانیایی، هندی، استرالیایی)، اسپانیایی، فرانسوی، چینی، ژاپنی و کره‌ای پشتیبانی می‌کند. این کتابخانه بسیار سریع است و متن را با سرعتی نزدیک به زمان واقعی بر روی CPU پردازش می‌کند. MeloTTS برای استفاده در تولید طراحی شده و از استنتاج CPU و GPU پشتیبانی می‌کند.

توسعه‌دهنده::
MyShell.ai

مجوز::
MIT

سرعت:
Fast

کیفیت::

زبانها:
en, es, fr, zh, ja, ko

حافظۀ تصویری:
0.5GB (GPU optional)

شبیه‌سازی صدا:
نه

هزینه برای هر ۱K نویسه:
آزاد

بهینه‌سازی پردازنده چندزبانه لهجه‌های چندگانه آماده تولید تأخیر کم

بهترین برای:: برنامه‌های کاربردی تولید نیازمند TTS سریع و چندزبانه هستند

سعی کن MeloTTS

Bark

Standard

Bark by Suno یک مدل متن به صدا بر پایهٔ تبدیل‌کننده است که می‌تواند سخنرانی چندزبانه بسیار واقعی و همچنین صداهای دیگر مانند موسیقی، سر و صدای پس‌زمینه و جلوه‌های صوتی را تولید کند. می‌تواند ارتباطات غیرکلامی مانند خنده، ناله و گریه را تولید کند. Bark از بیش از ۱۰۰ پیش‌فرض بلندگو و ۱۳ زبان پشتیبانی می‌کند.

توسعه‌دهنده::
Suno

مجوز::
MIT

سرعت:
Slow

کیفیت::

زبانها:
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr

حافظۀ تصویری:
5GB

شبیه‌سازی صدا:
نه

هزینه برای هر ۱K نویسه:
2x

جلوه‌های صوتی خنده/آهسته نفس کشيدن تولید موسیقی 100+ سخنران چندزبانه

بهترین برای:: محتوای صوتی خلاقانه، کتاب‌های صوتی با احساسات، جلوه‌های صوتی

سعی کن Bark

Bark Small

Standard

Bark Small یک نسخه تقطیر شده از مدل Bark است که برخی از کیفیت صدا را برای سرعت استنتاج سریعتر و نیازهای حافظه کمتر معامله می‌کند.

توسعه‌دهنده::
Suno

مجوز::
MIT

سرعت:
Medium

کیفیت::

زبانها:
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr

حافظۀ تصویری:
2GB

شبیه‌سازی صدا:
نه

هزینه برای هر ۱K نویسه:
2x

سبک سریعتر از پوست کامل گفتار احساسی چندزبانه

بهترین برای:: صدای خلاقانه سریع هنگامی که Bark کامل خیلی کند است

سعی کن Bark Small

CosyVoice 2

Standard

این نرم‌افزار از یک روش کوانتیزه کردن مقیاسی متناهی برای سنتز جریانی استفاده می‌کند و از شبیه‌سازی صدای صفر-شلیک، سنتز زبانی و کنترل احساسات دانه ریز پشتیبانی می‌کند.

توسعه‌دهنده::
Alibaba (Tongyi Lab)

مجوز::
Apache 2.0

سرعت:
Medium

کیفیت::

زبانها:
en, zh, ja, ko, fr, de, it, es

حافظۀ تصویری:
4GB

شبیه‌سازی صدا:
آره

هزینه برای هر ۱K نویسه:
2x

جریان شبیه‌سازی شلیک صفر زبان‌شناسی کنترل احساسات تناسب انسانی

بهترین برای:: برنامه‌های کاربردی زمان واقعی، انتقال TTS، دستیارهای صوتی

سعی کن CosyVoice 2

Dia TTS

Standard

Dia توسط Nari Labs یک مدل متن به گفتار با پارامتر ۱٫۶ بی است که به طور خاص برای تولید مکالمات چندگوینده طراحی شده است. می‌تواند مکالمات طبیعی بین دو سخنران با نوبت‌گیری مناسب، نظم و بیان احساسی تولید کند. Dia برای ایجاد محتوای سبک پادکست ، مکالمات کتاب صوتی و هوش مصنوعی مکالمه‌ای تعاملی عالی است.

توسعه‌دهنده::
Nari Labs

مجوز::
Apache 2.0

سرعت:
Medium

کیفیت::

زبانها:
en

حافظۀ تصویری:
4GB

شبیه‌سازی صدا:
نه

هزینه برای هر ۱K نویسه:
2x

چند بلندگو تولید محاوره‌ها نوبت گرفتن طبيعي بیان احساسات پارامترهای ۱٫ ۶ب

بهترین برای:: پادکست‌ها، گفتگوهای کتاب صوتی، محتوای مکالمه

سعی کن Dia TTS

Parler TTS

Standard

Parler TTS یک مدل متن به گفتار است که از توصیف‌های صدای زبان طبیعی برای کنترل گفتار تولید شده استفاده می‌کند. به جای انتخاب از صداهای پیش‌فرض ، صدایی را که می‌خواهید توصیف کنید (مثلاً ، « یک صدای گرم زنانه با لهجه کم بریتانیایی ، آهسته و واضح صحبت می‌کند ») و Parler گفتاری را تولید می‌کند که با آن توصیف مطابقت دارد. این آن را برای کاربردهای خلاقانه منحصربه‌فرد می‌کند.

توسعه‌دهنده::
Hugging Face

مجوز::
Apache 2.0

سرعت:
Medium

کیفیت::

زبانها:
en

حافظۀ تصویری:
4GB

شبیه‌سازی صدا:
نه

هزینه برای هر ۱K نویسه:
2x

توصیف صوتی کنترل زبان طبیعی ایجاد صدای انعطاف‌پذیر نیازی به صداهای پیش‌فرض نیست

بهترین برای:: کاربردهای خلاقانه که در آن به ویژگی‌های صدای سفارشی نیاز داریدName

سعی کن Parler TTS

GLM-TTS

Standard

GLM-TTS توسط Zhipu AI یک سیستم متن به گفتار است که بر اساس معماری Lama با تطابق جریان ساخته شده است. این سیستم به پایین‌ترین نرخ خطای کاراکتر در میان مدل‌های TTS منبع باز دست می‌یابد، به این معنی که دقت بیشتری در تلفظ دارد. GLM-TTS از انگلیسی و چینی با شبیه‌سازی صدا از نمونه‌های صوتی ۳ تا ۱۰ ثانیه پشتیبانی می‌کند.

توسعه‌دهنده::
Zhipu AI

مجوز::
GLM-4 License

سرعت:
Medium

کیفیت::

زبانها:
en, zh

حافظۀ تصویری:
4GB

شبیه‌سازی صدا:
آره

هزینه برای هر ۱K نویسه:
2x

کمترین میزان خطا شبیه‌سازی صدا تطابق جریان نظم طبیعی

بهترین برای:: کاربردهایی که بیشترین دقت تلفظ را نیاز دارندName

سعی کن GLM-TTS

IndexTTS-2

Standard

این سیستم می‌تواند بدون نیاز به داده‌های آموزشی خاص احساسی، گفتاری با نت‌های احساسی خاص مانند خوشحال، غمگین، عصبانی یا ترسیده را تولید کند. این مدل از بردارهای احساسی برای کنترل دقیق بیان احساسی گفتار تولید شده استفاده می‌کند.

توسعه‌دهنده::
Index Team

مجوز::
Bilibili Model License

سرعت:
Medium

کیفیت::

زبانها:
en, zh

حافظۀ تصویری:
4GB

شبیه‌سازی صدا:
آره

هزینه برای هر ۱K نویسه:
2x

کنترل احساسات شليک صفر بردارهای احساس سخنرانی بیانی کنترل دانه ریز

بهترین برای:: محتوای احساسی، کتاب‌های صوتی، دستیار مجازی

سعی کن IndexTTS-2

Spark TTS

Standard

Spark TTS توسط SparkAudio یک مدل متن به گفتار است که شبیه‌سازی صدا را با احساس قابل کنترل و سبک گفتار ترکیب می‌کند. با استفاده از تنها ۵ ثانیه از صدای مرجع، می‌تواند یک صدا را شبیه‌سازی کند و سپس گفتاری با احساسات، سرعت‌ها و سبک‌های مختلف تولید کند در حالی که هویت صدای شبیه‌سازی شده را حفظ می‌کند. Spark TTS از یک سیستم کنترل مبتنی بر دستورالعمل استفاده می‌کند.

توسعه‌دهنده::
SparkAudio

مجوز::
CC BY-NC-SA 4.0

سرعت:
Medium

کیفیت::

زبانها:
en, zh

حافظۀ تصویری:
4GB

شبیه‌سازی صدا:
آره

هزینه برای هر ۱K نویسه:
2x

شبیه‌سازی صدا کنترل احساسات کنترل سبک برپایه درخواست شبيه سازي 5 ثانيه اي

بهترین برای:: ایجاد محتوا با صداهای شبیه سازی شده و کنترل احساسات

سعی کن Spark TTS

GPT-SoVITS

Standard

GPT- SoVITS مدل‌سازی زبان به سبک GPT را با SoVITS (استنباط صدای آوازخوانی از طریق ترجمه و ترکیب) برای شبیه‌سازی قدرتمند چند شلیک صدا ترکیب می‌کند. با کمتر از ۵ ثانیه صدای مرجع ، می‌تواند صدا را دقیقاً شبیه‌سازی کند و گفتار جدیدی تولید کند در حالی که ویژگی‌های منحصر به فرد سخنران را حفظ می‌کند. در ترکیب صدای سخنرانی و آوازخوانی نیز برتر است.

توسعه‌دهنده::
RVC-Boss

مجوز::
MIT

سرعت:
Slow

کیفیت::

زبانها:
en, zh, ja, ko

حافظۀ تصویری:
6GB

شبیه‌سازی صدا:
آره

هزینه برای هر ۱K نویسه:
2x

شبيه سازي 5 ثانيه اي صداي آواز چند تا شليک ياد گرفتم دقيق زبانهای مختلف

بهترین برای:: شبيه سازي صدا، سنتز آواز، بازيافت صداي سازنده محتوا

سعی کن GPT-SoVITS

Orpheus

Standard

Orpheus یک مدل متن به گفتار در مقیاس بزرگ است که به بیان احساسات در سطح انسانی می‌رسد. آموزش دیده بر روی بیش از ۱۰۰،۰۰۰ ساعت داده‌های گوناگون گفتار، در تولید گفتار با احساسات طبیعی، تأکید و سبک‌های گفتار برتری دارد. Orpheus می‌تواند گفتاری را تولید کند که عملاً از ضبط‌های انسانی قابل تشخیص نیست.

توسعه‌دهنده::
Canopy Labs

مجوز::
Llama 3.2 Community

سرعت:
Medium

کیفیت::

زبانها:
en

حافظۀ تصویری:
4GB

شبیه‌سازی صدا:
نه

هزینه برای هر ۱K نویسه:
2x

احساسات سطح انسان صد هزار ساعت آموزش تأکید طبیعی سخنرانی بیانی

بهترین برای:: گفتار احساسی با کیفیت بالا، کتاب‌های صوتی، صداپیشگی

سعی کن Orpheus

Chatterbox

Premium

Chatterbox توسط Resemble AI یک مدل شبیه‌سازی صدای صفر- شلیک پیشرفته است. می‌تواند هر صدایی را از یک نمونه صوتی با دقت قابل توجهی تکرار کند ، نه تنها با گرفتن صدای صدا بلکه همچنین سبک صحبت کردن و سایه‌های احساسی. Chatterbox همچنین دارای کنترل احساسات با دانه ریز است ، که به شما اجازه می‌دهد تا صدای احساسی سخن تولید شده را مستقل از هویت صدا تنظیم کنید.

توسعه‌دهنده::
Resemble AI

مجوز::
MIT

سرعت:
Medium

کیفیت::

زبانها:
en

حافظۀ تصویری:
4GB

شبیه‌سازی صدا:
آره

هزینه برای هر ۱K نویسه:
4x

شبیه‌سازی با شلیک صفر کنترل احساسات دقيق انتقال سبک شبیه‌سازی نمونه تکی

بهترین برای:: شبيه سازي حرفه اي صدا با کنترل احساسات، خلق محتوا

سعی کن Chatterbox

Tortoise TTS

Premium

Tortoise TTS یک سیستم متن به گفتار چند صدای خودبازگشتی است که کیفیت صدا را بر سرعت اولویت می‌دهد. از معماری الهام گرفته از DALL- E برای تولید گفتار بسیار طبیعی با شباهت عالی به صدا و سخنران استفاده می‌کند. در حالی که نسبت به بسیاری از جایگزین‌ها کندتر است ، Tortoise برخی از واقعی‌ترین گفتارهای ترکیبی را در اکوسیستم منبع باز تولید می‌کند.

توسعه‌دهنده::
James Betker

مجوز::
Apache 2.0

سرعت:
Slow

کیفیت::

زبانها:
en

حافظۀ تصویری:
8GB

شبیه‌سازی صدا:
آره

هزینه برای هر ۱K نویسه:
4x

بالاترین کیفیت چند صدا معماری DALL-E شبیه‌سازی صدا خودبازگشتی

بهترین برای:: کتاب‌های صوتی، محتوای پرمیوم، برنامه‌های کاربردی با کیفیت اول

سعی کن Tortoise TTS

StyleTTS 2

Premium

StyleTTS 2 با ترکیب پخش سبک با آموزش رقابتی با استفاده از مدل‌های بزرگ زبان گفتار، به سنتز TTS سطح انسانی می‌رسد. این نرم‌افزار طبیعی‌ترین صدای سخنرانی را در میان مدل‌های تک‌گوینده تولید می‌کند، که با ضبط‌های انسانی رقابت می‌کند.

توسعه‌دهنده::
Columbia University

مجوز::
MIT

سرعت:
Medium

کیفیت::

زبانها:
en

حافظۀ تصویری:
4GB

شبیه‌سازی صدا:
نه

هزینه برای هر ۱K نویسه:
4x

سطح انسانی انتشار سبک آموزش رقابتی تنوع طبیعی دقيق

بهترین برای:: سنتز تک‌گویی با کیفیت استودیویی، روایت حرفه‌ای

سعی کن StyleTTS 2

OpenVoice

Premium

OpenVoice توسط MyShell.ai امکان شبیه‌سازی صدای فوری را با کنترل دقیق بر روی سبک صدا، احساس، لهجه، ریتم، توقف و نغمه را فراهم می‌کند. می‌تواند صدایی را از یک کلیپ صوتی کوتاه شبیه‌سازی کند و سخنرانی را در چندین زبان تولید کند در حالی که هویت سخنران را حفظ می‌کند. OpenVoice همچنین به عنوان یک مبدل صدا عمل می‌کند، که به تبدیل صدا در زمان واقعی اجازه می‌دهد.

توسعه‌دهنده::
MyShell.ai / MIT

مجوز::
MIT

سرعت:
Medium

کیفیت::

زبانها:
en, zh, ja, ko, fr, de, es, it

حافظۀ تصویری:
4GB

شبیه‌سازی صدا:
آره

هزینه برای هر ۱K نویسه:
4x

شبیه‌سازی فوری تبدیل صدا کنترل احساسات کنترل لهجه چندزبانه

بهترین برای:: شبیه‌سازی صدا با کنترل سبک دانه ریز، تبدیل صدا

سعی کن OpenVoice

Qwen3 TTS

Standard

Qwen3-TTS یک مدل متن به گفتار با ۱٫۷ میلیارد پارامتر از تیم Qwen در Alibaba است. از سه حالت پشتیبانی می‌کند: صداهای پیش‌فرض با کنترل احساس (۹ بلندگو)، شبیه‌سازی صدا از تنها ۳ ثانیه صدا، و حالت طراحی صدای منحصر به فرد که در آن صدایی را که می‌خواهید به زبان طبیعی توصیف کنید. ۱۰ زبان را با بیان بالا و نظم طبیعی پوشش می‌دهد.

توسعه‌دهنده::
Alibaba (Qwen)

مجوز::
Apache 2.0

سرعت:
Medium

کیفیت::

زبانها:
en, zh, ja, ko, de, fr, ru, pt, es, it

حافظۀ تصویری:
7GB

شبیه‌سازی صدا:
آره

هزینه برای هر ۱K نویسه:
2x

شبیه‌سازی صدا ۹ صدای پیش‌فرض طراحی صدا از متن کنترل احساسات زبان‌ها

بهترین برای:: محتوای چندزبانه با شبیه سازی صدا یا طراحی صدای سفارشی

سعی کن Qwen3 TTS

Sesame CSM

Premium

Sesame CSM (Conversational Speech Model) یک مدل ۱ میلیارد پارامتر است که به‌طور خاص برای تولید گفتار مکالمه‌ای طراحی شده است. این الگوهای طبیعی مکالمه انسانی از جمله زمان‌بندی نوبت‌گیری، پاسخ‌های کانال عقب، واکنش‌های احساسی و جریان مکالمه را مدل می‌کند. CSM صدایی تولید می‌کند که به جای گفتار مصنوعی ، مانند یک مکالمه طبیعی انسانی است.

توسعه‌دهنده::
Sesame

مجوز::
Apache 2.0

سرعت:
Slow

کیفیت::

زبانها:
en

حافظۀ تصویری:
8GB

شبیه‌سازی صدا:
نه

هزینه برای هر ۱K نویسه:
4x

مکالمه زمانبندی طبیعی نوبت گرفتن کانال عقب پارامترهای 1B

بهترین برای:: دستیارهای هوش مصنوعی، چت‌بات‌ها، برنامه‌های هوش مصنوعی مکالمه‌ای

سعی کن Sesame CSM

Chatterbox Turbo

Standard

Chatterbox Turbo by Resemble AI یک ارتقای پارامتر ۳۵۰ مگابایتی به Chatterbox است که سرعتی برابر با ۶ برابر سرعت واقعی با تأخیر کمتر از ۲۰۰ مگابیت بر ثانیه ارائه می‌دهد. از برچسب‌های زبانی مانند [خنده] ، [سرفه] و [خنده] مستقیماً در متن پشتیبانی می‌کند. شامل علامت آب پرث بر روی تمام صداهای تولید شده برای ردیابی منشأ است.

توسعه‌دهنده::
Resemble AI

مجوز::
MIT

سرعت:
Fast

کیفیت::

زبانها:
en

حافظۀ تصویری:
2GB

شبیه‌سازی صدا:
آره

هزینه برای هر ۱K نویسه:
2x

تأخیر زیر ۲۰۰ میلی‌ثانیه برچسبهای زبانی زمان واقعی ۶x شبیه‌سازی صدا نشان آبی

بهترین برای:: عامل صدای زمان واقعی، گفتار بیانی با صداهای طبیعی

سعی کن Chatterbox Turbo

Zonos

Standard

زونوس v0.1 توسط Zyphra یک مدل پارامتر ۱٫۶B با کنترل احساسات با اسلایدرهای خوشحالی، خشم، غم، ترس و شگفتی است. این هر دو یک ترانسفورماتور و یک نسخه جدید SSM (مدل فضای-حالت) را ارائه می‌دهد. روی ۲۰۰K+ ساعت گفتار چندزبانه با شبیه‌سازی صدای صفر-شلیک از ۱۰-۳۰ ثانیه از صدای مرجع آموزش دیده است.

توسعه‌دهنده::
Zyphra

مجوز::
Apache 2.0

سرعت:
Medium

کیفیت::

زبانها:
en, ja, zh, fr, de

حافظۀ تصویری:
6GB

شبیه‌سازی صدا:
آره

هزینه برای هر ۱K نویسه:
2x

کنترل احساسات شبیه‌سازی صدا معماری SSM چندزبانه کنترل ارتفاع/سرعت

بهترین برای:: سخنرانی بیانی با کنترل احساسات، استودیو طراحی صدا

سعی کن Zonos

Dia 2

Standard

Dia2 توسط Nari Labs یک ارتقای جریان اول به Dia است، که در پارامترهای 1B و 2B موجود است. آن شروع به سنتز صدا از چند نشانه اول می‌کند، که آن را برای عوامل صدای زمان واقعی و خط لوله‌های گفتار به گفتار ایده‌آل می‌کند. از گفتگوی چند بلندگو با برچسب‌های [S1] / [S2] و نشانه‌های پارازبانی مانند (خنده)، (سرفه) پشتیبانی می‌کند.

توسعه‌دهنده::
Nari Labs

مجوز::
Apache 2.0

سرعت:
Fast

کیفیت::

زبانها:
en

حافظۀ تصویری:
4GB

شبیه‌سازی صدا:
نه

هزینه برای هر ۱K نویسه:
2x

خروجی جریان چند بلندگو تأخیر کم رمزهای پارازبانی خروجی تا ۲ دقیقه

بهترین برای:: عامل‌های صدای زمان واقعی، تولید مکالمه، برنامه‌های کاربردی پخش

سعی کن Dia 2

VoxCPM

Standard

VoxCPM 1.5 توسط OpenBMB یک مدل TTS جدید بدون توکن‌ساز است که به جای توکن‌های جداگانه در فضای پیوسته عمل می‌کند. صدای ۴۴٫۱ کیلوهرتز با صدای با کیفیت بالا تولید می‌کند، از شبیه‌سازی صدای شلیک صفر از ۳ تا ۱۰ ثانیه پشتیبانی می‌کند، و ثبات را در سراسر پاراگراف‌ها حفظ می‌کند. شبیه‌سازی زبانی به شما اجازه می‌دهد که صدای انگلیسی را به گفتار چینی و برعکس اعمال کنید.

توسعه‌دهنده::
OpenBMB

مجوز::
Apache 2.0

سرعت:
Fast

کیفیت::

زبانها:
en, zh

حافظۀ تصویری:
4GB

شبیه‌سازی صدا:
آره

هزینه برای هر ۱K نویسه:
2x

صدای ۴۴٫۱ کیلوهرتز بدون توکن‌ساز شبیه‌سازی بین زبانی حساس به متن تنظیم دقیق LoRA

بهترین برای:: صدای با کیفیت بالا، کتاب‌های صوتی، محتوای طولانی با ثبات صدا

سعی کن VoxCPM

OuteTTS

Free

OuteTTS مدل‌های بزرگ زبان را با قابلیت‌های متن به گفتار گسترش می‌دهد در حالی که معماری اصلی را حفظ می‌کند. از چندین پشته پشتیبانی می‌کند از جمله llama.cpp (CPU / GPU)، Hugging Face Transformers، ExLlamaV2، VLLM، و حتی استنتاج مرورگر از طریق Transformers.js.

توسعه‌دهنده::
OuteAI

مجوز::
Apache 2.0

سرعت:
Fast

کیفیت::

زبانها:
en

حافظۀ تصویری:
2GB

شبیه‌سازی صدا:
آره

هزینه برای هر ۱K نویسه:
آزاد

استنتاج CPU مرورگر شبیه‌سازی صدا پشتههای چندگانه پروفایلهای بلندگو

بهترین برای:: انتشار Edge، TTS مبتنی بر مرورگر، محیط‌های کم منابع

سعی کن OuteTTS

TADA

Standard

TADA (Text-Acoustic Dual Alignment) توسط Hume AI یک مدل TTS پیشرو است که توهمات را از طریق یک معماری جدید دوگانه هم‌ترازسازی ساخته شده بر روی Lama 3.2 از بین می‌برد. در دسترس در 1B (انگلیسی) و 3B (چند زبانه) انواع، TADA به یک RTF 0.09 - 5x سریعتر از مدل‌های TTS قابل مقایسه بر پایه LLM می‌رسد.

توسعه‌دهنده::
Hume AI

مجوز::
MIT

سرعت:
Fast

کیفیت::

زبانها:
en

حافظۀ تصویری:
5GB

شبیه‌سازی صدا:
نه

هزینه برای هر ۱K نویسه:
2x

توهمات صفر ۵ برابر سریعتر از LLM TTS بیان احساسات متن صوتی هم‌تراز کردن دوگانه

بهترین برای:: گفتار با کیفیت بالا بدون توهمات، بیان احساسات، استنتاج سریع

سعی کن TADA

VibeVoice

Standard

ویب‌وایس توسط مایکروسافت در دو نوع عرضه می‌شود: مدل ۱٫۵ بیتی برای محتوای طولانی (تا ۹۰ دقیقه، ۴ بلندگو) و مدل زمان واقعی ۰٫۵ بیتی برای پخش با تاخیر صدای اولیه ~ ۲۰۰ میلی‌ثانیه.

توسعه‌دهنده::
Microsoft

مجوز::
MIT

سرعت:
Fast

کیفیت::

زبانها:
en, zh

حافظۀ تصویری:
4GB

شبیه‌سازی صدا:
نه

هزینه برای هر ۱K نویسه:
2x

چند بلندگو تا ۹۰ دقیقه تولید پادکست هماهنگی بلندگو جریان ۲۰۰ میلی‌ثانیه

بهترین برای:: پادکست‌ها، کتاب‌های صوتی، محتوای چندگویندهٔ شکل طولانی

سعی کن VibeVoice

Pocket TTS

Free

Pocket TTS توسط Kyutai (سازندگان Moshi) یک مدل فشرده ۱۰۰M پارامتر متن به گفتار است که بسیار بالاتر از وزن خود عمل می‌کند. این به صورت کارآمد بر روی CPU اجرا می‌شود، از شبیه‌سازی صدای شلیک صفر از یک نمونه صوتی پشتیبانی می‌کند، و گفتاری با صدای طبیعی تولید می‌کند. اندازه کوچک مدل آن را برای گسترش لبه و محیط‌های کم منابع ایده‌آل می‌کند.

توسعه‌دهنده::
Kyutai

مجوز::
MIT

سرعت:
Fast

کیفیت::

زبانها:
en, fr

حافظۀ تصویری:
1GB

شبیه‌سازی صدا:
آره

هزینه برای هر ۱K نویسه:
آزاد

پارامترهای ۱۰۰M استنتاج CPU شبیه‌سازی صدا شبیه‌سازی تک نمونه آماده برای لبه‌ها

بهترین برای:: انتشار سبک، محیط‌های تنها CPU، شبیه‌سازی سریع صدا

سعی کن Pocket TTS

Kitten TTS

Free

Kitten TTS by KittenML یک مدل متن به گفتار فوق سبک است که بر روی ONNX ساخته شده‌است. با انواع پارامترهای ۱۵M تا ۸۰M (۲۵-۸۰ MB در دیسک)، ترکیب صدای با کیفیت بالا را در CPU بدون نیاز به GPU ارائه می‌دهد. ویژگی‌های ۸ صدای درونی، سرعت گفتار تنظیم‌پذیر، و پیش‌پردازش متن درونی برای اعداد، واحدهای پول و واحدها. ایده‌آل برای پیاده‌سازی لبه و برنامه‌های کاربردی با تأخیر کم.

توسعه‌دهنده::
KittenML

مجوز::
Apache 2.0

سرعت:
Fast

کیفیت::

زبانها:
en

حافظۀ تصویری:
0GB

شبیه‌سازی صدا:
نه

هزینه برای هر ۱K نویسه:
آزاد

استنتاج تنها CPU اندازه مدل کمتر از ۸۰ مگابایت ۸ صدای درونی کنترل سرعت مبتنی بر ONNX خروجی ۲۴ کیلوهرتز

بهترین برای:: TTS سبک و سریع، پیاده‌سازی لبه، برنامه‌های کاربردی با تأخیر کم

سعی کن Kitten TTS

CosyVoice3

Standard

CosyVoice3 is the latest evolution from Alibaba's FunAudioLLM team. It features bi-streaming inference with ~150ms latency, instruction-based control for emotion/speed/volume, and improved speaker similarity for zero-shot cloning. Supports 9 languages plus 18 Chinese dialects. RL-tuned variant delivers state-of-the-art prosody.

توسعه‌دهنده::
Alibaba (FunAudioLLM)

مجوز::
Apache 2.0

سرعت:
Fast

کیفیت::

زبانها:
en, zh, ja, ko, de, es, fr, it, ru

حافظۀ تصویری:
4GB

شبیه‌سازی صدا:
آره

هزینه برای هر ۱K نویسه:
2x

Bi-streaming Emotion control Voice cloning Speed/volume control Instruction following

بهترین برای:: Multilingual production TTS, real-time applications, voice cloning

سعی کن CosyVoice3

MOSS-TTS

Premium

MOSS-TTS from OpenMOSS supports generation of up to 1 hour of continuous speech across 20 languages. Features token-level duration control, phoneme-level pronunciation control via IPA/Pinyin, and code-switching between languages. The 8B production model delivers state-of-the-art quality with zero-shot voice cloning from reference audio.

توسعه‌دهنده::
OpenMOSS

مجوز::
Apache 2.0

سرعت:
Medium

کیفیت::

زبانها:
en, zh, de, es, fr, ja, it, hu, ko, ru, fa, ar, pl, pt, cs, da, sv, el, tr

حافظۀ تصویری:
16GB

شبیه‌سازی صدا:
آره

هزینه برای هر ۱K نویسه:
4x

Ultra-long generation 20 languages Voice cloning Duration control Pronunciation control Code-switching

بهترین برای:: Audiobooks, long-form content, multilingual production

سعی کن MOSS-TTS

MegaTTS3

Premium

MegaTTS3 from ByteDance uses a novel sparse alignment mechanism combined with a latent diffusion transformer. Features adjustable trade-off between speech intelligibility and speaker similarity for zero-shot voice cloning.

توسعه‌دهنده::
ByteDance

مجوز::
Apache 2.0

سرعت:
Slow

کیفیت::

زبانها:
en, zh

حافظۀ تصویری:
8GB

شبیه‌سازی صدا:
آره

هزینه برای هر ۱K نویسه:
4x

Voice cloning Adjustable similarity Cross-lingual

بهترین برای:: High-fidelity voice cloning

سعی کن MegaTTS3

Kokoro

آزاد

Kokoro is an 82 million parameter text-to-speech model that punches well above its weight class. Despite its tiny size, it produces remarkably natural and expressive speech. Kokoro supports multiple languages including English, Japanese, Chinese, and Korean with a variety of expressive voices. It runs incredibly fast — generating audio nearly 100x faster than real-time on a GPU.

توسعه‌دهنده::
Hexgrad

مجوز::
Apache 2.0

سرعت:
Fast

کیفیت::

زبانها: en, ja, zh, ko, fr, de, it, pt, es, hi, ru

بهترین برای:: High-quality TTS with minimal latency, streaming applications

آزمون رایگان

Piper

آزاد

Piper is a lightweight text-to-speech engine developed by Rhasspy that uses VITS and larynx architectures. It runs entirely on CPU, making it ideal for edge devices, home automation, and applications requiring offline TTS. With over 100 voices across 30+ languages, Piper delivers natural-sounding speech at real-time speeds even on a Raspberry Pi 4.

توسعه‌دهنده::
Rhasspy

مجوز::
MIT

سرعت:
Fast

کیفیت::

زبانها: en, de, fr, es, it, pt, nl, pl, ru, zh, ja, ko, ar, cs, da, fi, el, hu, is, ka, kk, ne, no, ro, sk, sr, sv, sw, tr, uk, vi

بهترین برای:: Quick previews, accessibility, and embedded applications

آزمون رایگان

VITS

آزاد

VITS (Variational Inference with adversarial learning for end-to-end Text-to-Speech) is a parallel end-to-end TTS method that generates more natural sounding audio than current two-stage models. It adopts variational inference augmented with normalizing flows and an adversarial training process, achieving a significant improvement in naturalness.

توسعه‌دهنده::
Jaehyeon Kim et al.

مجوز::
MIT

سرعت:
Fast

کیفیت::

زبانها: en, zh, ja, ko

بهترین برای:: General-purpose text-to-speech with natural prosody

آزمون رایگان

MeloTTS

آزاد

MeloTTS by MyShell.ai is a multilingual TTS library supporting English (American, British, Indian, Australian), Spanish, French, Chinese, Japanese, and Korean. It is extremely fast, processing text at near real-time speed on CPU alone. MeloTTS is designed for production use and supports both CPU and GPU inference.

توسعه‌دهنده::
MyShell.ai

مجوز::
MIT

سرعت:
Fast

کیفیت::

زبانها: en, es, fr, zh, ja, ko

بهترین برای:: Production applications needing fast, multilingual TTS

آزمون رایگان

OuteTTS

آزاد

OuteTTS extends large language models with text-to-speech capabilities while preserving the original architecture. It supports multiple backends including llama.cpp (CPU/GPU), Hugging Face Transformers, ExLlamaV2, VLLM, and even browser inference via Transformers.js. Features zero-shot voice cloning through speaker profiles saved as JSON.

توسعه‌دهنده::
OuteAI

مجوز::
Apache 2.0

سرعت:
Fast

کیفیت::

زبانها: en

بهترین برای:: Edge deployment, browser-based TTS, low-resource environments

آزمون رایگان

Pocket TTS

آزاد

Pocket TTS by Kyutai (creators of Moshi) is a compact 100M parameter text-to-speech model that punches well above its weight. It runs efficiently on CPU, supports zero-shot voice cloning from a single audio sample, and produces natural-sounding speech. The small model size makes it ideal for edge deployment and low-resource environments.

توسعه‌دهنده::
Kyutai

مجوز::
MIT

سرعت:
Fast

کیفیت::

زبانها: en, fr

بهترین برای:: Lightweight deployment, CPU-only environments, quick voice cloning

پیش‌فرض

توسعه‌دهنده::
SparkAudio

مجوز::
CC BY-NC-SA 4.0

سرعت:
Medium

کیفیت::

زبانها:
en, zh

شبیه‌سازی صدا:
آره

Voice cloningEmotion controlStyle controlPrompt-based5-second cloning

بهترین برای:: Content creation with cloned voices and emotional control

سعی کن Spark TTS

GPT-SoVITS

پیش‌فرض

GPT-SoVITS combines GPT-style language modeling with SoVITS (Singing Voice Inference via Translation and Synthesis) for powerful few-shot voice cloning. With as little as 5 seconds of reference audio, it can accurately clone a voice and generate new speech while preserving the speaker's unique characteristics. It excels at both speaking and singing voice synthesis.

توسعه‌دهنده::
RVC-Boss

مجوز::
MIT

سرعت:
Slow

کیفیت::

زبانها:
en, zh, ja, ko

شبیه‌سازی صدا:
آره

5-second cloningSinging voiceFew-shot learningHigh fidelityCross-lingual

بهترین برای:: Voice cloning, singing synthesis, content creator voice replication

سعی کن GPT-SoVITS

Orpheus

پیش‌فرض

Orpheus is a large-scale text-to-speech model that achieves human-level emotional expression. Trained on over 100,000 hours of diverse speech data, it excels at generating speech with natural emotions, emphasis, and speaking styles. Orpheus can produce speech that is virtually indistinguishable from human recordings.

توسعه‌دهنده::
Canopy Labs

مجوز::
Llama 3.2 Community

سرعت:
Medium

کیفیت::

زبانها:
en

شبیه‌سازی صدا:
نه

Human-level emotion100K hours trainingNatural emphasisExpressive speech

بهترین برای:: High-quality emotional speech, audiobooks, voice acting

سعی کن Orpheus

Qwen3 TTS

پیش‌فرض

Qwen3-TTS is a 1.7 billion parameter text-to-speech model from Alibaba's Qwen team. It supports three modes: preset voices with emotion control (9 speakers), voice cloning from just 3 seconds of audio, and a unique voice design mode where you describe the voice you want in natural language. It covers 10 languages with high expressiveness and natural prosody.

توسعه‌دهنده::
Alibaba (Qwen)

مجوز::
Apache 2.0

سرعت:
Medium

کیفیت::

زبانها:
en, zh, ja, ko, de, fr, ru, pt, es, it

شبیه‌سازی صدا:
آره

Voice cloning9 preset voicesVoice design from textEmotion control10 languages

بهترین برای:: Multilingual content with voice cloning or custom voice design

سعی کن Qwen3 TTS

Chatterbox Turbo

پیش‌فرض

Chatterbox Turbo by Resemble AI is a 350M parameter upgrade to Chatterbox, delivering up to 6x real-time speed with sub-200ms latency. It supports paralinguistic tags like [laugh], [cough], and [chuckle] directly in text. Includes Perth watermarking on all generated audio for provenance tracking.

توسعه‌دهنده::
Resemble AI

مجوز::
MIT

سرعت:
Fast

کیفیت::

زبانها:
en

شبیه‌سازی صدا:
آره

Sub-200ms latencyParalinguistic tags6x real-timeVoice cloningWatermarking

بهترین برای:: Real-time voice agents, expressive speech with natural sounds

سعی کن Chatterbox Turbo

Zonos

پیش‌فرض

Zonos v0.1 by Zyphra is a 1.6B parameter model featuring fine-grained emotion control with sliders for happiness, anger, sadness, fear, and surprise. It offers both a Transformer and a novel SSM (state-space model) variant. Trained on 200K+ hours of multilingual speech with zero-shot voice cloning from 10-30 seconds of reference audio.

توسعه‌دهنده::
Zyphra

مجوز::
Apache 2.0

سرعت:
Medium

کیفیت::

زبانها:
en, ja, zh, fr, de

شبیه‌سازی صدا:
آره

Emotion controlVoice cloningSSM architectureMultilingualPitch/rate control

بهترین برای:: Expressive speech with emotion control, voice design studio

سعی کن Zonos

Dia 2

پیش‌فرض

Dia2 by Nari Labs is a streaming-first upgrade to Dia, available in 1B and 2B parameter variants. It begins synthesizing audio from the first few tokens, making it ideal for real-time voice agents and speech-to-speech pipelines. Supports multi-speaker dialogue with [S1]/[S2] tags and paralinguistic cues like (laughs), (coughs).

توسعه‌دهنده::
Nari Labs

مجوز::
Apache 2.0

سرعت:
Fast

کیفیت::

زبانها:
en

شبیه‌سازی صدا:
نه

Streaming outputMulti-speakerLow latencyParalinguistic cuesUp to 2 min output

بهترین برای:: Real-time voice agents, dialogue generation, streaming applications

سعی کن Dia 2

VoxCPM

پیش‌فرض

VoxCPM 1.5 by OpenBMB is a novel tokenizer-free TTS model that operates in continuous space rather than discrete tokens. It produces high-fidelity 44.1kHz audio, supports zero-shot voice cloning from 3-10 seconds, and maintains consistency across paragraphs. Cross-language cloning lets you apply an English voice to Chinese speech and vice versa.

توسعه‌دهنده::
OpenBMB

مجوز::
Apache 2.0

سرعت:
Fast

کیفیت::

زبانها:
en, zh

شبیه‌سازی صدا:
آره

44.1kHz audioTokenizer-freeCross-lingual cloningContext-awareLoRA fine-tuning

بهترین برای:: High-fidelity audio, audiobooks, long-form content with voice consistency

سعی کن VoxCPM

TADA

پیش‌فرض

TADA (Text-Acoustic Dual Alignment) by Hume AI is a groundbreaking TTS model that eliminates hallucinations through a novel dual alignment architecture built on Llama 3.2. Available in 1B (English) and 3B (multilingual) variants, TADA achieves an RTF of 0.09 — 5x faster than comparable LLM-based TTS models. It supports up to 700 seconds of audio context and produces emotionally expressive speech with zero hallucinations on standard benchmarks.

توسعه‌دهنده::
Hume AI

مجوز::
MIT

سرعت:
Fast

کیفیت::

زبانها:
en

شبیه‌سازی صدا:
نه

Zero hallucinations5x faster than LLM TTSEmotional expression700s audio contextDual alignment

بهترین برای:: High-quality hallucination-free speech, emotional expression, fast inference

سعی کن TADA

VibeVoice

پیش‌فرض

VibeVoice from Microsoft generates long-form speech up to 90 minutes with support for 4 simultaneous speakers, making it ideal for podcasts and dialogues. The Realtime 0.5B variant achieves ~300ms latency for interactive use. Supports speaker tags for multi-turn dialogue generation.

توسعه‌دهنده::
Microsoft

مجوز::
MIT

سرعت:
Fast

کیفیت::

زبانها:
en, zh

شبیه‌سازی صدا:
نه

Multi-speakerLong-form (90 min)Podcast generationDialogueLow latency

پریمیوم

توسعه‌دهنده::
OpenMOSS

مجوز::
Apache 2.0

سرعت:
Medium

کیفیت::

زبانها:
en, zh, de, es, fr, ja, it, hu, ko, ru, fa, ar, pl, pt, cs, da, sv, el, tr

شبیه‌سازی صدا:
آره

حافظۀ تصویری:
16GB

هزینه برای هر ۱K نویسه:
4x

Ultra-long generation20 languagesVoice cloningDuration controlPronunciation controlCode-switching

بهترین برای:: Audiobooks, long-form content, multilingual production

سعی کن MOSS-TTS

MegaTTS3

پریمیوم

توسعه‌دهنده::
ByteDance

مجوز::
Apache 2.0

سرعت:
Slow

کیفیت::

زبانها:
en, zh

شبیه‌سازی صدا:
آره

حافظۀ تصویری:
8GB

هزینه برای هر ۱K نویسه:
4x

Voice cloningAdjustable similarityCross-lingual

بهترین برای:: High-fidelity voice cloning

سعی کن MegaTTS3

جدول مقایسه مدل

مدل	توسعه‌دهنده:	حیوان	سرعت	زبانها	حافظۀ تصویری	مجوز:	تشکر
Kokoro	Hexgrad	Free	Fast	11	1.5GB	Apache 2.0	آزاد	استفاده
Piper	Rhasspy	Free	Fast	31	0 (CPU only)	MIT	آزاد	استفاده
VITS	Jaehyeon Kim et al.	Free	Fast	4	1GB	MIT	آزاد	استفاده
MeloTTS	MyShell.ai	Free	Fast	6	0.5GB (GPU optional)	MIT	آزاد	استفاده
Bark	Suno	Standard	Slow	13	5GB	MIT	2	استفاده
Bark Small	Suno	Standard	Medium	13	2GB	MIT	2	استفاده
CosyVoice 2	Alibaba (Tongyi Lab)	Standard	Medium	8	4GB	Apache 2.0	2	استفاده
Dia TTS	Nari Labs	Standard	Medium	1	4GB	Apache 2.0	2	استفاده
Parler TTS	Hugging Face	Standard	Medium	1	4GB	Apache 2.0	2	استفاده
GLM-TTS	Zhipu AI	Standard	Medium	2	4GB	GLM-4 License	2	استفاده
IndexTTS-2	Index Team	Standard	Medium	2	4GB	Bilibili Model License	2	استفاده
Spark TTS	SparkAudio	Standard	Medium	2	4GB	CC BY-NC-SA 4.0	2	استفاده
GPT-SoVITS	RVC-Boss	Standard	Slow	4	6GB	MIT	2	استفاده
Orpheus	Canopy Labs	Standard	Medium	1	4GB	Llama 3.2 Community	2	استفاده
Chatterbox	Resemble AI	Premium	Medium	1	4GB	MIT	4	استفاده
Tortoise TTS	James Betker	Premium	Slow	1	8GB	Apache 2.0	4	استفاده
StyleTTS 2	Columbia University	Premium	Medium	1	4GB	MIT	4	استفاده
OpenVoice	MyShell.ai / MIT	Premium	Medium	8	4GB	MIT	4	استفاده
Qwen3 TTS	Alibaba (Qwen)	Standard	Medium	10	7GB	Apache 2.0	2	استفاده
Sesame CSM	Sesame	Premium	Slow	1	8GB	Apache 2.0	4	استفاده
Chatterbox Turbo	Resemble AI	Standard	Fast	1	2GB	MIT	2	استفاده
Zonos	Zyphra	Standard	Medium	5	6GB	Apache 2.0	2	استفاده
Dia 2	Nari Labs	Standard	Fast	1	4GB	Apache 2.0	2	استفاده
VoxCPM	OpenBMB	Standard	Fast	2	4GB	Apache 2.0	2	استفاده
OuteTTS	OuteAI	Free	Fast	1	2GB	Apache 2.0	آزاد	استفاده
TADA	Hume AI	Standard	Fast	1	5GB	MIT	2	استفاده
VibeVoice	Microsoft	Standard	Fast	2	4GB	MIT	2	استفاده
Pocket TTS	Kyutai	Free	Fast	2	1GB	MIT	آزاد	استفاده
Kitten TTS	KittenML	Free	Fast	1	0GB	Apache 2.0	آزاد	استفاده
CosyVoice3	Alibaba (FunAudioLLM)	Standard	Fast	9	4GB	Apache 2.0	2	استفاده
MOSS-TTS	OpenMOSS	Premium	Medium	19	16GB	Apache 2.0	4	استفاده
MegaTTS3	ByteDance	Premium	Slow	2	8GB	Apache 2.0	4	استفاده

جامع‌ترین پلتفرم تبدیل متن به گفتار هوش مصنوعی

چرا TTS.ai رو براي متن به گفتار انتخاب کردي؟

TTS.ai جهان رو گرد هم مياره

هر مدل تحت MIT، Apache 2.0 یا مجوزهای مشابه آزاد است، که اطمینان حاصل می‌کند که شما حقوق تجاری کاملی برای استفاده از صدای تولید شده در پروژه‌های خود دارید. چه نیاز به ترکیب سریع و سبک برای برنامه‌های کاربردی زمان واقعی یا خروجی با کیفیت استودیویی برای کتاب‌های صوتی و پادکست داشته باشید، TTS.ai مدل مناسبی برای هر مورد استفاده دارد.

مدل‌های رایگان، حساب نیازی نیست

فوراً با سه مدل TTS رایگان شروع کنید: Piper (بسیار سریع، سبک وزن)، VITS (تصویرسازی عصبی با کیفیت بالا)، و MeloTTS (پشتیبانی چندزبانه). بدون ثبت نام، بدون کارت اعتباری، بدون محدودیت در نسل‌ها. مدل‌های رایگان از انگلیسی و چندین زبان دیگر با خروجی صدای طبیعی که برای اکثر برنامه‌ها مناسب است پشتیبانی می‌کنند.

پردازش شتاب‌دار GPU

مدل‌های رایگان معمولاً صدا را در کمتر از ۲ ثانیه تولید می‌کنند. مدل‌های استاندارد مانند Kokoro، CosyVoice ۲، و Bark به‌طور متوسط ۳ تا ۵ ثانیه. مدل‌های پریمیوم با بالاترین کیفیت، مانند Tortoise و Chatterbox، بسته به طول متن، در ۵ تا ۱۵ ثانیه پردازش می‌شوند.

پشتیبانی از بیش از ۳۰ زبان

تولید گفتار در بیش از ۳۰ زبان از جمله انگلیسی، اسپانیایی، فرانسوی، آلمانی، ایتالیایی، پرتغالی، چینی، ژاپنی، کره‌ای، عربی، هندی، روسی و بسیاری دیگر. مدل‌های متعددی از ترکیب زبانی پشتیبانی می‌کنند، به این معنی که می‌توانید گفتار را در زبانی تولید کنید که صدای اصلی هرگز به آن آموزش ندیده‌بود. CosyVoice 2 و GPT-SoVITS در شبیه‌سازی صدای زبانی برتری دارند.

رابط کاربری آماده توسعه‌دهنده

TTS.ai را در برنامه‌های کاربردی خود با API REST سازگار با OpenAI ادغام کنید. یک نقطه پایانی برای همه ۲۰ مدل. پایتون، جاوااسکریپت، cURL و Go SDK. پشتیبانی از پخش برای برنامه‌های کاربردی زمان واقعی. پردازش دسته جمعی برای تولید محتوای در مقیاس بزرگ. Webhooks برای اطلاع‌رسانی غیر همگام. در برنامه‌های Pro و Enterprise موجود است.

پرسشهای متداول

مدل‌های عصبی مدرن TTS مانند Kokoro، Chatterbox، و CosyVoice 2 از یادگیری عمیق برای تولید سخنرانی استفاده می‌کنند که صدای قابل توجه انسانی، با صدای طبیعی، احساسات و ریتم را تولید می‌کند.

بستگی به نیازهای شما دارد. برای پیش‌نمایش سریع ، از Piper یا MeloTTS ( رایگان ، سریع) استفاده کنید. برای کیفیت بالا ، Kokoro یا CosyVoice 2 ( سطح استاندارد) را امتحان کنید. برای شبیه‌سازی صدا ، از Chatterbox یا GPT-SoVITS ( پرمیوم) استفاده کنید. برای محتوای گفتگو/پادکاست ، Dia TTS را امتحان کنید. هر مدل نقاط قوت متفاوتی دارد — برای یافتن بهترین تطابق آزمایش کنید.

بله! TTS.ai با مدل‌های Kokoro، Piper، VITS و MeloTTS متن به گفتار رایگان را ارائه می‌دهد. هیچ حسابی برای تا ۵۰۰ کاراکتر و ۳ نسل در ساعت مورد نیاز نیست. برای یک حساب رایگان ثبت نام کنید تا ۵۰ کرون دریافت کنید و به تمام مدل‌ها دسترسی داشته باشید.

مدل‌های TTS ما به‌طور جمعی از ۳۰ زبان پشتیبانی می‌کنند که شامل انگلیسی، اسپانیایی، فرانسوی، آلمانی، ایتالیایی، پرتغالی، چینی، ژاپنی، کره‌ای، عربی، روسی، هندی و بسیاری دیگر می‌شود.

بله، صدای تولید شده از طریق TTS.ai می‌تواند به صورت تجاری استفاده شود. همه مدل‌های ما از مجوزهای منبع باز استفاده می‌کنند (MIT, Apache 2.0). مجوزهای مدل‌های فردی را برای شرایط خاص بررسی کنید. توصیه می‌کنیم مجوز مدل خاصی که برای پروژه خود استفاده می‌کنید را بررسی کنید.

TTS.ai از قالب‌های خروجی MP3، WAV، OGG و FLAC پشتیبانی می‌کند. MP3 پیش‌فرض برای پخش وب است. WAV برای پردازش صوتی بیشتر توصیه می‌شود. می‌توانید بین قالب‌ها با استفاده از ابزار مبدل صوتی ما تبدیل کنید.

شبیه‌سازی صدا از هوش مصنوعی برای تکرار یک صدای خاص از یک نمونه صوتی کوتاه (معمولاً ۵۰ تا ۳۰ ثانیه) استفاده می‌کند. یک ضبط واضح از صدای هدف را بارگذاری کنید و مدل‌هایی مانند Chatterbox، GPT-SoVITS یا OpenVoice گفتار جدیدی را در آن صدا تولید می‌کنند. کیفیت با صدای مرجع تمیزتر و طولانی‌تر بهبود می‌یابد.

کاربران رایگان می‌توانند تا ۵۰۰ کاراکتر در هر درخواست تولید کنند. کاربران ثبت‌نام‌شده تا ۵۰۰۰ کاراکتر در هر درخواست دریافت می‌کنند. برای متن‌های طولانی‌تر، صدا به صورت تکه‌های کوچک تولید شده و به صورت خودکار به هم متصل می‌شود. کاربران API می‌توانند تا ۱۰۰۰۰ کاراکتر در هر درخواست پردازش کنند.

پشتیبانی از SSML) Speech Synthesis Markup Language (به مدل بستگی دارد. Piper و برخی از مدلهای دیگر برچسبهای SSML اساسی را برای توقف ، تأکید و کنترل تلفظ پشتیبانی می‌کنند. برای مدلهایی که پشتیبانی SSML بومی ندارند ، می‌توانید از نشانه گذاری طبیعی و شکست خط برای تأثیر بر نظم استفاده کنید.

بله ، بیشتر مدلها از تنظیم سرعت از ۰٫۵x تا ۲٫۰x پشتیبانی می‌کنند. برخی مدلها مانند Bark و Parler همچنین اجازه کنترل ارتفاع و سبک را می‌دهند. می‌توانید پارامترهای سرعت را در قاب تنظیمات پیشرفته یا از طریق پارامتر سرعت API تنظیم کنید.

بله ، پردازش دسته ای از طریق API ما در دسترس است. می‌توانید چندین قطعه متن را در یک فراخوان یا دست‌نوشتۀ API ارسال کنید ، و هر کدام به عنوان پرونده‌های صوتی جداگانه پردازش و بازگردانده می‌شوند. این برای فصل‌های کتاب صوتی ، ماژول‌های یادگیری الکترونیکی ، یا دست‌نوشته‌های گفتگوی بازی ایده‌آل است.

یک کلید API از دسکتاپ حساب خود ایجاد کنید، سپس درخواست‌های POST را به نقطه پایانی REST API ما با متن، مدل و پارامترهای صدای خود ارسال کنید. ما مثال‌های کد را در پایتون، جاوااسکریپت و cURL ارائه می‌کنیم. API OpenAI سازگار است، بنابراین ادغام‌های موجود با تغییرات کم کار می‌کنند.

5.0/5 (3)

شروع تبدیل متن به گفتار

به هزاران سازنده که از TTS.ai استفاده می‌کنند بپیوندید. با یک حساب جدید ۱۵۰۰۰ کاراکتر رایگان بگیرید. مدل‌های رایگان بدون ثبت نام در دسترس هستند.

ثبت نام نمایش قیمت

متن به گفتارComment

دوست داريد TTS.ai؟ به دوستانتون بگو!

جزئیات مدل

Spark TTS

نکات برای نتایج بهتر

استفاده از نویسه‌ها

چگونه هوش مصنوعی متن به گفتار کار می‌کند

وارد کردن متن شما

برگزیدن مدل و صدا

& بارگیری‌

موردهای استفاده متن به گفتارName

کتابهای صوتی

صداگذاری ویدئو

پادکست

بازیName

یادگیری الکترونیکی

دسترسی‌پذیری

سیستمهای تلفنیName

رسانه‌های اجتماعی

جریان

بازاریابی

دوبله و بومی‌سازی

مراقبه و سلامتی

همۀ مدلهای متن به گفتار

Kokoro

Piper

VITS

MeloTTS

Bark

Bark Small

CosyVoice 2

Dia TTS

Parler TTS

GLM-TTS

IndexTTS-2

Spark TTS

GPT-SoVITS

Orpheus

Chatterbox

Tortoise TTS

StyleTTS 2

OpenVoice

Qwen3 TTS

Sesame CSM

Chatterbox Turbo

Zonos

Dia 2

VoxCPM

OuteTTS

TADA

VibeVoice

Pocket TTS

Kitten TTS

CosyVoice3

MOSS-TTS

MegaTTS3

Kokoro

Piper

VITS

MeloTTS

OuteTTS

Pocket TTS

Kitten TTS

Bark

Bark Small

CosyVoice 2

Dia TTS

Parler TTS

GLM-TTS

IndexTTS-2

Spark TTS

GPT-SoVITS

Orpheus

Qwen3 TTS

Chatterbox Turbo

Zonos

Dia 2

VoxCPM

TADA

VibeVoice