گزارش اشکال / درخواست ویژگی

متن به گفتارComment

تبدیل متن به گفتار طبیعی با مدل‌های هوش مصنوعی متن باز. استفاده از آن رایگان است، حسابی نیاز نیست.

ثبت نام

هنوز صداهای TTS برای زبان شما نداریم. به ما کمک کنید تا صداهای خودتان را اضافه کنیم! فروش صدای خود

0/500 نویسه‌ها · براي 5000 نفر در هر نسل ثبت نام کنيد →

ثبت نام برای حد ۵۰۰۰ کاراکتر

حالت SSML (زبان نشانه‌گذاری ترکیب گفتار برای کنترل دقیق)

برای کنترل دقیق ، متن خود را در برچسبهای SSML بپیچید:

<speak><prosody rate="slow">Slow speech</prosody></speak>

برچسبهای احساس/ سبک

اضافه کردن نشانگرهای احساس برای تأثیر بر تحویل (مدل پشتیبانی متفاوت است):

واژه‌نامه تلفظ

تعریف تلفظ سفارشی) کلمه = تلفظ (:

ارتفاع 0

-12 +12

مدل

صدا

زبان

قالب خروجی

سرعت 1.0x

0.5x 2.0x

آزاد با Piper, VITS, MeloTTS

صدای تولید شده شما در اینجا ظاهر خواهد شد. یک مدل را انتخاب کنید ، متن را وارد کنید ، و تولید را فشار دهید.

جزئیات مدل

GPT-SoVITS

Standard

GPT-SoVITS combines GPT-style language modeling with SoVITS (Singing Voice Inference via Translation and Synthesis) for powerful few-shot voice cloning. With as little as 5 seconds of reference audio, it can accurately clone a voice and generate new speech while preserving the speaker's unique characteristics. It excels at both speaking and singing voice synthesis.

توسعه‌دهنده:	RVC-Boss
مجوز:	MIT
سرعت	Slow
کیفیت:
زبانها	4 زبانها
حافظۀ تصویری	6GB
شبیه‌سازی صدا	پشتیبانی‌شده

ویژگیها:

5-second cloning Singing voice Few-shot learning High fidelity Cross-lingual

بهترین برای:: Voice cloning, singing synthesis, content creator voice replication

نکات برای نتایج بهتر

استفاده از نشانه گذاری مناسب برای توقفهای طبیعی و نت
اعداد و مخففها را برای تلفظ واضح تر تلفظ کنید
افزودن فاصلۀ میانی برای ایجاد وقفه‌های کوتاه بین جملات
از نقطهٔ سه نقطه (...) برای توقف‌های طولانی‌تر استفاده کنید
Kokoro یا CosyVoice 2 را برای طبیعی ترین نتایج امتحان کنید
استفاده از Dia برای محاورۀ چند بلندگو و محتوای پادکست

استفاده از نویسه‌ها

حیوان	هزینه برای هر ۱K نویسه
آزاد	۰ امتیاز) نامحدود (
پیش‌فرض	2 اعتبار / 1K کاراکتر
پریمیوم	4 امتیاز / 1K کاراکتر

گرفتن نویسه‌های بیشتر

چگونه هوش مصنوعی متن به گفتار کار می‌کند

تولید صداگذاری با کیفیت حرفه‌ای در سه گام ساده. هیچ دانش فنی مورد نیاز نیست.

گام ۱

وارد کردن متن شما

متنی را که می‌خواهید به گفتار تبدیل کنید ، تایپ ، چسباندن یا بارگذاری کنید. تا ۵۰۰۰ کاراکتر در هر نسل برای کاربران وارد شده پشتیبانی می‌شود. از متن ساده استفاده کنید یا برچسب‌های SSML را برای کنترل پیشرفته بر روی تلفظ ، مکثها و تأکید اضافه کنید.

گام دوم

برگزیدن مدل و صدا

از میان ۲۰ مدل هوش مصنوعی در سه سطح انتخاب کنید. یک صدا را که با محتوای شما مطابقت دارد انتخاب کنید، زبان هدف خود را انتخاب کنید، سرعت پخش را از ۰٫۵x تا ۲٫۰x تنظیم کنید، و قالب خروجی مورد علاقه خود را انتخاب کنید (MP3، WAV، OGG، یا FLAC).

گام ۳

& بارگیری‌

تولید را فشار دهید و صدای شما در چند ثانیه آماده خواهد شد. با پخش‌کننده داخلی پیش‌نمایش کنید ، در قالب انتخابی خود بارگیری کنید ، یا یک پیوند قابل اشتراک را رونوشت کنید. از API برای پردازش گروهی و ادغام در جریان کار خود استفاده کنید.

موردهای استفاده متن به گفتارName

متن به گفتار با استفاده از هوش مصنوعی در حال دگرگونی نحوه ایجاد، مصرف و تعامل مردم با محتوای صوتی در ده‌ها صنعت است.

کتابهای صوتی

تبدیل کتاب‌های کامل به کتاب‌های صوتی با صدای طبیعی و با کیفیت استودیویی. پشتیبانی چند بلندگو با Dia برای گفتگوی کاراکتر.

صداگذاری ویدئو

صداگذاری حرفه‌ای برای یوتیوب، تیک تاک، ریلز اینستاگرام و فیلم‌های کوتاه ایجاد کنید. ۱۰۰+ صدا یا کپی خودتان را بسازید.

پادکست

تولید قسمت‌های پادکست از اسکریپت‌ها با چند صدای هوش مصنوعی. از Dia برای مکالمات طبیعی دو بلندگو استفاده کنید.

بازیName

صداگذاری هوش مصنوعی برای بازی‌های مستقل، رمان‌های بصری و داستان‌های تعاملی. دیالوگ‌های NPC، صداهای صحنه‌های کوتاه، بیش از ۳۰ زبان.

یادگیری الکترونیکی

تبدیل مواد دوره، سخنرانی‌ها و محتوای آموزشی به صدا. پشتیبانی چند زبانه برای پلتفرم‌های جهانی.

دسترسی‌پذیری

وب‌سایت‌ها، اسناد و برنامه‌های کاربردی را در دسترس قرار دهید. ادغام صفحه‌خوان API و تبدیل مقاله به صدا.

سیستمهای تلفنیName

سیستم‌های IVR، منوی تلفن و خدمات مشتری را با صداهای طبیعی هوش مصنوعی تقویت کنید.

رسانه‌های اجتماعی

TikTok narrations, Instagram Reels, Twitter/X commentary, YouTube Shorts. تولید سریع با مدل‌های رایگان.

جریان

هشدارهای Twitch TTS، گفتگوی صدا، هم‌میهنان هوش مصنوعی، و ربات‌های Discord. تأخیر کم، بیش از ۱۰۰ صدا، سازگار با StreamElements.

بازاریابی

ویدئوهای تبلیغاتی، ویدئوهای توضیحی، نمایش‌های محصول، و ارائه‌های فروش.

دوبله و بومی‌سازی

ترجمه و دوبله ویدئو به ۳۰ زبان با هوش مصنوعی مطابقت صدا. رونوشت خودکار و تشخیص سخنران.

مراقبه و سلامتی

مدیتیشن های هدایت شده، داستان های خواب، تمرینات تنفسی و تأیید با صداهای آرام و آرامش بخش هوش مصنوعی.

نمایش همۀ موارد استفاده و ابزارها

همۀ مدلهای متن به گفتار

مشخصات مفصل برای هر مدل هوش مصنوعی در دسترس در TTS.ai. مقایسه کیفیت، سرعت، پشتیبانی زبان و ویژگی‌ها برای یافتن مدل کامل برای پروژه شما.

Kokoro

Free

Kokoro یک مدل ۸۲ میلیون پارامتر متن به گفتار است که بسیار بالاتر از کلاس وزن خود عمل می‌کند. با وجود اندازه کوچکش، سخنرانی‌های بسیار طبیعی و بیانی تولید می‌کند. Kokoro از زبان‌های متعددی از جمله انگلیسی، ژاپنی، چینی و کره‌ای با صداهای بیانی متنوع پشتیبانی می‌کند. به طرز باورنکردنی سریع اجرا می‌شود — تولید صدا تقریباً ۱۰۰ برابر سریعتر از زمان واقعی در یک GPU است.

توسعه‌دهنده::
Hexgrad

مجوز::
Apache 2.0

سرعت:
Fast

کیفیت::

زبانها:
en, ja, zh, fr, it, pt, es, hi

حافظۀ تصویری:
1.5GB

شبیه‌سازی صدا:
نه

هزینه برای هر ۱K نویسه:
آزاد

پارامترهای ۸۲M فوق سریع صداهای بیانگر چندزبانه پشتیبانی جریان

بهترین برای:: ترجمه متن به گفتار با کیفیت بالا و تأخیر کم، برنامه‌های کاربردی پخش

سعی کن Kokoro

Piper

Free

پایپر یک موتور متن به گفتار سبک است که توسط راشسپی توسعه یافته و از معماری‌های VITS و larynx استفاده می‌کند. این موتور به‌طور کامل بر روی CPU اجرا می‌شود، که این باعث می‌شود برای دستگاه‌های کناری، اتوماسیون خانگی و برنامه‌هایی که نیاز به TTS آفلاین دارند ایده‌آل باشد. با بیش از ۱۰۰ صدا در ۳۰ زبان، پایپر حتی در یک Raspberry Pi 4 نیز گفتار طبیعی را با سرعت بی‌درنگ ارائه می‌دهد.

توسعه‌دهنده::
Rhasspy

مجوز::
MIT

سرعت:
Fast

کیفیت::

زبانها:
en, de, fr, es, it, pt, nl, pl, ru, zh, ar, cs, da, fi, el, hu, is, ka, kk, ne, no, ro, sk, sr, sv, sw, tr, uk, vi

حافظۀ تصویری:
0 (CPU only)

شبیه‌سازی صدا:
نه

هزینه برای هر ۱K نویسه:
آزاد

پردازنده دوستدار قابلیت برون‌خط صدها صدا 30 زبان پشتیبانی SSML

بهترین برای:: پیش‌نمایش سریع، دسترسی‌پذیری، و برنامه‌های کاربردی جاسازی شده

سعی کن Piper

VITS

Free

VITS (استنتاج متغیر با یادگیری رقابتی برای متن به گفتار پایان به پایان) یک روش TTS موازی پایان به پایان است که صدای طبیعی تر را نسبت به مدل‌های دو مرحله ای فعلی تولید می‌کند.

توسعه‌دهنده::
Jaehyeon Kim et al.

مجوز::
MIT

سرعت:
Fast

کیفیت::

زبانها:
en, de, es, fr, pt, nl, fi, hu, bg, ja, pl

حافظۀ تصویری:
1GB

شبیه‌سازی صدا:
نه

هزینه برای هر ۱K نویسه:
آزاد

ترکیب پایان به پایان نظم طبیعی استنتاج سریع چند بلندگو

بهترین برای:: متن به گفتار کاربردی با نظم طبیعیName

سعی کن VITS

MeloTTS

Free

MeloTTS توسط MyShell.ai یک کتابخانه چندزبانه TTS است که از انگلیسی (آمریکایی، بریتانیایی، هندی، استرالیایی)، اسپانیایی، فرانسوی، چینی، ژاپنی و کره‌ای پشتیبانی می‌کند. این کتابخانه بسیار سریع است و متن را با سرعتی نزدیک به زمان واقعی بر روی CPU پردازش می‌کند. MeloTTS برای استفاده در تولید طراحی شده و از استنتاج CPU و GPU پشتیبانی می‌کند.

توسعه‌دهنده::
MyShell.ai

مجوز::
MIT

سرعت:
Fast

کیفیت::

زبانها:
en, es, fr, zh, ja, ko

حافظۀ تصویری:
0.5GB (GPU optional)

شبیه‌سازی صدا:
نه

هزینه برای هر ۱K نویسه:
آزاد

بهینه‌سازی پردازنده چندزبانه لهجه‌های چندگانه آماده تولید تأخیر کم

بهترین برای:: برنامه‌های کاربردی تولید نیازمند TTS سریع و چندزبانه هستند

سعی کن MeloTTS

Bark

Standard

Bark by Suno یک مدل متن به صدا بر پایهٔ تبدیل‌کننده است که می‌تواند سخنرانی چندزبانه بسیار واقعی و همچنین صداهای دیگر مانند موسیقی، سر و صدای پس‌زمینه و جلوه‌های صوتی را تولید کند. می‌تواند ارتباطات غیرکلامی مانند خنده، ناله و گریه را تولید کند. Bark از بیش از ۱۰۰ پیش‌فرض بلندگو و ۱۳ زبان پشتیبانی می‌کند.

توسعه‌دهنده::
Suno

مجوز::
MIT

سرعت:
Slow

کیفیت::

زبانها:
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr

حافظۀ تصویری:
5GB

شبیه‌سازی صدا:
نه

هزینه برای هر ۱K نویسه:
2x

جلوه‌های صوتی خنده/آهسته نفس کشيدن تولید موسیقی 100+ سخنران چندزبانه

بهترین برای:: محتوای صوتی خلاقانه، کتاب‌های صوتی با احساسات، جلوه‌های صوتی

سعی کن Bark

Bark Small

Standard

Bark Small یک نسخه تقطیر شده از مدل Bark است که برخی از کیفیت صدا را برای سرعت استنتاج سریعتر و نیازهای حافظه کمتر معامله می‌کند.

توسعه‌دهنده::
Suno

مجوز::
MIT

سرعت:
Medium

کیفیت::

زبانها:
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr

حافظۀ تصویری:
2GB

شبیه‌سازی صدا:
نه

هزینه برای هر ۱K نویسه:
2x

سبک سریعتر از پوست کامل گفتار احساسی چندزبانه

بهترین برای:: صدای خلاقانه سریع هنگامی که Bark کامل خیلی کند است

سعی کن Bark Small

CosyVoice 2

Standard

این نرم‌افزار از یک روش کوانتیزه کردن مقیاسی متناهی برای سنتز جریانی استفاده می‌کند و از شبیه‌سازی صدای صفر-شلیک، سنتز زبانی و کنترل احساسات دانه ریز پشتیبانی می‌کند.

توسعه‌دهنده::
Alibaba (Tongyi Lab)

مجوز::
Apache 2.0

سرعت:
Medium

کیفیت::

زبانها:
en, zh, ja, ko, fr, de, it, es

حافظۀ تصویری:
4GB

شبیه‌سازی صدا:
آره

هزینه برای هر ۱K نویسه:
2x

جریان شبیه‌سازی شلیک صفر زبان‌شناسی کنترل احساسات تناسب انسانی

بهترین برای:: برنامه‌های کاربردی زمان واقعی، انتقال TTS، دستیارهای صوتی

سعی کن CosyVoice 2

Dia TTS

Standard

Dia توسط Nari Labs یک مدل متن به گفتار با پارامتر ۱٫۶ بی است که به طور خاص برای تولید مکالمات چندگوینده طراحی شده است. می‌تواند مکالمات طبیعی بین دو سخنران با نوبت‌گیری مناسب، نظم و بیان احساسی تولید کند. Dia برای ایجاد محتوای سبک پادکست ، مکالمات کتاب صوتی و هوش مصنوعی مکالمه‌ای تعاملی عالی است.

توسعه‌دهنده::
Nari Labs

مجوز::
Apache 2.0

سرعت:
Medium

کیفیت::

زبانها:
en

حافظۀ تصویری:
4GB

شبیه‌سازی صدا:
نه

هزینه برای هر ۱K نویسه:
2x

چند بلندگو تولید محاوره‌ها نوبت گرفتن طبيعي بیان احساسات پارامترهای ۱٫ ۶ب

بهترین برای:: پادکست‌ها، گفتگوهای کتاب صوتی، محتوای مکالمه

سعی کن Dia TTS

Parler TTS

Standard

Parler TTS یک مدل متن به گفتار است که از توصیف‌های صدای زبان طبیعی برای کنترل گفتار تولید شده استفاده می‌کند. به جای انتخاب از صداهای پیش‌فرض ، صدایی را که می‌خواهید توصیف کنید (مثلاً ، « یک صدای گرم زنانه با لهجه کم بریتانیایی ، آهسته و واضح صحبت می‌کند ») و Parler گفتاری را تولید می‌کند که با آن توصیف مطابقت دارد. این آن را برای کاربردهای خلاقانه منحصربه‌فرد می‌کند.

توسعه‌دهنده::
Hugging Face

مجوز::
Apache 2.0

سرعت:
Medium

کیفیت::

زبانها:
en

حافظۀ تصویری:
4GB

شبیه‌سازی صدا:
نه

هزینه برای هر ۱K نویسه:
2x

توصیف صوتی کنترل زبان طبیعی ایجاد صدای انعطاف‌پذیر نیازی به صداهای پیش‌فرض نیست

بهترین برای:: کاربردهای خلاقانه که در آن به ویژگی‌های صدای سفارشی نیاز داریدName

سعی کن Parler TTS

IndexTTS-2

Standard

این سیستم می‌تواند بدون نیاز به داده‌های آموزشی خاص احساسی، گفتاری با نت‌های احساسی خاص مانند خوشحال، غمگین، عصبانی یا ترسیده را تولید کند. این مدل از بردارهای احساسی برای کنترل دقیق بیان احساسی گفتار تولید شده استفاده می‌کند.

توسعه‌دهنده::
Index Team

مجوز::
Bilibili Model License

سرعت:
Medium

کیفیت::

زبانها:
en, zh

حافظۀ تصویری:
4GB

شبیه‌سازی صدا:
آره

هزینه برای هر ۱K نویسه:
2x

کنترل احساسات شليک صفر بردارهای احساس سخنرانی بیانی کنترل دانه ریز

بهترین برای:: محتوای احساسی، کتاب‌های صوتی، دستیار مجازی

سعی کن IndexTTS-2

Spark TTS

Standard

Spark TTS توسط SparkAudio یک مدل متن به گفتار است که شبیه‌سازی صدا را با احساس قابل کنترل و سبک گفتار ترکیب می‌کند. با استفاده از تنها ۵ ثانیه از صدای مرجع، می‌تواند یک صدا را شبیه‌سازی کند و سپس گفتاری با احساسات، سرعت‌ها و سبک‌های مختلف تولید کند در حالی که هویت صدای شبیه‌سازی شده را حفظ می‌کند. Spark TTS از یک سیستم کنترل مبتنی بر دستورالعمل استفاده می‌کند.

توسعه‌دهنده::
SparkAudio

مجوز::
CC BY-NC-SA 4.0

سرعت:
Medium

کیفیت::

زبانها:
en, zh

حافظۀ تصویری:
4GB

شبیه‌سازی صدا:
آره

هزینه برای هر ۱K نویسه:
2x

شبیه‌سازی صدا کنترل احساسات کنترل سبک برپایه درخواست شبيه سازي 5 ثانيه اي

بهترین برای:: ایجاد محتوا با صداهای شبیه سازی شده و کنترل احساسات

سعی کن Spark TTS

GPT-SoVITS

Standard

GPT- SoVITS مدل‌سازی زبان به سبک GPT را با SoVITS (استنباط صدای آوازخوانی از طریق ترجمه و ترکیب) برای شبیه‌سازی قدرتمند چند شلیک صدا ترکیب می‌کند. با کمتر از ۵ ثانیه صدای مرجع ، می‌تواند صدا را دقیقاً شبیه‌سازی کند و گفتار جدیدی تولید کند در حالی که ویژگی‌های منحصر به فرد سخنران را حفظ می‌کند. در ترکیب صدای سخنرانی و آوازخوانی نیز برتر است.

توسعه‌دهنده::
RVC-Boss

مجوز::
MIT

سرعت:
Slow

کیفیت::

زبانها:
en, zh, ja, ko

حافظۀ تصویری:
6GB

شبیه‌سازی صدا:
آره

هزینه برای هر ۱K نویسه:
2x

شبيه سازي 5 ثانيه اي صداي آواز چند تا شليک ياد گرفتم دقيق زبانهای مختلف

بهترین برای:: شبيه سازي صدا، سنتز آواز، بازيافت صداي سازنده محتوا

سعی کن GPT-SoVITS

Orpheus

Standard

Orpheus یک مدل متن به گفتار در مقیاس بزرگ است که به بیان احساسات در سطح انسانی می‌رسد. آموزش دیده بر روی بیش از ۱۰۰،۰۰۰ ساعت داده‌های گوناگون گفتار، در تولید گفتار با احساسات طبیعی، تأکید و سبک‌های گفتار برتری دارد. Orpheus می‌تواند گفتاری را تولید کند که عملاً از ضبط‌های انسانی قابل تشخیص نیست.

توسعه‌دهنده::
Canopy Labs

مجوز::
Llama 3.2 Community

سرعت:
Medium

کیفیت::

زبانها:
en

حافظۀ تصویری:
4GB

شبیه‌سازی صدا:
نه

هزینه برای هر ۱K نویسه:
2x

احساسات سطح انسان صد هزار ساعت آموزش تأکید طبیعی سخنرانی بیانی

بهترین برای:: گفتار احساسی با کیفیت بالا، کتاب‌های صوتی، صداپیشگی

سعی کن Orpheus

Chatterbox

Premium

Chatterbox توسط Resemble AI یک مدل شبیه‌سازی صدای صفر- شلیک پیشرفته است. می‌تواند هر صدایی را از یک نمونه صوتی با دقت قابل توجهی تکرار کند ، نه تنها با گرفتن صدای صدا بلکه همچنین سبک صحبت کردن و سایه‌های احساسی. Chatterbox همچنین دارای کنترل احساسات با دانه ریز است ، که به شما اجازه می‌دهد تا صدای احساسی سخن تولید شده را مستقل از هویت صدا تنظیم کنید.

توسعه‌دهنده::
Resemble AI

مجوز::
MIT

سرعت:
Medium

کیفیت::

زبانها:
en

حافظۀ تصویری:
4GB

شبیه‌سازی صدا:
آره

هزینه برای هر ۱K نویسه:
4x

شبیه‌سازی با شلیک صفر کنترل احساسات دقيق انتقال سبک شبیه‌سازی نمونه تکی

بهترین برای:: شبيه سازي حرفه اي صدا با کنترل احساسات، خلق محتوا

سعی کن Chatterbox

Tortoise TTS

Premium

Tortoise TTS یک سیستم متن به گفتار چند صدای خودبازگشتی است که کیفیت صدا را بر سرعت اولویت می‌دهد. از معماری الهام گرفته از DALL- E برای تولید گفتار بسیار طبیعی با شباهت عالی به صدا و سخنران استفاده می‌کند. در حالی که نسبت به بسیاری از جایگزین‌ها کندتر است ، Tortoise برخی از واقعی‌ترین گفتارهای ترکیبی را در اکوسیستم منبع باز تولید می‌کند.

توسعه‌دهنده::
James Betker

مجوز::
Apache 2.0

سرعت:
Slow

کیفیت::

زبانها:
en

حافظۀ تصویری:
8GB

شبیه‌سازی صدا:
آره

هزینه برای هر ۱K نویسه:
4x

بالاترین کیفیت چند صدا معماری DALL-E شبیه‌سازی صدا خودبازگشتی

بهترین برای:: کتاب‌های صوتی، محتوای پرمیوم، برنامه‌های کاربردی با کیفیت اول

سعی کن Tortoise TTS

StyleTTS 2

Premium

StyleTTS 2 با ترکیب پخش سبک با آموزش رقابتی با استفاده از مدل‌های بزرگ زبان گفتار، به سنتز TTS سطح انسانی می‌رسد. این نرم‌افزار طبیعی‌ترین صدای سخنرانی را در میان مدل‌های تک‌گوینده تولید می‌کند، که با ضبط‌های انسانی رقابت می‌کند.

توسعه‌دهنده::
Columbia University

مجوز::
MIT

سرعت:
Medium

کیفیت::

زبانها:
en

حافظۀ تصویری:
4GB

شبیه‌سازی صدا:
نه

هزینه برای هر ۱K نویسه:
4x

سطح انسانی انتشار سبک آموزش رقابتی تنوع طبیعی دقيق

بهترین برای:: سنتز تک‌گویی با کیفیت استودیویی، روایت حرفه‌ای

سعی کن StyleTTS 2

OpenVoice

Premium

OpenVoice توسط MyShell.ai امکان شبیه‌سازی صدای فوری را با کنترل دقیق بر روی سبک صدا، احساس، لهجه، ریتم، توقف و نغمه را فراهم می‌کند. می‌تواند صدایی را از یک کلیپ صوتی کوتاه شبیه‌سازی کند و سخنرانی را در چندین زبان تولید کند در حالی که هویت سخنران را حفظ می‌کند. OpenVoice همچنین به عنوان یک مبدل صدا عمل می‌کند، که به تبدیل صدا در زمان واقعی اجازه می‌دهد.

توسعه‌دهنده::
MyShell.ai / MIT

مجوز::
MIT

سرعت:
Medium

کیفیت::

زبانها:
en, zh, ja, ko, fr, es

حافظۀ تصویری:
4GB

شبیه‌سازی صدا:
آره

هزینه برای هر ۱K نویسه:
4x

شبیه‌سازی فوری تبدیل صدا کنترل احساسات کنترل لهجه چندزبانه

بهترین برای:: شبیه‌سازی صدا با کنترل سبک دانه ریز، تبدیل صدا

سعی کن OpenVoice

Qwen3 TTS

Standard

Qwen3-TTS یک مدل متن به گفتار با ۱٫۷ میلیارد پارامتر از تیم Qwen در Alibaba است. از سه حالت پشتیبانی می‌کند: صداهای پیش‌فرض با کنترل احساس (۹ بلندگو)، شبیه‌سازی صدا از تنها ۳ ثانیه صدا، و حالت طراحی صدای منحصر به فرد که در آن صدایی را که می‌خواهید به زبان طبیعی توصیف کنید. ۱۰ زبان را با بیان بالا و نظم طبیعی پوشش می‌دهد.

توسعه‌دهنده::
Alibaba (Qwen)

مجوز::
Apache 2.0

سرعت:
Medium

کیفیت::

زبانها:
en, zh, ja, ko, de, fr, ru, pt, es, it

حافظۀ تصویری:
7GB

شبیه‌سازی صدا:
آره

هزینه برای هر ۱K نویسه:
2x

شبیه‌سازی صدا ۹ صدای پیش‌فرض طراحی صدا از متن کنترل احساسات زبان‌ها

بهترین برای:: محتوای چندزبانه با شبیه سازی صدا یا طراحی صدای سفارشی

سعی کن Qwen3 TTS

Sesame CSM

Premium

Sesame CSM (Conversational Speech Model) یک مدل ۱ میلیارد پارامتر است که به‌طور خاص برای تولید گفتار مکالمه‌ای طراحی شده است. این الگوهای طبیعی مکالمه انسانی از جمله زمان‌بندی نوبت‌گیری، پاسخ‌های کانال عقب، واکنش‌های احساسی و جریان مکالمه را مدل می‌کند. CSM صدایی تولید می‌کند که به جای گفتار مصنوعی ، مانند یک مکالمه طبیعی انسانی است.

توسعه‌دهنده::
Sesame

مجوز::
Apache 2.0

سرعت:
Slow

کیفیت::

زبانها:
en

حافظۀ تصویری:
8GB

شبیه‌سازی صدا:
نه

هزینه برای هر ۱K نویسه:
4x

مکالمه زمانبندی طبیعی نوبت گرفتن کانال عقب پارامترهای 1B

بهترین برای:: دستیارهای هوش مصنوعی، چت‌بات‌ها، برنامه‌های هوش مصنوعی مکالمه‌ای

سعی کن Sesame CSM

Chatterbox Turbo

Standard

Chatterbox Turbo by Resemble AI یک ارتقای پارامتر ۳۵۰ مگابایتی به Chatterbox است که سرعتی برابر با ۶ برابر سرعت واقعی با تأخیر کمتر از ۲۰۰ مگابیت بر ثانیه ارائه می‌دهد. از برچسب‌های زبانی مانند [خنده] ، [سرفه] و [خنده] مستقیماً در متن پشتیبانی می‌کند. شامل علامت آب پرث بر روی تمام صداهای تولید شده برای ردیابی منشأ است.

توسعه‌دهنده::
Resemble AI

مجوز::
MIT

سرعت:
Fast

کیفیت::

زبانها:
en

حافظۀ تصویری:
2GB

شبیه‌سازی صدا:
آره

هزینه برای هر ۱K نویسه:
2x

تأخیر زیر ۲۰۰ میلی‌ثانیه برچسبهای زبانی زمان واقعی ۶x شبیه‌سازی صدا نشان آبی

بهترین برای:: عامل صدای زمان واقعی، گفتار بیانی با صداهای طبیعی

سعی کن Chatterbox Turbo

VoxCPM

Standard

VoxCPM 1.5 توسط OpenBMB یک مدل TTS جدید بدون توکن‌ساز است که به جای توکن‌های جداگانه در فضای پیوسته عمل می‌کند. صدای ۴۴٫۱ کیلوهرتز با صدای با کیفیت بالا تولید می‌کند، از شبیه‌سازی صدای شلیک صفر از ۳ تا ۱۰ ثانیه پشتیبانی می‌کند، و ثبات را در سراسر پاراگراف‌ها حفظ می‌کند. شبیه‌سازی زبانی به شما اجازه می‌دهد که صدای انگلیسی را به گفتار چینی و برعکس اعمال کنید.

توسعه‌دهنده::
OpenBMB

مجوز::
Apache 2.0

سرعت:
Fast

کیفیت::

زبانها:
en, zh

حافظۀ تصویری:
4GB

شبیه‌سازی صدا:
آره

هزینه برای هر ۱K نویسه:
2x

صدای ۴۴٫۱ کیلوهرتز بدون توکن‌ساز شبیه‌سازی بین زبانی حساس به متن تنظیم دقیق LoRA

بهترین برای:: صدای با کیفیت بالا، کتاب‌های صوتی، محتوای طولانی با ثبات صدا

سعی کن VoxCPM

Kani TTS 2

Free

Kani-TTS-2 توسط NineNineSix یک مدل پارامتر ۴۰۰M فوق سبک است که بر روی یک ستون فقرات مایع AI LFM2 با NVIDIA NanoCodec ساخته شده است. این تنها در ۳ گیگابایت VRAM اجرا می‌شود و در حدود ۱۰ ثانیه سخنرانی در حدود ۲ ثانیه در یک A100 (RTF 0.2) تولید می‌کند.

توسعه‌دهنده::
NineNineSix

مجوز::
Apache 2.0

سرعت:
Fast

کیفیت::

زبانها:
en

حافظۀ تصویری:
3GB

شبیه‌سازی صدا:
نه

هزینه برای هر ۱K نویسه:
آزاد

۳ گیگابایت VRAM فوق سریع سبک کدک نانو آزاد

بهترین برای:: تولید سریع انگلیسی بر روی سخت‌افزار VRAM کم، پیش‌نمایش سریع

سعی کن Kani TTS 2

OuteTTS

Free

OuteTTS مدل‌های بزرگ زبان را با قابلیت‌های متن به گفتار گسترش می‌دهد در حالی که معماری اصلی را حفظ می‌کند. از چندین پشته پشتیبانی می‌کند از جمله llama.cpp (CPU / GPU)، Hugging Face Transformers، ExLlamaV2، VLLM، و حتی استنتاج مرورگر از طریق Transformers.js.

توسعه‌دهنده::
OuteAI

مجوز::
Apache 2.0

سرعت:
Fast

کیفیت::

زبانها:
en

حافظۀ تصویری:
2GB

شبیه‌سازی صدا:
آره

هزینه برای هر ۱K نویسه:
آزاد

استنتاج CPU مرورگر شبیه‌سازی صدا پشتههای چندگانه پروفایلهای بلندگو

بهترین برای:: انتشار Edge، TTS مبتنی بر مرورگر، محیط‌های کم منابع

سعی کن OuteTTS

VibeVoice

Standard

ویب‌وایس توسط مایکروسافت در دو نوع عرضه می‌شود: مدل ۱٫۵ بیتی برای محتوای طولانی (تا ۹۰ دقیقه، ۴ بلندگو) و مدل زمان واقعی ۰٫۵ بیتی برای پخش با تاخیر صدای اولیه ~ ۲۰۰ میلی‌ثانیه.

توسعه‌دهنده::
Microsoft

مجوز::
MIT

سرعت:
Fast

کیفیت::

زبانها:
en, zh

حافظۀ تصویری:
4GB

شبیه‌سازی صدا:
نه

هزینه برای هر ۱K نویسه:
2x

چند بلندگو تا ۹۰ دقیقه تولید پادکست هماهنگی بلندگو جریان ۲۰۰ میلی‌ثانیه

بهترین برای:: پادکست‌ها، کتاب‌های صوتی، محتوای چندگویندهٔ شکل طولانی

سعی کن VibeVoice

Pocket TTS

Free

Pocket TTS توسط Kyutai (سازندگان Moshi) یک مدل فشرده ۱۰۰M پارامتر متن به گفتار است که بسیار بالاتر از وزن خود عمل می‌کند. این به صورت کارآمد بر روی CPU اجرا می‌شود، از شبیه‌سازی صدای شلیک صفر از یک نمونه صوتی پشتیبانی می‌کند، و گفتاری با صدای طبیعی تولید می‌کند. اندازه کوچک مدل آن را برای گسترش لبه و محیط‌های کم منابع ایده‌آل می‌کند.

توسعه‌دهنده::
Kyutai

مجوز::
MIT

سرعت:
Fast

کیفیت::

زبانها:
en, fr

حافظۀ تصویری:
1GB

شبیه‌سازی صدا:
آره

هزینه برای هر ۱K نویسه:
آزاد

پارامترهای ۱۰۰M استنتاج CPU شبیه‌سازی صدا شبیه‌سازی تک نمونه آماده برای لبه‌ها

بهترین برای:: انتشار سبک، محیط‌های تنها CPU، شبیه‌سازی سریع صدا

سعی کن Pocket TTS

Kitten TTS

Free

Kitten TTS by KittenML یک مدل متن به گفتار فوق سبک است که بر روی ONNX ساخته شده‌است. با انواع پارامترهای ۱۵M تا ۸۰M (۲۵-۸۰ MB در دیسک)، ترکیب صدای با کیفیت بالا را در CPU بدون نیاز به GPU ارائه می‌دهد. ویژگی‌های ۸ صدای درونی، سرعت گفتار تنظیم‌پذیر، و پیش‌پردازش متن درونی برای اعداد، واحدهای پول و واحدها. ایده‌آل برای پیاده‌سازی لبه و برنامه‌های کاربردی با تأخیر کم.

توسعه‌دهنده::
KittenML

مجوز::
Apache 2.0

سرعت:
Fast

کیفیت::

زبانها:
en

حافظۀ تصویری:
0GB

شبیه‌سازی صدا:
نه

هزینه برای هر ۱K نویسه:
آزاد

استنتاج تنها CPU اندازه مدل کمتر از ۸۰ مگابایت ۸ صدای درونی کنترل سرعت مبتنی بر ONNX خروجی ۲۴ کیلوهرتز

بهترین برای:: TTS سبک و سریع، پیاده‌سازی لبه، برنامه‌های کاربردی با تأخیر کم

سعی کن Kitten TTS

CosyVoice3

Standard

CosyVoice3 آخرین تکامل از تیم FunAudioLLM Alibaba است. این ویژگی استنتاج دو جریان با تاخیر ~150ms، کنترل بر اساس دستورالعمل برای احساس/ سرعت/ حجم، و شباهت بهبود یافته گوینده برای شبیه‌سازی شلیک صفر را دارد. از ۹ زبان به علاوه ۱۸ لهجه چینی پشتیبانی می‌کند. RL-tuned variant delivers state-of-the-art prosody.

توسعه‌دهنده::
Alibaba (FunAudioLLM)

مجوز::
Apache 2.0

سرعت:
Fast

کیفیت::

زبانها:
en, zh, ja, ko, de, es, fr, it, ru

حافظۀ تصویری:
4GB

شبیه‌سازی صدا:
آره

هزینه برای هر ۱K نویسه:
2x

دو جریان کنترل احساسات شبیه‌سازی صدا کنترل سرعت/صدا دستورالعمل دنباله

بهترین برای:: تولید چندزبانه TTS، برنامه‌های کاربردی زمان واقعی، شبیه‌سازی صدا

سعی کن CosyVoice3

NAMAA Saudi TTS

Standard

NAMAA Saudi TTS is a Saudi Arabic fine-tune of Resemble AI's ChatterboxMultilingual. Trained by NAMAA Space on authentic Saudi-dialect speech, it produces natural Modern Standard Arabic and Saudi colloquial pronunciation that generic multilingual models cannot match. Inherits Chatterbox's zero-shot voice cloning and emotion control via reference audio prompts. The first open-weights Arabic TTS deployed on TTS.ai.

توسعه‌دهنده::
NAMAA Space

مجوز::
MIT

سرعت:
Medium

کیفیت::

زبانها:
ar

حافظۀ تصویری:
6GB

شبیه‌سازی صدا:
آره

هزینه برای هر ۱K نویسه:
2x

زبان عربی عربی استاندارد مدرن شبیه‌سازی صدای Zero-shot کنترل احساسات تلفظ بومی

بهترین برای:: محتوای عربی برای مخاطبان سعودی، روایت MSA، صدای خلجی-زبان، کتاب‌های صوتی عربی

سعی کن NAMAA Saudi TTS

Darwin TTS

Standard

داروین-TTS-1.7B-Cross توسط FINAL-Bench یک گونهٔ تحقیقاتی از Qwen3-TTS-1.7B است که در آن ۸۴ تنسور FFN (۸٫۶٪) در α = ۳٪ با تنسورهای تطابق از Qwen3-1.7B-Base مخلوط می‌شوند.

توسعه‌دهنده::
FINAL-Bench

مجوز::
Apache 2.0

سرعت:
Medium

کیفیت::

زبانها:
en, ko, ja, zh

حافظۀ تصویری:
7GB

شبیه‌سازی صدا:
آره

هزینه برای هر ۱K نویسه:
2x

شبیه‌سازی صدا زبانهای مختلف مخلوط FFN زبانهای اصلی پشته Qwen3

بهترین برای:: شبیه‌سازی صدای چندزبانه بین انگلیسی / کره‌ای / ژاپنی / چینی با یک صدای مرجع

سعی کن Darwin TTS

MOSS-TTSD

Standard

MOSS-TTSD v1.0 از OpenMOSS یک مدل 7B گفتگوی متن به گفتار است که مکالمات را از یک پیام صوتی کوتاه ادامه می‌دهد. تا ۵ سخنران همزمان را از طریق برچسب‌های [S1] / [S2] پشتیبانی می‌کند، شبیه‌سازی صدای صفر-شلیک از ۳-۱۰ ثانیه صدای مرجع، و تا ۶۰ دقیقه گفتگوی چند دور منسجم در ۲۰ زبان.

توسعه‌دهنده::
OpenMOSS

مجوز::
Apache 2.0

سرعت:
Medium

کیفیت::

زبانها:
en, zh

حافظۀ تصویری:
12GB

شبیه‌سازی صدا:
آره

هزینه برای هر ۱K نویسه:
2x

محاورۀ چند بلندگو تا ۵ بلندگو صدای هماهنگ ۶۰ دقیقه شبیه‌سازی صدا بهینه‌سازی پادکست

بهترین برای:: پادکست‌ها، کتاب‌های صوتی، گفتگوهای دوبله شده، محتوای مکالمه‌ای با صداهای متعدد

سعی کن MOSS-TTSD

Ming-Omni TTS

Free

Ming-omni-tts-0.5B توسط inclusionAI یک مدل گفتار همه‌مودل فشرده است که بر روی ستون فقرات چگال BailingMM با یک رمزگشایی صوتی Patch-by-Patch با هماهنگی جریان ساخته شده‌است. خروجی ۴۴٫۱ کیلوهرتز (نزدیک به کیفیت سی‌دی) را ارائه می‌دهد، از شبیه‌سازی صدای صفر-شلیک از یک مرجع ۳+ ثانیه پشتیبانی می‌کند، و شامل کنترل احساسات / گویش / BGM از طریق دستورالعمل‌های JSON است.

توسعه‌دهنده::
inclusionAI

مجوز::
Apache 2.0

سرعت:
Medium

کیفیت::

زبانها:
en, zh

حافظۀ تصویری:
3GB

شبیه‌سازی صدا:
آره

هزینه برای هر ۱K نویسه:
آزاد

خروجی ۴۴٫ ۱ کیلوهرتز شبیه‌سازی صدا کنترل احساسات کنترل لهجه تولید BGM فشرده ۰٫ ۵B

بهترین برای:: راوی دوزبانه با صدای کنترل شده، محتوای کتاب صوتی چینی

سعی کن Ming-Omni TTS

MOSS-TTS Nano

Free

MOSS-TTS-Nano-100M is OpenMOSS's compact 100M-parameter variant of the MOSS-TTS family, sharing the delay-transformer architecture. Trades the 8B model's peak quality for ~80x smaller weights and dramatically lower per-request VRAM, making it suitable for free-tier and high-throughput deployments. Same 20-language reach.

توسعه‌دهنده::
OpenMOSS

مجوز::
Apache 2.0

سرعت:
Fast

کیفیت::

زبانها:
en, zh, de, es, fr, ja, it, ko, ru, ar, pt

حافظۀ تصویری:
2GB

شبیه‌سازی صدا:
آره

هزینه برای هر ۱K نویسه:
آزاد

Compact 100M Fast inference Multilingual Voice cloning Same MOSS family

بهترین برای:: Free-tier TTS, high-volume production, low-latency interactive use

سعی کن MOSS-TTS Nano

Kokoro

آزاد

Kokoro is an 82 million parameter text-to-speech model that punches well above its weight class. Despite its tiny size, it produces remarkably natural and expressive speech. Kokoro supports multiple languages including English, Japanese, Chinese, and Korean with a variety of expressive voices. It runs incredibly fast — generating audio nearly 100x faster than real-time on a GPU.

توسعه‌دهنده::
Hexgrad

مجوز::
Apache 2.0

سرعت:
Fast

کیفیت::

زبانها: en, ja, zh, fr, it, pt, es, hi

بهترین برای:: High-quality TTS with minimal latency, streaming applications

آزمون رایگان

Piper

آزاد

Piper is a lightweight text-to-speech engine developed by Rhasspy that uses VITS and larynx architectures. It runs entirely on CPU, making it ideal for edge devices, home automation, and applications requiring offline TTS. With over 100 voices across 30+ languages, Piper delivers natural-sounding speech at real-time speeds even on a Raspberry Pi 4.

توسعه‌دهنده::
Rhasspy

مجوز::
MIT

سرعت:
Fast

کیفیت::

زبانها: en, de, fr, es, it, pt, nl, pl, ru, zh, ar, cs, da, fi, el, hu, is, ka, kk, ne, no, ro, sk, sr, sv, sw, tr, uk, vi

بهترین برای:: Quick previews, accessibility, and embedded applications

آزمون رایگان

VITS

آزاد

VITS (Variational Inference with adversarial learning for end-to-end Text-to-Speech) is a parallel end-to-end TTS method that generates more natural sounding audio than current two-stage models. It adopts variational inference augmented with normalizing flows and an adversarial training process, achieving a significant improvement in naturalness.

توسعه‌دهنده::
Jaehyeon Kim et al.

مجوز::
MIT

سرعت:
Fast

کیفیت::

زبانها: en, de, es, fr, pt, nl, fi, hu, bg, ja, pl

بهترین برای:: General-purpose text-to-speech with natural prosody

آزمون رایگان

MeloTTS

آزاد

MeloTTS by MyShell.ai is a multilingual TTS library supporting English (American, British, Indian, Australian), Spanish, French, Chinese, Japanese, and Korean. It is extremely fast, processing text at near real-time speed on CPU alone. MeloTTS is designed for production use and supports both CPU and GPU inference.

توسعه‌دهنده::
MyShell.ai

مجوز::
MIT

سرعت:
Fast

کیفیت::

زبانها: en, es, fr, zh, ja, ko

بهترین برای:: Production applications needing fast, multilingual TTS

آزمون رایگان

Kani TTS 2

آزاد

Kani-TTS-2 by NineNineSix is an ultra-lightweight 400M parameter model built on a Liquid AI LFM2 backbone with NVIDIA NanoCodec. It runs in just 3GB VRAM and produces ~10 seconds of speech in ~2 seconds on an A100 (RTF 0.2). The current public release ships an English-only `kani-tts-2-en` checkpoint and does not expose the speaker-embedding hook needed for voice cloning — use Chatterbox / IndexTTS2 / F5-TTS for cloning, or Kokoro / MeloTTS for non-English.

توسعه‌دهنده::
NineNineSix

مجوز::
Apache 2.0

سرعت:
Fast

کیفیت::

زبانها: en

بهترین برای:: Fast English generation on low-VRAM hardware, quick previews

آزمون رایگان

OuteTTS

آزاد

OuteTTS extends large language models with text-to-speech capabilities while preserving the original architecture. It supports multiple backends including llama.cpp (CPU/GPU), Hugging Face Transformers, ExLlamaV2, VLLM, and even browser inference via Transformers.js. Features zero-shot voice cloning through speaker profiles saved as JSON.

توسعه‌دهنده::
OuteAI

مجوز::
Apache 2.0

سرعت:
Fast

کیفیت::

زبانها: en

بهترین برای:: Edge deployment, browser-based TTS, low-resource environments

آزمون رایگان

Pocket TTS

آزاد

Pocket TTS by Kyutai (creators of Moshi) is a compact 100M parameter text-to-speech model that punches well above its weight. It runs efficiently on CPU, supports zero-shot voice cloning from a single audio sample, and produces natural-sounding speech. The small model size makes it ideal for edge deployment and low-resource environments.

توسعه‌دهنده::
Kyutai

مجوز::
MIT

سرعت:
Fast

کیفیت::

زبانها: en, fr

بهترین برای:: Lightweight deployment, CPU-only environments, quick voice cloning

آزمون رایگان

Kitten TTS

آزاد

Kitten TTS by KittenML is an ultra-lightweight text-to-speech model built on ONNX. With variants from 15M to 80M parameters (25-80 MB on disk), it delivers high-quality voice synthesis on CPU without requiring a GPU. Features 8 built-in voices, adjustable speech speed, and built-in text preprocessing for numbers, currencies, and units. Ideal for edge deployment and low-latency applications.

توسعه‌دهنده::
KittenML

مجوز::
Apache 2.0

سرعت:
Fast

کیفیت::

زبانها: en

بهترین برای:: Fast lightweight TTS, edge deployment, low-latency applications

آزمون رایگان

Ming-Omni TTS

آزاد

Ming-omni-tts-0.5B by inclusionAI is a compact omni-modal speech model built on the BailingMM dense backbone with a Patch-by-Patch flow-matching audio decoder. Delivers 44.1kHz output (near CD quality), supports zero-shot voice cloning from a 3+ second reference, and includes built-in emotion / dialect / BGM control via JSON instructions. Excellent stability — 0.83% WER on Chinese benchmarks.

توسعه‌دهنده::
inclusionAI

مجوز::
Apache 2.0

سرعت:
Medium

کیفیت::

زبانها: en, zh

پیش‌فرض

توسعه‌دهنده::
RVC-Boss

مجوز::
MIT

سرعت:
Slow

کیفیت::

زبانها:
en, zh, ja, ko

شبیه‌سازی صدا:
آره

5-second cloningSinging voiceFew-shot learningHigh fidelityCross-lingual

بهترین برای:: Voice cloning, singing synthesis, content creator voice replication

سعی کن GPT-SoVITS

Orpheus

پیش‌فرض

Orpheus is a large-scale text-to-speech model that achieves human-level emotional expression. Trained on over 100,000 hours of diverse speech data, it excels at generating speech with natural emotions, emphasis, and speaking styles. Orpheus can produce speech that is virtually indistinguishable from human recordings.

توسعه‌دهنده::
Canopy Labs

مجوز::
Llama 3.2 Community

سرعت:
Medium

کیفیت::

زبانها:
en

شبیه‌سازی صدا:
نه

Human-level emotion100K hours trainingNatural emphasisExpressive speech

بهترین برای:: High-quality emotional speech, audiobooks, voice acting

سعی کن Orpheus

Qwen3 TTS

پیش‌فرض

Qwen3-TTS is a 1.7 billion parameter text-to-speech model from Alibaba's Qwen team. It supports three modes: preset voices with emotion control (9 speakers), voice cloning from just 3 seconds of audio, and a unique voice design mode where you describe the voice you want in natural language. It covers 10 languages with high expressiveness and natural prosody.

توسعه‌دهنده::
Alibaba (Qwen)

مجوز::
Apache 2.0

سرعت:
Medium

کیفیت::

زبانها:
en, zh, ja, ko, de, fr, ru, pt, es, it

شبیه‌سازی صدا:
آره

Voice cloning9 preset voicesVoice design from textEmotion control10 languages

بهترین برای:: Multilingual content with voice cloning or custom voice design

سعی کن Qwen3 TTS

Chatterbox Turbo

پیش‌فرض

Chatterbox Turbo by Resemble AI is a 350M parameter upgrade to Chatterbox, delivering up to 6x real-time speed with sub-200ms latency. It supports paralinguistic tags like [laugh], [cough], and [chuckle] directly in text. Includes Perth watermarking on all generated audio for provenance tracking.

توسعه‌دهنده::
Resemble AI

مجوز::
MIT

سرعت:
Fast

کیفیت::

زبانها:
en

شبیه‌سازی صدا:
آره

Sub-200ms latencyParalinguistic tags6x real-timeVoice cloningWatermarking

بهترین برای:: Real-time voice agents, expressive speech with natural sounds

سعی کن Chatterbox Turbo

VoxCPM

پیش‌فرض

VoxCPM 1.5 by OpenBMB is a novel tokenizer-free TTS model that operates in continuous space rather than discrete tokens. It produces high-fidelity 44.1kHz audio, supports zero-shot voice cloning from 3-10 seconds, and maintains consistency across paragraphs. Cross-language cloning lets you apply an English voice to Chinese speech and vice versa.

توسعه‌دهنده::
OpenBMB

مجوز::
Apache 2.0

سرعت:
Fast

کیفیت::

زبانها:
en, zh

شبیه‌سازی صدا:
آره

44.1kHz audioTokenizer-freeCross-lingual cloningContext-awareLoRA fine-tuning

بهترین برای:: High-fidelity audio, audiobooks, long-form content with voice consistency

سعی کن VoxCPM

VibeVoice

پیش‌فرض

VibeVoice from Microsoft generates long-form speech up to 90 minutes with support for 4 simultaneous speakers, making it ideal for podcasts and dialogues. The Realtime 0.5B variant achieves ~300ms latency for interactive use. Supports speaker tags for multi-turn dialogue generation.

توسعه‌دهنده::
Microsoft

مجوز::
MIT

سرعت:
Fast

کیفیت::

زبانها:
en, zh

شبیه‌سازی صدا:
نه

Multi-speakerLong-form (90 min)Podcast generationDialogueLow latency

بهترین برای:: Podcasts, dialogues, long-form narration, multi-speaker content

سعی کن VibeVoice

CosyVoice3

پیش‌فرض

CosyVoice3 is the latest evolution from Alibaba's FunAudioLLM team. It features bi-streaming inference with ~150ms latency, instruction-based control for emotion/speed/volume, and improved speaker similarity for zero-shot cloning. Supports 9 languages plus 18 Chinese dialects. RL-tuned variant delivers state-of-the-art prosody.

توسعه‌دهنده::
Alibaba (FunAudioLLM)

مجوز::
Apache 2.0

سرعت:
Fast

کیفیت::

زبانها:
en, zh, ja, ko, de, es, fr, it, ru

شبیه‌سازی صدا:
آره

Bi-streamingEmotion controlVoice cloningSpeed/volume controlInstruction following

بهترین برای:: Multilingual production TTS, real-time applications, voice cloning

سعی کن CosyVoice3

NAMAA Saudi TTS

پیش‌فرض

توسعه‌دهنده::
NAMAA Space

مجوز::
MIT

سرعت:
Medium

کیفیت::

زبانها:
ar

شبیه‌سازی صدا:
آره

Saudi Arabic dialectModern Standard ArabicZero-shot voice cloningEmotion controlNative pronunciation

بهترین برای:: Arabic content for Saudi audiences, MSA narration, Khaleeji-dialect voice agents, Arabic audiobooks

سعی کن NAMAA Saudi TTS

Darwin TTS

پیش‌فرض

Darwin-TTS-1.7B-Cross by FINAL-Bench is a research variant of Qwen3-TTS-1.7B where 84 talker-FFN tensors (8.6%) are blended at α=3% with the matching tensors from Qwen3-1.7B-Base. The blend is built without retraining and produces noticeably crisper cross-lingual voice cloning across Korean, English, Japanese, and Chinese. Operates in zero-shot voice-clone mode (3 seconds reference audio).

توسعه‌دهنده::
FINAL-Bench

مجوز::
Apache 2.0

سرعت:
Medium

کیفیت::

زبانها:
en, ko, ja, zh

شبیه‌سازی صدا:
آره

Voice cloningCross-lingualFFN-blended4 core languagesQwen3 backbone

بهترین برای:: Cross-lingual voice cloning between English / Korean / Japanese / Chinese with a single reference voice

مدل	توسعه‌دهنده:	حیوان	سرعت	زبانها	حافظۀ تصویری	مجوز:	تشکر
Kokoro	Hexgrad	Free	Fast	8	1.5GB	Apache 2.0	آزاد	استفاده
Piper	Rhasspy	Free	Fast	29	0 (CPU only)	MIT	آزاد	استفاده
VITS	Jaehyeon Kim et al.	Free	Fast	11	1GB	MIT	آزاد	استفاده
MeloTTS	MyShell.ai	Free	Fast	6	0.5GB (GPU optional)	MIT	آزاد	استفاده
Bark	Suno	Standard	Slow	13	5GB	MIT	2	استفاده
Bark Small	Suno	Standard	Medium	13	2GB	MIT	2	استفاده
CosyVoice 2	Alibaba (Tongyi Lab)	Standard	Medium	8	4GB	Apache 2.0	2	استفاده
Dia TTS	Nari Labs	Standard	Medium	1	4GB	Apache 2.0	2	استفاده
Parler TTS	Hugging Face	Standard	Medium	1	4GB	Apache 2.0	2	استفاده
IndexTTS-2	Index Team	Standard	Medium	2	4GB	Bilibili Model License	2	استفاده
Spark TTS	SparkAudio	Standard	Medium	2	4GB	CC BY-NC-SA 4.0	2	استفاده
GPT-SoVITS	RVC-Boss	Standard	Slow	4	6GB	MIT	2	استفاده
Orpheus	Canopy Labs	Standard	Medium	1	4GB	Llama 3.2 Community	2	استفاده
Chatterbox	Resemble AI	Premium	Medium	1	4GB	MIT	4	استفاده
Tortoise TTS	James Betker	Premium	Slow	1	8GB	Apache 2.0	4	استفاده
StyleTTS 2	Columbia University	Premium	Medium	1	4GB	MIT	4	استفاده
OpenVoice	MyShell.ai / MIT	Premium	Medium	6	4GB	MIT	4	استفاده
Qwen3 TTS	Alibaba (Qwen)	Standard	Medium	10	7GB	Apache 2.0	2	استفاده
Sesame CSM	Sesame	Premium	Slow	1	8GB	Apache 2.0	4	استفاده
Chatterbox Turbo	Resemble AI	Standard	Fast	1	2GB	MIT	2	استفاده
VoxCPM	OpenBMB	Standard	Fast	2	4GB	Apache 2.0	2	استفاده
Kani TTS 2	NineNineSix	Free	Fast	1	3GB	Apache 2.0	آزاد	استفاده
OuteTTS	OuteAI	Free	Fast	1	2GB	Apache 2.0	آزاد	استفاده
VibeVoice	Microsoft	Standard	Fast	2	4GB	MIT	2	استفاده
Pocket TTS	Kyutai	Free	Fast	2	1GB	MIT	آزاد	استفاده
Kitten TTS	KittenML	Free	Fast	1	0GB	Apache 2.0	آزاد	استفاده
CosyVoice3	Alibaba (FunAudioLLM)	Standard	Fast	9	4GB	Apache 2.0	2	استفاده
NAMAA Saudi TTS	NAMAA Space	Standard	Medium	1	6GB	MIT	2	استفاده
Darwin TTS	FINAL-Bench	Standard	Medium	4	7GB	Apache 2.0	2	استفاده
MOSS-TTSD	OpenMOSS	Standard	Medium	2	12GB	Apache 2.0	2	استفاده
Ming-Omni TTS	inclusionAI	Free	Medium	2	3GB	Apache 2.0	آزاد	استفاده
MOSS-TTS Nano	OpenMOSS	Free	Fast	11	2GB	Apache 2.0	آزاد	استفاده

جامع‌ترین پلتفرم تبدیل متن به گفتار هوش مصنوعی

چرا TTS.ai رو براي متن به گفتار انتخاب کردي؟

TTS.ai جهان رو گرد هم مياره

هر مدل تحت MIT، Apache 2.0 یا مجوزهای مشابه آزاد است، که اطمینان حاصل می‌کند که شما حقوق تجاری کاملی برای استفاده از صدای تولید شده در پروژه‌های خود دارید. چه نیاز به ترکیب سریع و سبک برای برنامه‌های کاربردی زمان واقعی یا خروجی با کیفیت استودیویی برای کتاب‌های صوتی و پادکست داشته باشید، TTS.ai مدل مناسبی برای هر مورد استفاده دارد.

مدل‌های رایگان، حساب نیازی نیست

فوراً با سه مدل TTS رایگان شروع کنید: Piper (بسیار سریع، سبک وزن)، VITS (تصویرسازی عصبی با کیفیت بالا)، و MeloTTS (پشتیبانی چندزبانه). بدون ثبت نام، بدون کارت اعتباری، بدون محدودیت در نسل‌ها. مدل‌های رایگان از انگلیسی و چندین زبان دیگر با خروجی صدای طبیعی که برای اکثر برنامه‌ها مناسب است پشتیبانی می‌کنند.

پردازش شتاب‌دار GPU

مدل‌های رایگان معمولاً صدا را در کمتر از ۲ ثانیه تولید می‌کنند. مدل‌های استاندارد مانند Kokoro، CosyVoice ۲، و Bark به‌طور متوسط ۳ تا ۵ ثانیه. مدل‌های پریمیوم با بالاترین کیفیت، مانند Tortoise و Chatterbox، بسته به طول متن، در ۵ تا ۱۵ ثانیه پردازش می‌شوند.

پشتیبانی از بیش از ۳۰ زبان

تولید گفتار در بیش از ۳۰ زبان از جمله انگلیسی، اسپانیایی، فرانسوی، آلمانی، ایتالیایی، پرتغالی، چینی، ژاپنی، کره‌ای، عربی، هندی، روسی و بسیاری دیگر. مدل‌های متعددی از ترکیب زبانی پشتیبانی می‌کنند، به این معنی که می‌توانید گفتار را در زبانی تولید کنید که صدای اصلی هرگز به آن آموزش ندیده‌بود. CosyVoice 2 و GPT-SoVITS در شبیه‌سازی صدای زبانی برتری دارند.

رابط کاربری آماده توسعه‌دهنده

Integrate TTS.ai into your applications with our OpenAI-compatible REST API. One endpoint for all 20+ models. Python, JavaScript, cURL, and Go SDKs. Streaming support for real-time applications. Batch processing for large-scale content generation. Webhooks for async notifications. API access included on every plan including free.

پرسشهای متداول

مدل‌های عصبی مدرن TTS مانند Kokoro، Chatterbox، و CosyVoice 2 از یادگیری عمیق برای تولید سخنرانی استفاده می‌کنند که صدای قابل توجه انسانی، با صدای طبیعی، احساسات و ریتم را تولید می‌کند.

بستگی به نیازهای شما دارد. برای پیش‌نمایش سریع ، از Piper یا MeloTTS ( رایگان ، سریع) استفاده کنید. برای کیفیت بالا ، Kokoro یا CosyVoice 2 ( سطح استاندارد) را امتحان کنید. برای شبیه‌سازی صدا ، از Chatterbox یا GPT-SoVITS ( پرمیوم) استفاده کنید. برای محتوای گفتگو/پادکاست ، Dia TTS را امتحان کنید. هر مدل نقاط قوت متفاوتی دارد — برای یافتن بهترین تطابق آزمایش کنید.

بله! TTS.ai با مدل‌های Kokoro، Piper، VITS و MeloTTS متن به گفتار رایگان را ارائه می‌دهد. هیچ حسابی برای تا ۵۰۰ کاراکتر و ۳ نسل در ساعت مورد نیاز نیست. برای یک حساب رایگان ثبت نام کنید تا ۵۰ کرون دریافت کنید و به تمام مدل‌ها دسترسی داشته باشید.

مدل‌های TTS ما به‌طور جمعی از ۳۰ زبان پشتیبانی می‌کنند که شامل انگلیسی، اسپانیایی، فرانسوی، آلمانی، ایتالیایی، پرتغالی، چینی، ژاپنی، کره‌ای، عربی، روسی، هندی و بسیاری دیگر می‌شود.

بله، صدای تولید شده از طریق TTS.ai می‌تواند به صورت تجاری استفاده شود. همه مدل‌های ما از مجوزهای منبع باز استفاده می‌کنند (MIT, Apache 2.0). مجوزهای مدل‌های فردی را برای شرایط خاص بررسی کنید. توصیه می‌کنیم مجوز مدل خاصی که برای پروژه خود استفاده می‌کنید را بررسی کنید.

TTS.ai از قالب‌های خروجی MP3، WAV، OGG و FLAC پشتیبانی می‌کند. MP3 پیش‌فرض برای پخش وب است. WAV برای پردازش صوتی بیشتر توصیه می‌شود. می‌توانید بین قالب‌ها با استفاده از ابزار مبدل صوتی ما تبدیل کنید.

شبیه‌سازی صدا از هوش مصنوعی برای تکرار یک صدای خاص از یک نمونه صوتی کوتاه (معمولاً ۵۰ تا ۳۰ ثانیه) استفاده می‌کند. یک ضبط واضح از صدای هدف را بارگذاری کنید و مدل‌هایی مانند Chatterbox، GPT-SoVITS یا OpenVoice گفتار جدیدی را در آن صدا تولید می‌کنند. کیفیت با صدای مرجع تمیزتر و طولانی‌تر بهبود می‌یابد.

کاربران رایگان می‌توانند تا ۵۰۰ کاراکتر در هر درخواست تولید کنند. کاربران ثبت‌نام‌شده تا ۵۰۰۰ کاراکتر در هر درخواست دریافت می‌کنند. برای متن‌های طولانی‌تر، صدا به صورت تکه‌های کوچک تولید شده و به صورت خودکار به هم متصل می‌شود. کاربران API می‌توانند تا ۱۰۰۰۰ کاراکتر در هر درخواست پردازش کنند.

پشتیبانی از SSML) Speech Synthesis Markup Language (به مدل بستگی دارد. Piper و برخی از مدلهای دیگر برچسبهای SSML اساسی را برای توقف ، تأکید و کنترل تلفظ پشتیبانی می‌کنند. برای مدلهایی که پشتیبانی SSML بومی ندارند ، می‌توانید از نشانه گذاری طبیعی و شکست خط برای تأثیر بر نظم استفاده کنید.

بله ، بیشتر مدلها از تنظیم سرعت از ۰٫۵x تا ۲٫۰x پشتیبانی می‌کنند. برخی مدلها مانند Bark و Parler همچنین اجازه کنترل ارتفاع و سبک را می‌دهند. می‌توانید پارامترهای سرعت را در قاب تنظیمات پیشرفته یا از طریق پارامتر سرعت API تنظیم کنید.

بله ، پردازش دسته ای از طریق API ما در دسترس است. می‌توانید چندین قطعه متن را در یک فراخوان یا دست‌نوشتۀ API ارسال کنید ، و هر کدام به عنوان پرونده‌های صوتی جداگانه پردازش و بازگردانده می‌شوند. این برای فصل‌های کتاب صوتی ، ماژول‌های یادگیری الکترونیکی ، یا دست‌نوشته‌های گفتگوی بازی ایده‌آل است.

یک کلید API از دسکتاپ حساب خود ایجاد کنید، سپس درخواست‌های POST را به نقطه پایانی REST API ما با متن، مدل و پارامترهای صدای خود ارسال کنید. ما مثال‌های کد را در پایتون، جاوااسکریپت و cURL ارائه می‌کنیم. API OpenAI سازگار است، بنابراین ادغام‌های موجود با تغییرات کم کار می‌کنند.

5.0/5 (4)

شروع تبدیل متن به گفتار

به هزاران سازنده که از TTS.ai استفاده می‌کنند بپیوندید. با یک حساب جدید ۱۵۰۰۰ کاراکتر رایگان بگیرید. مدل‌های رایگان بدون ثبت نام در دسترس هستند.

ثبت نام نمایش قیمت

متن به گفتارComment

دوست داريد TTS.ai؟ به دوستانتون بگو!

جزئیات مدل

GPT-SoVITS

نکات برای نتایج بهتر

استفاده از نویسه‌ها

چگونه هوش مصنوعی متن به گفتار کار می‌کند

وارد کردن متن شما

برگزیدن مدل و صدا

& بارگیری‌

موردهای استفاده متن به گفتارName

کتابهای صوتی

صداگذاری ویدئو

پادکست

بازیName

یادگیری الکترونیکی

دسترسی‌پذیری

سیستمهای تلفنیName

رسانه‌های اجتماعی

جریان

بازاریابی

دوبله و بومی‌سازی

مراقبه و سلامتی

همۀ مدلهای متن به گفتار

Kokoro

Piper

VITS

MeloTTS

Bark

Bark Small

CosyVoice 2

Dia TTS

Parler TTS

IndexTTS-2

Spark TTS

GPT-SoVITS

Orpheus

Chatterbox

Tortoise TTS

StyleTTS 2

OpenVoice

Qwen3 TTS

Sesame CSM

Chatterbox Turbo

VoxCPM

Kani TTS 2

OuteTTS

VibeVoice

Pocket TTS

Kitten TTS

CosyVoice3

NAMAA Saudi TTS

Darwin TTS

MOSS-TTSD

Ming-Omni TTS

MOSS-TTS Nano

Kokoro

Piper

VITS

MeloTTS

Kani TTS 2

OuteTTS

Pocket TTS

Kitten TTS

Ming-Omni TTS

MOSS-TTS Nano

Bark

Bark Small

CosyVoice 2

Dia TTS

Parler TTS

IndexTTS-2

Spark TTS

GPT-SoVITS

Orpheus

Qwen3 TTS

Chatterbox Turbo

VoxCPM

VibeVoice

CosyVoice3