متن به گفتارComment

تبدیل متن به گفتار طبیعی با مدل‌های هوش مصنوعی متن باز. استفاده از آن رایگان است، حسابی نیاز نیست.

هنوز صداهای TTS برای زبان شما نداریم. به ما کمک کنید تا صداهای خودتان را اضافه کنیم! فروش صدای خود
0/500 نویسه‌ها
ثبت نام برای حد ۵۰۰۰ کاراکتر

برای کنترل دقیق ، متن خود را در برچسبهای SSML بپیچید:

<speak><prosody rate="slow">Slow speech</prosody></speak>

اضافه کردن نشانگرهای احساس برای تأثیر بر تحویل (مدل پشتیبانی متفاوت است):

تعریف تلفظ سفارشی) کلمه = تلفظ (:

-12 +12
0.5x 2.0x
آزاد با Piper, VITS, MeloTTS
صدای تولید شده شما در اینجا ظاهر خواهد شد. یک مدل را انتخاب کنید ، متن را وارد کنید ، و تولید را فشار دهید.
صدا با موفقیت تولید شد
0:00 0:00
بارگیری صدا پیوند در ۲۴ ساعت پایان می‌یابد
مثل TTS.ai به دوستات بگو

جزئیات مدل

Kitten TTS

Kitten TTS

Free

Kitten TTS by KittenML is an ultra-lightweight text-to-speech model built on ONNX. With variants from 15M to 80M parameters (25-80 MB on disk), it delivers high-quality voice synthesis on CPU without requiring a GPU. Features 8 built-in voices, adjustable speech speed, and built-in text preprocessing for numbers, currencies, and units. Ideal for edge deployment and low-latency applications.

توسعه‌دهنده: KittenML
مجوز: Apache 2.0
سرعت Fast
کیفیت:
زبانها 1 زبان
حافظۀ تصویری 0GB
شبیه‌سازی صدا پشتیبانی نمی‌شود
ویژگیها:
CPU-only inference Under 80MB model size 8 built-in voices Speed control ONNX-based 24kHz output
بهترین برای:: Fast lightweight TTS, edge deployment, low-latency applications

نکات برای نتایج بهتر

  • استفاده از نشانه گذاری مناسب برای توقفهای طبیعی و نت
  • اعداد و مخففها را برای تلفظ واضح تر تلفظ کنید
  • افزودن فاصلۀ میانی برای ایجاد وقفه‌های کوتاه بین جملات
  • از نقطهٔ سه نقطه (...) برای توقف‌های طولانی‌تر استفاده کنید
  • Kokoro یا CosyVoice 2 را برای طبیعی ترین نتایج امتحان کنید
  • استفاده از Dia برای محاورۀ چند بلندگو و محتوای پادکست

استفاده از نویسه‌ها

حیوان هزینه برای هر ۱K نویسه
آزاد ۰ امتیاز) نامحدود (
پیش‌فرض 2 اعتبار / 1K کاراکتر
پریمیوم 4 امتیاز / 1K کاراکتر

چگونه هوش مصنوعی متن به گفتار کار می‌کند

تولید صداگذاری با کیفیت حرفه‌ای در سه گام ساده. هیچ دانش فنی مورد نیاز نیست.

گام ۱

وارد کردن متن شما

متنی را که می‌خواهید به گفتار تبدیل کنید ، تایپ ، چسباندن یا بارگذاری کنید. تا ۵۰۰۰ کاراکتر در هر نسل برای کاربران وارد شده پشتیبانی می‌شود. از متن ساده استفاده کنید یا برچسب‌های SSML را برای کنترل پیشرفته بر روی تلفظ ، مکثها و تأکید اضافه کنید.

گام دوم

برگزیدن مدل و صدا

از میان ۲۰ مدل هوش مصنوعی در سه سطح انتخاب کنید. یک صدا را که با محتوای شما مطابقت دارد انتخاب کنید، زبان هدف خود را انتخاب کنید، سرعت پخش را از ۰٫۵x تا ۲٫۰x تنظیم کنید، و قالب خروجی مورد علاقه خود را انتخاب کنید (MP3، WAV، OGG، یا FLAC).

گام ۳

& بارگیری‌

تولید را فشار دهید و صدای شما در چند ثانیه آماده خواهد شد. با پخش‌کننده داخلی پیش‌نمایش کنید ، در قالب انتخابی خود بارگیری کنید ، یا یک پیوند قابل اشتراک را رونوشت کنید. از API برای پردازش گروهی و ادغام در جریان کار خود استفاده کنید.

موردهای استفاده متن به گفتارName

متن به گفتار با استفاده از هوش مصنوعی در حال دگرگونی نحوه ایجاد، مصرف و تعامل مردم با محتوای صوتی در ده‌ها صنعت است.

همۀ مدلهای متن به گفتار

مشخصات مفصل برای هر مدل هوش مصنوعی در دسترس در TTS.ai. مقایسه کیفیت، سرعت، پشتیبانی زبان و ویژگی‌ها برای یافتن مدل کامل برای پروژه شما.

KokoroKokoro

Free

Kokoro یک مدل ۸۲ میلیون پارامتر متن به گفتار است که بسیار بالاتر از کلاس وزن خود عمل می‌کند. با وجود اندازه کوچکش، سخنرانی‌های بسیار طبیعی و بیانی تولید می‌کند. Kokoro از زبان‌های متعددی از جمله انگلیسی، ژاپنی، چینی و کره‌ای با صداهای بیانی متنوع پشتیبانی می‌کند. به طرز باورنکردنی سریع اجرا می‌شود — تولید صدا تقریباً ۱۰۰ برابر سریعتر از زمان واقعی در یک GPU است.

توسعه‌دهنده::
Hexgrad
مجوز::
Apache 2.0
سرعت:
Fast
کیفیت::
زبانها:
en, ja, zh, ko, fr, de, it, pt, es, hi, ru
حافظۀ تصویری:
1.5GB
شبیه‌سازی صدا:
نه
هزینه برای هر ۱K نویسه:
آزاد
پارامترهای ۸۲M فوق سریع صداهای بیانگر چندزبانه پشتیبانی جریان
بهترین برای:: TTS با کیفیت بالا با تأخیر کم، برنامه‌های کاربردی جریان

PiperPiper

Free

پایپر یک موتور متن به گفتار سبک است که توسط راشسپی توسعه یافته و از معماری‌های VITS و larynx استفاده می‌کند. این موتور به‌طور کامل بر روی CPU اجرا می‌شود، که این باعث می‌شود برای دستگاه‌های کناری، اتوماسیون خانگی و برنامه‌هایی که نیاز به TTS آفلاین دارند ایده‌آل باشد. با بیش از ۱۰۰ صدا در ۳۰ زبان، پایپر حتی در یک Raspberry Pi 4 نیز گفتار طبیعی را با سرعت بی‌درنگ ارائه می‌دهد.

توسعه‌دهنده::
Rhasspy
مجوز::
MIT
سرعت:
Fast
کیفیت::
زبانها:
en, de, fr, es, it, pt, nl, pl, ru, zh, ja, ko, ar, cs, da, fi, el, hu, is, ka, kk, ne, no, ro, sk, sr, sv, sw, tr, uk, vi
حافظۀ تصویری:
0 (CPU only)
شبیه‌سازی صدا:
نه
هزینه برای هر ۱K نویسه:
آزاد
پردازنده دوستدار قابلیت برون‌خط صدها صدا 30+ زبان پشتیبانی SSML
بهترین برای:: پیش‌نمایش سریع، دسترسی‌پذیری، و برنامه‌های کاربردی جاسازی شده

VITSVITS

Free

VITS (استنتاج متغیر با یادگیری رقابتی برای متن به گفتار پایان به پایان) یک روش TTS موازی پایان به پایان است که صدای طبیعی تر را نسبت به مدل‌های دو مرحله ای فعلی تولید می‌کند.

توسعه‌دهنده::
Jaehyeon Kim et al.
مجوز::
MIT
سرعت:
Fast
کیفیت::
زبانها:
en, zh, ja, ko
حافظۀ تصویری:
1GB
شبیه‌سازی صدا:
نه
هزینه برای هر ۱K نویسه:
آزاد
ترکیب پایان به پایان نظم طبیعی استنتاج سریع چند بلندگو
بهترین برای:: متن- به- گفتار کاربردی با نظم طبیعیName

MeloTTSMeloTTS

Free

MeloTTS توسط MyShell.ai یک کتابخانه چندزبانه TTS است که از انگلیسی (آمریکایی، بریتانیایی، هندی، استرالیایی)، اسپانیایی، فرانسوی، چینی، ژاپنی و کره‌ای پشتیبانی می‌کند. این کتابخانه بسیار سریع است و متن را با سرعتی نزدیک به زمان واقعی بر روی CPU پردازش می‌کند. MeloTTS برای استفاده در تولید طراحی شده و از استنتاج CPU و GPU پشتیبانی می‌کند.

توسعه‌دهنده::
MyShell.ai
مجوز::
MIT
سرعت:
Fast
کیفیت::
زبانها:
en, es, fr, zh, ja, ko
حافظۀ تصویری:
0.5GB (GPU optional)
شبیه‌سازی صدا:
نه
هزینه برای هر ۱K نویسه:
آزاد
بهینه‌سازی پردازنده چندزبانه لهجه‌های چندگانه آماده تولید تأخیر کم
بهترین برای:: برنامه‌های کاربردی تولید نیازمند TTS سریع و چندزبانه هستند

BarkBark

Standard

Bark by Suno یک مدل متن به صدا بر پایهٔ تبدیل‌کننده است که می‌تواند سخنرانی چندزبانه بسیار واقعی و همچنین صداهای دیگر مانند موسیقی، سر و صدای پس‌زمینه و جلوه‌های صوتی را تولید کند. می‌تواند ارتباطات غیرکلامی مانند خنده، ناله و گریه را تولید کند. Bark از بیش از ۱۰۰ پیش‌فرض بلندگو و ۱۳ زبان پشتیبانی می‌کند.

توسعه‌دهنده::
Suno
مجوز::
MIT
سرعت:
Slow
کیفیت::
زبانها:
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
حافظۀ تصویری:
5GB
شبیه‌سازی صدا:
نه
هزینه برای هر ۱K نویسه:
2x
جلوه‌های صوتی خنده/آهسته نفس کشيدن تولید موسیقی 100+ سخنران چندزبانه
بهترین برای:: محتوای صوتی خلاقانه، کتاب‌های صوتی با احساسات، جلوه‌های صوتی

Bark SmallBark Small

Standard

Bark Small یک نسخه تقطیر شده از مدل Bark است که برخی از کیفیت صدا را برای سرعت استنتاج سریعتر و نیازهای حافظه کمتر معامله می‌کند.

توسعه‌دهنده::
Suno
مجوز::
MIT
سرعت:
Medium
کیفیت::
زبانها:
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
حافظۀ تصویری:
2GB
شبیه‌سازی صدا:
نه
هزینه برای هر ۱K نویسه:
2x
سبک سریعتر از پوست کامل گفتار احساسی چندزبانه
بهترین برای:: صدای خلاقانه سریع هنگامی که Bark کامل خیلی کند است

CosyVoice 2CosyVoice 2

Standard

این نرم‌افزار از یک روش کوانتیزه کردن مقیاسی متناهی برای سنتز جریانی استفاده می‌کند و از شبیه‌سازی صدای صفر-شلیک، سنتز زبانی و کنترل احساسات دانه ریز پشتیبانی می‌کند.

توسعه‌دهنده::
Alibaba (Tongyi Lab)
مجوز::
Apache 2.0
سرعت:
Medium
کیفیت::
زبانها:
en, zh, ja, ko, fr, de, it, es
حافظۀ تصویری:
4GB
شبیه‌سازی صدا:
آره
هزینه برای هر ۱K نویسه:
2x
جریان شبیه‌سازی شلیک صفر زبان‌شناسی کنترل احساسات تناسب انسانی
بهترین برای:: برنامه‌های کاربردی زمان واقعی، پخش TTS، دستیارهای صوتی

Dia TTSDia TTS

Standard

Dia توسط Nari Labs یک مدل متن به گفتار با پارامتر ۱٫۶ بی است که به طور خاص برای تولید مکالمات چندگوینده طراحی شده است. می‌تواند مکالمات طبیعی بین دو سخنران با نوبت‌گیری مناسب، نظم و بیان احساسی تولید کند. Dia برای ایجاد محتوای سبک پادکست ، مکالمات کتاب صوتی و هوش مصنوعی مکالمه‌ای تعاملی عالی است.

توسعه‌دهنده::
Nari Labs
مجوز::
Apache 2.0
سرعت:
Medium
کیفیت::
زبانها:
en
حافظۀ تصویری:
4GB
شبیه‌سازی صدا:
نه
هزینه برای هر ۱K نویسه:
2x
چند بلندگو تولید محاوره‌ها نوبت گرفتن طبيعي بیان احساسات پارامترهای ۱٫ ۶ب
بهترین برای:: پادکست‌ها، گفتگوهای کتاب صوتی، محتوای مکالمه

Parler TTSParler TTS

Standard

Parler TTS یک مدل متن به گفتار است که از توصیف‌های صدای زبان طبیعی برای کنترل گفتار تولید شده استفاده می‌کند. به جای انتخاب از صداهای پیش‌فرض ، صدایی را که می‌خواهید توصیف کنید (مثلاً ، « یک صدای گرم زنانه با لهجه کم بریتانیایی ، آهسته و واضح صحبت می‌کند ») و Parler گفتاری را تولید می‌کند که با آن توصیف مطابقت دارد. این آن را برای کاربردهای خلاقانه منحصربه‌فرد می‌کند.

توسعه‌دهنده::
Hugging Face
مجوز::
Apache 2.0
سرعت:
Medium
کیفیت::
زبانها:
en
حافظۀ تصویری:
4GB
شبیه‌سازی صدا:
نه
هزینه برای هر ۱K نویسه:
2x
توصیف صوتی کنترل زبان طبیعی ایجاد صدای انعطاف‌پذیر نیازی به صداهای پیش‌فرض نیست
بهترین برای:: کاربردهای خلاقانه که در آن به ویژگی‌های صدای سفارشی نیاز داریدName

GLM-TTSGLM-TTS

Standard

GLM-TTS توسط Zhipu AI یک سیستم متن به گفتار است که بر اساس معماری Lama با تطابق جریان ساخته شده است. این سیستم به پایین‌ترین نرخ خطای کاراکتر در میان مدل‌های TTS منبع باز دست می‌یابد، به این معنی که دقت بیشتری در تلفظ دارد. GLM-TTS از انگلیسی و چینی با شبیه‌سازی صدا از نمونه‌های صوتی ۳ تا ۱۰ ثانیه پشتیبانی می‌کند.

توسعه‌دهنده::
Zhipu AI
مجوز::
GLM-4 License
سرعت:
Medium
کیفیت::
زبانها:
en, zh
حافظۀ تصویری:
4GB
شبیه‌سازی صدا:
آره
هزینه برای هر ۱K نویسه:
2x
کمترین میزان خطا شبیه‌سازی صدا تطابق جریان نظم طبیعی
بهترین برای:: کاربردهایی که بیشترین دقت تلفظ را نیاز دارندName

IndexTTS-2IndexTTS-2

Standard

این سیستم می‌تواند بدون نیاز به داده‌های آموزشی خاص احساسی، گفتاری با نت‌های احساسی خاص مانند خوشحال، غمگین، عصبانی یا ترسیده را تولید کند. این مدل از بردارهای احساسی برای کنترل دقیق بیان احساسی گفتار تولید شده استفاده می‌کند.

توسعه‌دهنده::
Index Team
مجوز::
Bilibili Model License
سرعت:
Medium
کیفیت::
زبانها:
en, zh
حافظۀ تصویری:
4GB
شبیه‌سازی صدا:
آره
هزینه برای هر ۱K نویسه:
2x
کنترل احساسات شليک صفر بردارهای احساس سخنرانی بیانی کنترل دانه ریز
بهترین برای:: محتوای احساسی، کتاب‌های صوتی، دستیار مجازی

Spark TTSSpark TTS

Standard

Spark TTS توسط SparkAudio یک مدل متن به گفتار است که شبیه‌سازی صدا را با احساس قابل کنترل و سبک گفتار ترکیب می‌کند. با استفاده از تنها ۵ ثانیه از صدای مرجع، می‌تواند یک صدا را شبیه‌سازی کند و سپس گفتاری با احساسات، سرعت‌ها و سبک‌های مختلف تولید کند در حالی که هویت صدای شبیه‌سازی شده را حفظ می‌کند. Spark TTS از یک سیستم کنترل مبتنی بر دستورالعمل استفاده می‌کند.

توسعه‌دهنده::
SparkAudio
مجوز::
CC BY-NC-SA 4.0
سرعت:
Medium
کیفیت::
زبانها:
en, zh
حافظۀ تصویری:
4GB
شبیه‌سازی صدا:
آره
هزینه برای هر ۱K نویسه:
2x
شبیه‌سازی صدا کنترل احساسات کنترل سبک برپایه درخواست شبيه سازي 5 ثانيه اي
بهترین برای:: ایجاد محتوا با صداهای شبیه سازی شده و کنترل احساسات

GPT-SoVITSGPT-SoVITS

Standard

GPT- SoVITS مدل‌سازی زبان به سبک GPT را با SoVITS (استنباط صدای آوازخوانی از طریق ترجمه و ترکیب) برای شبیه‌سازی قدرتمند چند شلیک صدا ترکیب می‌کند. با کمتر از ۵ ثانیه صدای مرجع ، می‌تواند صدا را دقیقاً شبیه‌سازی کند و گفتار جدیدی تولید کند در حالی که ویژگی‌های منحصر به فرد سخنران را حفظ می‌کند. در ترکیب صدای سخنرانی و آوازخوانی نیز برتر است.

توسعه‌دهنده::
RVC-Boss
مجوز::
MIT
سرعت:
Slow
کیفیت::
زبانها:
en, zh, ja, ko
حافظۀ تصویری:
6GB
شبیه‌سازی صدا:
آره
هزینه برای هر ۱K نویسه:
2x
شبيه سازي 5 ثانيه اي صداي آواز چند تا شليک ياد گرفتم دقيق زبانهای مختلف
بهترین برای:: شبيه سازي صدا، سنتز آواز، بازيافت صداي سازنده محتوا

OrpheusOrpheus

Standard

Orpheus یک مدل متن به گفتار در مقیاس بزرگ است که به بیان احساسات در سطح انسانی می‌رسد. آموزش دیده بر روی بیش از ۱۰۰،۰۰۰ ساعت داده‌های گوناگون گفتار، در تولید گفتار با احساسات طبیعی، تأکید و سبک‌های گفتار برتری دارد. Orpheus می‌تواند گفتاری را تولید کند که عملاً از ضبط‌های انسانی قابل تشخیص نیست.

توسعه‌دهنده::
Canopy Labs
مجوز::
Llama 3.2 Community
سرعت:
Medium
کیفیت::
زبانها:
en
حافظۀ تصویری:
4GB
شبیه‌سازی صدا:
نه
هزینه برای هر ۱K نویسه:
2x
احساسات سطح انسان صد هزار ساعت آموزش تأکید طبیعی سخنرانی بیانی
بهترین برای:: گفتار احساسی با کیفیت بالا، کتاب‌های صوتی، صداپیشگی

ChatterboxChatterbox

Premium

Chatterbox توسط Resemble AI یک مدل شبیه‌سازی صدای شلیک صفر پیشرو است. می‌تواند هر صدایی را از یک نمونه صوتی واحد با دقت قابل توجه تکرار کند ، نه تنها رنگ صدا را بلکه همچنین سبک سخنرانی و جزئیات احساسی را نیز ضبط می‌کند. Chatterbox همچنین دارای کنترل احساسات با دانه ریز است ، که به شما اجازه می‌دهد تا صدای احساسی گفتار تولید شده را مستقل از هویت صدا تنظیم کنید.

توسعه‌دهنده::
Resemble AI
مجوز::
MIT
سرعت:
Medium
کیفیت::
زبانها:
en
حافظۀ تصویری:
4GB
شبیه‌سازی صدا:
آره
هزینه برای هر ۱K نویسه:
4x
شبیه‌سازی با شلیک صفر کنترل احساسات صداقت بالا انتقال سبک شبیه‌سازی یک نمونه
بهترین برای:: شبيه سازي حرفه اي صدا با کنترل احساسات، خلق محتوا

Tortoise TTSTortoise TTS

Premium

Tortoise TTS یک سیستم متن به گفتار چند صدای خودبازگشتی است که کیفیت صوتی را بر سرعت ترجیح می‌دهد. از معماری الهام گرفته از DALL- E برای تولید گفتار بسیار طبیعی با شباهت فوق‌العاده صدا و گوینده استفاده می‌کند. در حالی که نسبت به بسیاری از جایگزین‌ها کندتر است، Tortoise برخی از واقعی‌ترین گفتارهای ترکیبی موجود در اکوسیستم منبع باز را تولید می‌کند.

توسعه‌دهنده::
James Betker
مجوز::
Apache 2.0
سرعت:
Slow
کیفیت::
زبانها:
en
حافظۀ تصویری:
8GB
شبیه‌سازی صدا:
آره
هزینه برای هر ۱K نویسه:
4x
بالاترین کیفیت چند صدا معماری DALL-E شبیه‌سازی صدا خودبازگشتی
بهترین برای:: کتاب‌های صوتی، محتوای پرمیوم، برنامه‌های کاربردی با کیفیت اول

StyleTTS 2StyleTTS 2

Premium

StyleTTS 2 با ترکیب پخش سبک با آموزش رقابتی با استفاده از مدل‌های بزرگ زبان گفتار، به سنتز TTS سطح انسانی می‌رسد. این نرم‌افزار طبیعی‌ترین صدای سخنرانی را در میان مدل‌های تک‌گوینده تولید می‌کند، که با ضبط‌های انسانی رقابت می‌کند.

توسعه‌دهنده::
Columbia University
مجوز::
MIT
سرعت:
Medium
کیفیت::
زبانها:
en
حافظۀ تصویری:
4GB
شبیه‌سازی صدا:
نه
هزینه برای هر ۱K نویسه:
4x
سطح انسانی انتشار سبک آموزش رقابتی تنوع طبیعی دقيق
بهترین برای:: سنتز تک‌گویی با کیفیت استودیویی، روایت حرفه‌ای

OpenVoiceOpenVoice

Premium

OpenVoice توسط MyShell.ai امکان شبیه‌سازی صدای فوری را با کنترل دقیق بر روی سبک صدا، احساس، لهجه، ریتم، توقف و نغمه را فراهم می‌کند. می‌تواند صدایی را از یک کلیپ صوتی کوتاه شبیه‌سازی کند و سخنرانی را در چندین زبان تولید کند در حالی که هویت سخنران را حفظ می‌کند. OpenVoice همچنین به عنوان یک مبدل صدا عمل می‌کند، که به تبدیل صدا در زمان واقعی اجازه می‌دهد.

توسعه‌دهنده::
MyShell.ai / MIT
مجوز::
MIT
سرعت:
Medium
کیفیت::
زبانها:
en, zh, ja, ko, fr, de, es, it
حافظۀ تصویری:
4GB
شبیه‌سازی صدا:
آره
هزینه برای هر ۱K نویسه:
4x
شبیه‌سازی فوری تبدیل صدا کنترل احساسات کنترل لهجه چندزبانه
بهترین برای:: شبیه‌سازی صدا با کنترل سبک دانه ریز، تبدیل صدا

Qwen3 TTSQwen3 TTS

Standard

Qwen3-TTS یک مدل متن به گفتار با ۱٫۷ میلیارد پارامتر از تیم Qwen در Alibaba است. از سه حالت پشتیبانی می‌کند: صداهای پیش‌فرض با کنترل احساس (۹ بلندگو)، شبیه‌سازی صدا از تنها ۳ ثانیه صدا، و حالت طراحی صدای منحصر به فرد که در آن صدایی را که می‌خواهید به زبان طبیعی توصیف کنید. ۱۰ زبان را با بیان بالا و نظم طبیعی پوشش می‌دهد.

توسعه‌دهنده::
Alibaba (Qwen)
مجوز::
Apache 2.0
سرعت:
Medium
کیفیت::
زبانها:
en, zh, ja, ko, de, fr, ru, pt, es, it
حافظۀ تصویری:
7GB
شبیه‌سازی صدا:
آره
هزینه برای هر ۱K نویسه:
2x
شبیه‌سازی صدا ۹ صدای پیش‌فرض طراحی صدا از متن کنترل احساسات 10 زبان
بهترین برای:: محتوای چندزبانه با شبیه سازی صدا یا طراحی صدای سفارشی

Sesame CSMSesame CSM

Premium

Sesame CSM (Conversational Speech Model) یک مدل ۱ میلیارد پارامتر است که به‌طور خاص برای تولید گفتار مکالمه‌ای طراحی شده است. این الگوهای طبیعی مکالمه انسانی از جمله زمان‌بندی نوبت‌گیری، پاسخ‌های کانال عقب، واکنش‌های احساسی و جریان مکالمه را مدل می‌کند. CSM صدایی تولید می‌کند که به جای گفتار مصنوعی ، مانند یک مکالمه طبیعی انسانی است.

توسعه‌دهنده::
Sesame
مجوز::
Apache 2.0
سرعت:
Slow
کیفیت::
زبانها:
en
حافظۀ تصویری:
8GB
شبیه‌سازی صدا:
نه
هزینه برای هر ۱K نویسه:
4x
مکالمه زمانبندی طبیعی نوبت گرفتن کانال عقب پارامترهای 1B
بهترین برای:: دستیارهای هوش مصنوعی، چت‌بات‌ها، برنامه‌های هوش مصنوعی مکالمه‌ای

Kitten TTSKitten TTS

Free

Kitten TTS by KittenML is an ultra-lightweight text-to-speech model built on ONNX. With variants from 15M to 80M parameters (25-80 MB on disk), it delivers high-quality voice synthesis on CPU without requiring a GPU. Features 8 built-in voices, adjustable speech speed, and built-in text preprocessing for numbers, currencies, and units. Ideal for edge deployment and low-latency applications.

توسعه‌دهنده::
KittenML
مجوز::
Apache 2.0
سرعت:
Fast
کیفیت::
زبانها:
en
حافظۀ تصویری:
0GB
شبیه‌سازی صدا:
نه
هزینه برای هر ۱K نویسه:
آزاد
CPU-only inference Under 80MB model size 8 built-in voices Speed control ONNX-based 24kHz output
بهترین برای:: Fast lightweight TTS, edge deployment, low-latency applications

KokoroKokoro

آزاد

Kokoro is an 82 million parameter text-to-speech model that punches well above its weight class. Despite its tiny size, it produces remarkably natural and expressive speech. Kokoro supports multiple languages including English, Japanese, Chinese, and Korean with a variety of expressive voices. It runs incredibly fast — generating audio nearly 100x faster than real-time on a GPU.

توسعه‌دهنده::
Hexgrad
مجوز::
Apache 2.0
سرعت:
Fast
کیفیت::
زبانها: en, ja, zh, ko, fr, de, it, pt, es, hi, ru
بهترین برای:: High-quality TTS with minimal latency, streaming applications

PiperPiper

آزاد

Piper is a lightweight text-to-speech engine developed by Rhasspy that uses VITS and larynx architectures. It runs entirely on CPU, making it ideal for edge devices, home automation, and applications requiring offline TTS. With over 100 voices across 30+ languages, Piper delivers natural-sounding speech at real-time speeds even on a Raspberry Pi 4.

توسعه‌دهنده::
Rhasspy
مجوز::
MIT
سرعت:
Fast
کیفیت::
زبانها: en, de, fr, es, it, pt, nl, pl, ru, zh, ja, ko, ar, cs, da, fi, el, hu, is, ka, kk, ne, no, ro, sk, sr, sv, sw, tr, uk, vi
بهترین برای:: Quick previews, accessibility, and embedded applications

VITSVITS

آزاد

VITS (Variational Inference with adversarial learning for end-to-end Text-to-Speech) is a parallel end-to-end TTS method that generates more natural sounding audio than current two-stage models. It adopts variational inference augmented with normalizing flows and an adversarial training process, achieving a significant improvement in naturalness.

توسعه‌دهنده::
Jaehyeon Kim et al.
مجوز::
MIT
سرعت:
Fast
کیفیت::
زبانها: en, zh, ja, ko
بهترین برای:: General-purpose text-to-speech with natural prosody

MeloTTSMeloTTS

آزاد

MeloTTS by MyShell.ai is a multilingual TTS library supporting English (American, British, Indian, Australian), Spanish, French, Chinese, Japanese, and Korean. It is extremely fast, processing text at near real-time speed on CPU alone. MeloTTS is designed for production use and supports both CPU and GPU inference.

توسعه‌دهنده::
MyShell.ai
مجوز::
MIT
سرعت:
Fast
کیفیت::
زبانها: en, es, fr, zh, ja, ko
بهترین برای:: Production applications needing fast, multilingual TTS

Kitten TTSKitten TTS

آزاد

Kitten TTS by KittenML is an ultra-lightweight text-to-speech model built on ONNX. With variants from 15M to 80M parameters (25-80 MB on disk), it delivers high-quality voice synthesis on CPU without requiring a GPU. Features 8 built-in voices, adjustable speech speed, and built-in text preprocessing for numbers, currencies, and units. Ideal for edge deployment and low-latency applications.

توسعه‌دهنده::
KittenML
مجوز::
Apache 2.0
سرعت:
Fast
کیفیت::
زبانها: en
بهترین برای:: Fast lightweight TTS, edge deployment, low-latency applications

BarkBark

پیش‌فرض

Bark by Suno is a transformer-based text-to-audio model that can generate highly realistic, multilingual speech as well as other audio like music, background noise, and sound effects. It can produce nonverbal communications like laughing, sighing, and crying. Bark supports over 100 speaker presets and 13+ languages.

توسعه‌دهنده::
Suno
مجوز::
MIT
سرعت:
Slow
کیفیت::
زبانها:
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
شبیه‌سازی صدا:
نه
Sound effectsLaughing/sighingMusic generation100+ speakersMultilingual
بهترین برای:: Creative audio content, audiobooks with emotion, sound effects

Bark SmallBark Small

پیش‌فرض

Bark Small is a distilled version of the Bark model that trades some audio quality for significantly faster inference speeds and lower memory requirements. It retains Bark's ability to generate speech with emotions, laughter, and multiple languages.

توسعه‌دهنده::
Suno
مجوز::
MIT
سرعت:
Medium
کیفیت::
زبانها:
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
شبیه‌سازی صدا:
نه
LightweightFaster than full BarkEmotional speechMultilingual
بهترین برای:: Quick creative audio when full Bark is too slow

CosyVoice 2CosyVoice 2

پیش‌فرض

CosyVoice 2 by Alibaba's Tongyi Lab achieves human-comparable speech quality with extremely low latency, making it ideal for real-time applications. It uses a finite scalar quantization approach for streaming synthesis and supports zero-shot voice cloning, cross-lingual synthesis, and fine-grained emotion control. It outperforms many commercial TTS systems in subjective evaluations.

توسعه‌دهنده::
Alibaba (Tongyi Lab)
مجوز::
Apache 2.0
سرعت:
Medium
کیفیت::
زبانها:
en, zh, ja, ko, fr, de, it, es
شبیه‌سازی صدا:
آره
StreamingZero-shot cloningCross-lingualEmotion controlHuman-parity
بهترین برای:: Real-time applications, streaming TTS, voice assistants

Dia TTSDia TTS

پیش‌فرض

Dia by Nari Labs is a 1.6B parameter text-to-speech model designed specifically for generating multi-speaker dialogue. It can produce natural-sounding conversations between two speakers with appropriate turn-taking, prosody, and emotional expression. Dia is perfect for creating podcast-style content, audiobook dialogues, and interactive conversational AI.

توسعه‌دهنده::
Nari Labs
مجوز::
Apache 2.0
سرعت:
Medium
کیفیت::
زبانها:
en
شبیه‌سازی صدا:
نه
Multi-speakerDialog generationNatural turn-takingEmotional expression1.6B parameters
بهترین برای:: Podcasts, audiobook dialogues, conversational content

Parler TTSParler TTS

پیش‌فرض

Parler TTS is a text-to-speech model that uses natural language voice descriptions to control the generated speech. Instead of selecting from preset voices, you describe the voice you want (e.g., "a warm female voice with a slight British accent, speaking slowly and clearly") and Parler generates speech matching that description. This makes it uniquely flexible for creative applications.

توسعه‌دهنده::
Hugging Face
مجوز::
Apache 2.0
سرعت:
Medium
کیفیت::
زبانها:
en
شبیه‌سازی صدا:
نه
Voice descriptionNatural language controlFlexible voice creationNo preset voices needed
بهترین برای:: Creative applications where you need custom voice characteristics

GLM-TTSGLM-TTS

پیش‌فرض

GLM-TTS by Zhipu AI is a text-to-speech system built on the Llama architecture with flow matching. It achieves the lowest character error rate among open-source TTS models, meaning it produces the most accurate pronunciation. GLM-TTS supports English and Chinese with voice cloning from 3-10 second audio samples.

توسعه‌دهنده::
Zhipu AI
مجوز::
GLM-4 License
سرعت:
Medium
کیفیت::
زبانها:
en, zh
شبیه‌سازی صدا:
آره
Lowest error rateVoice cloningFlow matchingNatural prosody
بهترین برای:: Applications requiring maximum pronunciation accuracy

IndexTTS-2IndexTTS-2

پیش‌فرض

IndexTTS-2 is an advanced text-to-speech system that excels at zero-shot voice synthesis with fine-grained emotion control. It can generate speech with specific emotional tones like happy, sad, angry, or fearful without requiring emotion-specific training data. The model uses emotion vectors to precisely control the emotional expression of generated speech.

توسعه‌دهنده::
Index Team
مجوز::
Bilibili Model License
سرعت:
Medium
کیفیت::
زبانها:
en, zh
شبیه‌سازی صدا:
آره
Emotion controlZero-shotEmotion vectorsExpressive speechFine-grained control
بهترین برای:: Emotionally expressive content, audiobooks, virtual assistants

Spark TTSSpark TTS

پیش‌فرض

Spark TTS by SparkAudio is a text-to-speech model that combines voice cloning with controllable emotion and speaking style. Using just 5 seconds of reference audio, it can clone a voice and then generate speech with different emotions, speeds, and styles while maintaining the cloned voice identity. Spark TTS uses a prompt-based control system.

توسعه‌دهنده::
SparkAudio
مجوز::
CC BY-NC-SA 4.0
سرعت:
Medium
کیفیت::
زبانها:
en, zh
شبیه‌سازی صدا:
آره
Voice cloningEmotion controlStyle controlPrompt-based5-second cloning
بهترین برای:: Content creation with cloned voices and emotional control

GPT-SoVITSGPT-SoVITS

پیش‌فرض

GPT-SoVITS combines GPT-style language modeling with SoVITS (Singing Voice Inference via Translation and Synthesis) for powerful few-shot voice cloning. With as little as 5 seconds of reference audio, it can accurately clone a voice and generate new speech while preserving the speaker's unique characteristics. It excels at both speaking and singing voice synthesis.

توسعه‌دهنده::
RVC-Boss
مجوز::
MIT
سرعت:
Slow
کیفیت::
زبانها:
en, zh, ja, ko
شبیه‌سازی صدا:
آره
5-second cloningSinging voiceFew-shot learningHigh fidelityCross-lingual
بهترین برای:: Voice cloning, singing synthesis, content creator voice replication

OrpheusOrpheus

پیش‌فرض

Orpheus is a large-scale text-to-speech model that achieves human-level emotional expression. Trained on over 100,000 hours of diverse speech data, it excels at generating speech with natural emotions, emphasis, and speaking styles. Orpheus can produce speech that is virtually indistinguishable from human recordings.

توسعه‌دهنده::
Canopy Labs
مجوز::
Llama 3.2 Community
سرعت:
Medium
کیفیت::
زبانها:
en
شبیه‌سازی صدا:
نه
Human-level emotion100K hours trainingNatural emphasisExpressive speech
بهترین برای:: High-quality emotional speech, audiobooks, voice acting

Qwen3 TTSQwen3 TTS

پیش‌فرض

Qwen3-TTS is a 1.7 billion parameter text-to-speech model from Alibaba's Qwen team. It supports three modes: preset voices with emotion control (9 speakers), voice cloning from just 3 seconds of audio, and a unique voice design mode where you describe the voice you want in natural language. It covers 10 languages with high expressiveness and natural prosody.

توسعه‌دهنده::
Alibaba (Qwen)
مجوز::
Apache 2.0
سرعت:
Medium
کیفیت::
زبانها:
en, zh, ja, ko, de, fr, ru, pt, es, it
شبیه‌سازی صدا:
آره
Voice cloning9 preset voicesVoice design from textEmotion control10 languages
بهترین برای:: Multilingual content with voice cloning or custom voice design

ChatterboxChatterbox

پریمیوم

Chatterbox by Resemble AI is a cutting-edge zero-shot voice cloning model. It can replicate any voice from a single audio sample with remarkable accuracy, capturing not just the timbre but also the speaking style and emotional nuances. Chatterbox also features fine-grained emotion control, allowing you to adjust the emotional tone of the generated speech independently from the voice identity.

توسعه‌دهنده::
Resemble AI
مجوز::
MIT
سرعت:
Medium
کیفیت::
زبانها:
en
شبیه‌سازی صدا:
آره
حافظۀ تصویری:
4GB
هزینه برای هر ۱K نویسه:
4x
Zero-shot cloningEmotion controlHigh fidelityStyle transferSingle sample cloning
بهترین برای:: Professional voice cloning with emotional control, content creation

Tortoise TTSTortoise TTS

پریمیوم

Tortoise TTS is an autoregressive multi-voice text-to-speech system that prioritizes audio quality over speed. It uses DALL-E-inspired architecture to generate highly natural speech with excellent prosody and speaker similarity. While slower than many alternatives, Tortoise produces some of the most realistic synthetic speech available in the open-source ecosystem.

توسعه‌دهنده::
James Betker
مجوز::
Apache 2.0
سرعت:
Slow
کیفیت::
زبانها:
en
شبیه‌سازی صدا:
آره
حافظۀ تصویری:
8GB
هزینه برای هر ۱K نویسه:
4x
Highest qualityMulti-voiceDALL-E architectureVoice cloningAutoregressive
بهترین برای:: Audiobooks, premium content, quality-first applications

StyleTTS 2StyleTTS 2

پریمیوم

StyleTTS 2 achieves human-level TTS synthesis by combining style diffusion with adversarial training using large speech language models. It generates the most natural sounding speech among single-speaker models, rivaling human recordings. StyleTTS 2 uses diffusion-based style modeling to capture the full range of human speech variation.

توسعه‌دهنده::
Columbia University
مجوز::
MIT
سرعت:
Medium
کیفیت::
زبانها:
en
شبیه‌سازی صدا:
نه
حافظۀ تصویری:
4GB
هزینه برای هر ۱K نویسه:
4x
Human-levelStyle diffusionAdversarial trainingNatural variationHigh fidelity
بهترین برای:: Studio-quality single-speaker synthesis, professional narration

OpenVoiceOpenVoice

پریمیوم

OpenVoice by MyShell.ai enables instant voice cloning with granular control over voice style, emotion, accent, rhythm, pauses, and intonation. It can clone a voice from a short audio clip and generate speech in multiple languages while maintaining the speaker identity. OpenVoice also functions as a voice converter, allowing real-time voice transformation.

توسعه‌دهنده::
MyShell.ai / MIT
مجوز::
MIT
سرعت:
Medium
کیفیت::
زبانها:
en, zh, ja, ko, fr, de, es, it
شبیه‌سازی صدا:
آره
حافظۀ تصویری:
4GB
هزینه برای هر ۱K نویسه:
4x
Instant cloningVoice conversionEmotion controlAccent controlMultilingual
بهترین برای:: Voice cloning with fine-grained style control, voice conversion

Sesame CSMSesame CSM

پریمیوم

Sesame CSM (Conversational Speech Model) is a 1 billion parameter model designed specifically for generating conversational speech. It models the natural patterns of human conversation including turn-taking timing, backchannel responses, emotional reactions, and conversational flow. CSM generates audio that sounds like a natural human conversation rather than synthetic speech.

توسعه‌دهنده::
Sesame
مجوز::
Apache 2.0
سرعت:
Slow
کیفیت::
زبانها:
en
شبیه‌سازی صدا:
نه
حافظۀ تصویری:
8GB
هزینه برای هر ۱K نویسه:
4x
ConversationalNatural timingTurn-takingBackchannel1B parameters
بهترین برای:: AI assistants, chatbots, conversational AI applications

جدول مقایسه مدل

مدل توسعه‌دهنده: حیوان کیفیت: سرعت زبانها شبیه‌سازی صدا حافظۀ تصویری مجوز: تشکر
Kokoro Hexgrad Free Fast 11 1.5GB Apache 2.0 آزاد استفاده
Piper Rhasspy Free Fast 31 0 (CPU only) MIT آزاد استفاده
VITS Jaehyeon Kim et al. Free Fast 4 1GB MIT آزاد استفاده
MeloTTS MyShell.ai Free Fast 6 0.5GB (GPU optional) MIT آزاد استفاده
Bark Suno Standard Slow 13 5GB MIT 2 استفاده
Bark Small Suno Standard Medium 13 2GB MIT 2 استفاده
CosyVoice 2 Alibaba (Tongyi Lab) Standard Medium 8 4GB Apache 2.0 2 استفاده
Dia TTS Nari Labs Standard Medium 1 4GB Apache 2.0 2 استفاده
Parler TTS Hugging Face Standard Medium 1 4GB Apache 2.0 2 استفاده
GLM-TTS Zhipu AI Standard Medium 2 4GB GLM-4 License 2 استفاده
IndexTTS-2 Index Team Standard Medium 2 4GB Bilibili Model License 2 استفاده
Spark TTS SparkAudio Standard Medium 2 4GB CC BY-NC-SA 4.0 2 استفاده
GPT-SoVITS RVC-Boss Standard Slow 4 6GB MIT 2 استفاده
Orpheus Canopy Labs Standard Medium 1 4GB Llama 3.2 Community 2 استفاده
Chatterbox Resemble AI Premium Medium 1 4GB MIT 4 استفاده
Tortoise TTS James Betker Premium Slow 1 8GB Apache 2.0 4 استفاده
StyleTTS 2 Columbia University Premium Medium 1 4GB MIT 4 استفاده
OpenVoice MyShell.ai / MIT Premium Medium 8 4GB MIT 4 استفاده
Qwen3 TTS Alibaba (Qwen) Standard Medium 10 7GB Apache 2.0 2 استفاده
Sesame CSM Sesame Premium Slow 1 8GB Apache 2.0 4 استفاده
Kitten TTS KittenML Free Fast 1 0GB Apache 2.0 آزاد استفاده

جامع‌ترین پلتفرم تبدیل متن به گفتار هوش مصنوعی

چرا TTS.ai را برای تبدیل متن به گفتار انتخاب می‌کنید؟

TTS.ai جهان رو گرد هم مياره

هر مدل تحت MIT، Apache 2.0 یا مجوزهای مشابه آزاد است، که اطمینان حاصل می‌کند که شما حقوق تجاری کاملی برای استفاده از صدای تولید شده در پروژه‌های خود دارید. چه نیاز به ترکیب سریع و سبک برای برنامه‌های کاربردی زمان واقعی یا خروجی با کیفیت استودیویی برای کتاب‌های صوتی و پادکست داشته باشید، TTS.ai مدل مناسبی برای هر مورد استفاده دارد.

مدل‌های رایگان، حساب نیازی نیست

فوراً با سه مدل TTS رایگان شروع کنید: Piper (بسیار سریع، سبک وزن)، VITS (تصویرسازی عصبی با کیفیت بالا)، و MeloTTS (پشتیبانی چندزبانه). بدون ثبت نام، بدون کارت اعتباری، بدون محدودیت در نسل‌ها. مدل‌های رایگان از انگلیسی و چندین زبان دیگر با خروجی صدای طبیعی که برای اکثر برنامه‌ها مناسب است پشتیبانی می‌کنند.

پردازش شتاب‌دار GPU

مدل‌های رایگان معمولاً صدا را در کمتر از ۲ ثانیه تولید می‌کنند. مدل‌های استاندارد مانند Kokoro، CosyVoice ۲، و Bark به‌طور متوسط ۳ تا ۵ ثانیه. مدل‌های پریمیوم با بالاترین کیفیت، مانند Tortoise و Chatterbox، بسته به طول متن، در ۵ تا ۱۵ ثانیه پردازش می‌شوند.

پشتیبانی از بیش از ۳۰ زبان

تولید گفتار در بیش از ۳۰ زبان از جمله انگلیسی، اسپانیایی، فرانسوی، آلمانی، ایتالیایی، پرتغالی، چینی، ژاپنی، کره‌ای، عربی، هندی، روسی و بسیاری دیگر. مدل‌های متعددی از ترکیب زبانی پشتیبانی می‌کنند، به این معنی که می‌توانید گفتار را در زبانی تولید کنید که صدای اصلی هرگز به آن آموزش ندیده‌بود. CosyVoice 2 و GPT-SoVITS در شبیه‌سازی صدای زبانی برتری دارند.

رابط کاربری آماده توسعه‌دهنده

TTS.ai را در برنامه‌های کاربردی خود با API REST سازگار با OpenAI ادغام کنید. یک نقطه پایانی برای همه ۲۰ مدل. پایتون، جاوااسکریپت، cURL و Go SDK. پشتیبانی از پخش برای برنامه‌های کاربردی زمان واقعی. پردازش دسته جمعی برای تولید محتوای در مقیاس بزرگ. Webhooks برای اطلاع‌رسانی غیر همگام. در برنامه‌های Pro و Enterprise موجود است.

پرسشهای متداول

مدل‌های عصبی مدرن TTS مانند Kokoro، Chatterbox، و CosyVoice 2 از یادگیری عمیق برای تولید سخنرانی استفاده می‌کنند که صدای قابل توجه انسانی، با صدای طبیعی، احساسات و ریتم را تولید می‌کند.

بستگی به نیازهای شما دارد. برای پیش‌نمایش سریع ، از Piper یا MeloTTS ( رایگان ، سریع) استفاده کنید. برای کیفیت بالا ، Kokoro یا CosyVoice 2 ( سطح استاندارد) را امتحان کنید. برای شبیه‌سازی صدا ، از Chatterbox یا GPT-SoVITS ( پرمیوم) استفاده کنید. برای محتوای گفتگو/پادکاست ، Dia TTS را امتحان کنید. هر مدل نقاط قوت متفاوتی دارد — برای یافتن بهترین تطابق آزمایش کنید.

بله! TTS.ai با مدل‌های Kokoro، Piper، VITS و MeloTTS متن به گفتار رایگان را ارائه می‌دهد. هیچ حسابی برای تا ۵۰۰ کاراکتر و ۳ نسل در ساعت مورد نیاز نیست. برای یک حساب رایگان ثبت نام کنید تا ۵۰ کرون دریافت کنید و به تمام مدل‌ها دسترسی داشته باشید.

مدل‌های TTS ما به‌طور جمعی از ۳۰ زبان پشتیبانی می‌کنند که شامل انگلیسی، اسپانیایی، فرانسوی، آلمانی، ایتالیایی، پرتغالی، چینی، ژاپنی، کره‌ای، عربی، روسی، هندی و بسیاری دیگر می‌شود.

بله، صدای تولید شده از طریق TTS.ai می‌تواند به صورت تجاری استفاده شود. همه مدل‌های ما از مجوزهای منبع باز استفاده می‌کنند (MIT, Apache 2.0). مجوزهای مدل‌های فردی را برای شرایط خاص بررسی کنید. توصیه می‌کنیم مجوز مدل خاصی که برای پروژه خود استفاده می‌کنید را بررسی کنید.

TTS.ai از قالب‌های خروجی MP3، WAV، OGG و FLAC پشتیبانی می‌کند. MP3 پیش‌فرض برای پخش وب است. WAV برای پردازش صوتی بیشتر توصیه می‌شود. می‌توانید بین قالب‌ها با استفاده از ابزار مبدل صوتی ما تبدیل کنید.

شبیه‌سازی صدا از هوش مصنوعی برای تکرار یک صدای خاص از یک نمونه صوتی کوتاه (معمولاً ۵۰ تا ۳۰ ثانیه) استفاده می‌کند. یک ضبط واضح از صدای هدف را بارگذاری کنید و مدل‌هایی مانند Chatterbox، GPT-SoVITS یا OpenVoice گفتار جدیدی را در آن صدا تولید می‌کنند. کیفیت با صدای مرجع تمیزتر و طولانی‌تر بهبود می‌یابد.

کاربران رایگان می‌توانند تا ۵۰۰ کاراکتر در هر درخواست تولید کنند. کاربران ثبت‌نام‌شده تا ۵۰۰۰ کاراکتر در هر درخواست دریافت می‌کنند. برای متن‌های طولانی‌تر، صدا به صورت تکه‌های کوچک تولید شده و به صورت خودکار به هم متصل می‌شود. کاربران API می‌توانند تا ۱۰۰۰۰ کاراکتر در هر درخواست پردازش کنند.

پشتیبانی از SSML) Speech Synthesis Markup Language (به مدل بستگی دارد. Piper و برخی از مدلهای دیگر برچسبهای SSML اساسی را برای توقف ، تأکید و کنترل تلفظ پشتیبانی می‌کنند. برای مدلهایی که پشتیبانی SSML بومی ندارند ، می‌توانید از نشانه گذاری طبیعی و شکست خط برای تأثیر بر نظم استفاده کنید.

بله ، بیشتر مدلها از تنظیم سرعت از ۰٫۵x تا ۲٫۰x پشتیبانی می‌کنند. برخی مدلها مانند Bark و Parler همچنین اجازه کنترل ارتفاع و سبک را می‌دهند. می‌توانید پارامترهای سرعت را در قاب تنظیمات پیشرفته یا از طریق پارامتر سرعت API تنظیم کنید.

بله ، پردازش دسته ای از طریق API ما در دسترس است. می‌توانید چندین قطعه متن را در یک فراخوان یا دست‌نوشتۀ API ارسال کنید ، و هر کدام به عنوان پرونده‌های صوتی جداگانه پردازش و بازگردانده می‌شوند. این برای فصل‌های کتاب صوتی ، ماژول‌های یادگیری الکترونیکی ، یا دست‌نوشته‌های گفتگوی بازی ایده‌آل است.

یک کلید API از دسکتاپ حساب خود ایجاد کنید، سپس درخواست‌های POST را به نقطه پایانی REST API ما با متن، مدل و پارامترهای صدای خود ارسال کنید. ما مثال‌های کد را در پایتون، جاوااسکریپت و cURL ارائه می‌کنیم. API OpenAI سازگار است، بنابراین ادغام‌های موجود با تغییرات کم کار می‌کنند.
5.0/5 (2)

چه چیزی میتونیم بهتر کنیم؟ بازخورد شما به ما کمک میکنه مشکلات رو حل کنیم.

شروع تبدیل متن به گفتار

به هزاران سازنده که از TTS.ai استفاده می‌کنند بپیوندید. با یک حساب جدید ۱۵۰۰۰ کاراکتر رایگان بگیرید. مدل‌های رایگان بدون ثبت نام در دسترس هستند.