هوش مصنوعی آزاد متن به گفتارName

20+ مدل های منبع باز، 107+ صداها، 32+ هیچ حسابی نیاز نیست.

1K+
ایجادکنندگان
2K+
نسلها
20+
مدلهای هوش مصنوعی
107+
صداها
0/500 نویسه‌ها آزاد
مثل TTS.ai به دوستات بگو

هر آنچه که برای هوش مصنوعی صوت نیاز دارید

بیش از ۳۰ ابزار که توسط مدل‌های هوش مصنوعی متن‌باز پشتیبانی می‌شوند

20+ مدل‌های صدای هوش مصنوعی

جامع‌ترین مجموعه مدل‌های TTS متن‌باز در یک پلتفرم

KokoroKokoro Free

Kokoro یک مدل تبدیل متن به گفتار با ۸۲ میلیون پارامتر است که بسیار بالاتر از کلاس وزن خود عمل می‌کند. علی‌رغم اندازه کوچکش، سخنرانی بسیار طبیعی و بیانگر را تولید می‌کند. Kokoro از زبان‌های متعددی از جمله انگلیسی، ژاپنی، چینی و کره‌ای با صداهای بیانگر متنوع پشتیبانی می‌کند. به طرز باورنکردنی سریع اجرا می‌شود — تولید صدا تقریباً ۱۰۰ برابر سریع‌تر از زمان واقعی در یک GPU است.

بهترین برای: TTS با کیفیت بالا با تأخیر کم، برنامه‌های کاربردی جریان

آزمون رایگان

PiperPiper Free

پایپر یک موتور متن به گفتار سبک است که توسط راشسپی توسعه یافته و از معماری‌های VITS و larynx استفاده می‌کند. این موتور به‌طور کامل بر روی CPU اجرا می‌شود، که این باعث می‌شود برای دستگاه‌های کناری، اتوماسیون خانگی و برنامه‌هایی که نیاز به TTS آفلاین دارند ایده‌آل باشد. با بیش از ۱۰۰ صدا در ۳۰ زبان، پایپر حتی در یک Raspberry Pi 4 نیز گفتار طبیعی را با سرعت بی‌درنگ ارائه می‌دهد.

بهترین برای: پیش‌نمایش سریع، دسترسی‌پذیری، و برنامه‌های کاربردی جاسازی شده

آزمون رایگان

VITSVITS Free

VITS (استنتاج متغیر با یادگیری رقابتی برای متن-به-گفتار پایان به پایان) یک روش TTS موازی پایان به پایان است که صدای طبیعی‌تری نسبت به مدل‌های دو مرحله‌ای فعلی تولید می‌کند.

بهترین برای: متن- به- گفتار کاربردی با نظم طبیعیName

آزمون رایگان

MeloTTSMeloTTS Free

MeloTTS توسط MyShell.ai یک کتابخانه چندزبانه TTS است که از انگلیسی (آمریکایی، بریتانیایی، هندی، استرالیایی)، اسپانیایی، فرانسوی، چینی، ژاپنی و کره‌ای پشتیبانی می‌کند. این کتابخانه بسیار سریع است و متن را با سرعت نزدیک به زمان واقعی بر روی CPU به تنهایی پردازش می‌کند. MeloTTS برای استفاده در تولید طراحی شده و از استنتاج CPU و GPU پشتیبانی می‌کند.

بهترین برای: برنامه‌های کاربردی تولید نیازمند TTS سریع و چندزبانه هستند

آزمون رایگان

BarkBark Standard

مدل متن-به-صدا مبتنی بر ترانسفورماتور که گفتار واقعی، موسیقی و جلوه‌های صوتی را تولید می‌کند.

توسعه‌دهنده: Suno · مجوز: MIT

سعي کن

Bark SmallBark Small Standard

نسخه سبک‌تر Bark با استنتاج سریع‌تر و مصرف حافظه کمتر.

توسعه‌دهنده: Suno · مجوز: MIT

سعي کن

CosyVoice 2CosyVoice 2 Standard

TTS جریانی مقیاس‌پذیر علی‌بابا با طبیعیت انسانی و تأخیر نزدیک به صفر.

توسعه‌دهنده: Alibaba (Tongyi Lab) · مجوز: Apache 2.0

سعي کن

Dia TTSDia TTS Standard

مدل تولید مکالمه چند بلندگو که مکالمات طبیعی را بین بلندگوها ایجاد می‌کند.

توسعه‌دهنده: Nari Labs · مجوز: Apache 2.0

سعي کن

Parler TTSParler TTS Standard

زبانی که در آن سخن گفته می‌شود، زبانی است که در آن سخن گفته می‌شود و زبانی که در آن سخن گفته می‌شود زبانی است که در آن سخن گفته می‌شود.

توسعه‌دهنده: Hugging Face · مجوز: Apache 2.0

سعي کن

GLM-TTSGLM-TTS Standard

کمترین میزان خطای کاراکتر را در بین مدل‌های TTS منبع باز بدست می‌آورد.

توسعه‌دهنده: Zhipu AI · مجوز: GLM-4 License

سعي کن

IndexTTS-2IndexTTS-2 Standard

TTS Zero-shot با کنترل احساسات دقیق و بیان بالا.

توسعه‌دهنده: Index Team · مجوز: Bilibili Model License

سعي کن

Spark TTSSpark TTS Standard

شبیه‌سازی صدای TTS با احساسات قابل کنترل و سبک گفتار از طریق دستورات.

توسعه‌دهنده: SparkAudio · مجوز: CC BY-NC-SA 4.0

سعي کن

GPT-SoVITSGPT-SoVITS Standard

صوت شبیه سازی چند شلیک TTS که هر صدا را از تنها ۵ ثانیه صدا تکرار می‌کند.

توسعه‌دهنده: RVC-Boss · مجوز: MIT

سعي کن

OrpheusOrpheus Standard

مدل TTS سطح احساسی انسان که بر روی ۱۰۰K ساعت داده‌های گفتاری آموزش دیده است.

توسعه‌دهنده: Canopy Labs · مجوز: Llama 3.2 Community

سعي کن

Qwen3 TTSQwen3 TTS Standard

TTS چندزبانه علی‌بابا با شبیه‌سازی صدا، صداهای پیش‌فرض و طراحی صدا از متن.

توسعه‌دهنده: Alibaba (Qwen) · مجوز: Apache 2.0

سعي کن

ChatterboxChatterbox Premium

نوعی از صوت‌شناسی است که با استفاده از صوت‌شناسی تصادفی و صوت‌شناسی تصادفی-مرتبط به بررسی صوت می‌پردازد.

کیفیت:

سعي کن

Tortoise TTSTortoise TTS Premium

متن-به-گفتار چند صدایی بر کیفیت با معماری خودبازگشتی متمرکز است.

کیفیت:

سعي کن

StyleTTS 2StyleTTS 2 Premium

تئوری‌های تعاملی در ارتباط با تعاملات بین‌فردی و تعاملات گروهی.

کیفیت:

سعي کن

OpenVoiceOpenVoice Premium

شبیه‌سازی فوری صدا با کنترل دقیق بر روی سبک، احساسات و لهجه.

کیفیت:

سعي کن

Sesame CSMSesame CSM Premium

مدل گفتار مکالمه‌ای که گفتگوی طبیعی را با زمان‌بندی و احساس مناسب ایجاد می‌کند.

کیفیت:

سعي کن

CosyVoice 2CosyVoice 2

TTS جریانی مقیاس‌پذیر علی‌بابا با طبیعیت انسانی و تأخیر نزدیک به صفر.

زبانها: en, zh, ja, ko, fr, de, it, es

صدای شبیه

GLM-TTSGLM-TTS

کمترین میزان خطای کاراکتر را در بین مدل‌های TTS منبع باز بدست می‌آورد.

زبانها: en, zh

صدای شبیه

IndexTTS-2IndexTTS-2

TTS Zero-shot با کنترل احساسات دقیق و بیان بالا.

زبانها: en, zh

صدای شبیه

Spark TTSSpark TTS

شبیه‌سازی صدای TTS با احساسات قابل کنترل و سبک گفتار از طریق دستورات.

زبانها: en, zh

صدای شبیه

GPT-SoVITSGPT-SoVITS

صوت شبیه سازی چند شلیک TTS که هر صدا را از تنها ۵ ثانیه صدا تکرار می‌کند.

زبانها: en, zh, ja, ko

صدای شبیه

ChatterboxChatterbox

نوعی از صوت‌شناسی است که با استفاده از صوت‌شناسی تصادفی و صوت‌شناسی تصادفی-مرتبط به بررسی صوت می‌پردازد.

زبانها: en

صدای شبیه

Tortoise TTSTortoise TTS

متن-به-گفتار چند صدایی بر کیفیت با معماری خودبازگشتی متمرکز است.

زبانها: en

صدای شبیه

OpenVoiceOpenVoice

شبیه‌سازی فوری صدا با کنترل دقیق بر روی سبک، احساسات و لهجه.

زبانها: en, zh, ja, ko, fr, de, es, it

صدای شبیه

Qwen3 TTSQwen3 TTS

TTS چندزبانه علی‌بابا با شبیه‌سازی صدا، صداهای پیش‌فرض و طراحی صدا از متن.

زبانها: en, zh, ja, ko, de, fr, ru, pt, es, it

صدای شبیه

API توسعه‌دهنده اول

API REST سازگار با OpenAI. یک نقطه پایانی، ۲۲+ مدل. پشتیبانی جریانی برای برنامه‌های کاربردی زمان واقعی.

  • قالب سازگار با OpenAI
  • پخش TTS برای برنامه‌های زمان واقعی
  • پردازش گروهی برای کارهای بزرگ
  • اطلاعیه‌های Webhook
نمایش مستندات API
pip install ttsai npm install @ttsainpm/ttsai
Python
from tts_ai import TTSClient

client = TTSClient(api_key="sk-tts-xxx")
audio = client.generate(
    text="Hello from TTS.ai!",
    model="kokoro",
    voice="af_bella",
)
client.save(audio, "output.mp3")

قیمت‌گذاری ساده و شفاف

آزاد شروع کنيد و با بزرگ شدن بزرگ تر بشينيد

آزاد

$0

15 امتیاز

  • Kokoro, Piper, VITS, MeloTTS
  • محدودیت ۵۰۰ نویسه
  • ۳ ژن/ساعت (حسابی نیست)
ثبت نام

آغازگر

$9/% 1 دقیقه

500 امتیاز/ماه

  • 22+ مدل
  • صد هزار حرف در هر نسل
  • شبیه‌سازی صدا
شروع
محبوب‌ترین

حرفه اي

$29/% 1 دقیقه

2000 کرون/ماه

  • همه چیز در Starter
  • دسترسی API
  • پردازش اولویت
حرفه‌ای شوید

کار

$99/% 1 دقیقه

10,000 کرون/ماه

  • همه چيز در پرو
  • API انبوه
  • صف اولویت
کسب کار

نمایش همۀ نقشه‌ها از جمله بسته‌های کاراکتر →

پرسشهای متداول

TTS.ai جامع‌ترین پلتفرم صدای هوش مصنوعی است که بیش از ۲۲ مدل متن به گفتار، شبیه‌سازی صدا، گفتار به متن و ابزارهای صوتی را ارائه می‌دهد.

بله! TTS.ai متن به گفتار رایگان با مدل‌های Kokoro, Piper, VITS, و MeloTTS را ارائه می‌دهد. حسابی نیاز نیست. برای دریافت ۱۵ کرید رایگان و دسترسی به تمام مدل‌ها ثبت نام کنید. برنامه‌های پرداختی از ۹ دلار در ماه شروع می‌شوند.

برای سرعت ، از Kokoro یا Piper استفاده کنید. برای کیفیت ، CosyVoice ۲ یا StyleTTS ۲ را امتحان کنید. برای شبیه‌سازی صدا ، از Chatterbox یا GPT- SoVITS استفاده کنید. برای گفتگو ، از Dia TTS استفاده کنید. برای مقایسه ، مدلهای متعددی را روی متن یکسان امتحان کنید.

بله. API REST سازگار با OpenAI برای TTS، STT، شبیه‌سازی صدا و ابزارهای صوتی. در دسترس در برنامه‌های Pro ($29/mo) و Enterprise ($99/mo). مستندات را در tts.ai/api/ مشاهده کنید.

کیفیت صدا بسته به مدل متفاوت است. مدل‌های پریمیوم مانند CosyVoice 2، StyleTTS 2، و Chatterbox تولید سخنرانی با کیفیت نزدیک به انسانی با نغمه و احساس طبیعی می‌کنند. مدل‌های رایگان مانند Kokoro کیفیت فوق‌العاده‌ای برای اکثر موارد استفاده ارائه می‌دهند.

TTS.ai بیش از ۳۰ زبان را در کتابخانه مدل خود پشتیبانی می‌کند. انگلیسی گسترده‌ترین پشتیبانی مدل را دارد، اما مدل‌هایی مانند CosyVoice 2 چینی، ژاپنی و کره‌ای را پوشش می‌دهد؛ GPT-SoVITS چینی، ژاپنی، کره‌ای و انگلیسی را مدیریت می‌کند؛ و MeloTTS انگلیسی، اسپانیایی، فرانسوی، چینی، ژاپنی و کره‌ای را پشتیبانی می‌کند.

بله. همۀ پردازشها روی کارسازهای اختصاصی GPU ما انجام می‌شود. ما ورودی متنی شما یا صدای تولید شده را پس از تحویل ذخیره نمی‌کنیم. نمونه‌های صدای بارگذاری‌شده برای شبیه‌سازی فقط برای نشست جاری استفاده می‌شوند و نگه داشته نمی‌شوند. ما هرگز داده‌های شما را با شخص سوم به اشتراک نمی‌گذاریم یا از آن برای آموزش مدلها استفاده نمی‌کنیم.

بله. تمام صداهای تولید شده در TTS.ai برای استفاده تجاری شماست، از جمله برای ویدئوهای یوتیوب، پادکست‌ها، کتاب‌های صوتی، برنامه‌ها، تبلیغات و محصولات. مدل‌های ما تحت مجوزهای مجاز (MIT، Apache 2.0) منبع باز هستند. هیچ حق امتیاز یا ارجاعی لازم نیست.

TTS.ai به صورت پیش‌فرض صدا را در قالب WAV برای حداکثر کیفیت تولید می‌کند. می‌توانید با استفاده از ابزار مبدل صوتی رایگان ما به MP3 ، FLAC ، OGG یا M4A تبدیل کنید. API از مشخص کردن قالب خروجی مورد علاقه شما مستقیماً در درخواست پشتیبانی می‌کند.

یک نمونه صوتی کوتاه (حداقل ۵ ثانیه) از صدایی که می‌خواهید شبیه سازی کنید را بارگذاری کنید ، سپس هر متنی را برای تولید گفتار در آن صدا تایپ کنید. مدل‌هایی مانند Chatterbox ، GPT-SoVITS ، و CosyVoice 2 از شبیه سازی صدا پشتیبانی می‌کنند. صدای شبیه سازی شده صدا، لهجه و سبک گفتار را ضبط می‌کند.

مدل‌های رایگان (Kokoro, Piper, VITS, MeloTTS) نیازی به حساب ندارند و هزینهٔ کاراکترهای صفر را دارند. مدل‌های استاندارد (۲۰۰۰ کاراکتر/۱K ورودی) شامل Bark, CosyVoice 2, F5-TTS, و Dia. مدل‌های پرمیوم (۴۰۰۰ کاراکتر/۱K ورودی) شامل OpenVoice, Chatterbox, StyleTTS 2, و Tortoise.

بله. این رابط برنامه‌نویسی از پردازش گروهی برای تبدیل حجم‌های بزرگ متن به گفتار پشتیبانی می‌کند. درخواست‌های متعدد را ارسال کنید و نتایج را به صورت غیر همگام با استفاده از UUIDهای کار بازیابی کنید. برنامه‌های شرکتی ($99/mo) شامل دسترسی صف اولویت برای پردازش سریعتر گروهی است. ایده‌آل برای تولید کتاب صوتی، محتوای دوره، و پروژه‌های صداگذاری در مقیاس بزرگ.
4.0/5 (8)

امروز شروع به استفاده از صدای هوش مصنوعی کنید

به خالقان، توسعه دهندگان و کسب و کارها با استفاده از TTS.ai بپیوندید