هوش مصنوعی آزاد متن به گفتارName

31+ مدل های منبع باز، 231+ صداها، 34+ حساب مورد نیاز نیست.

8K+
ایجادکنندگان
30K+
نسلها
31+
مدلهای هوش مصنوعی
231+
صداها
0/500 نویسه‌ها · Sign up for 5,000 per generation → آزاد
دوست داريد TTS.ai؟ به دوستانتون بگو!

هر آنچه که برای هوش مصنوعی صوت نیاز دارید

بیش از ۳۰ ابزار که توسط مدل‌های هوش مصنوعی متن‌باز پشتیبانی می‌شوند

31+ مدل‌های صدای هوش مصنوعی

جامع‌ترین مجموعه مدل‌های TTS متن‌باز در یک پلتفرم

KokoroKokoro آزاد

Kokoro یک مدل ۸۲ میلیون پارامتر متن به گفتار است که بسیار بالاتر از کلاس وزن خود عمل می‌کند. با وجود اندازه کوچکش، سخنرانی‌های بسیار طبیعی و بیانی تولید می‌کند. Kokoro از زبان‌های متعددی از جمله انگلیسی، ژاپنی، چینی و کره‌ای با صداهای بیانی متنوع پشتیبانی می‌کند. به طرز باورنکردنی سریع اجرا می‌شود — تولید صدا تقریباً ۱۰۰ برابر سریعتر از زمان واقعی در یک GPU است.

بهترین برای: ترجمه متن به گفتار با کیفیت بالا و تأخیر کم، برنامه‌های کاربردی پخش

آزمایش رایگان

PiperPiper آزاد

پایپر یک موتور متن به گفتار سبک است که توسط راشسپی توسعه یافته و از معماری‌های VITS و larynx استفاده می‌کند. این موتور به‌طور کامل بر روی CPU اجرا می‌شود، که این باعث می‌شود برای دستگاه‌های کناری، اتوماسیون خانگی و برنامه‌هایی که نیاز به TTS آفلاین دارند ایده‌آل باشد. با بیش از ۱۰۰ صدا در ۳۰ زبان، پایپر حتی در یک Raspberry Pi 4 نیز گفتار طبیعی را با سرعت بی‌درنگ ارائه می‌دهد.

بهترین برای: پیش‌نمایش سریع، دسترسی‌پذیری، و برنامه‌های کاربردی جاسازی شده

آزمایش رایگان

VITSVITS آزاد

VITS (استنتاج متغیر با یادگیری رقابتی برای متن به گفتار پایان به پایان) یک روش TTS موازی پایان به پایان است که صدای طبیعی تر را نسبت به مدل‌های دو مرحله ای فعلی تولید می‌کند.

بهترین برای: متن به گفتار کاربردی با نظم طبیعیName

آزمایش رایگان

MeloTTSMeloTTS آزاد

MeloTTS توسط MyShell.ai یک کتابخانه چندزبانه TTS است که از انگلیسی (آمریکایی، بریتانیایی، هندی، استرالیایی)، اسپانیایی، فرانسوی، چینی، ژاپنی و کره‌ای پشتیبانی می‌کند. این کتابخانه بسیار سریع است و متن را با سرعتی نزدیک به زمان واقعی بر روی CPU پردازش می‌کند. MeloTTS برای استفاده در تولید طراحی شده و از استنتاج CPU و GPU پشتیبانی می‌کند.

بهترین برای: برنامه‌های کاربردی تولید نیازمند TTS سریع و چندزبانه هستند

آزمایش رایگان

OuteTTSOuteTTS آزاد

OuteTTS مدل‌های بزرگ زبان را با قابلیت‌های متن به گفتار گسترش می‌دهد در حالی که معماری اصلی را حفظ می‌کند. از چندین پشته پشتیبانی می‌کند از جمله llama.cpp (CPU / GPU)، Hugging Face Transformers، ExLlamaV2، VLLM، و حتی استنتاج مرورگر از طریق Transformers.js.

بهترین برای: انتشار Edge، TTS مبتنی بر مرورگر، محیط‌های کم منابع

آزمایش رایگان

Pocket TTSPocket TTS آزاد

Pocket TTS توسط Kyutai (سازندگان Moshi) یک مدل فشرده ۱۰۰M پارامتر متن به گفتار است که بسیار بالاتر از وزن خود عمل می‌کند. این به صورت کارآمد بر روی CPU اجرا می‌شود، از شبیه‌سازی صدای شلیک صفر از یک نمونه صوتی پشتیبانی می‌کند، و گفتاری با صدای طبیعی تولید می‌کند. اندازه کوچک مدل آن را برای گسترش لبه و محیط‌های کم منابع ایده‌آل می‌کند.

بهترین برای: انتشار سبک، محیط‌های تنها CPU، شبیه‌سازی سریع صدا

آزمایش رایگان

Kitten TTSKitten TTS آزاد

Kitten TTS by KittenML یک مدل متن به گفتار فوق سبک است که بر روی ONNX ساخته شده‌است. با انواع پارامترهای ۱۵M تا ۸۰M (۲۵-۸۰ MB در دیسک)، ترکیب صدای با کیفیت بالا را در CPU بدون نیاز به GPU ارائه می‌دهد. ویژگی‌های ۸ صدای درونی، سرعت گفتار تنظیم‌پذیر، و پیش‌پردازش متن درونی برای اعداد، واحدهای پول و واحدها. ایده‌آل برای پیاده‌سازی لبه و برنامه‌های کاربردی با تأخیر کم.

بهترین برای: TTS سبک و سریع، پیاده‌سازی لبه، برنامه‌های کاربردی با تأخیر کم

آزمایش رایگان

BarkBark پیش‌فرض

مدل متن-به-صدا مبتنی بر ترانسفورماتور که گفتار واقعی، موسیقی و جلوه‌های صوتی را تولید می‌کند.

توسعه‌دهنده: Suno · مجوز: MIT

سعي کن

Bark SmallBark Small پیش‌فرض

نسخه سبک‌تر Bark با استنتاج سریع‌تر و مصرف حافظه کمتر.

توسعه‌دهنده: Suno · مجوز: MIT

سعي کن

CosyVoice 2CosyVoice 2 پیش‌فرض

TTS پخش مقیاس پذیر علی‌بابا با طبیعیت انسانی و تأخیر نزدیک به صفر.

توسعه‌دهنده: Alibaba (Tongyi Lab) · مجوز: Apache 2.0

سعي کن

Dia TTSDia TTS پیش‌فرض

مدل تولید مکالمه چندگوینده که مکالمات طبیعی را بین گویندگان ایجاد می‌کند.

توسعه‌دهنده: Nari Labs · مجوز: Apache 2.0

سعي کن

Parler TTSParler TTS پیش‌فرض

زبانی که در آن سخن گفته می‌شود، زبانی است که در آن سخن گفته می‌شود و زبانی که در آن سخن گفته می‌شود زبانی است که در آن سخن گفته می‌شود.

توسعه‌دهنده: Hugging Face · مجوز: Apache 2.0

سعي کن

GLM-TTSGLM-TTS پیش‌فرض

کمترین میزان خطای کاراکتر را در بین مدل‌های TTS منبع باز بدست می‌آورد.

توسعه‌دهنده: Zhipu AI · مجوز: GLM-4 License

سعي کن

IndexTTS-2IndexTTS-2 پیش‌فرض

TTS Zero-shot با کنترل احساسات دقیق و بیان بالا.

توسعه‌دهنده: Index Team · مجوز: Bilibili Model License

سعي کن

Spark TTSSpark TTS پیش‌فرض

شبیه‌سازی صدای TTS با احساسات قابل کنترل و سبک گفتار از طریق دستورات.

توسعه‌دهنده: SparkAudio · مجوز: CC BY-NC-SA 4.0

سعي کن

GPT-SoVITSGPT-SoVITS پیش‌فرض

صوت شبیه سازی چند شلیک TTS که هر صدا را از تنها ۵ ثانیه صدا تکرار می‌کند.

توسعه‌دهنده: RVC-Boss · مجوز: MIT

سعي کن

OrpheusOrpheus پیش‌فرض

مدل TTS سطح احساسی انسان که بر روی ۱۰۰K ساعت داده‌های گفتاری آموزش دیده است.

توسعه‌دهنده: Canopy Labs · مجوز: Llama 3.2 Community

سعي کن

Qwen3 TTSQwen3 TTS پیش‌فرض

TTS چندزبانه علی‌بابا با شبیه‌سازی صدا، صداهای پیش‌فرض و طراحی صدا از متن.

توسعه‌دهنده: Alibaba (Qwen) · مجوز: Apache 2.0

سعي کن

Chatterbox TurboChatterbox Turbo پیش‌فرض

Chatterbox سریعتر با تأخیر زیر ۲۰۰ میلی ثانیه و برچسب‌های پارازبانی برای خنده، سرفه و غیره.

توسعه‌دهنده: Resemble AI · مجوز: MIT

سعي کن

Dia 2Dia 2 پیش‌فرض

اولین TTS مکالمه‌ای با گفتگوی چندگوینده و نشانه‌های پارازبانی.

توسعه‌دهنده: Nari Labs · مجوز: Apache 2.0

سعي کن

VoxCPMVoxCPM پیش‌فرض

TTS بدون توکنیزاتور تولید صدای ۴۴٫۱ کیلوهرتز با هماهنگی پاراگراف آگاه به متن.

توسعه‌دهنده: OpenBMB · مجوز: Apache 2.0

سعي کن

TADATADA پیش‌فرض

TTS با توهمات صفر با هم‌ترازسازی دوگانه متن-صوتی، ۵x سریعتر از TTS قابل مقایسه LLM است.

توسعه‌دهنده: Hume AI · مجوز: MIT

سعي کن

VibeVoiceVibeVoice پیش‌فرض

مدل مایکروسافت برای محتوای چند بلندگو مانند پادکست‌ها و کتاب‌های صوتی.

توسعه‌دهنده: Microsoft · مجوز: MIT

سعي کن

CosyVoice3CosyVoice3 پیش‌فرض

Next-generation multilingual TTS with bi-streaming, emotion control, and zero-shot voice cloning.

توسعه‌دهنده: Alibaba (FunAudioLLM) · مجوز: Apache 2.0

سعي کن

ChatterboxChatterbox پریمیوم

نوعی از صوت‌شناسی است که با استفاده از صوت‌شناسی تصادفی و صوت‌شناسی تصادفی-مرتبط به بررسی صوت می‌پردازد.

کیفیت:

سعي کن

Tortoise TTSTortoise TTS پریمیوم

متن-به-گفتار چند صدایی بر کیفیت با معماری خودبازگشتی متمرکز است.

کیفیت:

سعي کن

StyleTTS 2StyleTTS 2 پریمیوم

تئوری‌های تعاملی در ارتباط با تعاملات بین‌فردی و تعاملات گروهی.

کیفیت:

سعي کن

OpenVoiceOpenVoice پریمیوم

شبیه‌سازی صدای فوری با کنترل دقیق بر روی سبک، احساسات و لهجه.

کیفیت:

سعي کن

Sesame CSMSesame CSM پریمیوم

مدل گفتار مکالمه‌ای که گفتگوی طبیعی را با زمان‌بندی و احساس مناسب ایجاد می‌کند.

کیفیت:

سعي کن

MOSS-TTSMOSS-TTS پریمیوم

Ultra-long 20-language TTS supporting up to 1 hour of continuous generation with phoneme-level control.

کیفیت:

سعي کن

MegaTTS3MegaTTS3 پریمیوم

ByteDance's sparse alignment TTS with adjustable intelligibility vs. speaker similarity.

کیفیت:

سعي کن

CosyVoice 2CosyVoice 2

TTS پخش مقیاس پذیر علی‌بابا با طبیعیت انسانی و تأخیر نزدیک به صفر.

زبانها: en, zh, ja, ko, fr, de, it, es

صدای شبیه

GLM-TTSGLM-TTS

کمترین میزان خطای کاراکتر را در بین مدل‌های TTS منبع باز بدست می‌آورد.

زبانها: en, zh

صدای شبیه

IndexTTS-2IndexTTS-2

TTS Zero-shot با کنترل احساسات دقیق و بیان بالا.

زبانها: en, zh

صدای شبیه

Spark TTSSpark TTS

شبیه‌سازی صدای TTS با احساسات قابل کنترل و سبک گفتار از طریق دستورات.

زبانها: en, zh

صدای شبیه

GPT-SoVITSGPT-SoVITS

صوت شبیه سازی چند شلیک TTS که هر صدا را از تنها ۵ ثانیه صدا تکرار می‌کند.

زبانها: en, zh, ja, ko

صدای شبیه

ChatterboxChatterbox

نوعی از صوت‌شناسی است که با استفاده از صوت‌شناسی تصادفی و صوت‌شناسی تصادفی-مرتبط به بررسی صوت می‌پردازد.

زبانها: en

صدای شبیه

Tortoise TTSTortoise TTS

متن-به-گفتار چند صدایی بر کیفیت با معماری خودبازگشتی متمرکز است.

زبانها: en

صدای شبیه

OpenVoiceOpenVoice

شبیه‌سازی صدای فوری با کنترل دقیق بر روی سبک، احساسات و لهجه.

زبانها: en, zh, ja, ko, fr, de, es, it

صدای شبیه

Qwen3 TTSQwen3 TTS

TTS چندزبانه علی‌بابا با شبیه‌سازی صدا، صداهای پیش‌فرض و طراحی صدا از متن.

زبانها: en, zh, ja, ko, de, fr, ru, pt, es, it

صدای شبیه

Chatterbox TurboChatterbox Turbo

Chatterbox سریعتر با تأخیر زیر ۲۰۰ میلی ثانیه و برچسب‌های پارازبانی برای خنده، سرفه و غیره.

زبانها: en

صدای شبیه

VoxCPMVoxCPM

TTS بدون توکنیزاتور تولید صدای ۴۴٫۱ کیلوهرتز با هماهنگی پاراگراف آگاه به متن.

زبانها: en, zh

صدای شبیه

OuteTTSOuteTTS

LLM-based TTS که روی CPU، GPU، یا مرورگر از طریق llama.cpp و Transformers.js اجرا می‌شود.

زبانها: en

صدای شبیه

Pocket TTSPocket TTS

مدل پارامتر ۱۰۰M سبک توسط Kyutai با شبیه‌سازی صدا از یک نمونه.

زبانها: en, fr

صدای شبیه

CosyVoice3CosyVoice3

Next-generation multilingual TTS with bi-streaming, emotion control, and zero-shot voice cloning.

زبانها: en, zh, ja, ko, de, es, fr, it, ru

صدای شبیه

MOSS-TTSMOSS-TTS

Ultra-long 20-language TTS supporting up to 1 hour of continuous generation with phoneme-level control.

زبانها: en, zh, de, es, fr, ja, it, hu, ko, ru, fa, ar, pl, pt, cs, da, sv, el, tr

صدای شبیه

MegaTTS3MegaTTS3

ByteDance's sparse alignment TTS with adjustable intelligibility vs. speaker similarity.

زبانها: en, zh

صدای شبیه

رابط برنامه‌نویسی توسعه‌دهنده اول

API REST سازگار با OpenAI. یک نقطه پایانی، ۲۲+ مدل. پشتیبانی جریانی برای برنامه‌های کاربردی زمان واقعی.

  • قالب سازگار با OpenAI
  • پخش TTS برای برنامه‌های زمان واقعی
  • پردازش گروهی برای کارهای بزرگ
  • اطلاعیه‌های Webhook
نمایش مستندات API
pip install ttsai npm install @ttsainpm/ttsai
Python
from tts_ai import TTSClient

client = TTSClient(api_key="sk-tts-xxx")
audio = client.generate(
    text="Hello from TTS.ai!",
    model="kokoro",
    voice="af_bella",
)
client.save(audio, "output.mp3")

قیمت‌گذاری ساده و شفاف

آزاد شروع کنيد و با بزرگ شدن بزرگ تر بشينيد

آزاد

$0

15 امتیاز

  • Kokoro, Piper, VITS, MeloTTS
  • محدودیت ۵۰۰ نویسه
  • ۳ ژن/ساعت (حسابی نیست)
ثبت نام

آغازگر

$9/% 1 دقیقه

500 امتیاز/ماه

  • 22+ مدل
  • صد هزار حرف در هر نسل
  • شبیه‌سازی صدا
شروع
محبوب‌ترین

حرفه اي

$29/% 1 دقیقه

2000 کرون/ماه

  • همه چیز در Starter
  • دسترسی API
  • پردازش اولویت
حرفه‌ای شوید

کار

$99/% 1 دقیقه

10,000 کرون/ماه

  • همه چيز در پرو
  • API انبوه
  • صف اولویت
کسب کار

نمایش همۀ نقشه‌ها از جمله بسته‌های کاراکتر →

پرسشهای متداول

TTS.ai جامع‌ترین پلتفرم صدای هوش مصنوعی است که بیش از ۲۲ مدل متن به گفتار، شبیه‌سازی صدا، گفتار به متن و ابزارهای صوتی را ارائه می‌دهد.

بله! TTS.ai متن به گفتار رایگان با مدل‌های Kokoro, Piper, VITS, و MeloTTS را ارائه می‌دهد. حسابی نیاز نیست. برای دریافت ۱۵ کرید رایگان و دسترسی به تمام مدل‌ها ثبت نام کنید. برنامه‌های پرداختی از ۹ دلار در ماه شروع می‌شوند.

برای سرعت ، از Kokoro یا Piper استفاده کنید. برای کیفیت ، CosyVoice ۲ یا StyleTTS ۲ را امتحان کنید. برای شبیه‌سازی صدا ، از Chatterbox یا GPT- SoVITS استفاده کنید. برای گفتگو ، از Dia TTS استفاده کنید. برای مقایسه ، مدلهای متعددی را روی متن یکسان امتحان کنید.

بله. API REST OpenAI-compatible برای TTS، STT، شبیه‌سازی صدا، و ابزارهای صوتی. در دسترس در برنامه‌های Pro ($29/mo) و Enterprise ($99/mo). مستندات را در tts.ai/api/ مشاهده کنید.

کیفیت صدا بسته به مدل متفاوت است. مدل‌های پریمیوم مانند CosyVoice 2، StyleTTS 2، و Chatterbox تولید سخنرانی با کیفیت نزدیک به انسانی با نغمه و احساس طبیعی می‌کنند. مدل‌های رایگان مانند Kokoro کیفیت فوق‌العاده‌ای برای اکثر موارد استفاده ارائه می‌دهند.

TTS.ai بیش از ۳۰ زبان را در کتابخانه مدل خود پشتیبانی می‌کند. انگلیسی گسترده‌ترین پشتیبانی مدل را دارد، اما مدل‌هایی مانند CosyVoice 2 چینی، ژاپنی و کره‌ای را پوشش می‌دهد؛ GPT-SoVITS چینی، ژاپنی، کره‌ای و انگلیسی را مدیریت می‌کند؛ و MeloTTS انگلیسی، اسپانیایی، فرانسوی، چینی، ژاپنی و کره‌ای را پشتیبانی می‌کند.

بله. همۀ پردازشها روی کارسازهای اختصاصی GPU ما انجام می‌شود. ما ورودی متنی شما یا صدای تولید شده را پس از تحویل ذخیره نمی‌کنیم. نمونه‌های صدای بارگذاری‌شده برای شبیه‌سازی فقط برای نشست جاری استفاده می‌شوند و نگه داشته نمی‌شوند. ما هرگز داده‌های شما را با شخص سوم به اشتراک نمی‌گذاریم یا از آن برای آموزش مدلها استفاده نمی‌کنیم.

بله. تمام صداهای تولید شده در TTS.ai برای استفاده تجاری شماست، از جمله برای ویدئوهای یوتیوب، پادکست‌ها، کتاب‌های صوتی، برنامه‌ها، تبلیغات و محصولات. مدل‌های ما تحت مجوزهای مجاز (MIT، Apache 2.0) منبع باز هستند. هیچ حق امتیاز یا ارجاعی لازم نیست.

TTS.ai به صورت پیش‌فرض صدا را در قالب WAV برای حداکثر کیفیت تولید می‌کند. می‌توانید با استفاده از ابزار مبدل صوتی رایگان ما به MP3 ، FLAC ، OGG یا M4A تبدیل کنید. API از مشخص کردن قالب خروجی مورد علاقه شما مستقیماً در درخواست پشتیبانی می‌کند.

یک نمونه صوتی کوتاه (حداقل ۵ ثانیه) از صدایی که می‌خواهید شبیه سازی کنید را بارگذاری کنید ، سپس هر متنی را برای تولید گفتار در آن صدا تایپ کنید. مدل‌هایی مانند Chatterbox ، GPT-SoVITS ، و CosyVoice 2 از شبیه سازی صدا پشتیبانی می‌کنند. صدای شبیه سازی شده صدا، لهجه و سبک گفتار را ضبط می‌کند.

مدل‌های رایگان (Kokoro, Piper, VITS, MeloTTS) نیازی به حساب ندارند و هزینهٔ کاراکترهای صفر را دارند. مدل‌های استاندارد (۲۰۰۰ کاراکتر/۱K ورودی) شامل Bark, CosyVoice 2, F5-TTS, و Dia. مدل‌های پرمیوم (۴۰۰۰ کاراکتر/۱K ورودی) شامل OpenVoice, Chatterbox, StyleTTS 2, و Tortoise.

بله. این رابط برنامه‌نویسی از پردازش گروهی برای تبدیل حجم‌های بزرگ متن به گفتار پشتیبانی می‌کند. درخواست‌های متعدد را ارسال کنید و نتایج را به صورت غیر همگام با استفاده از UUIDهای کار بازیابی کنید. برنامه‌های شرکتی ($99/mo) شامل دسترسی صف اولویت برای پردازش سریعتر گروهی است. ایده‌آل برای تولید کتاب صوتی، محتوای دوره، و پروژه‌های صداگذاری در مقیاس بزرگ.
4.1/5 (21)

چه چیزی میتونیم بهتر کنیم؟ بازخورد شما به ما کمک میکنه مشکلات رو حل کنیم.

امروز شروع به استفاده از صدای هوش مصنوعی کنید

به خالقان، توسعه دهندگان و کسب و کارها با استفاده از TTS.ai بپیوندید