هوش مصنوعی آزاد متن به گفتارName
33+ مدل های منبع باز، 273+ صداها، 33+ حساب مورد نیاز نیست.
هر آنچه که برای هوش مصنوعی صوت نیاز دارید
بیش از ۳۰ ابزار که توسط مدلهای هوش مصنوعی متنباز پشتیبانی میشوند
33+ مدلهای صدای هوش مصنوعی
جامعترین مجموعه مدلهای TTS متنباز در یک پلتفرم
Kokoro آزاد
Kokoro یک مدل ۸۲ میلیون پارامتر متن به گفتار است که بسیار بالاتر از کلاس وزن خود عمل میکند. با وجود اندازه کوچکش، سخنرانیهای بسیار طبیعی و بیانی تولید میکند. Kokoro از زبانهای متعددی از جمله انگلیسی، ژاپنی، چینی و کرهای با صداهای بیانی متنوع پشتیبانی میکند. به طرز باورنکردنی سریع اجرا میشود — تولید صدا تقریباً ۱۰۰ برابر سریعتر از زمان واقعی در یک GPU است.
بهترین برای: ترجمه متن به گفتار با کیفیت بالا و تأخیر کم، برنامههای کاربردی پخش
آزمایش رایگان
Piper آزاد
پایپر یک موتور متن به گفتار سبک است که توسط راشسپی توسعه یافته و از معماریهای VITS و larynx استفاده میکند. این موتور بهطور کامل بر روی CPU اجرا میشود، که این باعث میشود برای دستگاههای کناری، اتوماسیون خانگی و برنامههایی که نیاز به TTS آفلاین دارند ایدهآل باشد. با بیش از ۱۰۰ صدا در ۳۰ زبان، پایپر حتی در یک Raspberry Pi 4 نیز گفتار طبیعی را با سرعت بیدرنگ ارائه میدهد.
بهترین برای: پیشنمایش سریع، دسترسیپذیری، و برنامههای کاربردی جاسازی شده
آزمایش رایگان
VITS آزاد
VITS (استنتاج متغیر با یادگیری رقابتی برای متن به گفتار پایان به پایان) یک روش TTS موازی پایان به پایان است که صدای طبیعی تر را نسبت به مدلهای دو مرحله ای فعلی تولید میکند.
بهترین برای: متن به گفتار کاربردی با نظم طبیعیName
آزمایش رایگان
MeloTTS آزاد
MeloTTS توسط MyShell.ai یک کتابخانه چندزبانه TTS است که از انگلیسی (آمریکایی، بریتانیایی، هندی، استرالیایی)، اسپانیایی، فرانسوی، چینی، ژاپنی و کرهای پشتیبانی میکند. این کتابخانه بسیار سریع است و متن را با سرعتی نزدیک به زمان واقعی بر روی CPU پردازش میکند. MeloTTS برای استفاده در تولید طراحی شده و از استنتاج CPU و GPU پشتیبانی میکند.
بهترین برای: برنامههای کاربردی تولید نیازمند TTS سریع و چندزبانه هستند
آزمایش رایگان
Kani TTS 2 آزاد
Kani-TTS-2 توسط NineNineSix یک مدل پارامتر ۴۰۰M فوق سبک است که بر روی یک ستون فقرات مایع AI LFM2 با NVIDIA NanoCodec ساخته شده است. این تنها در ۳ گیگابایت VRAM اجرا میشود و در حدود ۱۰ ثانیه سخنرانی در حدود ۲ ثانیه در یک A100 (RTF 0.2) تولید میکند.
بهترین برای: تولید سریع انگلیسی بر روی سختافزار VRAM کم، پیشنمایش سریع
آزمایش رایگان
OuteTTS آزاد
OuteTTS مدلهای بزرگ زبان را با قابلیتهای متن به گفتار گسترش میدهد در حالی که معماری اصلی را حفظ میکند. از چندین پشته پشتیبانی میکند از جمله llama.cpp (CPU / GPU)، Hugging Face Transformers، ExLlamaV2، VLLM، و حتی استنتاج مرورگر از طریق Transformers.js.
بهترین برای: انتشار Edge، TTS مبتنی بر مرورگر، محیطهای کم منابع
آزمایش رایگان
Pocket TTS آزاد
Pocket TTS توسط Kyutai (سازندگان Moshi) یک مدل فشرده ۱۰۰M پارامتر متن به گفتار است که بسیار بالاتر از وزن خود عمل میکند. این به صورت کارآمد بر روی CPU اجرا میشود، از شبیهسازی صدای شلیک صفر از یک نمونه صوتی پشتیبانی میکند، و گفتاری با صدای طبیعی تولید میکند. اندازه کوچک مدل آن را برای گسترش لبه و محیطهای کم منابع ایدهآل میکند.
بهترین برای: انتشار سبک، محیطهای تنها CPU، شبیهسازی سریع صدا
آزمایش رایگان
Kitten TTS آزاد
Kitten TTS by KittenML یک مدل متن به گفتار فوق سبک است که بر روی ONNX ساخته شدهاست. با انواع پارامترهای ۱۵M تا ۸۰M (۲۵-۸۰ MB در دیسک)، ترکیب صدای با کیفیت بالا را در CPU بدون نیاز به GPU ارائه میدهد. ویژگیهای ۸ صدای درونی، سرعت گفتار تنظیمپذیر، و پیشپردازش متن درونی برای اعداد، واحدهای پول و واحدها. ایدهآل برای پیادهسازی لبه و برنامههای کاربردی با تأخیر کم.
بهترین برای: TTS سبک و سریع، پیادهسازی لبه، برنامههای کاربردی با تأخیر کم
آزمایش رایگان
Ming-Omni TTS آزاد
Ming-omni-tts-0.5B توسط inclusionAI یک مدل گفتار همهمودل فشرده است که بر روی ستون فقرات چگال BailingMM با یک رمزگشایی صوتی Patch-by-Patch با هماهنگی جریان ساخته شدهاست. خروجی ۴۴٫۱ کیلوهرتز (نزدیک به کیفیت سیدی) را ارائه میدهد، از شبیهسازی صدای صفر-شلیک از یک مرجع ۳+ ثانیه پشتیبانی میکند، و شامل کنترل احساسات / گویش / BGM از طریق دستورالعملهای JSON است.
بهترین برای: راوی دوزبانه با صدای کنترل شده، محتوای کتاب صوتی چینی
آزمایش رایگان
MOSS-TTS Nano آزاد
MOSS-TTS-Nano-100M یک نسخه فشرده ۱۰۰ مگابایتی از خانواده MOSS-TTS است که معماری تبدیلکننده تأخیر را به اشتراک میگذارد. ۸B مدل کیفیت بالایی را برای وزنهای ~۸۰x کوچکتر و به طور چشمگیری برای هر درخواست VRAM پایینتر، مناسب برای پیادهسازیهای لایه آزاد و با کارایی بالا فراهم میکند.
بهترین برای: TTS لایه آزاد، تولید حجم بالا، استفاده تعاملی با تأخیر کم
آزمایش رایگان
Bark پیشفرض
مدل متن-به-صدا مبتنی بر ترانسفورماتور که گفتار واقعی، موسیقی و جلوههای صوتی را تولید میکند.
توسعهدهنده: Suno · مجوز: MIT
سعي کن
Bark Small پیشفرض
نسخه سبکتر Bark با استنتاج سریعتر و مصرف حافظه کمتر.
توسعهدهنده: Suno · مجوز: MIT
سعي کن
CosyVoice 2 پیشفرض
TTS پخش مقیاس پذیر علیبابا با طبیعیت انسانی و تأخیر نزدیک به صفر.
توسعهدهنده: Alibaba (Tongyi Lab) · مجوز: Apache 2.0
سعي کن
Dia TTS پیشفرض
مدل تولید مکالمه چندگوینده که مکالمات طبیعی را بین گویندگان ایجاد میکند.
توسعهدهنده: Nari Labs · مجوز: Apache 2.0
سعي کن
Parler TTS پیشفرض
زبانی که در آن سخن گفته میشود، زبانی است که در آن سخن گفته میشود و زبانی که در آن سخن گفته میشود زبانی است که در آن سخن گفته میشود.
توسعهدهنده: Hugging Face · مجوز: Apache 2.0
سعي کن
IndexTTS-2 پیشفرض
TTS Zero-shot با کنترل احساسات دقیق و بیان بالا.
توسعهدهنده: Index Team · مجوز: Bilibili Model License
سعي کن
Spark TTS پیشفرض
شبیهسازی صدای TTS با احساسات قابل کنترل و سبک گفتار از طریق دستورات.
توسعهدهنده: SparkAudio · مجوز: CC BY-NC-SA 4.0
سعي کن
GPT-SoVITS پیشفرض
صوت شبیه سازی چند شلیک TTS که هر صدا را از تنها ۵ ثانیه صدا تکرار میکند.
توسعهدهنده: RVC-Boss · مجوز: MIT
سعي کن
Orpheus پیشفرض
مدل TTS سطح احساسی انسان که بر روی ۱۰۰K ساعت دادههای گفتاری آموزش دیده است.
توسعهدهنده: Canopy Labs · مجوز: Llama 3.2 Community
سعي کن
Qwen3 TTS پیشفرض
TTS چندزبانه علیبابا با صداهای پیشفرض و طراحی صدا از متن.
توسعهدهنده: Alibaba (Qwen) · مجوز: Apache 2.0
سعي کن
VieNeu-TTS-v2 پیشفرض
ویتنامی + انگلیسی با تغییر کد TTS با ۷ صدای پیشفرض و شبیهسازی صدای صفر-شلیک. فقط CPU، GPU مورد نیاز نیست.
توسعهدهنده: Phạm Nguyễn Ngọc Bảo · مجوز: Apache 2.0
سعي کن
Chatterbox Turbo پیشفرض
Chatterbox سریعتر با تأخیر زیر ۲۰۰ میلی ثانیه و برچسبهای پارازبانی برای خنده، سرفه و غیره.
توسعهدهنده: Resemble AI · مجوز: MIT
سعي کن
VoxCPM پیشفرض
TTS بدون توکنیزاتور تولید صدای ۴۴٫۱ کیلوهرتز با هماهنگی پاراگراف آگاه به متن.
توسعهدهنده: OpenBMB · مجوز: Apache 2.0
سعي کن
VibeVoice پیشفرض
مدل مایکروسافت برای محتوای چند بلندگو مانند پادکستها و کتابهای صوتی.
توسعهدهنده: Microsoft · مجوز: MIT
سعي کن
CosyVoice3 پیشفرض
نسل بعدی چندزبانه TTS با دو جریان، کنترل احساسات، و شبیهسازی صدای صفر-شلیک.
توسعهدهنده: Alibaba (FunAudioLLM) · مجوز: Apache 2.0
سعي کن
NAMAA Saudi TTS پیشفرض
اولین TTS عربی سعودی باز. گویش محلی عربستان با شبیهسازی صدای با کیفیت Chatterbox.
توسعهدهنده: NAMAA Space · مجوز: MIT
سعي کن
Darwin TTS پیشفرض
Qwen3-TTS با وزن FFN ترکیب شده از Qwen3-1.7B مدل زبان برای شبیهسازی چند زبانه تیزتر.
توسعهدهنده: FINAL-Bench · مجوز: Apache 2.0
سعي کن
MOSS-TTSD پیشفرض
مدل ادامهٔ گفتگوی چند بلندگو — تولید مکالمات به سبک پادکست با حداکثر ۵ بلندگو و ۶۰ دقیقه صدای هماهنگ.
توسعهدهنده: OpenMOSS · مجوز: Apache 2.0
سعي کن
CosyVoice 2
TTS پخش مقیاس پذیر علیبابا با طبیعیت انسانی و تأخیر نزدیک به صفر.
زبانها: en, zh, ja, ko, fr, de, it, es
صدای شبیه
Spark TTS
شبیهسازی صدای TTS با احساسات قابل کنترل و سبک گفتار از طریق دستورات.
زبانها: en, zh
صدای شبیه
GPT-SoVITS
صوت شبیه سازی چند شلیک TTS که هر صدا را از تنها ۵ ثانیه صدا تکرار میکند.
زبانها: en, zh, ja, ko
صدای شبیه
Chatterbox
نوعی از صوتشناسی است که با استفاده از صوتشناسی تصادفی و صوتشناسی تصادفی-مرتبط به بررسی صوت میپردازد.
زبانها: en
صدای شبیه
OpenVoice
شبیهسازی صدای فوری با کنترل دقیق بر روی سبک، احساسات و لهجه.
زبانها: en, zh, ja, ko, fr, es
صدای شبیه
VieNeu-TTS-v2
ویتنامی + انگلیسی با تغییر کد TTS با ۷ صدای پیشفرض و شبیهسازی صدای صفر-شلیک. فقط CPU، GPU مورد نیاز نیست.
زبانها: vi, en
صدای شبیه
Chatterbox Turbo
Chatterbox سریعتر با تأخیر زیر ۲۰۰ میلی ثانیه و برچسبهای پارازبانی برای خنده، سرفه و غیره.
زبانها: en
صدای شبیه
VoxCPM
TTS بدون توکنیزاتور تولید صدای ۴۴٫۱ کیلوهرتز با هماهنگی پاراگراف آگاه به متن.
زبانها: en, zh
صدای شبیه
OuteTTS
LLM-based TTS که روی CPU، GPU، یا مرورگر از طریق llama.cpp و Transformers.js اجرا میشود.
زبانها: en
صدای شبیه
CosyVoice3
نسل بعدی چندزبانه TTS با دو جریان، کنترل احساسات، و شبیهسازی صدای صفر-شلیک.
زبانها: en, zh, ja, ko, de, es, fr, it, ru
صدای شبیه
NAMAA Saudi TTS
اولین TTS عربی سعودی باز. گویش محلی عربستان با شبیهسازی صدای با کیفیت Chatterbox.
زبانها: ar
صدای شبیه
Darwin TTS
Qwen3-TTS با وزن FFN ترکیب شده از Qwen3-1.7B مدل زبان برای شبیهسازی چند زبانه تیزتر.
زبانها: en, ko, ja, zh
صدای شبیه
MOSS-TTSD
مدل ادامهٔ گفتگوی چند بلندگو — تولید مکالمات به سبک پادکست با حداکثر ۵ بلندگو و ۶۰ دقیقه صدای هماهنگ.
زبانها: en, zh
صدای شبیه
Ming-Omni TTS
مدل گفتار هممود 0.5B از inclusionAI با خروجی ۴۴٫۱kHz با صدای خالص و شبیهسازی صدای صفر-شلیک.
زبانها: en, zh
صدای شبیه
MOSS-TTS Nano
Tiny 100M MOSS-TTS variant — همان معماری، ۸۰x کوچکتر، تاخیر لایه آزاد.
زبانها: en, zh, de, es, fr, ja, it, ko, ru, ar, pt
صدای شبیهرابط برنامهنویسی توسعهدهنده اول
API REST سازگار با OpenAI. یک نقطه پایانی، ۲۲+ مدل. پشتیبانی جریانی برای برنامههای کاربردی زمان واقعی.
- قالب سازگار با OpenAI
- پخش TTS برای برنامههای زمان واقعی
- پردازش گروهی برای کارهای بزرگ
- اطلاعیههای Webhook
pip install ttsai
npm install @ttsainpm/ttsai
from tts_ai import TTSClient
client = TTSClient(api_key="sk-tts-xxx")
audio = client.generate(
text="Hello from TTS.ai!",
model="kokoro",
voice="af_bella",
)
client.save(audio, "output.mp3")
قیمتگذاری ساده و شفاف
آزاد شروع کنيد و با بزرگ شدن بزرگ تر بشينيد
آزاد
15,000 کاراکتر + 5,000/روز
- 7 مدل آزاد از جمله کوکورو
- ۵۰۰۰ کاراکتر در هر نسل
- دسترسی API شامل
حرفه اي
2000 کرون/ماه
- همه چیز در Starter
- دسترسی API
- پردازش اولویت
پرسشهای متداول
چه چیزی میتونیم بهتر کنیم؟ بازخورد شما به ما کمک میکنه مشکلات رو حل کنیم.
امروز شروع به استفاده از صدای هوش مصنوعی کنید
به خالقان، توسعه دهندگان و کسب و کارها با استفاده از TTS.ai بپیوندید