هوش مصنوعی آزاد متن به گفتارName
31+ مدل های منبع باز، 231+ صداها، 34+ حساب مورد نیاز نیست.
هر آنچه که برای هوش مصنوعی صوت نیاز دارید
بیش از ۳۰ ابزار که توسط مدلهای هوش مصنوعی متنباز پشتیبانی میشوند
31+ مدلهای صدای هوش مصنوعی
جامعترین مجموعه مدلهای TTS متنباز در یک پلتفرم
Kokoro آزاد
Kokoro یک مدل ۸۲ میلیون پارامتر متن به گفتار است که بسیار بالاتر از کلاس وزن خود عمل میکند. با وجود اندازه کوچکش، سخنرانیهای بسیار طبیعی و بیانی تولید میکند. Kokoro از زبانهای متعددی از جمله انگلیسی، ژاپنی، چینی و کرهای با صداهای بیانی متنوع پشتیبانی میکند. به طرز باورنکردنی سریع اجرا میشود — تولید صدا تقریباً ۱۰۰ برابر سریعتر از زمان واقعی در یک GPU است.
بهترین برای: ترجمه متن به گفتار با کیفیت بالا و تأخیر کم، برنامههای کاربردی پخش
آزمایش رایگان
Piper آزاد
پایپر یک موتور متن به گفتار سبک است که توسط راشسپی توسعه یافته و از معماریهای VITS و larynx استفاده میکند. این موتور بهطور کامل بر روی CPU اجرا میشود، که این باعث میشود برای دستگاههای کناری، اتوماسیون خانگی و برنامههایی که نیاز به TTS آفلاین دارند ایدهآل باشد. با بیش از ۱۰۰ صدا در ۳۰ زبان، پایپر حتی در یک Raspberry Pi 4 نیز گفتار طبیعی را با سرعت بیدرنگ ارائه میدهد.
بهترین برای: پیشنمایش سریع، دسترسیپذیری، و برنامههای کاربردی جاسازی شده
آزمایش رایگان
VITS آزاد
VITS (استنتاج متغیر با یادگیری رقابتی برای متن به گفتار پایان به پایان) یک روش TTS موازی پایان به پایان است که صدای طبیعی تر را نسبت به مدلهای دو مرحله ای فعلی تولید میکند.
بهترین برای: متن به گفتار کاربردی با نظم طبیعیName
آزمایش رایگان
MeloTTS آزاد
MeloTTS توسط MyShell.ai یک کتابخانه چندزبانه TTS است که از انگلیسی (آمریکایی، بریتانیایی، هندی، استرالیایی)، اسپانیایی، فرانسوی، چینی، ژاپنی و کرهای پشتیبانی میکند. این کتابخانه بسیار سریع است و متن را با سرعتی نزدیک به زمان واقعی بر روی CPU پردازش میکند. MeloTTS برای استفاده در تولید طراحی شده و از استنتاج CPU و GPU پشتیبانی میکند.
بهترین برای: برنامههای کاربردی تولید نیازمند TTS سریع و چندزبانه هستند
آزمایش رایگان
OuteTTS آزاد
OuteTTS مدلهای بزرگ زبان را با قابلیتهای متن به گفتار گسترش میدهد در حالی که معماری اصلی را حفظ میکند. از چندین پشته پشتیبانی میکند از جمله llama.cpp (CPU / GPU)، Hugging Face Transformers، ExLlamaV2، VLLM، و حتی استنتاج مرورگر از طریق Transformers.js.
بهترین برای: انتشار Edge، TTS مبتنی بر مرورگر، محیطهای کم منابع
آزمایش رایگان
Pocket TTS آزاد
Pocket TTS توسط Kyutai (سازندگان Moshi) یک مدل فشرده ۱۰۰M پارامتر متن به گفتار است که بسیار بالاتر از وزن خود عمل میکند. این به صورت کارآمد بر روی CPU اجرا میشود، از شبیهسازی صدای شلیک صفر از یک نمونه صوتی پشتیبانی میکند، و گفتاری با صدای طبیعی تولید میکند. اندازه کوچک مدل آن را برای گسترش لبه و محیطهای کم منابع ایدهآل میکند.
بهترین برای: انتشار سبک، محیطهای تنها CPU، شبیهسازی سریع صدا
آزمایش رایگان
Kitten TTS آزاد
Kitten TTS by KittenML یک مدل متن به گفتار فوق سبک است که بر روی ONNX ساخته شدهاست. با انواع پارامترهای ۱۵M تا ۸۰M (۲۵-۸۰ MB در دیسک)، ترکیب صدای با کیفیت بالا را در CPU بدون نیاز به GPU ارائه میدهد. ویژگیهای ۸ صدای درونی، سرعت گفتار تنظیمپذیر، و پیشپردازش متن درونی برای اعداد، واحدهای پول و واحدها. ایدهآل برای پیادهسازی لبه و برنامههای کاربردی با تأخیر کم.
بهترین برای: TTS سبک و سریع، پیادهسازی لبه، برنامههای کاربردی با تأخیر کم
آزمایش رایگان
Bark پیشفرض
مدل متن-به-صدا مبتنی بر ترانسفورماتور که گفتار واقعی، موسیقی و جلوههای صوتی را تولید میکند.
توسعهدهنده: Suno · مجوز: MIT
سعي کن
Bark Small پیشفرض
نسخه سبکتر Bark با استنتاج سریعتر و مصرف حافظه کمتر.
توسعهدهنده: Suno · مجوز: MIT
سعي کن
CosyVoice 2 پیشفرض
TTS پخش مقیاس پذیر علیبابا با طبیعیت انسانی و تأخیر نزدیک به صفر.
توسعهدهنده: Alibaba (Tongyi Lab) · مجوز: Apache 2.0
سعي کن
Dia TTS پیشفرض
مدل تولید مکالمه چندگوینده که مکالمات طبیعی را بین گویندگان ایجاد میکند.
توسعهدهنده: Nari Labs · مجوز: Apache 2.0
سعي کن
Parler TTS پیشفرض
زبانی که در آن سخن گفته میشود، زبانی است که در آن سخن گفته میشود و زبانی که در آن سخن گفته میشود زبانی است که در آن سخن گفته میشود.
توسعهدهنده: Hugging Face · مجوز: Apache 2.0
سعي کن
GLM-TTS پیشفرض
کمترین میزان خطای کاراکتر را در بین مدلهای TTS منبع باز بدست میآورد.
توسعهدهنده: Zhipu AI · مجوز: GLM-4 License
سعي کن
IndexTTS-2 پیشفرض
TTS Zero-shot با کنترل احساسات دقیق و بیان بالا.
توسعهدهنده: Index Team · مجوز: Bilibili Model License
سعي کن
Spark TTS پیشفرض
شبیهسازی صدای TTS با احساسات قابل کنترل و سبک گفتار از طریق دستورات.
توسعهدهنده: SparkAudio · مجوز: CC BY-NC-SA 4.0
سعي کن
GPT-SoVITS پیشفرض
صوت شبیه سازی چند شلیک TTS که هر صدا را از تنها ۵ ثانیه صدا تکرار میکند.
توسعهدهنده: RVC-Boss · مجوز: MIT
سعي کن
Orpheus پیشفرض
مدل TTS سطح احساسی انسان که بر روی ۱۰۰K ساعت دادههای گفتاری آموزش دیده است.
توسعهدهنده: Canopy Labs · مجوز: Llama 3.2 Community
سعي کن
Qwen3 TTS پیشفرض
TTS چندزبانه علیبابا با شبیهسازی صدا، صداهای پیشفرض و طراحی صدا از متن.
توسعهدهنده: Alibaba (Qwen) · مجوز: Apache 2.0
سعي کن
Chatterbox Turbo پیشفرض
Chatterbox سریعتر با تأخیر زیر ۲۰۰ میلی ثانیه و برچسبهای پارازبانی برای خنده، سرفه و غیره.
توسعهدهنده: Resemble AI · مجوز: MIT
سعي کن
Dia 2 پیشفرض
اولین TTS مکالمهای با گفتگوی چندگوینده و نشانههای پارازبانی.
توسعهدهنده: Nari Labs · مجوز: Apache 2.0
سعي کن
VoxCPM پیشفرض
TTS بدون توکنیزاتور تولید صدای ۴۴٫۱ کیلوهرتز با هماهنگی پاراگراف آگاه به متن.
توسعهدهنده: OpenBMB · مجوز: Apache 2.0
سعي کن
TADA پیشفرض
TTS با توهمات صفر با همترازسازی دوگانه متن-صوتی، ۵x سریعتر از TTS قابل مقایسه LLM است.
توسعهدهنده: Hume AI · مجوز: MIT
سعي کن
VibeVoice پیشفرض
مدل مایکروسافت برای محتوای چند بلندگو مانند پادکستها و کتابهای صوتی.
توسعهدهنده: Microsoft · مجوز: MIT
سعي کن
CosyVoice3 پیشفرض
Next-generation multilingual TTS with bi-streaming, emotion control, and zero-shot voice cloning.
توسعهدهنده: Alibaba (FunAudioLLM) · مجوز: Apache 2.0
سعي کن
CosyVoice 2
TTS پخش مقیاس پذیر علیبابا با طبیعیت انسانی و تأخیر نزدیک به صفر.
زبانها: en, zh, ja, ko, fr, de, it, es
صدای شبیه
GLM-TTS
کمترین میزان خطای کاراکتر را در بین مدلهای TTS منبع باز بدست میآورد.
زبانها: en, zh
صدای شبیه
Spark TTS
شبیهسازی صدای TTS با احساسات قابل کنترل و سبک گفتار از طریق دستورات.
زبانها: en, zh
صدای شبیه
GPT-SoVITS
صوت شبیه سازی چند شلیک TTS که هر صدا را از تنها ۵ ثانیه صدا تکرار میکند.
زبانها: en, zh, ja, ko
صدای شبیه
Chatterbox
نوعی از صوتشناسی است که با استفاده از صوتشناسی تصادفی و صوتشناسی تصادفی-مرتبط به بررسی صوت میپردازد.
زبانها: en
صدای شبیه
OpenVoice
شبیهسازی صدای فوری با کنترل دقیق بر روی سبک، احساسات و لهجه.
زبانها: en, zh, ja, ko, fr, de, es, it
صدای شبیه
Qwen3 TTS
TTS چندزبانه علیبابا با شبیهسازی صدا، صداهای پیشفرض و طراحی صدا از متن.
زبانها: en, zh, ja, ko, de, fr, ru, pt, es, it
صدای شبیه
Chatterbox Turbo
Chatterbox سریعتر با تأخیر زیر ۲۰۰ میلی ثانیه و برچسبهای پارازبانی برای خنده، سرفه و غیره.
زبانها: en
صدای شبیه
VoxCPM
TTS بدون توکنیزاتور تولید صدای ۴۴٫۱ کیلوهرتز با هماهنگی پاراگراف آگاه به متن.
زبانها: en, zh
صدای شبیه
OuteTTS
LLM-based TTS که روی CPU، GPU، یا مرورگر از طریق llama.cpp و Transformers.js اجرا میشود.
زبانها: en
صدای شبیه
CosyVoice3
Next-generation multilingual TTS with bi-streaming, emotion control, and zero-shot voice cloning.
زبانها: en, zh, ja, ko, de, es, fr, it, ru
صدای شبیه
MOSS-TTS
Ultra-long 20-language TTS supporting up to 1 hour of continuous generation with phoneme-level control.
زبانها: en, zh, de, es, fr, ja, it, hu, ko, ru, fa, ar, pl, pt, cs, da, sv, el, tr
صدای شبیه
MegaTTS3
ByteDance's sparse alignment TTS with adjustable intelligibility vs. speaker similarity.
زبانها: en, zh
صدای شبیهرابط برنامهنویسی توسعهدهنده اول
API REST سازگار با OpenAI. یک نقطه پایانی، ۲۲+ مدل. پشتیبانی جریانی برای برنامههای کاربردی زمان واقعی.
- قالب سازگار با OpenAI
- پخش TTS برای برنامههای زمان واقعی
- پردازش گروهی برای کارهای بزرگ
- اطلاعیههای Webhook
pip install ttsai
npm install @ttsainpm/ttsai
from tts_ai import TTSClient
client = TTSClient(api_key="sk-tts-xxx")
audio = client.generate(
text="Hello from TTS.ai!",
model="kokoro",
voice="af_bella",
)
client.save(audio, "output.mp3")
قیمتگذاری ساده و شفاف
آزاد شروع کنيد و با بزرگ شدن بزرگ تر بشينيد
حرفه اي
2000 کرون/ماه
- همه چیز در Starter
- دسترسی API
- پردازش اولویت
پرسشهای متداول
چه چیزی میتونیم بهتر کنیم؟ بازخورد شما به ما کمک میکنه مشکلات رو حل کنیم.
امروز شروع به استفاده از صدای هوش مصنوعی کنید
به خالقان، توسعه دهندگان و کسب و کارها با استفاده از TTS.ai بپیوندید