هوش مصنوعی آزاد متن به گفتارName

پارامترهای ۸۲M فوق سریع صداهای بیانگر چندزبانه پشتیبانی جریان

مدل پارامتر سبک وزن 82M ارائه سخنرانی با کیفیت استودیو با استنتاج سریع.

سریع · 1.5GB VRAM سعي کن

Piper

پردازنده دوستدار قابلیت برون‌خط صدها صدا 35 زبان پشتیبانی SSML

یک سیستم متن به گفتار عصبی محلی سریع بهینه شده برای رزبری پای و دستگاه‌های جاسازی شده.

سریع · 0 (CPU only) VRAM سعي کن

VITS

ترکیب پایان به پایان نظم طبیعی استنتاج سریع چند بلندگو

کدگذار خودکار متغیر شرطی با یادگیری رقابتی برای متن به گفتار از ابتدا تا انتهای آن.

سریع · 1GB VRAM سعي کن

MeloTTS

بهینه‌سازی پردازنده چندزبانه لهجه‌های چندگانه آماده تولید تأخیر کم

متن به گفتار چندزبانه با کیفیت بالا که در CPU با تأخیر کم اجرا می‌شود.

سریع · 0.5GB (GPU optional) VRAM سعي کن

Bark

جلوه‌های صوتی خنده/آهسته نفس کشيدن تولید موسیقی 100+ سخنران چندزبانه

مدل متن-به-صدا مبتنی بر ترانسفورماتور که گفتار واقعی، موسیقی و جلوه‌های صوتی را تولید می‌کند.

آهسته · 5GB VRAM سعي کن

Bark Small

سبک سریعتر از پوست کامل گفتار احساسی چندزبانه

نسخه سبک‌تر Bark با استنتاج سریع‌تر و مصرف حافظه کمتر.

متوسط · 2GB VRAM سعي کن

CosyVoice 2

جریان شبیه‌سازی شلیک صفر زبان‌شناسی کنترل احساسات تناسب انسانی

TTS پخش مقیاس پذیر علی‌بابا با طبیعیت انسانی و تأخیر نزدیک به صفر.

Dia TTS

چند بلندگو تولید محاوره‌ها نوبت گرفتن طبيعي بیان احساسات پارامترهای ۱٫ ۶ب

مدل تولید مکالمه چندگوینده که مکالمات طبیعی را بین گویندگان ایجاد می‌کند.

Parler TTS

توصیف صوتی کنترل زبان طبیعی ایجاد صدای انعطاف‌پذیر نیازی به صداهای پیش‌فرض نیست

زبانی که در آن سخن گفته می‌شود، زبانی است که در آن سخن گفته می‌شود و زبانی که در آن سخن گفته می‌شود زبانی است که در آن سخن گفته می‌شود.

Indic Parler TTS

زبان هندی توصیف صدا کنترل زبان طبیعی تلفظ هندی اصیل

زبان فارسی با ۸۰ میلیون گویشور، زبان رسمی کشور ایران است.

آهسته · 8GB VRAM سعي کن

KhanomTan TTS

تایلند TTS چند بلندگو معماری YourTTS مجوز تجاری- امن

گویندهٔ اصلی این برنامهٔ تلویزیونی، با صدای همایون شجریان است.

سریع · 2GB VRAM سعي کن

IndexTTS-2

کنترل احساسات شليک صفر بردارهای احساس سخنرانی بیانی کنترل دانه ریز

TTS Zero-shot با کنترل احساسات دقیق و بیان بالا.

Spark TTS

شبیه‌سازی صدا کنترل احساسات کنترل سبک برپایه درخواست شبيه سازي 5 ثانيه اي

شبیه‌سازی صدای TTS با احساسات قابل کنترل و سبک گفتار از طریق دستورات.

GPT-SoVITS

شبيه سازي 5 ثانيه اي صداي آواز چند تا شليک ياد گرفتم دقيق زبانهای مختلف

صوت شبیه سازی چند شلیک TTS که هر صدا را از تنها ۵ ثانیه صدا تکرار می‌کند.

آهسته · 6GB VRAM سعي کن

Orpheus

احساسات سطح انسان صد هزار ساعت آموزش تأکید طبیعی سخنرانی بیانی

مدل TTS سطح احساسی انسان که بر روی ۱۰۰K ساعت داده‌های گفتاری آموزش دیده است.

Chatterbox

شبیه‌سازی با شلیک صفر کنترل احساسات دقيق انتقال سبک شبیه‌سازی نمونه تکی

نوعی از صوت‌شناسی است که با استفاده از صوت‌شناسی تصادفی و صوت‌شناسی تصادفی-مرتبط به بررسی صوت می‌پردازد.

Tortoise TTS

بالاترین کیفیت چند صدا معماری DALL-E شبیه‌سازی صدا خودبازگشتی

متن-به-گفتار چند صدایی بر کیفیت با معماری خودبازگشتی متمرکز است.

آهسته · 8GB VRAM سعي کن

StyleTTS 2

سطح انسانی انتشار سبک آموزش رقابتی تنوع طبیعی دقيق

تئوری‌های تعاملی در ارتباط با تعاملات بین‌فردی و تعاملات گروهی.

OpenVoice

شبیه‌سازی فوری تبدیل صدا کنترل احساسات کنترل لهجه چندزبانه

شبیه‌سازی صدای فوری با کنترل دقیق بر روی سبک، احساسات و لهجه.

Qwen3 TTS

۹ صدای پیش‌فرض طراحی صدا از متن کنترل احساسات زبان‌ها

TTS چندزبانه علی‌بابا با صداهای پیش‌فرض و طراحی صدا از متن.

متوسط · 7GB VRAM سعي کن

VieNeu-TTS-v2

۷ صدای پیش‌فرض) لهجه‌های شمال + جنوب ( رمز عبور En-Vi شبیه‌سازی صدا (مرجع ۳-۵ ثانیه) پشتیبانی پادکست / چند بلندگو فقط CPU — GPU مورد نیاز نیست

ویتنامی + انگلیسی با تغییر کد TTS با ۷ صدای پیش‌فرض و شبیه‌سازی صدای صفر-شلیک. فقط CPU، GPU مورد نیاز نیست.

سریع · CPU VRAM سعي کن

Sesame CSM

مکالمه زمانبندی طبیعی نوبت گرفتن کانال عقب پارامترهای 1B

مدل گفتار مکالمه‌ای که گفتگوی طبیعی را با زمان‌بندی و احساس مناسب ایجاد می‌کند.

آهسته · 8GB VRAM سعي کن

Chatterbox Turbo

تأخیر زیر ۲۰۰ میلی‌ثانیه برچسبهای زبانی زمان واقعی ۶x شبیه‌سازی صدا نشان آبی

Chatterbox سریعتر با تأخیر زیر ۲۰۰ میلی ثانیه و برچسب‌های پارازبانی برای خنده، سرفه و غیره.

سریع · 2GB VRAM سعي کن

VoxCPM

صدای ۴۴٫۱ کیلوهرتز بدون توکن‌ساز شبیه‌سازی بین زبانی حساس به متن تنظیم دقیق LoRA

TTS بدون توکنیزاتور تولید صدای ۴۴٫۱ کیلوهرتز با هماهنگی پاراگراف آگاه به متن.

سریع · 4GB VRAM سعي کن

Kani TTS 2

۳ گیگابایت VRAM فوق سریع سبک کدک نانو آزاد

مدل TTS انگلیسی ۴۰۰ مگابایتی بسیار سبک که تنها ۳ گیگابایت VRAM دارد.

سریع · 3GB VRAM سعي کن

OuteTTS

استنتاج CPU مرورگر پشتههای چندگانه پروفایلهای بلندگو

LLM-based TTS که روی CPU، GPU، یا مرورگر از طریق llama.cpp و Transformers.js اجرا می‌شود.

آهسته · 2GB VRAM سعي کن

VibeVoice

چند بلندگو تا ۹۰ دقیقه تولید پادکست هماهنگی بلندگو جریان ۲۰۰ میلی‌ثانیه

مدل مایکروسافت برای محتوای چند بلندگو مانند پادکست‌ها و کتاب‌های صوتی.

سریع · 4GB VRAM سعي کن

Pocket TTS

پارامترهای ۱۰۰M استنتاج CPU شبیه‌سازی صدا شبیه‌سازی تک نمونه آماده برای لبه‌ها

مدل پارامتر ۱۰۰M سبک توسط Kyutai با شبیه‌سازی صدا از یک نمونه.

سریع · 1GB VRAM سعي کن

Kitten TTS

استنتاج تنها CPU اندازه مدل کمتر از ۸۰ مگابایت ۸ صدای درونی کنترل سرعت مبتنی بر ONNX خروجی ۲۴ کیلوهرتز

TTS فوق سبک وزن زیر ۸۰ مگابایت. روی CPU بدون GPU اجرا می‌شود.

سریع · 0GB VRAM سعي کن

CosyVoice3

دو جریان کنترل احساسات شبیه‌سازی صدا کنترل سرعت/صدا دستورالعمل دنباله

نسل بعدی چندزبانه TTS با دو جریان، کنترل احساسات، و شبیه‌سازی صدای صفر-شلیک.

سریع · 4GB VRAM سعي کن

NAMAA Saudi TTS

زبان عربی عربی استاندارد مدرن شبیه‌سازی صدای Zero-shot کنترل احساسات تلفظ بومی

اولین TTS عربی سعودی باز. گویش محلی عربستان با شبیه‌سازی صدای با کیفیت Chatterbox.

متوسط · 6GB VRAM سعي کن

Darwin TTS

شبیه‌سازی صدا زبانهای مختلف مخلوط FFN زبانهای اصلی پشته Qwen3

Qwen3-TTS با وزن FFN ترکیب شده از Qwen3-1.7B مدل زبان برای شبیه‌سازی چند زبانه تیزتر.

متوسط · 7GB VRAM سعي کن

MOSS-TTSD

محاورۀ چند بلندگو تا ۵ بلندگو صدای هماهنگ ۶۰ دقیقه شبیه‌سازی صدا بهینه‌سازی پادکست

مدل ادامهٔ گفتگوی چند بلندگو — تولید مکالمات به سبک پادکست با حداکثر ۵ بلندگو و ۶۰ دقیقه صدای هماهنگ.

متوسط · 12GB VRAM سعي کن

Ming-Omni TTS

خروجی ۴۴٫ ۱ کیلوهرتز شبیه‌سازی صدا کنترل احساسات کنترل لهجه تولید BGM فشرده ۰٫ ۵B

مدل گفتار هم‌مود 0.5B از inclusionAI با خروجی ۴۴٫۱kHz با صدای خالص و شبیه‌سازی صدای صفر-شلیک.

متوسط · 3GB VRAM سعي کن

MOSS-TTS Nano