گزارش اشکال / درخواست ویژگی

مدل‌های متن به گفتار متن باز

هر مدل TTS در پلتفرم ما منبع باز با مجوزهای تجاری دوستانه است. MIT, Apache 2.0 — بدون قفل انحصاری، بدون محدودیت استفاده، بدون هزینه‌های مجوز غیرمنتظره. از آنها از طریق API میزبان ما استفاده کنید، یا خودتان آنها را در زیرساخت خود با کنترل کامل میزبانی کنید.

متن باز مجوز MIT آپاچی ۲٫ ۰ خودمیزبان گیت‌هاب

ویرایشگر کامل TTS مستندات API

حالا امتحانش کن

0/500

آزاد با Kokoro, Piper, VITS, MeloTTS

صدای تولید شده شما در اینجا ظاهر خواهد شد

باز کردن ویرایشگر کامل TTS

مزایای متن باز TTS

چرا مدل‌های منبع باز برای پروژه‌های شما مهم هستند

همه با مجوز متن‌باز

هر مدل در TTS.ai از یک مجوز متن باز استفاده می‌کند. بدون جعبه سیاه انحصاری، بدون قفل فروشنده، بدون هزینه مجوز غیرمنتظره.

MIT / آپاچی ۲٫ ۰

مدل‌ها تحت MIT یا Apache 2.0، مجوزهای آزادترین منبع آزاد، مجوز داده شده‌اند.

خودمیزبان

هر مدلی را دانلود کنید و روی سخت‌افزار خودتان اجرا کنید. کنترل کامل بر روی داده‌ها، تأخیر و زیرساخت خودتان. نیازی به وابستگی به ابر نیست.

بهینه‌سازی GPU

مدل‌ها برای پردازنده‌های گرافیکی NVIDIA با پشتیبانی CUDA بهینه شده‌اند. Piper تنها روی CPU اجرا می‌شود. بیشتر مدل‌ها برای استنتاج کارآمد به ۲-۸ گیگابایت VRAM نیاز دارند.

نگهداری جامعه

انجمن‌های فعال متن‌باز این مدل‌ها را نگهداری و بهبود می‌دهند. مشارکت‌ها مورد استقبال قرار می‌گیرند - اشکالات، بهبودها و صداهای جدید را در GitHub ارسال کنید.

استفاده تجاری

ساخت محصولات، فروش خدمات، و ایجاد محتوای تجاری بدون حق امتیاز یا هزینه‌های استفاده.

فهرست مدل‌های منبع باز ما

هر مدل، مجوزش، و اونچه که بهتره

Kokoro

Free

Lightweight 82M parameter model delivering studio-quality speech with blazing-fast inference.

سریع 5/5

بهترین برای: آپاچی ۲٫۰ — بهترین کیفیت مدل آزاد، ۸۲ میلیون پارامتر، آسان برای خود میزبانی

سعي کن Kokoro

Piper

Free

A fast, local neural text to speech system optimized for Raspberry Pi and embedded devices.

سریع 3/5

بهترین برای: MIT — CPU-only، عالی برای دستگاه‌های کناری و self-hosting توکار

سعي کن Piper

VITS

Free

Conditional variational autoencoder with adversarial learning for end-to-end text-to-speech.

سریع 3/5

بهترین برای: MIT — معماری بنیادی که توسط بسیاری از مدل‌های پایین‌دست استفاده می‌شود.

سعي کن VITS

Bark

Standard

Transformer-based text-to-audio model that generates realistic speech, music, and sound effects.

آهسته 4/5

بهترین برای: MIT — قابلیت‌های منحصر به فرد تولید صدا فراتر از استاندارد TTS

سعي کن Bark

Tortoise TTS

Premium

Multi-voice text-to-speech focused on quality with autoregressive architecture.

آهسته 5/5 شبیه‌سازی صدا

بهترین برای: آپاچی ۲٫۰ — کیفیت حداکثری، پیاده‌سازی مرجع مورد مطالعه گسترده

سعي کن Tortoise TTS

OpenVoice

Premium

Instant voice cloning with granular control over style, emotion, and accent.

متوسط 4/5 شبیه‌سازی صدا

بهترین برای: MIT — کپی صدای متن باز با کنترل سبک دانه ای

سعي کن OpenVoice

چگونه از TTS متن‌باز استفاده کنیم

از API میزبان ما استفاده کنید یا خودتان مدل‌ها را اجرا کنید

مدل‌های متن‌باز را بررسی کنید

کاتالوگ ما از ۲۰+ مدل TTS متن‌باز را جستجو کنید. هر صفحه مدل مجوز، معماری، قابلیت‌ها و نیازمندی‌های خود میزبانی را نشان می‌دهد.

در مرورگرتان امتحان کنید

هر مدلی را مستقیماً روی TTS.ai بدون نصب هیچ چیز تست کنید. سرورهای GPU ما پردازش را انجام می‌دهند تا بتوانید کیفیت را قبل از تعهد به خود میزبانی ارزیابی کنید.

خود میزبان یا استفاده از API ما

کپی کردن مدل repo از GitHub و اجرا محلی، یا استفاده از API میزبان ما برای تولید. self-hosting می‌دهد کنترل کامل؛ API ما فراهم می‌کند زیرساخت مدیریت.

ساخت برنامه‌ی کاربردی خود

TTS را با استفاده از مدل‌های خود میزبانی شده یا API REST ما در محصول خود ادغام کنید. تمام مدل‌ها قابل استفاده تجاری هستند و هیچ هزینه مجوز یا حق امتیازی ندارند.

مقایسه مجوزها

تمام مدل‌ها در TTS.ai از مجوزهای آزاد تجاری استفاده می‌کنند.

مدل	مجوز	تخصیص
Kokoro	Apache 2.0	لازم
Piper	MIT	گزینشی
VITS	MIT	گزینشی
MeloTTS	MIT	گزینشی
Chatterbox	MIT	گزینشی
Tortoise TTS	Apache 2.0	لازم
StyleTTS 2	MIT	گزینشی
OpenVoice	MIT	گزینشی
Sesame CSM	Apache 2.0	لازم
Orpheus	Llama 3.2	"Built with Llama"

این مدل‌ها را مجانی امتحان کنید

وب‌گاه رسمی شرکت ایرباس

خودتون مدل ها رو اجرا کنين يا بذارين ما از پس زيرساخت ها بر بيايم

خودمیزبان در سخت‌افزار شما

هر مدل در TTS.ai به عنوان یک پروژه متن باز در GitHub یا Hugging Face در دسترس است. وزن‌ها را دانلود کنید، وابستگی‌ها را نصب کنید، و استنتاج را بر روی GPU خود اجرا کنید. شما کنترل کاملی بر روی تأخیر، حریم خصوصی و مقیاس‌بندی دارید.

حریم خصوصی کامل داده‌ها — صدا هرگز سرور شما را ترک نمی‌کند
بدون هزینه برای هر درخواست پس از تنظیم اولیه
تنظیمات دقیق سفارشی بر روی داده‌های خودتان
سخت‌افزار GPU مورد نیاز است (NVIDIA توصیه می‌شود)
شما به‌روزرسانی‌ها، مقیاس‌بندی و وابستگی‌ها را مدیریت می‌کنید

استفاده از API میزبان TTS.ai

دسترسی فوری به تمامی ۲۰ مدل از طریق یک API REST واحد. ما از پیش‌بینی GPU، به روزرسانی مدل، مدیریت صف و مقیاس‌بندی پشتیبانی می‌کنیم. یک کلید API به شما دسترسی به هر مدل را می‌دهد - نیازی به مدیریت انتشارات جداگانه نیست.

نیازی به سخت‌افزار GPU نیست
تمام ۲۰ مدل از طریق یک API
به روزرسانی و بهبود مدل خودکار
99.9% زمان فعاليت با زيرساخت اضافي
فقط براي چيزي که استفاده ميکني پول بده

به جای آن از API میزبان استفاده کنید

آغاز سریع: API یا خود میزبان

از API میزبان ما استفاده کنید، یا Kokoro را به صورت محلی در چند دقیقه نصب کنید

گزینه 1: TTS.ai API میزبان آسونترين

import requests

response = requests.post("https://api.tts.ai/v1/tts", json={
    "text": "Open source TTS with a simple API.",
    "model": "kokoro",
    "voice": "af_heart",
    "format": "wav"
}, headers={"Authorization": "Bearer YOUR_API_KEY"})

with open("output.wav", "wb") as f:
    f.write(response.content)

گزینۀ ۲: خود- میزبان با pip کنترل کامل

# Install Kokoro locally
pip install kokoro

# Generate speech on your own GPU
import kokoro

pipeline = kokoro.KPipeline(lang_code="a")
generator = pipeline("Hello from your own server!", voice="af_heart")
for i, (gs, ps, audio) in enumerate(generator):
    kokoro.save(audio, f"output_{i}.wav")

نمایش مستندات API

منبع باز، قیمت مقرون به صرفه

API میزبان ما TTS منبع باز را بدون مدیریت GPUها قابل دسترسی می‌کند.

لایۀ آزاد

50 کرون با ثبت نام

4 مدل متن باز رایگان
ثبت نام برای استفادهٔ اساسی وجود ندارد
استفاده تجاری مجاز است

آغازگر

۵۰ کاراکتر/ماه

تمام ۲۰+ مدل منبع باز
شبیه‌سازی صدا
دسترسی API

حرفه‌ای

$29

۲٬۰۰۰٬۰۰۰ کاراکتر/ماه

پردازش GPU اولویت‌دار
همه مدلهاي پريميوم
پشتیبانی شرکت

نمایش قیمت کامل

پرسشهای متداول

پرسش‌های متداول درباره متن متن باز به گفتار

بله. هر مدل در TTS.ai از یک مجوز متن‌باز اجازه‌دهنده استفاده می‌کند — یا MIT یا Apache 2.0. ما به‌طور خاص مدل‌هایی با مجوزهای محدودکننده (مانند CPML Coqui یا غیر تجاری CC-BY-NC) را حذف می‌کنیم. شما می‌توانید مجوز هر مدل را در مخزن GitHub آن تأیید کنید.

هر دو مجوز منبع باز هستند که اجازه استفاده تجاری، تغییر و توزیع مجدد را می‌دهند. آپاچی ۲٫۰ مجوزهای صریح حق امتیاز را اضافه می‌کند و در صورت تغییر کد نیاز به اعلام تغییرات دارد. MIT ساده‌تر است و نیازهای کمتری دارد. هر دو مجوز برای کسب و کار مناسب هستند.

بله. هر مدل می‌تواند خود میزبان باشد. مخزن مدل را از GitHub کپی کنید، وابستگی‌ها را نصب کنید، وزن مدل را دانلود کنید و استنتاج را اجرا کنید. ما مستندات لازم برای خود میزبان هر مدل را شامل GPU، RAM و نسخه پایتون فراهم می‌کنیم.

Piper نیازی به GPU ندارد (فقط CPU). Kokoro و MeloTTS نیاز به 1-2GB VRAM دارند. اکثر مدل‌های استاندارد نیاز به 4GB VRAM دارند. Tortoise و Sesame CSM نیاز به 8GB دارند.

بله. مجوزهای منبع باز اجازه تغییر شامل تنظیم دقیق را می‌دهند. مدلهایی مانند GPT-SoVITS و Bark اسکریپت‌های تنظیم دقیق را فراهم می‌کنند. می‌توانید مدلها را بر روی داده‌های صدای خود آموزش دهید تا صداهای سفارشی ایجاد کنید یا عملکرد را برای زبان‌های خاص بهبود دهید.

بهترین مدل‌های متن‌باز (Kokoro, StyleTTS 2, Chatterbox) در حال حاضر با خدمات تجاری مانند ElevenLabs و Google TTS در معیارهای کیفیت مطابقت دارند یا از آن‌ها پیشی می‌گیرند.

XTTS/XTTS-v2 (Coqui's CPML — non-commercial)، F5-TTS (CC-BY-NC — non-commercial)، و Higgs-v2 (Boson License — restrictive) همگی حذف شدند. هر مدل در TTS.ai برای استفاده تجاری ایمن است.

بله. بیشتر مدل‌ها مشارکت‌های جامعه را از طریق GitHub می‌پذیرند. می‌توانید گزارش‌های اشکال، ضبط صدا برای زبان‌های جدید، بهبود کد و مستندات را ارسال کنید. مخزن GitHub هر مدل را برای راهنمای مشارکت و مشکلات فعال بررسی کنید.

سرور GPU ما ۲۰+ مدل را بر روی ۴x Tesla P40 (۹۶GB VRAM کل) با استفاده از بارگذاری پویا اجرا می‌کند. برای خود میزبانی، یک GPU ۲۴GB می‌تواند ۳-۵ مدل را همزمان پشتیبانی کند.

بسیاری از مدل‌ها تصاویر رسمی Docker یا Dockerfiles را ارائه می‌دهند. برای اجرای چندین مدل، می‌توانید یک تنظیمات سفارشی Docker را با NVIDIA Container Toolkit برای دسترسی GPU بسازید. معماری سرور API ما می‌تواند به عنوان یک پیاده‌سازی مرجع عمل کند.

بیشتر مدل‌ها نیازمند پایتون ۳٫۱۰-۳٫۱۲ هستند. Coqui TTS (VITS) به‌طور خاص نیازمند پایتون ۳٫۱۱ است. ما پایتون ۳٫۱۲ را برای بیشتر مدل‌ها توصیه می‌کنیم. برای هماهنگی دقیق نسخه‌ها، requirements.txt هر مدل را بررسی کنید.

بله. MIT و مجوزهای آپاچی ۲٫۰ به‌طور صریح اجازه استفاده تجاری را می‌دهند. شما می‌توانید محصولات SaaS، برنامه‌های موبایل، بازی‌ها و خدمات را با استفاده از این مدل‌ها بدون هیچ هزینه مجوز، حق امتیاز یا نیاز به اشاره به منبع (اگرچه اشاره به منبع مورد تقدیر است) بسازید.

5.0/5 (1)

امروز متن باز TTS را امتحان کنید

20+ مدل‌های متن‌باز، همگی با مجوز تجاری. از API ما استفاده کنید یا خودتان میزبانی کنید - انتخاب با شماست.

ثبت نام نمایش قیمت

مدل‌های متن به گفتار متن باز

حالا امتحانش کن

دوست داريد TTS.ai؟ به دوستانتون بگو!

مزایای متن باز TTS

همه با مجوز متن‌باز

MIT / آپاچی ۲٫ ۰

خودمیزبان

بهینه‌سازی GPU

نگهداری جامعه

استفاده تجاری

فهرست مدل‌های منبع باز ما

Kokoro

Piper

VITS

Bark

Tortoise TTS

OpenVoice

چگونه از TTS متن‌باز استفاده کنیم

مدل‌های متن‌باز را بررسی کنید

در مرورگرتان امتحان کنید

خود میزبان یا استفاده از API ما

ساخت برنامه‌ی کاربردی خود

مقایسه مجوزها

وب‌گاه رسمی شرکت ایرباس

خودمیزبان در سخت‌افزار شما

استفاده از API میزبان TTS.ai

آغاز سریع: API یا خود میزبان

منبع باز، قیمت مقرون به صرفه

لایۀ آزاد

آغازگر

حرفه‌ای

پرسشهای متداول

همه مدل هاي TTS.ai واقعا منبع باز هستن؟

تفاوت بین MIT و مجوز آپاچی ۲٫۰ چیست؟

من میتونم این مدل ها رو روی سرور خودم میزبانی کنم؟

به چه GPU برای خود-میزبان مدل‌های TTS نیاز دارم؟

میتونم مدل های متن باز TTS رو تنظیم کنم؟

مدل‌های TTS منبع باز چگونه با خدمات تجاری مقایسه می‌شوند؟

مدل هايي با مجوزهاي محدود هستن که بايد ازشون اجتناب کنم؟

میتونم به این مدل های منبع باز کمک کنم؟

چطور مدل‌های متعددی را روی یک سرور GPU اجرا کنم؟

آیا یک تصویر Docker برای خود میزبانی وجود دارد؟

برای خود میزبانی به چه نسخه‌ای از پایتون نیاز دارم؟

آیا می‌توانم یک محصول تجاری را با استفاده از این مدل‌ها بسازم؟

امروز متن باز TTS را امتحان کنید