مدل‌های متن به گفتار متن باز

هر مدل TTS در پلتفرم ما منبع باز با مجوزهای تجاری دوستانه است. MIT, Apache 2.0 — بدون قفل انحصاری، بدون محدودیت استفاده، بدون هزینه‌های مجوز غیرمنتظره. از آنها از طریق API میزبان ما استفاده کنید، یا خودتان آنها را در زیرساخت خود با کنترل کامل میزبانی کنید.

متن باز مجوز MIT آپاچی ۲٫ ۰ خودمیزبان گیت‌هاب

حالا امتحانش کن

آزاد با Kokoro, Piper, VITS, MeloTTS
صدای تولید شده شما در اینجا ظاهر خواهد شد
تولید شده
بارگیری
دوست داريد TTS.ai؟ به دوستانتون بگو!

مزایای متن باز TTS

چرا مدل‌های منبع باز برای پروژه‌های شما مهم هستند

همه با مجوز متن‌باز

هر مدل در TTS.ai از یک مجوز متن باز استفاده می‌کند. بدون جعبه سیاه انحصاری، بدون قفل فروشنده، بدون هزینه مجوز غیرمنتظره.

MIT / آپاچی ۲٫ ۰

مدل‌ها تحت MIT یا Apache 2.0، مجوزهای آزادترین منبع آزاد، مجوز داده شده‌اند.

خودمیزبان

هر مدلی را دانلود کنید و روی سخت‌افزار خودتان اجرا کنید. کنترل کامل بر روی داده‌ها، تأخیر و زیرساخت خودتان. نیازی به وابستگی به ابر نیست.

بهینه‌سازی GPU

مدل‌ها برای پردازنده‌های گرافیکی NVIDIA با پشتیبانی CUDA بهینه شده‌اند. Piper تنها روی CPU اجرا می‌شود. بیشتر مدل‌ها برای استنتاج کارآمد به ۲-۸ گیگابایت VRAM نیاز دارند.

نگهداری جامعه

انجمن‌های فعال متن‌باز این مدل‌ها را نگهداری و بهبود می‌دهند. مشارکت‌ها مورد استقبال قرار می‌گیرند - اشکالات، بهبودها و صداهای جدید را در GitHub ارسال کنید.

استفاده تجاری

ساخت محصولات، فروش خدمات، و ایجاد محتوای تجاری بدون حق امتیاز یا هزینه‌های استفاده.

فهرست مدل‌های منبع باز ما

هر مدل، مجوزش، و اونچه که بهتره

KokoroKokoro

Free

Lightweight 82M parameter model delivering studio-quality speech with blazing-fast inference.

Fast 5/5

بهترین برای: آپاچی ۲٫۰ — بهترین کیفیت مدل آزاد، ۸۲ میلیون پارامتر، آسان برای خود میزبانی

سعي کن Kokoro

PiperPiper

Free

A fast, local neural text to speech system optimized for Raspberry Pi and embedded devices.

Fast 3/5

بهترین برای: MIT — CPU-only، عالی برای دستگاه‌های کناری و self-hosting توکار

سعي کن Piper

VITSVITS

Free

Conditional variational autoencoder with adversarial learning for end-to-end text-to-speech.

Fast 3/5

بهترین برای: MIT — معماری بنیادی که توسط بسیاری از مدل‌های پایین‌دست استفاده می‌شود.

سعي کن VITS

BarkBark

Standard

Transformer-based text-to-audio model that generates realistic speech, music, and sound effects.

Slow 4/5

بهترین برای: MIT — قابلیت‌های منحصر به فرد تولید صدا فراتر از استاندارد TTS

سعي کن Bark

Tortoise TTSTortoise TTS

Premium

Multi-voice text-to-speech focused on quality with autoregressive architecture.

Slow 5/5 شبیه‌سازی صدا

بهترین برای: آپاچی ۲٫۰ — کیفیت حداکثری، پیاده‌سازی مرجع مورد مطالعه گسترده

سعي کن Tortoise TTS

OpenVoiceOpenVoice

Premium

Instant voice cloning with granular control over style, emotion, and accent.

Medium 4/5 شبیه‌سازی صدا

بهترین برای: MIT — کپی صدای متن باز با کنترل سبک دانه ای

سعي کن OpenVoice

چگونه از TTS متن‌باز استفاده کنیم

از API میزبان ما استفاده کنید یا خودتان مدل‌ها را اجرا کنید

1

مدل‌های متن‌باز را بررسی کنید

کاتالوگ ما از ۲۰+ مدل TTS متن‌باز را جستجو کنید. هر صفحه مدل مجوز، معماری، قابلیت‌ها و نیازمندی‌های خود میزبانی را نشان می‌دهد.

2

در مرورگرتان امتحان کنید

هر مدلی را مستقیماً روی TTS.ai بدون نصب هیچ چیز تست کنید. سرورهای GPU ما پردازش را انجام می‌دهند تا بتوانید کیفیت را قبل از تعهد به خود میزبانی ارزیابی کنید.

3

خود میزبان یا استفاده از API ما

کپی کردن مدل repo از GitHub و اجرا محلی، یا استفاده از API میزبان ما برای تولید. self-hosting می‌دهد کنترل کامل؛ API ما فراهم می‌کند زیرساخت مدیریت.

4

ساخت برنامه‌ی کاربردی خود

TTS را با استفاده از مدل‌های خود میزبانی شده یا API REST ما در محصول خود ادغام کنید. تمام مدل‌ها قابل استفاده تجاری هستند و هیچ هزینه مجوز یا حق امتیازی ندارند.

مقایسه مجوزها

تمام مدل‌ها در TTS.ai از مجوزهای آزاد تجاری استفاده می‌کنند.

مدل مجوز استفاده تجاری تغییر خودمیزبان تخصیص
Kokoro Apache 2.0 لازم
Piper MIT گزینشی
VITS MIT گزینشی
MeloTTS MIT گزینشی
Chatterbox MIT گزینشی
Tortoise TTS Apache 2.0 لازم
StyleTTS 2 MIT گزینشی
OpenVoice MIT گزینشی
Sesame CSM Apache 2.0 لازم
Orpheus Llama 3.2 "Built with Llama"

وب‌گاه رسمی شرکت ایرباس

خودتون مدل ها رو اجرا کنين يا بذارين ما از پس زيرساخت ها بر بيايم

خودمیزبان در سخت‌افزار شما

هر مدل در TTS.ai به عنوان یک پروژه متن باز در GitHub یا Hugging Face در دسترس است. وزن‌ها را دانلود کنید، وابستگی‌ها را نصب کنید، و استنتاج را بر روی GPU خود اجرا کنید. شما کنترل کاملی بر روی تأخیر، حریم خصوصی و مقیاس‌بندی دارید.

  • حریم خصوصی کامل داده‌ها — صدا هرگز سرور شما را ترک نمی‌کند
  • بدون هزینه برای هر درخواست پس از تنظیم اولیه
  • تنظیمات دقیق سفارشی بر روی داده‌های خودتان
  • سخت‌افزار GPU مورد نیاز است (NVIDIA توصیه می‌شود)
  • شما به‌روزرسانی‌ها، مقیاس‌بندی و وابستگی‌ها را مدیریت می‌کنید

استفاده از API میزبان TTS.ai

دسترسی فوری به تمامی ۲۰ مدل از طریق یک API REST واحد. ما از پیش‌بینی GPU، به روزرسانی مدل، مدیریت صف و مقیاس‌بندی پشتیبانی می‌کنیم. یک کلید API به شما دسترسی به هر مدل را می‌دهد - نیازی به مدیریت انتشارات جداگانه نیست.

  • نیازی به سخت‌افزار GPU نیست
  • تمام ۲۰ مدل از طریق یک API
  • به روزرسانی و بهبود مدل خودکار
  • 99.9% زمان فعاليت با زيرساخت اضافي
  • فقط براي چيزي که استفاده ميکني پول بده

آغاز سریع: API یا خود میزبان

از API میزبان ما استفاده کنید، یا Kokoro را به صورت محلی در چند دقیقه نصب کنید

گزینه 1: TTS.ai API میزبان آسونترين
import requests

response = requests.post("https://api.tts.ai/v1/tts", json={
    "text": "Open source TTS with a simple API.",
    "model": "kokoro",
    "voice": "af_heart",
    "format": "wav"
}, headers={"Authorization": "Bearer YOUR_API_KEY"})

with open("output.wav", "wb") as f:
    f.write(response.content)
گزینۀ ۲: خود- میزبان با pip کنترل کامل
# Install Kokoro locally
pip install kokoro

# Generate speech on your own GPU
import kokoro

pipeline = kokoro.KPipeline(lang_code="a")
generator = pipeline("Hello from your own server!", voice="af_heart")
for i, (gs, ps, audio) in enumerate(generator):
    kokoro.save(audio, f"output_{i}.wav")

منبع باز، قیمت مقرون به صرفه

API میزبان ما TTS منبع باز را بدون مدیریت GPUها قابل دسترسی می‌کند.

لایۀ آزاد

$0

50 کرون با ثبت نام

  • 4 مدل متن باز رایگان
  • ثبت نام برای استفادهٔ اساسی وجود ندارد
  • استفاده تجاری مجاز است

آغازگر

$9

۵۰۰۰۰۰ کاراکتر/ماه

  • تمام ۲۰+ مدل منبع باز
  • شبیه‌سازی صدا
  • دسترسی API

حرفه‌ای

$29

۲٬۰۰۰٬۰۰۰ کاراکتر/ماه

  • پردازش GPU اولویت‌دار
  • همه مدلهاي پريميوم
  • پشتیبانی شرکت
نمایش قیمت کامل

پرسشهای متداول

پرسش‌های متداول درباره متن متن باز به گفتار

بله. هر مدل در TTS.ai از یک مجوز متن‌باز اجازه‌دهنده استفاده می‌کند — یا MIT یا Apache 2.0. ما به‌طور خاص مدل‌هایی با مجوزهای محدودکننده (مانند CPML Coqui یا غیر تجاری CC-BY-NC) را حذف می‌کنیم. شما می‌توانید مجوز هر مدل را در مخزن GitHub آن تأیید کنید.

هر دو مجوز منبع باز هستند که اجازه استفاده تجاری، تغییر و توزیع مجدد را می‌دهند. آپاچی ۲٫۰ مجوزهای صریح حق امتیاز را اضافه می‌کند و در صورت تغییر کد نیاز به اعلام تغییرات دارد. MIT ساده‌تر است و نیازهای کمتری دارد. هر دو مجوز برای کسب و کار مناسب هستند.

بله. هر مدل می‌تواند خود میزبان باشد. مخزن مدل را از GitHub کپی کنید، وابستگی‌ها را نصب کنید، وزن مدل را دانلود کنید و استنتاج را اجرا کنید. ما مستندات لازم برای خود میزبان هر مدل را شامل GPU، RAM و نسخه پایتون فراهم می‌کنیم.

Piper نیازی به GPU ندارد (فقط CPU). Kokoro و MeloTTS نیاز به 1-2GB VRAM دارند. اکثر مدل‌های استاندارد نیاز به 4GB VRAM دارند. Tortoise و Sesame CSM نیاز به 8GB دارند.

بله. مجوزهای منبع باز اجازه تغییر شامل تنظیم دقیق را می‌دهند. مدلهایی مانند GPT-SoVITS و Bark اسکریپت‌های تنظیم دقیق را فراهم می‌کنند. می‌توانید مدلها را بر روی داده‌های صدای خود آموزش دهید تا صداهای سفارشی ایجاد کنید یا عملکرد را برای زبان‌های خاص بهبود دهید.

بهترین مدل‌های متن‌باز (Kokoro, StyleTTS 2, Chatterbox) در حال حاضر با خدمات تجاری مانند ElevenLabs و Google TTS در معیارهای کیفیت مطابقت دارند یا از آن‌ها پیشی می‌گیرند.

XTTS/XTTS-v2 (Coqui's CPML — non-commercial)، F5-TTS (CC-BY-NC — non-commercial)، و Higgs-v2 (Boson License — restrictive) همگی حذف شدند. هر مدل در TTS.ai برای استفاده تجاری ایمن است.

بله. بیشتر مدل‌ها مشارکت‌های جامعه را از طریق GitHub می‌پذیرند. می‌توانید گزارش‌های اشکال، ضبط صدا برای زبان‌های جدید، بهبود کد و مستندات را ارسال کنید. مخزن GitHub هر مدل را برای راهنمای مشارکت و مشکلات فعال بررسی کنید.

سرور GPU ما ۲۰+ مدل را بر روی ۴x Tesla P40 (۹۶GB VRAM کل) با استفاده از بارگذاری پویا اجرا می‌کند. برای خود میزبانی، یک GPU ۲۴GB می‌تواند ۳-۵ مدل را همزمان پشتیبانی کند.

بسیاری از مدل‌ها تصاویر رسمی Docker یا Dockerfiles را ارائه می‌دهند. برای اجرای چندین مدل، می‌توانید یک تنظیمات سفارشی Docker را با NVIDIA Container Toolkit برای دسترسی GPU بسازید. معماری سرور API ما می‌تواند به عنوان یک پیاده‌سازی مرجع عمل کند.

بیشتر مدل‌ها نیازمند پایتون ۳٫۱۰-۳٫۱۲ هستند. Coqui TTS (VITS) به‌طور خاص نیازمند پایتون ۳٫۱۱ است. ما پایتون ۳٫۱۲ را برای بیشتر مدل‌ها توصیه می‌کنیم. برای هماهنگی دقیق نسخه‌ها، requirements.txt هر مدل را بررسی کنید.

بله. MIT و مجوزهای آپاچی ۲٫۰ به‌طور صریح اجازه استفاده تجاری را می‌دهند. شما می‌توانید محصولات SaaS، برنامه‌های موبایل، بازی‌ها و خدمات را با استفاده از این مدل‌ها بدون هیچ هزینه مجوز، حق امتیاز یا نیاز به اشاره به منبع (اگرچه اشاره به منبع مورد تقدیر است) بسازید.
5.0/5 (1)

چه چیزی میتونیم بهتر کنیم؟ بازخورد شما به ما کمک میکنه مشکلات رو حل کنیم.

امروز متن باز TTS را امتحان کنید

20+ مدل‌های متن‌باز، همگی با مجوز تجاری. از API ما استفاده کنید یا خودتان میزبانی کنید - انتخاب با شماست.