النماذج المفتوحة المصدر لتحويل النص إلى كلمة

كل نموذج من نماذج ترجمة النصوص إلى لغة على منصتنا مفتوح المصدر مع تراخيص تجارية صديقة. MIT, Apache 2.0 — لا قيود على الملكية، ولا قيود على الاستخدام، ولا رسوم ترخيص مفاجئة. استخدمها من خلال API المستضافة لدينا، أو استضافتها بنفسك على البنية التحتية الخاصة بك مع التحكم الكامل.

المصدر المفتوح ترخيص معهد ماساتشوستس للتكنولوجيا أباتشي 2.0 المستضيف الذاتي غيت هوب

جربها الآن

مجاني مع كوكورو، بايبر، فيتس، ميلو تي تي إس
سيظهر الصوت الذي أنتجته هنا
المولدة
تنزيل
أحب TTS.ai؟ أخبر أصدقائك!

فوائد المصادر المفتوحة لتكنولوجيا المعلومات والاتصالات

لماذا تمثل نماذج المصدر المفتوح أهمية لمشاريعك

جميع المصادر المفتوحة المرخصة

كل نموذج على TTS.ai يستخدم رخصة مفتوحة المصدر متساهلة. لا صناديق سوداء مسجلة الملكية، ولا قيد البائع، ولا رسوم ترخيص غير متوقعة.

معهد ماساتشوستس للتكنولوجيا/أباتشي 2.0

وترخَّص النماذج بموجب ترخيص معهد ماساتشوستس للتكنولوجيا أو ترخيص أباتشي 2.0، وهما أكثر تراخيص المصدر المفتوح تساهلاً.

المستضيف الذاتي

تحميل أي نموذج وتشغيله على معداتك الخاصة. التحكم الكامل على البيانات، التأخير، والبنية التحتية. لا يحتاج إلى الاعتماد على السحابة.

معالج رسوميات

النماذج هي الأمثل ل NVIDIA GPUs مع CUDA دعم. Piper يعمل على CPU فقط. معظم النماذج تحتاج 2-8GB VRAM للاستنتاج الكفؤ.

دعم المجتمع المحلي

وتقوم مجتمعات المصدر المفتوح النشطة بصيانة هذه النماذج وتحسينها. والمساهمات موضع ترحيب - تقدم الأخطاء، والتحسينات، والأصوات الجديدة على GitHub.

الاستخدام التجاري

وتسمح جميع النماذج بالاستخدام التجاري بموجب تراخيصها. وبناء المنتجات، وبيع الخدمات، وإنشاء المحتوى التجاري دون رسوم أو رسوم الاستخدام.

فهرسنا للنموذج المفتوح المصدر

كل نموذج، ترخيصه، وما يفعله أفضل

KokoroKokoro

Free

Lightweight 82M parameter model delivering studio-quality speech with blazing-fast inference.

Fast 5/5

أفضل ل: Apache 2.0 - أفضل نوعية نموذج مجاني، 82M بارامترات، سهل الاستضافة الذاتية

حاول Kokoro

PiperPiper

Free

A fast, local neural text to speech system optimized for Raspberry Pi and embedded devices.

Fast 3/5

أفضل ل: معهد ماساتشوستس للتكنولوجيا - وحدة المعالجة المركزية فقط، مثالية لأجهزة الحافة والاستضافة الذاتية المدمجة

حاول Piper

VITSVITS

Free

Conditional variational autoencoder with adversarial learning for end-to-end text-to-speech.

Fast 3/5

أفضل ل: معهد ماساتشوستس للتكنولوجيا - البنية اﻷساسية المستخدمة في كثير من النماذج الﻻحقة

حاول VITS

BarkBark

Standard

Transformer-based text-to-audio model that generates realistic speech, music, and sound effects.

Slow 4/5

أفضل ل: معهد ماساتشوستس للتكنولوجيا - قدرات فريدة لتوليد الصوت تتجاوز الترجمة التحريرية التلقائية العادية

حاول Bark

Tortoise TTSTortoise TTS

Premium

Multi-voice text-to-speech focused on quality with autoregressive architecture.

Slow 5/5 استنساخ الصوت

أفضل ل: Apache 2.0 - أقصى جودة، تنفيذ مرجعي درس على نطاق واسع

حاول Tortoise TTS

OpenVoiceOpenVoice

Premium

Instant voice cloning with granular control over style, emotion, and accent.

Medium 4/5 استنساخ الصوت

أفضل ل: معهد ماساتشوستس للتكنولوجيا - استنساخ صوتي مفتوح المصدر مع التحكم في اﻷسلوب الحبيبي

حاول OpenVoice

كيفية استخدام ترجمة النصوص إلى صوت مفتوحة المصدر

استخدم واجهة برمجة التطبيقات التي نستضيفها أو قم بتشغيل النماذج بنفسك

1

استكشاف نماذج المصدر المفتوح

تصفح كتالوجنا الذي يحتوي على أكثر من 20 نموذجاً مفتوح المصدر من نماذج ترجمة النصوص.

2

جرّب في متصفحك

اختبار أي نموذج مباشرة على TTS.ai دون تثبيت أي شيء. الخوادم GPU لدينا تتعامل مع المعالجة بحيث يمكنك تقييم الجودة قبل الالتزام بالاستضافة الذاتية.

3

استضافة ذاتية أو استخدام API

استنسخ مستودع النموذج من GitHub وتشغيله محليًا، أو استخدم تطبيق برمجة التطبيقات المستضاف الخاص بنا للإنتاج.

4

بنّي تطبيقك

دمج TTS في منتجك باستخدام نماذج ذاتية الاستضافة أو REST API.جميع النماذج قابلة للاستخدام التجاري دون رسوم ترخيص أو حقوق الملكية.

مقارنة التراخيص

جميع النماذج على TTS.ai تستخدم تراخيص المصدر المفتوح التجارية

النموذج الترخيص الاستخدام التجاري التعديل الاستضافة الذاتية إسناد المسؤولية
Kokoro Apache 2.0 المطلوبة
Piper MIT اختياري
VITS MIT اختياري
MeloTTS MIT اختياري
Chatterbox MIT اختياري
Tortoise TTS Apache 2.0 المطلوبة
StyleTTS 2 MIT اختياري
OpenVoice MIT اختياري
Sesame CSM Apache 2.0 المطلوبة
Orpheus Llama 3.2 "Built with Llama"

الاستضافة الذاتية مقابل استضافة API

تشغيل النماذج بنفسك أو دعنا نتولى البنية التحتية

استضافة ذاتية على معداتك

كل نموذج على TTS.ai متاح كمشروع مفتوح المصدر على GitHub أو Hugging Face. قم بتنزيل الأوزان، وتثبيت التبعيات، وتشغيل الاستدلال على وحدات المعالجة الرسومية الخاصة بك. لديك السيطرة الكاملة على التأخير، والخصوصية، والقياس.

  • الخصوصية الكاملة للبيانات - لا يغادر الصوت خادومك أبدا
  • لا تكاليف لكل طلب بعد الإعداد الأولي
  • تحسين البيانات الخاصة بك
  • يتطلب معدات وحدة المعالجة الرسومية (موصى بها من NVIDIA)
  • أنت تدير التحديثات، القياس، والتبعيات

استخدام TTS.ai API المستضاف

احصل على وصول فوري إلى جميع النماذج الـ 20+ من خلال واجهة برمجة تطبيقات REST واحدة. نحن نتولى توفير وحدة المعالجة الرسومية، وتحديثات النموذج، وإدارة الصفوف، والتوسع. مفتاح واجهة برمجة تطبيقات واحد يعطيك الوصول إلى كل نموذج - لا حاجة إلى إدارة نشرات منفصلة.

  • لا توجد حاجة إلى معدات المعالجة الرسومية
  • جميع النماذج الـ 20+ من خلال واجهة واحدة
  • تحديثات وتحسينات نموذجية آلية
  • 99.9 في المائة من وقت التشغيل مع وجود بنية تحتية زائدة
  • لا تدفع إلا لما تستخدمه

البداية السريعة: API أو Self-Host

استخدم واجهة برمجة التطبيقات المستضافة لدينا أو قم بتركيب كوكورو محليا في دقائق

الخيار 1: برنامج TTS.ai المستضيف أسهل
import requests

response = requests.post("https://api.tts.ai/v1/tts", json={
    "text": "Open source TTS with a simple API.",
    "model": "kokoro",
    "voice": "af_heart",
    "format": "wav"
}, headers={"Authorization": "Bearer YOUR_API_KEY"})

with open("output.wav", "wb") as f:
    f.write(response.content)
الخيار 2: الاستضافة الذاتية بنظام " pip " السيطرة الكاملة
# Install Kokoro locally
pip install kokoro

# Generate speech on your own GPU
import kokoro

pipeline = kokoro.KPipeline(lang_code="a")
generator = pipeline("Hello from your own server!", voice="af_heart")
for i, (gs, ps, audio) in enumerate(generator):
    kokoro.save(audio, f"output_{i}.wav")

المصدر المفتوح، التسعير الميسور

API المستضافة لدينا تجعل المصدر المفتوح TTS متاحا دون إدارة GPUs.

المستوى المجاني

$0

50 نقطة عند التسجيل

  • 4 نماذج مفتوحة المصدر مجانية
  • لا يلزم التسجيل للاستخدام الأساسي
  • الاستخدام التجاري المسموح به

بدء التشغيل

$9

000 500 حرف/شهر

  • جميع النماذج المفتوحة المصدر البالغ عددها 20+
  • استنساخ الصوت
  • الوصول إلى برمجيات التطبيقات

المؤيدون

$29

000 000 2 حرف/شهر

  • أولوية معالجة وحدة المعالجة المركزية
  • جميع النماذج العالية الجودة
  • دعم المؤسسات
انظر التسعير الكامل

الأسئلة المتكررة

الأسئلة الشائعة حول تحويل النصوص إلى صوت مفتوح المصدر

نعم. كل نموذج على TTS.ai يستخدم رخصة مفتوحة المصدر متساهلة - إما MIT أو Apache 2.0. نحن نستبعد بشكل خاص النماذج ذات الرخص التقييدية (مثل CPML لـ Coqui أو CC-BY-NC غير التجاري). يمكنك التحقق من رخصة كل نموذج على مستودع GitHub الخاص به.

إن كلا الترخيصين من تراخيص المصدر المفتوح المتساهلة التي تسمح بالاستخدام التجاري، والتعديل، وإعادة التوزيع. ويضيف أباشي 2.0 منح براءات اختراع صريحة ويتطلب ذكر التغييرات إذا قمت بتعديل الشفرة. أما معهد ماساتشوستس للتكنولوجيا فهو أبسط ويتطلب متطلبات أقل. وكلاهما صديق للأعمال التجارية.

نعم. يمكن استضافة كل نموذج بنفسه. استنساخ مستودع النموذج من GitHub، وتثبيت التبعيات، وتنزيل أوزان النموذج، وتشغيل الاستدلال. ونحن نقدم الوثائق لمتطلبات الاستضافة الذاتية لكل نموذج بما في ذلك وحدة المعالجة المركزية، وذاكرة الوصول العشوائي، وإصدار بايثون.

تختلف المتطلبات حسب النموذج. لا يحتاج Piper إلى وحدة معالجة رسومية (وحدة المعالجة المركزية فقط). يحتاج Kokoro و MeloTTS إلى 1-2GB VRAM. معظم النماذج القياسية تحتاج إلى 4GB VRAM. يحتاج Tortoise و Sesame CSM إلى 8GB. يمكن لـ NVIDIA RTX 3060 (12GB) تشغيل معظم النماذج بكل راحة.

نعم. تراخيص المصدر المفتوح تسمح بالتعديل بما في ذلك الصقل. النماذج مثل GPT-SoVITS و Bark توفر نصوص الصقل. يمكنك تدريب النماذج على بياناتك الصوتية الخاصة لإنشاء أصوات مخصصة أو تحسين الأداء بلغات محددة.

إن أفضل النماذج المفتوحة المصدر (كوكورو، وستايل تي تي إس 2، وشاتربوكس) تعادل أو تتجاوز الآن الخدمات التجارية مثل إيليفنلابس وجوجل تي تي إس في معايير الجودة. والميزة الرئيسية للخدمات التجارية هي البنية الأساسية المدارة والدعم، وليس جودة الصوت.

لقد استبعدناها بالفعل. XTTS/XTTS-v2 (Coqui's CPML — غير تجاري)، F5-TTS (CC-BY-NC — غير تجاري)، و Higgs-v2 (Boson License — تقييدي) تم إزالتها جميعها. كل نموذج على TTS.ai تم التحقق منه آمن للاستخدام التجاري.

نعم. معظم النماذج تقبل مساهمات المجتمع عبر GitHub. يمكنك تقديم تقارير الأخطاء، والتسجيلات الصوتية للغات الجديدة، وتحسينات الشفرة، والوثائق. تحقق من مستودع GitHub لكل نموذج للحصول على مبادئ توجيهية للمساهمة والقضايا النشطة.

تحميل النماذج عند الطلب وتفريغها عندما تكون خاملة لتقاسم ذاكرة وحدة المعالجة الرسومية. يقوم خادم وحدة المعالجة الرسومية بتشغيل أكثر من 20 نموذجا على 4x Tesla P40 (إجمالي VRAM 96 جيجا بايت) باستخدام التحميل الديناميكي.

العديد من النماذج توفر صور Docker الرسمية أو Dockerfiles. لتشغيل نماذج متعددة، يمكنك بناء تركيب Docker الشخصية مع NVIDIA Container Toolkit للوصول إلى وحدة المعالجة الرسومية. يمكن أن تكون بنية خادم API لدينا بمثابة تنفيذ مرجعي.

معظم النماذج تتطلب بايثون 3.10-3.12. Coqui TTS (VITS) يحتاج على وجه التحديد بايثون 3.11. نوصي بايثون 3.12 لمعظم النماذج. تحقق من كل نموذج requirements.txt للتوافق الدقيق للنسخة.

نعم، تسمح تراخيص معهد ماساتشوستس للتكنولوجيا وأباتشي 2.0 صراحة بالاستخدام التجاري. ويمكنك بناء منتجات البرامج كخدمة، والتطبيقات المحمولة، والألعاب، والخدمات باستخدام هذه النماذج دون رسوم ترخيص، أو حقوق الملكية، أو متطلبات الإشارة (على الرغم من أن الإشارة موضع تقدير).
5.0/5 (1)

ما الذي يمكننا تحسينه؟ تساعدنا تعليقاتكم على حل المشاكل.

جرب ترجمة الصوت إلى لغة مكتوبة مفتوحة المصدر اليوم

20+ نماذج مفتوحة المصدر، كلها مرخصة تجاريا. استخدم API أو الاستضافة الذاتية - الاختيار لك.