حول

24+ نماذج، 100+ أصوات، كلها في مكان واحد.

أنشأه

تم إنشاؤه بواسطة

مهمتنا

وقد بنيت TTS.ai على معتقد بسيط: ينبغي أن تكون أفضل تكنولوجيا صوت الذكاء الاصطناعي متاحة للجميع. وفي حين تفرض الخدمات المسجلة الملكية أسعارا أعلى للنص إلى الكلام الأساسي، أنشأ مجتمع المصدر المفتوح نماذج تساوي أو تتجاوز الجودة التجارية.

نحن نجمع أفضل نماذج الذكاء الاصطناعي الصوتي المفتوح المصدر في منصة واحدة سهلة الاستخدام. لا قيد على البائع. لا حصاد البيانات. مجرد تكنولوجيا صوتية قوية بأسعار عادلة.

ما نقدمه

تحويل النص إلى كلمة

24+ نماذج بما في ذلك كوكورو، Chatterbox، Bark، وأكثر من ذلك. من التركيب الخفيف السريع إلى إنتاج جودة الاستوديو.

تحويل الكلام إلى نص

يدعمه Whisper، Faster-Whisper، و SenseVoice. نسخ الصوت في أكثر من 100 لغة مع الأختام الزمنية والكشف عن المتحدث.

استنساخ الصوت

استنساخ أي صوت من عينة 5 ثانية. Chatterbox، GPT-SoVITS، CosyVoice 2، وأكثر. إنشاء أصوات مخصصة لمشاريعك.

تجهيز الصوت

تحسين الصوت، وإزالة الأصوات، وتقسيم الجذور، وإزالة الصدى / الصدى، والكشف عن المفاتيح / BPM، وتحويل الصيغ.

الدردشة الصوتية

محادثات صوتية في الوقت الحقيقي مع الذكاء الاصطناعي. اختر نموذجك وصوتك لتجربة محادثة تفاعلية.

واجهة برمجة التطبيقات للمطورين

REST API متوافق مع OpenAI. Python SDK، أمثلة الشفرة، والتوثيق الشامل. بناء خصائص الصوت في تطبيقاتك.

المصدر المفتوح أولا

كل نموذج على TTS.ai مفتوح المصدر، مرخص تحت MIT أو Apache 2.0. ونحن نؤمن بالشفافية والابتكار المدفوع بالمجتمع.

نحن لا

Kokoro
Chatterbox
CosyVoice 2
Bark
Fish Speech
Piper
VITS
MeloTTS
StyleTTS2
Tortoise
GLM-TTS
Dia
Whisper
Demucs
وأكثر...

جميع أوزان النماذج يتم تنزيلها من مستودعاتها الرسمية. لا نضيف أي تعديلات مسجلة الملكية.

البنية التحتية

ويعمل TTS.ai على خوادم مخصصة لمعالجات الرسوميات مع وحدات معالجة رسومية NVIDIA Tesla P40 (مجموع ذاكرة VRAM 96 جيجا بايت).

  • مجموعات وحدة معالجة رسومية مخصصة للاستدلال - لا توجد موارد مشتركة
  • التخصيص الدينامي للوحدة المعالجة الرسومية استنادا إلى متطلبات ذاكرة الفيديو النموذجية
  • نظام الأولوية ذي 5 صفوف لتحقيق أقصى قدر من الإنتاجية
  • نماذج محملة مسبقاً في ذاكرة VRAM للاستدلال الفوري
  • التسليم السمعي المدعوم من CDN للتنزيل السريع

الخصوصية والأمن

  • لا تدريب للبيانات: نحن لا نستخدم أبدا صوتك أو نصك لتدريب النماذج
  • Auto-deletion: يتم حذف الصوت المولد تلقائيا بعد 24 ساعة
  • التشفير: جميع البيانات مشفرة أثناء النقل (TLS 1.2+) وفي حالة الاستراحة
  • لا تعقب
  • GDPR compliant: طلب بياناتك أو حذفها في أي وقت

الأسئلة الشائعة

تم بناء TTS.ai من قبل فريق مستقل من المطورين المتحمسين لجعل التكنولوجيا الصوتية للذكاء الاصطناعي في متناول الجميع. ونحن نتولى إدارة وخدمة أفضل نماذج المصدر المفتوح من المجتمع بدلا من تدريب نماذج مسجلة الملكية.

وتعمل بنيتنا الأساسية على خواديم مخصصة مزودة بمعالجات رسومية من طراز NVIDIA Tesla P40 توفر 96 جيجا بايت من ذاكرة الوصول العشوائي (VRAM). وتستضيف مراكز البيانات الآمنة الواجهة الأمامية لشبكة الإنترنت وخواديم الاستدلال الخاصة بمعالجات الرسوميات مع اتصال منخفض التأخير.

نحن نقلل إلى أدنى حد من تخزين البيانات. ويتم معالجة مدخلات النصوص في الوقت الحقيقي ولا يتم تخزينها بشكل دائم. ويتم حذف جميع الملفات الصوتية المرفوعة والمولدة تلقائيًا في غضون 24 ساعة. ونحن لا نستخدم أبدًا بياناتك لتدريب نماذج الذكاء الاصطناعي.

TTS.ai يخدم مجتمعا متناميا من المطورين، ومنشئي المحتوى، والشركات في جميع أنحاء العالم. وتتعامل منصتنا مع الآلاف من طلبات توليد الصوت يوميا عبر 24+ نماذج الذكاء الاصطناعي.

ونحن نسعى جاهدين لتحقيق توافر عالٍ مع بنية تحتية مخصصة لمعالجة الرسوميات ونظام أولوية 5 صفوف. وفي حين أننا لا نقدم اتفاق خدمة رسمي للمستخدمين من المستوى المجاني، فإن الخطط المدفوعة تستفيد من المعالجة ذات الأولوية والموثوقية الأعلى.

نعم، كل نموذج في TTS.ai مفتوح المصدر، مرخص بموجب MIT أو Apache 2.0. ونحن ندعم بنشاط مجتمع الذكاء الاصطناعي الصوتي المفتوح المصدر ونسهم في التحسينات والتكاملات في النظام الإيكولوجي.

تشمل خريطة طريقنا إضافة أحدث النماذج الجديدة عند إطلاقها، وتوسيع دعم اللغات، وتحسين قدرات المحادثة الصوتية في الوقت الحقيقي، وبناء المزيد من أدوات معالجة الصوت. ونحن ندمج باستمرار أحدث التطورات في الذكاء الاصطناعي الصوتي المفتوح المصدر.

نحن دائما مهتمون بالمطورين الموهوبين المتحمسين للذكاء الاصطناعي الصوتي وتكنولوجيا المصدر المفتوح. إذا كنت مهتما بالمساهمة، يرجى الاتصال بنا من خلال صفحة الاتصال الخاصة بنا.

نعم، نرحب بالشراكات مع المطورين والشركات والمنظمات الراغبة في دمج الذكاء الاصطناعي الصوتي في منتجاتها. اتصل بنا لمناقشة دمج واجهة برمجة التطبيقات، أو تسعير الحجم، أو نشر نموذج مخصص.

نحن نجري استعراضات أمنية منتظمة للبنية التحتية لدينا. وجميع البيانات مشفرة أثناء النقل باستخدام TLS 1.2 +، وكلمة المرور مقسمة باستخدام خوارزميات معيار الصناعة، ومفاتيح API تستخدم مقسمة في اتجاه واحد.

نحن لا نخزن البيانات الصوتية الشخصية لأكثر من 24 ساعة، ولا نستخدم بيانات العملاء لأغراض التدريب، ونوفر حقوق الوصول الكاملة إلى البيانات وتصحيحها وحذفها عند الطلب.

ونحن نرصد باستمرار مشهد الذكاء الاصطناعي الصوتي المفتوح المصدر ونضيف نماذج جديدة كلما أصبحت متاحة وأثبتت جودتها. وعادة ما تحدث تحديثات رئيسية للنماذج شهريا، مع نشر تحسينات طفيفة على أساس مستمر.