الذكاء الاصطناعي المجاني تحويل النص إلى كلمة
33+ :: نماذج المصدر المفتوح، 273+ الأصوات، 33+ لا يلزم إنشاء حساب.
كل ما تحتاجه للذكاء الاصطناعي الصوتي
أكثر من 30 أداة تعتمد على نماذج الذكاء الاصطناعي المفتوح المصدر
33+ نماذج صوت الذكاء الاصطناعي
أشمل مجموعة من نماذج تكنولوجيا المعلومات والاتصالات المفتوحة المصدر في منصة واحدة
Kokoro مجاني
كوكورو هو نموذج تحويل النص إلى صوت يحتوي على 82 مليون بارامترات، ويتميز بقدرته على التحدث بلغة طبيعية وتعبيرية بشكل ملحوظ، على الرغم من حجمه الصغير. ويدعم كوكورو لغات متعددة، بما في ذلك الإنجليزية، واليابانية، والصينية، والكورية، مع مجموعة متنوعة من الأصوات التعبيرية. وهو يعمل بسرعة لا تصدق، حيث يولد الصوت بسرعة تبلغ 100 مرة تقريباً من الصوت في الوقت الحقيقي على وحدة المعالجة المركزية.
أفضل ل: تطبيقات عالية الجودة لتحويل النصوص إلى صوت بأدنى حد من التأخير، وتطبيقات التدفق
جرب مجانا
Piper مجاني
بايبِر هو محرك خفيف الوزن لتحويل النص إلى صوت طورته شركة راشسباي ويستخدم الهندسة المعمارية VITS و larynx ويعمل بالكامل على وحدة المعالجة المركزية مما يجعله مثاليا لأجهزة الحافة والتشغيل الآلي للمنازل والتطبيقات التي تتطلب تحويل النص إلى صوت خارج الشبكة وبأكثر من 100 صوت عبر 30 لغة، يقدم بايبِر صوت طبيعي بسرعة في الوقت الحقيقي حتى على أجهزة راببيري باي 4.
أفضل ل: الاستعراضات المسبقة السريعة، وإمكانية الوصول، والتطبيقات المدمجة
جرب مجانا
VITS مجاني
ويعتبر VITS (الاستدلال المتغير مع التعلم التنازعيّ لتحويل النص إلى كلمة من البداية إلى النهاية) طريقة موازية لتحويل النص إلى كلمة من البداية إلى النهاية، وهي طريقة تولد صوتاً أكثر طبيعية من النماذج الحالية ذات المرحلتين. وهي تعتمد الاستدلال المتغير مع تدفقات تطبيعية وعملية تدريب تنازعية، مما يحقق تحسناً كبيراً في الطبيعة.
أفضل ل: تحويل النص إلى كلمة للأغراض العامة مع صوت طبيعي
جرب مجانا
MeloTTS مجاني
MeloTTS من MyShell.ai هي مكتبة متعددة اللغات لترجمة النصوص إلى صوت تدعم اللغة الإنجليزية (الأمريكية، البريطانية، الهندية، الأسترالية)، والإسبانية، والفرنسية، والصينية، واليابانية، والكورية. وهي سريعة للغاية، وتجهز النص بسرعة قريبة من الزمن الحقيقي على وحدة المعالجة المركزية وحدها. وقد صُممت MeloTTS لاستخدام الإنتاج وتدعم كلاً من استنتاج وحدة المعالجة المركزية ووحدة المعالجة الرسومية.
أفضل ل: تطبيقات الإنتاج التي تحتاج إلى ترجمة تلقائية سريعة ومتعددة اللغات
جرب مجانا
Kani TTS 2 مجاني
Kani-TTS-2 من NineNineSix هو نموذج بارامترات خفيف للغاية 400M مبني على رأسية Liquid AI LFM2 مع NVIDIA NanoCodec. وهو يعمل في 3GB فقط من ذاكرة العرض و ينتج ~10 ثانية من الكلام في ~2 ثانية على A100 (RTF 0.2). الإصدار العام الحالي يحمل نقطة تحقق `kani-tts-2-en` باللغة الإنجليزية فقط ولا يكشف عن نقطة إدراج المتحدث اللازمة لاستنساخ الصوت - استخدم Chatterbox / IndexTTS2 / F5-TTS للاستنساخ، أو Kokoro / MeloTTS لغير الإنجليزية.
أفضل ل: إنشاء سريع لللغة الإنكليزية على أجهزة ذات ذاكرة عرضية منخفضة، وعرض مسبق سريع
جرب مجانا
OuteTTS مجاني
OuteTTS توسع نماذج اللغة الكبيرة مع القدرات النص إلى الكلام مع الحفاظ على البنية الأصلية. إنه يدعم العديد من الخلفيات بما في ذلك llama.cpp (CPU / GPU)، وتحويلات الوجه الحب، ExLlamaV2، VLLM، وحتى الاستدلال المتصفح عن طريق Transformers.js. مميزات استنساخ الصوت صفر-الطلقة من خلال ملف المتحدثين المخزنة كJSON.
أفضل ل: نشر التطبيقات الطرفية، ودعم الترجمة الفورية القائم على المتصفح، والبيئات المنخفضة الموارد
جرب مجانا
Pocket TTS مجاني
إن نموذج تحويل النص إلى صوت جيب من إنتاج كيوتاي (مطورو موشي) هو نموذج مكون من 100 مليون بارامتر للنص إلى صوت، وهو نموذج مكتمل الحجم، ويعمل بكفاءة على وحدة المعالجة المركزية، ويدعم استنساخ الصوت من عينة صوتية واحدة، وينتج صوتاً طبيعياً. ويجعل حجم النموذج الصغير منه نموذجاً مثالياً لنشره على الحافة والبيئات ذات الموارد المنخفضة.
أفضل ل: النشر الخفيف، البيئات التي تستخدم وحدات المعالجة المركزية فقط، استنساخ الصوت السريع
جرب مجانا
Kitten TTS مجاني
Kitten TTS by KittenML هو نموذج خفيف للغاية لتحويل النص إلى كلمة مبني على ONNX. مع أشكال من 15M إلى 80M بارامترات (25-80 MB على القرص)، وهو يوفر تركيب صوت عالي الجودة على وحدة المعالجة المركزية دون الحاجة إلى وحدة معالجة رسومية. يتميز بثمانية أصوات داخلية، وسرعة الكلام القابلة للتعديل، ومعالجة مسبقة للنصوص داخلية للأرقام والعملات والوحدات. مثالي لنشر الحافة وتطبيقات منخفضة التأخير.
أفضل ل: تطبيقات سريعة وخفيفة الوزن لنقل البيانات عبر الحائط، ونشرها على الحافة، وتطبيقات منخفضة التأخير
جرب مجانا
Ming-Omni TTS مجاني
نموذج الكلام المدمجة متعددة الوسائط Ming-omni-tts-0.5B من InclusionAI هو نموذج كلام متعدد الوسائط مدمج مبني على أساس BailingMM الكثيف مع فك التشفير السمعي المطابق للتدفق Patch-by-Patch. يوفر 44.1kHz مخرج (قريبة من جودة CD)، ويدعم استنساخ الصوت صفر-الطلقة من 3 + ثانية مرجع، ويشمل المشاعر الداخلية / اللهجة / BGM التحكم عن طريق تعليمات JSON. استقرار ممتاز - 0.83% WER على المعايير الصينية.
أفضل ل: سرد ثنائي اللغة عالي الدقة، تمثيل صوتي يتحكم في العواطف، محتويات كتب مسموعة باللغة الصينية
جرب مجانا
MOSS-TTS Nano مجاني
MOSS-TTS-Nano-100M هو متغير OpenMOSS المدمجة 100M-بارامترات من عائلة MOSS-TTS، وتقاسم بنية المحول التأخير. مبادلة نموذج 8B ذروة الجودة ل ~ 80x أوزان أصغر و VRAM أقل بكثير لكل طلب، مما يجعله مناسبا لنشر الطبقة الحرة ومعدلات عالية.
أفضل ل: نظم تحويل النصوص إلى صوت مجانية، إنتاج كبير الحجم، استخدام تفاعلي منخفض التأخير
جرب مجانا
Bark المعيار
نموذج تحويل النص إلى صوت قائم على المحول يولد تأثيرات واقعية للكلام والموسيقى والصوت.
مطوّر: Suno · الترخيص: MIT
جربها
Bark Small المعيار
نسخة أخف من Bark مع استنتاج أسرع وانخفاض استخدام الذاكرة.
مطوّر: Suno · الترخيص: MIT
جربها
CosyVoice 2 المعيار
صوت علي بابا القابل للتعديل مع تكافؤ طبيعية الإنسان والتأخير قريب من الصفر.
مطوّر: Alibaba (Tongyi Lab) · الترخيص: Apache 2.0
جربها
Dia TTS المعيار
نموذج توليد الحوار المتعدد المتحدثين الذي يخلق محادثات طبيعية بين المتحدثين.
مطوّر: Nari Labs · الترخيص: Apache 2.0
جربها
Parler TTS المعيار
وصف الصوت الذي تريده في اللغة الطبيعية وParler يولد الكلام المطابق.
مطوّر: Hugging Face · الترخيص: Apache 2.0
جربها
IndexTTS-2 المعيار
صوت تلقائي من دون طلقة مع تحكم دقيق في العواطف وتعبير عالي
مطوّر: Index Team · الترخيص: Bilibili Model License
جربها
Spark TTS المعيار
استنساخ الصوت TTS مع المشاعر القابلة للتحكم وأسلوب الكلام من خلال النداءات.
مطوّر: SparkAudio · الترخيص: CC BY-NC-SA 4.0
جربها
GPT-SoVITS المعيار
صوت بضعة طلقات استنساخ TTS الذي يعيد إنتاج أي صوت من مجرد 5 ثوان من السمع.
مطوّر: RVC-Boss · الترخيص: MIT
جربها
Orpheus المعيار
نموذج TTS عاطفي على المستوى البشري مدرب على 100 ألف ساعة من بيانات الكلام.
مطوّر: Canopy Labs · الترخيص: Llama 3.2 Community
جربها
Qwen3 TTS المعيار
Alibaba's multilingual TTS with preset voices and voice design from text (باللغة الإنجليزية).
مطوّر: Alibaba (Qwen) · الترخيص: Apache 2.0
جربها
VieNeu-TTS-v2 المعيار
فيتنامية + إنجليزية رمز تبديل TTS مع 7 أصوات مسبقة و Zero-shot استنساخ الصوت.
مطوّر: Phạm Nguyễn Ngọc Bảo · الترخيص: Apache 2.0
جربها
Chatterbox Turbo المعيار
Chatterbox أسرع مع تأخير أقل من 200 مللي ثانية وعلامات لغة مساعدة للضحك والسعال وأكثر.
مطوّر: Resemble AI · الترخيص: MIT
جربها
VoxCPM المعيار
TTS خالية من tokenizer إنتاج 44.1 كيلوهرتز السمعي مع الفقرة السياق الوعي الاتساق.
مطوّر: OpenBMB · الترخيص: Apache 2.0
جربها
VibeVoice المعيار
نموذج مايكروسوفت لمحتوى الشكل الطويل متعدد المتحدثين مثل البودكاست والكتب السمعية.
مطوّر: Microsoft · الترخيص: MIT
جربها
CosyVoice3 المعيار
الجيل القادم من برامج ترجمة النصوص إلى صوت متعددة اللغات مع تدفق ثنائي، والتحكم العاطفي، واستنساخ الصوت من الصفر.
مطوّر: Alibaba (FunAudioLLM) · الترخيص: Apache 2.0
جربها
NAMAA Saudi TTS المعيار
أول صوت مفتوح سعودي عربي TTS. لهجة سعودية أصلية مع Chatterbox-جودة استنساخ الصوت.
مطوّر: NAMAA Space · الترخيص: MIT
جربها
Darwin TTS المعيار
متغير متعدد الوسائط Qwen3-TTS مع أوزان FFN مختلطة من نموذج اللغة Qwen3-1.7B لتحقيق استنساخ أكثر دقة متعدد اللغات.
مطوّر: FINAL-Bench · الترخيص: Apache 2.0
جربها
MOSS-TTSD المعيار
نموذج استمرار الحوار بين متحدثين متعددين - توليد محادثات على غرار البث الصوتي مع عدد يصل إلى 5 متحدثين و 60 دقيقة من الصوت المترابط.
مطوّر: OpenMOSS · الترخيص: Apache 2.0
جربها
CosyVoice 2
صوت علي بابا القابل للتعديل مع تكافؤ طبيعية الإنسان والتأخير قريب من الصفر.
اللغات: en, zh, ja, ko, fr, de, it, es
صوت مستنسخ
Spark TTS
استنساخ الصوت TTS مع المشاعر القابلة للتحكم وأسلوب الكلام من خلال النداءات.
اللغات: en, zh
صوت مستنسخ
GPT-SoVITS
صوت بضعة طلقات استنساخ TTS الذي يعيد إنتاج أي صوت من مجرد 5 ثوان من السمع.
اللغات: en, zh, ja, ko
صوت مستنسخ
Chatterbox
أحدث صيغة من استنساخ الصوت بدون طلقة مع التحكم العاطفي من (ريزيمبل آي)
اللغات: en
صوت مستنسخ
Tortoise TTS
3 - تحويل النصوص إلى كلمـة بأصوات متعددة يركـز على النوعية مع بنية ذاتية التراجع.
اللغات: en
صوت مستنسخ
OpenVoice
استنساخ الصوت الفوري مع التحكم الحبيبي على الأسلوب، العاطفة، والتشديد.
اللغات: en, zh, ja, ko, fr, es
صوت مستنسخ
VieNeu-TTS-v2
فيتنامية + إنجليزية رمز تبديل TTS مع 7 أصوات مسبقة و Zero-shot استنساخ الصوت.
اللغات: vi, en
صوت مستنسخ
Chatterbox Turbo
Chatterbox أسرع مع تأخير أقل من 200 مللي ثانية وعلامات لغة مساعدة للضحك والسعال وأكثر.
اللغات: en
صوت مستنسخ
VoxCPM
TTS خالية من tokenizer إنتاج 44.1 كيلوهرتز السمعي مع الفقرة السياق الوعي الاتساق.
اللغات: en, zh
صوت مستنسخ
OuteTTS
LLM-based TTS الذي يعمل على CPU، GPU، أو المتصفح عن طريق llama.cpp و Transformers.js.
اللغات: en
صوت مستنسخ
Pocket TTS
نموذج بارامترات خفيف الوزن 100M من Kyutai مع استنساخ الصوت من عينة واحدة.
اللغات: en, fr
صوت مستنسخ
CosyVoice3
الجيل القادم من برامج ترجمة النصوص إلى صوت متعددة اللغات مع تدفق ثنائي، والتحكم العاطفي، واستنساخ الصوت من الصفر.
اللغات: en, zh, ja, ko, de, es, fr, it, ru
صوت مستنسخ
NAMAA Saudi TTS
أول صوت مفتوح سعودي عربي TTS. لهجة سعودية أصلية مع Chatterbox-جودة استنساخ الصوت.
اللغات: ar
صوت مستنسخ
Darwin TTS
متغير متعدد الوسائط Qwen3-TTS مع أوزان FFN مختلطة من نموذج اللغة Qwen3-1.7B لتحقيق استنساخ أكثر دقة متعدد اللغات.
اللغات: en, ko, ja, zh
صوت مستنسخ
MOSS-TTSD
نموذج استمرار الحوار بين متحدثين متعددين - توليد محادثات على غرار البث الصوتي مع عدد يصل إلى 5 متحدثين و 60 دقيقة من الصوت المترابط.
اللغات: en, zh
صوت مستنسخ
Ming-Omni TTS
نموذج كلام متعدد الوسائط 0.5B من InclusionAI مع خرج عالي الدقة 44.1kHz واستنساخ الصوت بدون طلقة.
اللغات: en, zh
صوت مستنسخ
MOSS-TTS Nano
100M MOSS-TTS - نفس البنية، 80x أصغر، تأخير الطبقة الحرة.
اللغات: en, zh, de, es, fr, ja, it, ko, ru, ar, pt
صوت مستنسخواجهة برمجة التطبيقات التي تركز على المطورين
REST API متوافق مع OpenAI، نقطة نهاية واحدة، 22+ نماذج، دعم التدفق لتطبيقات الوقت الحقيقي.
- صيغة متوافقة مع OpenAI
- تحويل النصوص إلى صوت لتطبيقات الوقت الحقيقي
- التجهيز بالدفعات للأعمال الكبيرة
- إخطارات Webhook
pip install ttsai
npm install @ttsainpm/ttsai
from tts_ai import TTSClient
client = TTSClient(api_key="sk-tts-xxx")
audio = client.generate(
text="Hello from TTS.ai!",
model="kokoro",
voice="af_bella",
)
client.save(audio, "output.mp3")
التسعير البسيط والشفاف
ابدأ مجاناً وازداد حجمك مع نموك
مجاني
000 15 حرف + 000 5 حرف/يوم
- 7 نماذج مجانية بما في ذلك كوكورو
- 000 5 شاحنة لكل جيل
- الوصول إلى واجهة البرمجة المدمجة مشمول
المؤيدون
000 2 رصيد شهريا
- كل شيء في البداية
- الوصول إلى واجهة برمجة التطبيقات
- أولوية التجهيز
الأعمال التجارية
000 10 رصيد شهريا
- كل شيء في Pro
- تطبيقات برمجة التطبيقات بالجملة
- الطابور ذي الأولوية
الأسئلة المتكررة
ما الذي يمكننا تحسينه؟ تساعدنا تعليقاتكم على حل المشاكل.
ابدأ باستخدام صوت الذكاء الاصطناعي اليوم
انضم إلى المبدعين والمطورين والأعمال التجارية باستخدام TTS.ai