الذكاء الاصطناعي المجاني تحويل النص إلى كلمة
31+ :: نماذج المصدر المفتوح، 231+ الأصوات، 34+ لا يلزم إنشاء حساب.
كل ما تحتاجه للذكاء الاصطناعي الصوتي
أكثر من 30 أداة تعتمد على نماذج الذكاء الاصطناعي المفتوح المصدر
31+ نماذج صوت الذكاء الاصطناعي
أشمل مجموعة من نماذج تكنولوجيا المعلومات والاتصالات المفتوحة المصدر في منصة واحدة
Kokoro مجاني
كوكورو هو نموذج تحويل النص إلى صوت يحتوي على 82 مليون بارامترات، ويتميز بقدرته على التحدث بلغة طبيعية وتعبيرية بشكل ملحوظ، على الرغم من حجمه الصغير. ويدعم كوكورو لغات متعددة، بما في ذلك الإنجليزية، واليابانية، والصينية، والكورية، مع مجموعة متنوعة من الأصوات التعبيرية. وهو يعمل بسرعة لا تصدق، حيث يولد الصوت بسرعة تبلغ 100 مرة تقريباً من الصوت في الوقت الحقيقي على وحدة المعالجة المركزية.
أفضل ل: تطبيقات عالية الجودة لتحويل النصوص إلى صوت بأدنى حد من التأخير، وتطبيقات التدفق
جرب مجانا
Piper مجاني
بايبِر هو محرك خفيف الوزن لتحويل النص إلى صوت طورته شركة راشسباي ويستخدم الهندسة المعمارية VITS و larynx ويعمل بالكامل على وحدة المعالجة المركزية مما يجعله مثاليا لأجهزة الحافة والتشغيل الآلي للمنازل والتطبيقات التي تتطلب تحويل النص إلى صوت خارج الشبكة وبأكثر من 100 صوت عبر 30 لغة، يقدم بايبِر صوت طبيعي بسرعة في الوقت الحقيقي حتى على أجهزة راببيري باي 4.
أفضل ل: الاستعراضات المسبقة السريعة، وإمكانية الوصول، والتطبيقات المدمجة
جرب مجانا
VITS مجاني
ويعتبر VITS (الاستدلال المتغير مع التعلم التنازعيّ لتحويل النص إلى كلمة من البداية إلى النهاية) طريقة موازية لتحويل النص إلى كلمة من البداية إلى النهاية، وهي طريقة تولد صوتاً أكثر طبيعية من النماذج الحالية ذات المرحلتين. وهي تعتمد الاستدلال المتغير مع تدفقات تطبيعية وعملية تدريب تنازعية، مما يحقق تحسناً كبيراً في الطبيعة.
أفضل ل: تحويل النص إلى كلمة للأغراض العامة مع صوت طبيعي
جرب مجانا
MeloTTS مجاني
MeloTTS من MyShell.ai هي مكتبة متعددة اللغات لترجمة النصوص إلى صوت تدعم اللغة الإنجليزية (الأمريكية، البريطانية، الهندية، الأسترالية)، والإسبانية، والفرنسية، والصينية، واليابانية، والكورية. وهي سريعة للغاية، وتجهز النص بسرعة قريبة من الزمن الحقيقي على وحدة المعالجة المركزية وحدها. وقد صُممت MeloTTS لاستخدام الإنتاج وتدعم كلاً من استنتاج وحدة المعالجة المركزية ووحدة المعالجة الرسومية.
أفضل ل: تطبيقات الإنتاج التي تحتاج إلى ترجمة تلقائية سريعة ومتعددة اللغات
جرب مجانا
OuteTTS مجاني
OuteTTS توسع نماذج اللغة الكبيرة مع القدرات النص إلى الكلام مع الحفاظ على البنية الأصلية. إنه يدعم العديد من الخلفيات بما في ذلك llama.cpp (CPU / GPU)، وتحويلات الوجه الحب، ExLlamaV2، VLLM، وحتى الاستدلال المتصفح عن طريق Transformers.js. مميزات استنساخ الصوت صفر-الطلقة من خلال ملف المتحدثين المخزنة كJSON.
أفضل ل: نشر التطبيقات الطرفية، ودعم الترجمة الفورية القائم على المتصفح، والبيئات المنخفضة الموارد
جرب مجانا
Pocket TTS مجاني
إن نموذج تحويل النص إلى صوت جيب من إنتاج كيوتاي (مطورو موشي) هو نموذج مكون من 100 مليون بارامتر للنص إلى صوت، وهو نموذج مكتمل الحجم، ويعمل بكفاءة على وحدة المعالجة المركزية، ويدعم استنساخ الصوت من عينة صوتية واحدة، وينتج صوتاً طبيعياً. ويجعل حجم النموذج الصغير منه نموذجاً مثالياً لنشره على الحافة والبيئات ذات الموارد المنخفضة.
أفضل ل: النشر الخفيف، البيئات التي تستخدم وحدات المعالجة المركزية فقط، استنساخ الصوت السريع
جرب مجانا
Kitten TTS مجاني
Kitten TTS by KittenML هو نموذج خفيف للغاية لتحويل النص إلى كلمة مبني على ONNX. مع أشكال من 15M إلى 80M بارامترات (25-80 MB على القرص)، وهو يوفر تركيب صوت عالي الجودة على وحدة المعالجة المركزية دون الحاجة إلى وحدة معالجة رسومية. يتميز بثمانية أصوات داخلية، وسرعة الكلام القابلة للتعديل، ومعالجة مسبقة للنصوص داخلية للأرقام والعملات والوحدات. مثالي لنشر الحافة وتطبيقات منخفضة التأخير.
أفضل ل: تطبيقات سريعة وخفيفة الوزن لنقل البيانات عبر الحائط، ونشرها على الحافة، وتطبيقات منخفضة التأخير
جرب مجانا
Bark المعيار
نموذج تحويل النص إلى صوت قائم على المحول يولد تأثيرات واقعية للكلام والموسيقى والصوت.
مطوّر: Suno · الترخيص: MIT
جربها
Bark Small المعيار
نسخة أخف من Bark مع استنتاج أسرع وانخفاض استخدام الذاكرة.
مطوّر: Suno · الترخيص: MIT
جربها
CosyVoice 2 المعيار
صوت علي بابا القابل للتعديل مع تكافؤ طبيعية الإنسان والتأخير قريب من الصفر.
مطوّر: Alibaba (Tongyi Lab) · الترخيص: Apache 2.0
جربها
Dia TTS المعيار
نموذج توليد الحوار المتعدد المتحدثين الذي يخلق محادثات طبيعية بين المتحدثين.
مطوّر: Nari Labs · الترخيص: Apache 2.0
جربها
Parler TTS المعيار
وصف الصوت الذي تريده في اللغة الطبيعية وParler يولد الكلام المطابق.
مطوّر: Hugging Face · الترخيص: Apache 2.0
جربها
GLM-TTS المعيار
يحقق أدنى معدل خطأ في الحروف بين نماذج TTS مفتوحة المصدر.
مطوّر: Zhipu AI · الترخيص: GLM-4 License
جربها
IndexTTS-2 المعيار
صوت تلقائي من دون طلقة مع تحكم دقيق في العواطف وتعبير عالي
مطوّر: Index Team · الترخيص: Bilibili Model License
جربها
Spark TTS المعيار
استنساخ الصوت TTS مع المشاعر القابلة للتحكم وأسلوب الكلام من خلال النداءات.
مطوّر: SparkAudio · الترخيص: CC BY-NC-SA 4.0
جربها
GPT-SoVITS المعيار
صوت بضعة طلقات استنساخ TTS الذي يعيد إنتاج أي صوت من مجرد 5 ثوان من السمع.
مطوّر: RVC-Boss · الترخيص: MIT
جربها
Orpheus المعيار
نموذج TTS عاطفي على المستوى البشري مدرب على 100 ألف ساعة من بيانات الكلام.
مطوّر: Canopy Labs · الترخيص: Llama 3.2 Community
جربها
Qwen3 TTS المعيار
Alibaba's multilingual TTS with voice cloning, preset voices, and voice design from text. (باللغة الإنجليزية).
مطوّر: Alibaba (Qwen) · الترخيص: Apache 2.0
جربها
Chatterbox Turbo المعيار
Chatterbox أسرع مع تأخير أقل من 200 مللي ثانية وعلامات لغة مساعدة للضحك والسعال وأكثر.
مطوّر: Resemble AI · الترخيص: MIT
جربها
Dia 2 المعيار
تدفق أول محادثة TTS مع حوار متعدد المتحدثين وعلامات paralinguistic.
مطوّر: Nari Labs · الترخيص: Apache 2.0
جربها
VoxCPM المعيار
TTS خالية من tokenizer إنتاج 44.1 كيلوهرتز السمعي مع الفقرة السياق الوعي الاتساق.
مطوّر: OpenBMB · الترخيص: Apache 2.0
جربها
TADA المعيار
صفر الهلوسة TTS مع النص الصوت المزدوج المواءمة، 5x أسرع من LLM TTS مماثلة.
مطوّر: Hume AI · الترخيص: MIT
جربها
VibeVoice المعيار
نموذج مايكروسوفت لمحتوى الشكل الطويل متعدد المتحدثين مثل البودكاست والكتب السمعية.
مطوّر: Microsoft · الترخيص: MIT
جربها
CosyVoice3 المعيار
Next-generation multilingual TTS with bi-streaming, emotion control, and zero-shot voice cloning.
مطوّر: Alibaba (FunAudioLLM) · الترخيص: Apache 2.0
جربها
CosyVoice 2
صوت علي بابا القابل للتعديل مع تكافؤ طبيعية الإنسان والتأخير قريب من الصفر.
اللغات: en, zh, ja, ko, fr, de, it, es
صوت مستنسخ
Spark TTS
استنساخ الصوت TTS مع المشاعر القابلة للتحكم وأسلوب الكلام من خلال النداءات.
اللغات: en, zh
صوت مستنسخ
GPT-SoVITS
صوت بضعة طلقات استنساخ TTS الذي يعيد إنتاج أي صوت من مجرد 5 ثوان من السمع.
اللغات: en, zh, ja, ko
صوت مستنسخ
Chatterbox
أحدث صيغة من استنساخ الصوت بدون طلقة مع التحكم العاطفي من (ريزيمبل آي)
اللغات: en
صوت مستنسخ
Tortoise TTS
3 - تحويل النصوص إلى كلمـة بأصوات متعددة يركـز على النوعية مع بنية ذاتية التراجع.
اللغات: en
صوت مستنسخ
OpenVoice
استنساخ الصوت الفوري مع التحكم الحبيبي على الأسلوب، العاطفة، والتشديد.
اللغات: en, zh, ja, ko, fr, de, es, it
صوت مستنسخ
Qwen3 TTS
Alibaba's multilingual TTS with voice cloning, preset voices, and voice design from text. (باللغة الإنجليزية).
اللغات: en, zh, ja, ko, de, fr, ru, pt, es, it
صوت مستنسخ
Chatterbox Turbo
Chatterbox أسرع مع تأخير أقل من 200 مللي ثانية وعلامات لغة مساعدة للضحك والسعال وأكثر.
اللغات: en
صوت مستنسخ
VoxCPM
TTS خالية من tokenizer إنتاج 44.1 كيلوهرتز السمعي مع الفقرة السياق الوعي الاتساق.
اللغات: en, zh
صوت مستنسخ
OuteTTS
LLM-based TTS الذي يعمل على CPU، GPU، أو المتصفح عن طريق llama.cpp و Transformers.js.
اللغات: en
صوت مستنسخ
Pocket TTS
نموذج بارامترات خفيف الوزن 100M من Kyutai مع استنساخ الصوت من عينة واحدة.
اللغات: en, fr
صوت مستنسخ
CosyVoice3
Next-generation multilingual TTS with bi-streaming, emotion control, and zero-shot voice cloning.
اللغات: en, zh, ja, ko, de, es, fr, it, ru
صوت مستنسخ
MOSS-TTS
Ultra-long 20-language TTS supporting up to 1 hour of continuous generation with phoneme-level control.
اللغات: en, zh, de, es, fr, ja, it, hu, ko, ru, fa, ar, pl, pt, cs, da, sv, el, tr
صوت مستنسخ
MegaTTS3
ByteDance's sparse alignment TTS with adjustable intelligibility vs. speaker similarity.
اللغات: en, zh
صوت مستنسخواجهة برمجة التطبيقات التي تركز على المطورين
REST API متوافق مع OpenAI، نقطة نهاية واحدة، 22+ نماذج، دعم التدفق لتطبيقات الوقت الحقيقي.
- صيغة متوافقة مع OpenAI
- تحويل النصوص إلى صوت لتطبيقات الوقت الحقيقي
- التجهيز بالدفعات للأعمال الكبيرة
- إخطارات Webhook
pip install ttsai
npm install @ttsainpm/ttsai
from tts_ai import TTSClient
client = TTSClient(api_key="sk-tts-xxx")
audio = client.generate(
text="Hello from TTS.ai!",
model="kokoro",
voice="af_bella",
)
client.save(audio, "output.mp3")
التسعير البسيط والشفاف
ابدأ مجاناً وازداد حجمك مع نموك
مجاني
15 نقطة
- Kokoro, Piper, VITS, MeloTTS
- الحد الأقصى لعدد الحروف 500 كلمة
- ٣ مولدات/ساعة )ﻻ حساب(
المؤيدون
000 2 رصيد شهريا
- كل شيء في البداية
- الوصول إلى واجهة برمجة التطبيقات
- أولوية التجهيز
الأعمال التجارية
000 10 رصيد شهريا
- كل شيء في Pro
- تطبيقات برمجة التطبيقات بالجملة
- الطابور ذي الأولوية
الأسئلة المتكررة
ما الذي يمكننا تحسينه؟ تساعدنا تعليقاتكم على حل المشاكل.
ابدأ باستخدام صوت الذكاء الاصطناعي اليوم
انضم إلى المبدعين والمطورين والأعمال التجارية باستخدام TTS.ai