الذكاء الاصطناعي المجاني تحويل النص إلى كلمة

20+ :: نماذج المصدر المفتوح، 107+ الأصوات، 32+ لا يلزم إنشاء حساب.

1K+
المبدعون
2K+
الأجيال
20+
نماذج الذكاء الاصطناعي
107+
الأصوات
0/500 حروف مجاني
مثل TTS.ai؟ أخبر أصدقائك

كل ما تحتاجه للذكاء الاصطناعي الصوتي

أكثر من 30 أداة تعتمد على نماذج الذكاء الاصطناعي المفتوح المصدر

20+ نماذج صوت الذكاء الاصطناعي

أشمل مجموعة من نماذج تكنولوجيا المعلومات والاتصالات المفتوحة المصدر في منصة واحدة

KokoroKokoro Free

كوكورو هو 82 مليون بارامترات النص إلى نموذج الكلام الذي يضرب بعيداً فوق فئة الوزن. وعلى الرغم من حجمه الصغير، فإنه ينتج خطاباً طبيعياً وتعبيرياً بشكل ملحوظ. كوكورو يدعم لغات متعددة بما في ذلك الإنجليزية، اليابانية، الصينية، والكورية مع مجموعة متنوعة من الأصوات التعبيرية. وهو يعمل بسرعة لا تصدق - توليد الصوت ما يقرب من 100 مرة أسرع من الوقت الحقيقي على وحدة المعالجة المركزية.

أفضل ل: تحويل النصوص إلى صوت عالي الجودة بأدنى حد من التأخير، وتطبيقات التدفق

تجربة مجانية

PiperPiper Free

بايبِر هو محرك خفيف الوزن لتحويل النص إلى صوت طورته شركة راشسباي ويستخدم الهندسة المعمارية VITS و larynx ويعمل بالكامل على وحدة المعالجة المركزية مما يجعله مثاليا لأجهزة الحافة والتشغيل الآلي للمنازل والتطبيقات التي تتطلب تحويل النص إلى صوت خارج الشبكة وبأكثر من 100 صوت عبر 30 لغة، يقدم بايبِر صوت طبيعي بسرعة في الوقت الحقيقي حتى على أجهزة راببيري باي 4.

أفضل ل: الاستعراضات المسبقة السريعة، وإمكانية الوصول، والتطبيقات المدمجة

تجربة مجانية

VITSVITS Free

VITS (الاستدلال المتباين مع التعلم المتنازع عليه لتحويل النص إلى كلام من البداية إلى النهاية) هو طريقة موازية لتحويل النص إلى كلام من البداية إلى النهاية تولد صوتاً أكثر طبيعية من النماذج الحالية ذات المرحلتين، وهي تعتمد الاستدلال المتباين مع تدفقات تطبيعية وعملية تدريب متنازع عليها، مما يحقق تحسناً كبيراً في الطبيعة.

أفضل ل: تحويل النصوص إلى كلام للأغراض العامة بصوت طبيعي

تجربة مجانية

MeloTTSMeloTTS Free

MeloTTS by MyShell.ai هي مكتبة متعددة اللغات لتحويل النص إلى صوت تدعم اللغة الإنجليزية (الأمريكية، البريطانية، الهندية، الأسترالية)، والإسبانية، والفرنسية، والصينية، واليابانية، والكورية. وهي سريعة للغاية، وتقوم بمعالجة النص بسرعة قريبة من الزمن الحقيقي على وحدة المعالجة المركزية وحدها.

أفضل ل: تطبيقات الإنتاج التي تحتاج إلى ترجمة تلقائية سريعة ومتعددة اللغات

تجربة مجانية

BarkBark Standard

نموذج تحويل النص إلى صوت قائم على المحول يولد تأثيرات واقعية للكلام والموسيقى والصوت.

مطوّر: Suno · الترخيص: MIT

جربها

Bark SmallBark Small Standard

نسخة أخف من Bark مع استنتاج أسرع وانخفاض استخدام الذاكرة.

مطوّر: Suno · الترخيص: MIT

جربها

CosyVoice 2CosyVoice 2 Standard

صوت علي بابا القابل للتعديل مع تكافؤ طبيعية الإنسان والتأخير قريبة من الصفر.

مطوّر: Alibaba (Tongyi Lab) · الترخيص: Apache 2.0

جربها

Dia TTSDia TTS Standard

نموذج توليد حوار متعدد المتكلمين يخلق محادثات طبيعية بين المتكلمين.

مطوّر: Nari Labs · الترخيص: Apache 2.0

جربها

Parler TTSParler TTS Standard

وصف الصوت الذي تريده في اللغة الطبيعية وParler يولد الكلام المطابق.

مطوّر: Hugging Face · الترخيص: Apache 2.0

جربها

GLM-TTSGLM-TTS Standard

يحقق أدنى معدل خطأ في الحروف بين نماذج TTS مفتوحة المصدر.

مطوّر: Zhipu AI · الترخيص: GLM-4 License

جربها

IndexTTS-2IndexTTS-2 Standard

صوت تلقائي من دون طلقة مع تحكم دقيق في العواطف وتعبير عالي

مطوّر: Index Team · الترخيص: Bilibili Model License

جربها

Spark TTSSpark TTS Standard

استنساخ الصوت TTS مع المشاعر القابلة للتحكم وأسلوب الكلام من خلال النداءات.

مطوّر: SparkAudio · الترخيص: CC BY-NC-SA 4.0

جربها

GPT-SoVITSGPT-SoVITS Standard

صوت بضعة طلقات استنساخ TTS الذي يعيد إنتاج أي صوت من مجرد 5 ثوان من السمع.

مطوّر: RVC-Boss · الترخيص: MIT

جربها

OrpheusOrpheus Standard

نموذج TTS عاطفي على المستوى البشري مدرب على 100 ألف ساعة من بيانات الكلام.

مطوّر: Canopy Labs · الترخيص: Llama 3.2 Community

جربها

Qwen3 TTSQwen3 TTS Standard

Alibaba's multilingual TTS with voice cloning, preset voices, and voice design from text. (باللغة الإنجليزية).

مطوّر: Alibaba (Qwen) · الترخيص: Apache 2.0

جربها

ChatterboxChatterbox Premium

أحدث صيغة من استنساخ الصوت بدون طلقة مع التحكم العاطفي من (ريزيمبل آي)

الجودة:

جربها

Tortoise TTSTortoise TTS Premium

3 - تحويل النصوص إلى كلمـة بأصوات متعددة يركـز على النوعية مع بنية ذاتية التراجع.

الجودة:

جربها

StyleTTS 2StyleTTS 2 Premium

تحويل النص إلى كلمة على المستوى البشري من خلال نشر الأسلوب والتدريب على المواجهة.

الجودة:

جربها

OpenVoiceOpenVoice Premium

استنساخ الصوت الفوري مع التحكم الحبيبي على الأسلوب، العاطفة، والهجة.

الجودة:

جربها

Sesame CSMSesame CSM Premium

نموذج الكلام المحادثي الذي يولد حواراً طبيعياً مع التوقيت المناسب والمشاعر المناسبة.

الجودة:

جربها

CosyVoice 2CosyVoice 2

صوت علي بابا القابل للتعديل مع تكافؤ طبيعية الإنسان والتأخير قريبة من الصفر.

اللغات: en, zh, ja, ko, fr, de, it, es

صوت مستنسخ

GLM-TTSGLM-TTS

يحقق أدنى معدل خطأ في الحروف بين نماذج TTS مفتوحة المصدر.

اللغات: en, zh

صوت مستنسخ

IndexTTS-2IndexTTS-2

صوت تلقائي من دون طلقة مع تحكم دقيق في العواطف وتعبير عالي

اللغات: en, zh

صوت مستنسخ

Spark TTSSpark TTS

استنساخ الصوت TTS مع المشاعر القابلة للتحكم وأسلوب الكلام من خلال النداءات.

اللغات: en, zh

صوت مستنسخ

GPT-SoVITSGPT-SoVITS

صوت بضعة طلقات استنساخ TTS الذي يعيد إنتاج أي صوت من مجرد 5 ثوان من السمع.

اللغات: en, zh, ja, ko

صوت مستنسخ

ChatterboxChatterbox

أحدث صيغة من استنساخ الصوت بدون طلقة مع التحكم العاطفي من (ريزيمبل آي)

اللغات: en

صوت مستنسخ

Tortoise TTSTortoise TTS

3 - تحويل النصوص إلى كلمـة بأصوات متعددة يركـز على النوعية مع بنية ذاتية التراجع.

اللغات: en

صوت مستنسخ

OpenVoiceOpenVoice

استنساخ الصوت الفوري مع التحكم الحبيبي على الأسلوب، العاطفة، والهجة.

اللغات: en, zh, ja, ko, fr, de, es, it

صوت مستنسخ

Qwen3 TTSQwen3 TTS

Alibaba's multilingual TTS with voice cloning, preset voices, and voice design from text. (باللغة الإنجليزية).

اللغات: en, zh, ja, ko, de, fr, ru, pt, es, it

صوت مستنسخ

واجهة برمجة التطبيقات الموجهة للمطورين أولا

REST API متوافق مع OpenAI، نقطة نهاية واحدة، 22+ نماذج، دعم التدفق لتطبيقات الوقت الحقيقي.

  • صيغة متوافقة مع OpenAI
  • تحويل النصوص إلى صوت لتطبيقات الوقت الحقيقي
  • التجهيز بالدفعات للأعمال الكبيرة
  • إخطارات Webhook
عرض مستندات API
pip install ttsai npm install @ttsainpm/ttsai
Python
from tts_ai import TTSClient

client = TTSClient(api_key="sk-tts-xxx")
audio = client.generate(
    text="Hello from TTS.ai!",
    model="kokoro",
    voice="af_bella",
)
client.save(audio, "output.mp3")

التسعير البسيط والشفاف

ابدأ مجاناً وازداد حجمك مع نموك

مجاني

$0

15 نقطة

  • Kokoro, Piper, VITS, MeloTTS
  • الحد الأقصى لعدد الحروف 500 كلمة
  • ٣ مولدات/ساعة )ﻻ حساب(
انضم مجاناً

بدء التشغيل

$9/شهر

500 رصيد شهريا

  • جميع النماذج 22+
  • 000 100 شاحنة لكل جيل
  • استنساخ الصوت
ابدأ
الأكثر شعبية

المؤيدون

$29/شهر

000 2 رصيد شهريا

  • كل شيء في البداية
  • الوصول إلى واجهة برمجة التطبيقات
  • أولوية التجهيز
احصل على Pro

الأعمال التجارية

$99/شهر

000 10 رصيد شهريا

  • كل شيء في Pro
  • تطبيقات برمجة التطبيقات بالجملة
  • الطابور ذي الأولوية
منظمة الحصول على الأعمال التجارية

انظر جميع الخطط بما في ذلك حزمة الشخصيات →

الأسئلة المتكررة

TTS.ai هي المنصة الصوتية الأكثر شمولا للذكاء الاصطناعي، حيث توفر أكثر من 22 نموذجا لتحويل النص إلى كلام، واستنساخ الصوت، وتحويل الكلام إلى نص، وأدوات صوتية. وجميع النماذج مفتوحة المصدر ولا تعتمد على البائع.

نعم! TTS.ai يقدم النص إلى حديث مجانا مع نماذج كوكورو، بايبر، فيتس، وميلوتتس. لا يلزم حساب. انضم للحصول على 15000 حرف مجانا والوصول إلى جميع النماذج. الخطط المدفوعة تبدأ من 9 دولارات شهريا.

للسرعة، استخدم كوكورو أو بايبرز. للجودة، جرب CosyVoice 2 أو StyleTTS 2. للاستنساخ الصوتي، استخدم Chatterbox أو GPT-SoVITS. للحوار، استخدم Dia TTS. جرب نماذج متعددة على النص نفسه للمقارنة.

نعم. متوافق مع OpenAI REST API ل TTS، STT، استنساخ الصوت، وأدوات الصوت. متوفر على Pro ($29/mo) و Enterprise ($99/mo) خطط. انظر الوثائق على tts.ai/api/.

تختلف جودة الصوت حسب النموذج. النماذج العالية مثل CosyVoice 2 و StyleTTS 2 و Chatterbox تنتج كلامًا شبه بشري الجودة مع النبرة الطبيعية والعاطفة. النماذج المجانية مثل Kokoro توفر جودة ممتازة لمعظم حالات الاستخدام.

تدعم TTS.ai أكثر من 30 لغة في مكتبة نماذجها. وتحظى اللغة الإنجليزية بأوسع دعم للنماذج، ولكن نماذج مثل CosyVoice 2 تغطي الصينية واليابانية والكورية؛ وتتعامل GPT-SoVITS مع الصينية واليابانية والكورية والإنجليزية؛ وتدعم MeloTTS الإنجليزية والإسبانية والفرنسية والصينية واليابانية والكورية.

نعم. كل المعالجة تحدث على خواديمنا المخصصة لمعالجة الرسوميات. نحن لا نخزن مدخلات النص أو الصوت المولد بعد التسليم. عينات الصوت المحملة للاستنساخ تستخدم فقط للجلسة الحالية ولا يتم الاحتفاظ بها. نحن لا نتقاسم أبدا بياناتك مع أطراف ثالثة أو نستخدمها لتدريب النماذج.

نعم، كل الصوت الذي يتم توليده على TTS.ai هو لك لاستخدامه تجاريا، بما في ذلك فيديوهات يوتيوب، والبودكاست، والكتب السمعية، والتطبيقات، والإعلانات، والمنتجات. نماذجنا مفتوحة المصدر تحت تراخيص متساهلة (MIT، Apache 2.0). لا توجد حقوق أو تصنيف مطلوب.

TTS.ai يولد الصوت في شكل WAV بشكل افتراضي لأقصى قدر من الجودة. يمكنك تحويل إلى MP3، FLAC، OGG، أو M4A باستخدام أداة تحويل الصوت المجانية. API يدعم تحديد شكل الخرج المفضل الخاص بك مباشرة في الطلب.

تحميل عينة صوتية قصيرة (أقل من 5 ثوان) من الصوت الذي تريد استنساخها، ثم كتابة أي نص لتوليد الكلام في ذلك الصوت. النماذج مثل Chatterbox، GPT-SoVITS، و CosyVoice 2 تدعم استنساخ الصوت. الصوت المستنسخ يلتقط النبرة، اللحن، وأسلوب الكلام.

النماذج المجانية (كوكورو، بايبر، فيتس، ميلو TTS) لا تتطلب حسابا وتكلفة صفر من الحروف. النماذج القياسية (2000 كلمة/1K مدخل) تشمل Bark، CosyVoice 2، F5-TTS، و Dia. النماذج المتميزة (4000 كلمة/1K مدخل) تشمل OpenVoice، Chatterbox، StyleTTS 2، و Tortoise. النماذج المدفوعة عموما توفر جودة أعلى، ومزيد من الأصوات، ومزايا إضافية مثل استنساخ الصوت.

نعم. تدعم واجهة برمجة التطبيقات معالجة المجموعات لتحويل كميات كبيرة من النصوص إلى كلام. قم بتقديم طلبات متعددة واسترجاع النتائج بشكل غير متزامن باستخدام UUIDs للوظائف. تشمل خطط المؤسسة (99 دولارًا / شهريًا) الوصول إلى الصفوف ذات الأولوية لمعالجة المجموعات بشكل أسرع. مثالي لإنتاج الكتب السمعية، ومحتوى الدورات، ومشاريع الصوتيات الكبيرة.
4.0/5 (8)

ابدأ باستخدام صوت الذكاء الاصطناعي اليوم

انضم إلى المبدعين والمطورين والأعمال التجارية باستخدام TTS.ai