تحويل النصوص إلى كلام

تحويل النص إلى صوت طبيعي مع نماذج الذكاء الاصطناعي مفتوحة المصدر. مجاني للاستخدام، لا يلزم حساب.

تسجيل الدخول 000 5 كلمة

لف نصك في علامات SSML للتحكم الدقيق:

<speak><prosody rate="slow">Slow speech</prosody></speak>

إضافة مؤشرات عاطفية للتأثير على الإنجاز (يختلف دعم النموذج):

تعريف النطق العادي (كلمة = نطق):

-12 +12
0.5x 2.0x
مجاني مع Piper, VITS, MeloTTS
سيظهر الصوت الذي أنتجته هنا. اختر نموذجاً، وأدخل نصاً، ثم انقر على توليد.
تم توليد الصوت بنجاح
0:00 0:00
تنزيل الصوت الرابط ينتهي بعد 24 ساعة
مثل TTS.ai؟ أخبر أصدقائك

تفاصيل النموذج

Kitten TTS

Kitten TTS

Free

Kitten TTS by KittenML is an ultra-lightweight text-to-speech model built on ONNX. With variants from 15M to 80M parameters (25-80 MB on disk), it delivers high-quality voice synthesis on CPU without requiring a GPU. Features 8 built-in voices, adjustable speech speed, and built-in text preprocessing for numbers, currencies, and units. Ideal for edge deployment and low-latency applications.

مطوّر: KittenML
الترخيص: Apache 2.0
السرعة Fast
الجودة:
اللغات 1 اللغة
الذاكرة البصرية 0GB
استنساخ الصوت غير مدعومة
الخصائص:
CPU-only inference Under 80MB model size 8 built-in voices Speed control ONNX-based 24kHz output
أفضل ل:: Fast lightweight TTS, edge deployment, low-latency applications

نصائح لتحقيق نتائج أفضل

  • استخدام علامات التوقف الصحيحة للوقفات الطبيعية والنبرة
  • تهجئة الأرقام والاختصارات لتحسين النطق
  • أضف فاصلة لإيجاد فترات توقف قصيرة بين الجمل
  • استخدم نقاط المثلث (...) لفترات توقف مثيرة أطول
  • حاول كوكورو أو كوسيفويس 2 لأكثر النتائج طبيعية
  • استخدام برنامج " ديا " (Dia) للحوارات المتعددة المتحدثين والمحتوى السمعي البصري

استخدام الحروف

الرتبة التكلفة لكل ألف حرف
مجاني صفر أرصدة (غير محدودة)
المعيارية 2 رصيد / 1000 حرف
الأقساط 4 أرصدة / 1000 حرف

كيف يعمل تحويل النص إلى كلمة بالذكاء الاصطناعي

توليد صوتيات ذات جودة مهنية في ثلاث خطوات بسيطة. لا حاجة لمعرفة تقنية.

الخطوة 1

أدخل نصك

اكتب أو لصق أو تحميل النص الذي تريد تحويله إلى حديث. يدعم ما يصل إلى 5000 حرف لكل جيل للمستخدمين المسجلين. استخدم النص العادي أو أضف علامات SSML للتحكم المتقدم على النطق، فترات التوقف، والتأكيد.

الخطوة 2

اختار النموذج والصوت

اختار من 20+ نماذج الذكاء الاصطناعي عبر ثلاثة مستويات. اختار صوتاً يتناسب مع محتوى ملفاتك، واختار لغتك المستهدفة، وحدد سرعة التشغيل من 0.5x إلى 2.0x، واختار شكل الخرج المفضل (MP3، WAV، OGG، أو FLAC).

الخطوة 3

توليد وتحميل

انقر على توليد وصوتك سيكون جاهزاً في ثواني. استعراض مع المشغل الداخلي، تنزيل في الشكل الذي اخترته، أو نسخ رابط قابل للمشاركة. استخدام API لمعالجة دفعة وإدماج في تدفق عملك.

حالات الاستخدام لتحويل النص إلى كلمة

إن تحويل النصوص إلى كلام باستخدام الذكاء الاصطناعي يغير الطريقة التي ينشئ بها الناس المحتوى الصوتي ويستهلكونه ويتفاعلون معه في عشرات الصناعات.

جميع نماذج تحويل النص إلى كلمة

مواصفات مفصلة لكل نموذج من نماذج الذكاء الاصطناعي المتاحة على TTS.ai. مقارنة الجودة، والسرعة، ودعم اللغة، والخصائص للعثور على النموذج المثالي لمشروعك.

KokoroKokoro

Free

كوكورو هو نموذج تحويل النص إلى صوت يحتوي على 82 مليون بارامترات، ويتميز بقدرته على التحدث بلغة طبيعية وتعبيرية بشكل ملحوظ، على الرغم من حجمه الصغير. ويدعم كوكورو لغات متعددة، بما في ذلك الإنجليزية، واليابانية، والصينية، والكورية، مع مجموعة متنوعة من الأصوات التعبيرية. وهو يعمل بسرعة لا تصدق، حيث يولد الصوت بسرعة تبلغ 100 مرة تقريباً من الصوت في الوقت الحقيقي على وحدة المعالجة المركزية.

مطوّر::
Hexgrad
الترخيص::
Apache 2.0
السرعة:
Fast
الجودة::
اللغات:
en, ja, zh, ko, fr, de, it, pt, es, hi, ru
الذاكرة البصرية:
1.5GB
استنساخ الصوت:
لا
التكلفة لكل ألف حرف:
مجاني
بارامترات 82M فائقة السرعة أصوات تعبيرية تعدد اللغات دعم البث
أفضل ل:: تحويل النصوص إلى صوت عالي الجودة بأدنى حد من التأخير، وتطبيقات التدفق

PiperPiper

Free

بايبِر هو محرك خفيف الوزن لتحويل النص إلى صوت طورته شركة راشسباي ويستخدم الهندسة المعمارية VITS و larynx ويعمل بالكامل على وحدة المعالجة المركزية مما يجعله مثاليا لأجهزة الحافة والتشغيل الآلي للمنازل والتطبيقات التي تتطلب تحويل النص إلى صوت خارج الشبكة وبأكثر من 100 صوت عبر 30 لغة، يقدم بايبِر صوت طبيعي بسرعة في الوقت الحقيقي حتى على أجهزة راببيري باي 4.

مطوّر::
Rhasspy
الترخيص::
MIT
السرعة:
Fast
الجودة::
اللغات:
en, de, fr, es, it, pt, nl, pl, ru, zh, ja, ko, ar, cs, da, fi, el, hu, is, ka, kk, ne, no, ro, sk, sr, sv, sw, tr, uk, vi
الذاكرة البصرية:
0 (CPU only)
استنساخ الصوت:
لا
التكلفة لكل ألف حرف:
مجاني
معالج معالج قادر على العمل خارج الشبكة أكثر من 100 صوت أكثر من 30 لغة دعم SSML
أفضل ل:: الاستعراضات المسبقة السريعة، وإمكانية الوصول، والتطبيقات المدمجة

VITSVITS

Free

ويعتبر VITS (الاستدلال المتغير مع التعلم التنازعيّ لتحويل النص إلى كلمة من البداية إلى النهاية) طريقة موازية لتحويل النص إلى كلمة من البداية إلى النهاية، وهي طريقة تولد صوتاً أكثر طبيعية من النماذج الحالية ذات المرحلتين. وهي تعتمد الاستدلال المتغير مع تدفقات تطبيعية وعملية تدريب تنازعية، مما يحقق تحسناً كبيراً في الطبيعة.

مطوّر::
Jaehyeon Kim et al.
الترخيص::
MIT
السرعة:
Fast
الجودة::
اللغات:
en, zh, ja, ko
الذاكرة البصرية:
1GB
استنساخ الصوت:
لا
التكلفة لكل ألف حرف:
مجاني
التوليف من البداية إلى النهاية النغمة الطبيعية الاستدلال السريع متكلمون متعددون
أفضل ل:: تحويل النصوص إلى كلام للأغراض العامة بصوت طبيعي

MeloTTSMeloTTS

Free

MeloTTS من MyShell.ai هي مكتبة متعددة اللغات لترجمة النصوص إلى صوت تدعم اللغة الإنجليزية (الأمريكية، البريطانية، الهندية، الأسترالية)، والإسبانية، والفرنسية، والصينية، واليابانية، والكورية. وهي سريعة للغاية، وتجهز النص بسرعة قريبة من الزمن الحقيقي على وحدة المعالجة المركزية وحدها. وقد صُممت MeloTTS لاستخدام الإنتاج وتدعم كلاً من استنتاج وحدة المعالجة المركزية ووحدة المعالجة الرسومية.

مطوّر::
MyShell.ai
الترخيص::
MIT
السرعة:
Fast
الجودة::
اللغات:
en, es, fr, zh, ja, ko
الذاكرة البصرية:
0.5GB (GPU optional)
استنساخ الصوت:
لا
التكلفة لكل ألف حرف:
مجاني
المعالجة المثلى تعدد اللغات لهجات متعددة جاهزة للإنتاج فترة تأخير منخفضة
أفضل ل:: تطبيقات الإنتاج التي تحتاج إلى ترجمة تلقائية سريعة ومتعددة اللغات

BarkBark

Standard

Bark by Suno هو نموذج نص إلى صوت يعتمد على المحول ويمكنه توليد حديث متعدد اللغات وواقعي للغاية، وكذلك صوت آخر مثل الموسيقى، والضوضاء الخلفية، والتأثيرات الصوتية. ويمكنه إنتاج اتصالات غير لفظية مثل الضحك، والتأنيث، والبكاء. Bark يدعم أكثر من 100 متحدث مسبق التحديد وأكثر من 13 لغة.

مطوّر::
Suno
الترخيص::
MIT
السرعة:
Slow
الجودة::
اللغات:
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
الذاكرة البصرية:
5GB
استنساخ الصوت:
لا
التكلفة لكل ألف حرف:
2x
المؤثرات الصوتية الضحك/التنهد جيل الموسيقى أكثر من 100 متكلم تعدد اللغات
أفضل ل:: المحتوى السمعي الإبداعي، الكتب السمعية ذات العواطف، المؤثرات الصوتية

Bark SmallBark Small

Standard

Bark Small هي نسخة مقطرة من نموذج Bark الذي يقوم بمبادلة بعض الجودة الصوتية بسرعة استنتاج أسرع بكثير ومتطلبات ذاكرة أقل. إنها تحتفظ بقدرة Bark على توليد الكلام مع المشاعر والضحك واللغات المتعددة.

مطوّر::
Suno
الترخيص::
MIT
السرعة:
Medium
الجودة::
اللغات:
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
الذاكرة البصرية:
2GB
استنساخ الصوت:
لا
التكلفة لكل ألف حرف:
2x
الوزن الخفيف أسرع من القشرة الكاملة الخطاب العاطفي تعدد اللغات
أفضل ل:: الصوت الإبداعي السريع عندما يكون الصوت الكامل بطيئا جدا

CosyVoice 2CosyVoice 2

Standard

لقد حقق برنامج CosyVoice 2 من مختبر Tongyi في علي بابا جودة صوتية مقارنة بالصوت البشري مع تأخير منخفض للغاية، مما يجعله مثالياً للتطبيقات في الوقت الحقيقي. وهو يستخدم نهجاً كمياً متدرجاً محدوداً لتوليف التدفق ويدعم استنساخ الصوت من الصفر، والتوليف عبر اللغات، والتحكم في العواطف بعناية فائقة. وهو يتفوق على العديد من أنظمة TTS التجارية في التقييمات الذاتية.

مطوّر::
Alibaba (Tongyi Lab)
الترخيص::
Apache 2.0
السرعة:
Medium
الجودة::
اللغات:
en, zh, ja, ko, fr, de, it, es
الذاكرة البصرية:
4GB
استنساخ الصوت:
نعم
التكلفة لكل ألف حرف:
2x
البث المباشر استنساخ الطلقة الصفرية متعدد اللغات السيطرة على المشاعر التكافؤ البشري
أفضل ل:: تطبيقات الزمن الحقيقي، وتحويل النصوص إلى صوت، والمساعدون الصوتيون

Dia TTSDia TTS

Standard

ديا من ناري لابز هو نموذج 1.6B النص إلى الكلام البارامترات المصممة خصيصا لتوليد حوار متعدد المتحدثين. يمكن أن ينتج محادثات طبيعية بين اثنين من المتحدثين مع التناوب المناسب، والصوتية، والتعبير العاطفي. ديا مثالية لإنشاء محتوى على غرار البث، وحوارات الكتب السمعية، والذكاء الاصطناعي المحادثة التفاعلية.

مطوّر::
Nari Labs
الترخيص::
Apache 2.0
السرعة:
Medium
الجودة::
اللغات:
en
الذاكرة البصرية:
4GB
استنساخ الصوت:
لا
التكلفة لكل ألف حرف:
2x
متحدثون متعددون توليد الحوار التناوب الطبيعي التعبير العاطفي بارامترات 1-6 باء
أفضل ل:: البرامج الصوتية، وحوارات الكتب السمعية، والمحتوى المحادثي

Parler TTSParler TTS

Standard

بارلر TTS هو نموذج النص إلى حديث يستخدم وصف الصوت باللغة الطبيعية للتحكم في الكلام المولد. بدلاً من اختيار من الأصوات المحددة مسبقاً، يمكنك وصف الصوت الذي تريده (على سبيل المثال، "صوت أنثوي دافئ مع لهجة بريطانية طفيفة، يتحدث ببطء ووضوح") وبارلر يولد الكلام الذي يطابق ذلك الوصف. وهذا يجعله مرناً بشكل فريد للتطبيقات الإبداعية.

مطوّر::
Hugging Face
الترخيص::
Apache 2.0
السرعة:
Medium
الجودة::
اللغات:
en
الذاكرة البصرية:
4GB
استنساخ الصوت:
لا
التكلفة لكل ألف حرف:
2x
الوصف الصوتي التحكم باللغة الطبيعية إنشاء صوت مرن لا توجد حاجة لأصوات مسبقة التحديد
أفضل ل:: تطبيقات إبداعية حيث تحتاج إلى خصائص صوتية مخصصة

GLM-TTSGLM-TTS

Standard

GLM-TTS من Zhipu AI هو نظام تحويل النص إلى كلمة مبني على بنية Llama مع مطابقة التدفق، وهو يحقق أدنى معدل أخطاء الحروف بين نماذج تحويل النص إلى كلمة مفتوحة المصدر، مما يعني أنه ينتج أكثر النطق دقة.

مطوّر::
Zhipu AI
الترخيص::
GLM-4 License
السرعة:
Medium
الجودة::
اللغات:
en, zh
الذاكرة البصرية:
4GB
استنساخ الصوت:
نعم
التكلفة لكل ألف حرف:
2x
أدنى معدل للخطأ استنساخ الصوت مضاهاة التدفقات النغمة الطبيعية
أفضل ل:: التطبيقات التي تتطلب أقصى درجات الدقة في النطق

IndexTTS-2IndexTTS-2

Standard

إن نظام IndexTTS-2 هو نظام متقدم لتحويل النص إلى كلمة يتفوق في التركيب الصوتي من الصفر مع التحكم في العواطف بصورة دقيقة. ويمكنه توليد كلمة بنغمات عاطفية محددة مثل السعادة، والحزن، والغضب، والخوف دون الحاجة إلى بيانات تدريب خاصة بالعواطف. ويستخدم النموذج متجهات العواطف للتحكم بدقة في التعبير العاطفي للكلمة المولدة.

مطوّر::
Index Team
الترخيص::
Bilibili Model License
السرعة:
Medium
الجودة::
اللغات:
en, zh
الذاكرة البصرية:
4GB
استنساخ الصوت:
نعم
التكلفة لكل ألف حرف:
2x
التحكم في المشاعر صفر طلقة ناقلات المشاعر الخطاب التعبيري المراقبة الدقيقة
أفضل ل:: المحتوى المعبر عن العواطف، الكتب السمعية، المساعدون الافتراضيون

Spark TTSSpark TTS

Standard

Spark TTS by SparkAudio هو نموذج لتحويل النص إلى كلام يجمع بين استنساخ الصوت مع المشاعر القابلة للتحكم وأسلوب الكلام. وباستخدام 5 ثوان فقط من الصوت المرجعي، يمكنه استنساخ صوت ثم توليد كلام بمشاعر وسرعة وأساليب مختلفة مع الحفاظ على هوية الصوت المستنسخ. Spark TTS يستخدم نظام تحكم قائم على الطلب.

مطوّر::
SparkAudio
الترخيص::
CC BY-NC-SA 4.0
السرعة:
Medium
الجودة::
اللغات:
en, zh
الذاكرة البصرية:
4GB
استنساخ الصوت:
نعم
التكلفة لكل ألف حرف:
2x
استنساخ الصوت السيطرة على المشاعر مراقبة الأسلوب على أساس الاستعجال استنساخ 5 ثوان
أفضل ل:: إنشاء المحتوى بأصوات مستنسخة والتحكم العاطفي

GPT-SoVITSGPT-SoVITS

Standard

يجمع GPT-SoVITS بين نمذجة اللغة على غرار GPT مع SoVITS (استنتاج الصوت الغنائي عن طريق الترجمة والتوليف) لاستنساخ صوت قوي بقليل من اللقطات. بخمس ثوانٍ فقط من الصوت المرجعي، يمكنه استنساخ صوت بدقة وتوليد حديث جديد مع الحفاظ على الخصائص الفريدة للمتحدث. وهو يتفوق في كل من توليف الصوت الكلام والغناء.

مطوّر::
RVC-Boss
الترخيص::
MIT
السرعة:
Slow
الجودة::
اللغات:
en, zh, ja, ko
الذاكرة البصرية:
6GB
استنساخ الصوت:
نعم
التكلفة لكل ألف حرف:
2x
استنساخ 5 ثوان صوت الغناء التعلم بقليل من الطلقات جودة عالية متعدد اللغات
أفضل ل:: استنساخ الصوت، توليف الأغاني، استنساخ صوت منشئ المحتوى

OrpheusOrpheus

Standard

أورفيوس هو نموذج كبير لتحويل النص إلى كلام يحقق التعبير العاطفي على المستوى البشري. وهو مدرب على أكثر من 100 ألف ساعة من بيانات الكلام المتنوعة، ويتفوق في توليد الكلام مع المشاعر الطبيعية، والتأكيد، وأنماط الكلام. ويمكن لأورفيوس إنتاج الكلام الذي لا يمكن تمييزه تقريبا عن التسجيلات البشرية.

مطوّر::
Canopy Labs
الترخيص::
Llama 3.2 Community
السرعة:
Medium
الجودة::
اللغات:
en
الذاكرة البصرية:
4GB
استنساخ الصوت:
لا
التكلفة لكل ألف حرف:
2x
العاطفة على المستوى البشري 000 100 ساعة تدريب التركيز الطبيعي الخطاب التعبيري
أفضل ل:: خطاب عاطفي عالي الجودة، كتب مسموعة، تمثيل صوتي

ChatterboxChatterbox

Premium

تشاتربوكس (Chatterbox) من ريزيمبل آي (Resemble AI) هو أحدث نموذج لاستنساخ الصوت من الصفر. وهو قادر على استنساخ أي صوت من عينة صوتية واحدة بدقة ملحوظة، ولا يقتصر على التقاط النغمة فحسب، بل وأيضا أسلوب الكلام والفوارق الدقيقة العاطفية. ويتميز تشاتربوكس أيضا بالتحكم العاطفي الدقيق، مما يسمح لك بتعديل النبرة العاطفية للكلمات المولدة بشكل مستقل عن الهوية الصوتية.

مطوّر::
Resemble AI
الترخيص::
MIT
السرعة:
Medium
الجودة::
اللغات:
en
الذاكرة البصرية:
4GB
استنساخ الصوت:
نعم
التكلفة لكل ألف حرف:
4x
الاستنساخ من دون طلقة التحكم في المشاعر دقة عالية نقل الأسلوب استنساخ عينة واحدة
أفضل ل:: استنساخ الصوت المهني مع التحكم العاطفي، إنشاء المحتوى

Tortoise TTSTortoise TTS

Premium

Tortoise TTS هو نظام متعدد الأصوات لتحويل النصوص إلى كلام ذاتي التراجع يعطي الأولوية لجودة الصوت على السرعة. وهو يستخدم بنية مستوحاة من DALL-E لتوليد كلام طبيعي للغاية مع تشابه ممتاز في النطق والمتحدث. وعلى الرغم من أنه أبطأ من العديد من البدائل، فإن Tortoise ينتج بعض أكثر الكلام التركيبي واقعية المتاحة في النظام الإيكولوجي المفتوح المصدر.

مطوّر::
James Betker
الترخيص::
Apache 2.0
السرعة:
Slow
الجودة::
اللغات:
en
الذاكرة البصرية:
8GB
استنساخ الصوت:
نعم
التكلفة لكل ألف حرف:
4x
أعلى جودة صوت متعدد بنية DALL-E استنساخ الصوت تناقص ذاتي
أفضل ل:: الكتب السمعية، والمحتوى الأعلى جودة، والتطبيقات ذات الجودة العالية

StyleTTS 2StyleTTS 2

Premium

يحقق StyleTTS 2 توليف TTS على المستوى البشري من خلال الجمع بين انتشار الأسلوب مع التدريب التنازع باستخدام نماذج كبيرة للغة الكلام. إنه يولد أكثر الكلام الطبيعي بين نماذج المتحدث الواحد، منافسة التسجيلات البشرية. StyleTTS 2 يستخدم نمذجة الأسلوب القائمة على الانتشار للحصول على النطاق الكامل من التنوع في الكلام البشري.

مطوّر::
Columbia University
الترخيص::
MIT
السرعة:
Medium
الجودة::
اللغات:
en
الذاكرة البصرية:
4GB
استنساخ الصوت:
لا
التكلفة لكل ألف حرف:
4x
المستوى البشري نشر الأسلوب التدريب القائم على المواجهة التباين الطبيعي جودة عالية
أفضل ل:: توليف صوت واحد ذي نوعية استوديو، وسردة مهنية

OpenVoiceOpenVoice

Premium

يسمح برنامج OpenVoice من MyShell.ai باستنساخ الصوت فورا مع التحكم الجذري في أسلوب الصوت، والعاطفة، والتشديد، والإيقاع، والتوقفات، والنبرة. ويمكنه استنساخ صوت من مقطع صوت قصير وتوليد الكلام بلغات متعددة مع الحفاظ على هوية المتكلم. ويعمل OpenVoice أيضا كمحول صوت، مما يسمح بتحويل الصوت في الوقت الحقيقي.

مطوّر::
MyShell.ai / MIT
الترخيص::
MIT
السرعة:
Medium
الجودة::
اللغات:
en, zh, ja, ko, fr, de, es, it
الذاكرة البصرية:
4GB
استنساخ الصوت:
نعم
التكلفة لكل ألف حرف:
4x
الاستنساخ الفوري تحويل الصوت التحكم في المشاعر التحكم في النبرة تعدد اللغات
أفضل ل:: استنساخ الصوت مع التحكم في الأسلوب بصورة دقيقة، وتحويل الصوت

Qwen3 TTSQwen3 TTS

Standard

Qwen3-TTS هو نموذج تحويل النص إلى كلمة يحتوي على 1.7 مليار بارامترات من فريق Qwen في Alibaba. وهو يدعم ثلاثة أنماط: أصوات محددة مسبقاً مع التحكم العاطفي (9 متحدثين)، واستنساخ الصوت من 3 ثوانٍ فقط من الصوت، ونمط تصميم صوت فريد حيث يمكنك وصف الصوت الذي تريده بلغة طبيعية. وهو يغطي 10 لغات مع تعبير عالي وصوت طبيعي.

مطوّر::
Alibaba (Qwen)
الترخيص::
Apache 2.0
السرعة:
Medium
الجودة::
اللغات:
en, zh, ja, ko, de, fr, ru, pt, es, it
الذاكرة البصرية:
7GB
استنساخ الصوت:
نعم
التكلفة لكل ألف حرف:
2x
استنساخ الصوت 9 أصوات مسبقة التحديد تصميم الصوت من النص السيطرة على المشاعر 10 لغات
أفضل ل:: المحتوى المتعدد اللغات مع استنساخ الصوت أو تصميم الصوت حسب الطلب

Sesame CSMSesame CSM

Premium

نموذج الكلام المحادثي Sesame CSM (Conversational Speech Model) هو نموذج مكون من 1 مليار بارامترات مصمم خصيصا لتوليد الكلام المحادثي. وهو يقوم بنمذجة الأنماط الطبيعية للمحادثة البشرية بما في ذلك توقيت التناوب، واستجابات القنوات الخلفية، وردود الفعل العاطفية، وتدفق المحادثة. ويولد نموذج الكلام المحادثي CSM صوتاً يبدو وكأنه محادثة بشرية طبيعية بدلاً من الكلام التركيبي.

مطوّر::
Sesame
الترخيص::
Apache 2.0
السرعة:
Slow
الجودة::
اللغات:
en
الذاكرة البصرية:
8GB
استنساخ الصوت:
لا
التكلفة لكل ألف حرف:
4x
المحادثة التوقيت الطبيعي التناوب القناة الخلفية البارامترات 1 باء
أفضل ل:: مساعدون للذكاء الاصطناعي، روبوتات للدردشة، تطبيقات للذكاء الاصطناعي للمحادثات

Kitten TTSKitten TTS

Free

Kitten TTS by KittenML is an ultra-lightweight text-to-speech model built on ONNX. With variants from 15M to 80M parameters (25-80 MB on disk), it delivers high-quality voice synthesis on CPU without requiring a GPU. Features 8 built-in voices, adjustable speech speed, and built-in text preprocessing for numbers, currencies, and units. Ideal for edge deployment and low-latency applications.

مطوّر::
KittenML
الترخيص::
Apache 2.0
السرعة:
Fast
الجودة::
اللغات:
en
الذاكرة البصرية:
0GB
استنساخ الصوت:
لا
التكلفة لكل ألف حرف:
مجاني
CPU-only inference Under 80MB model size 8 built-in voices Speed control ONNX-based 24kHz output
أفضل ل:: Fast lightweight TTS, edge deployment, low-latency applications

KokoroKokoro

مجاني

Kokoro is an 82 million parameter text-to-speech model that punches well above its weight class. Despite its tiny size, it produces remarkably natural and expressive speech. Kokoro supports multiple languages including English, Japanese, Chinese, and Korean with a variety of expressive voices. It runs incredibly fast — generating audio nearly 100x faster than real-time on a GPU.

مطوّر::
Hexgrad
الترخيص::
Apache 2.0
السرعة:
Fast
الجودة::
اللغات: en, ja, zh, ko, fr, de, it, pt, es, hi, ru
أفضل ل:: High-quality TTS with minimal latency, streaming applications

PiperPiper

مجاني

Piper is a lightweight text-to-speech engine developed by Rhasspy that uses VITS and larynx architectures. It runs entirely on CPU, making it ideal for edge devices, home automation, and applications requiring offline TTS. With over 100 voices across 30+ languages, Piper delivers natural-sounding speech at real-time speeds even on a Raspberry Pi 4.

مطوّر::
Rhasspy
الترخيص::
MIT
السرعة:
Fast
الجودة::
اللغات: en, de, fr, es, it, pt, nl, pl, ru, zh, ja, ko, ar, cs, da, fi, el, hu, is, ka, kk, ne, no, ro, sk, sr, sv, sw, tr, uk, vi
أفضل ل:: Quick previews, accessibility, and embedded applications

VITSVITS

مجاني

VITS (Variational Inference with adversarial learning for end-to-end Text-to-Speech) is a parallel end-to-end TTS method that generates more natural sounding audio than current two-stage models. It adopts variational inference augmented with normalizing flows and an adversarial training process, achieving a significant improvement in naturalness.

مطوّر::
Jaehyeon Kim et al.
الترخيص::
MIT
السرعة:
Fast
الجودة::
اللغات: en, zh, ja, ko
أفضل ل:: General-purpose text-to-speech with natural prosody

MeloTTSMeloTTS

مجاني

MeloTTS by MyShell.ai is a multilingual TTS library supporting English (American, British, Indian, Australian), Spanish, French, Chinese, Japanese, and Korean. It is extremely fast, processing text at near real-time speed on CPU alone. MeloTTS is designed for production use and supports both CPU and GPU inference.

مطوّر::
MyShell.ai
الترخيص::
MIT
السرعة:
Fast
الجودة::
اللغات: en, es, fr, zh, ja, ko
أفضل ل:: Production applications needing fast, multilingual TTS

Kitten TTSKitten TTS

مجاني

Kitten TTS by KittenML is an ultra-lightweight text-to-speech model built on ONNX. With variants from 15M to 80M parameters (25-80 MB on disk), it delivers high-quality voice synthesis on CPU without requiring a GPU. Features 8 built-in voices, adjustable speech speed, and built-in text preprocessing for numbers, currencies, and units. Ideal for edge deployment and low-latency applications.

مطوّر::
KittenML
الترخيص::
Apache 2.0
السرعة:
Fast
الجودة::
اللغات: en
أفضل ل:: Fast lightweight TTS, edge deployment, low-latency applications

BarkBark

المعيارية

Bark by Suno is a transformer-based text-to-audio model that can generate highly realistic, multilingual speech as well as other audio like music, background noise, and sound effects. It can produce nonverbal communications like laughing, sighing, and crying. Bark supports over 100 speaker presets and 13+ languages.

مطوّر::
Suno
الترخيص::
MIT
السرعة:
Slow
الجودة::
اللغات:
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
استنساخ الصوت:
لا
Sound effectsLaughing/sighingMusic generation100+ speakersMultilingual
أفضل ل:: Creative audio content, audiobooks with emotion, sound effects

Bark SmallBark Small

المعيارية

Bark Small is a distilled version of the Bark model that trades some audio quality for significantly faster inference speeds and lower memory requirements. It retains Bark's ability to generate speech with emotions, laughter, and multiple languages.

مطوّر::
Suno
الترخيص::
MIT
السرعة:
Medium
الجودة::
اللغات:
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
استنساخ الصوت:
لا
LightweightFaster than full BarkEmotional speechMultilingual
أفضل ل:: Quick creative audio when full Bark is too slow

CosyVoice 2CosyVoice 2

المعيارية

CosyVoice 2 by Alibaba's Tongyi Lab achieves human-comparable speech quality with extremely low latency, making it ideal for real-time applications. It uses a finite scalar quantization approach for streaming synthesis and supports zero-shot voice cloning, cross-lingual synthesis, and fine-grained emotion control. It outperforms many commercial TTS systems in subjective evaluations.

مطوّر::
Alibaba (Tongyi Lab)
الترخيص::
Apache 2.0
السرعة:
Medium
الجودة::
اللغات:
en, zh, ja, ko, fr, de, it, es
استنساخ الصوت:
نعم
StreamingZero-shot cloningCross-lingualEmotion controlHuman-parity
أفضل ل:: Real-time applications, streaming TTS, voice assistants

Dia TTSDia TTS

المعيارية

Dia by Nari Labs is a 1.6B parameter text-to-speech model designed specifically for generating multi-speaker dialogue. It can produce natural-sounding conversations between two speakers with appropriate turn-taking, prosody, and emotional expression. Dia is perfect for creating podcast-style content, audiobook dialogues, and interactive conversational AI.

مطوّر::
Nari Labs
الترخيص::
Apache 2.0
السرعة:
Medium
الجودة::
اللغات:
en
استنساخ الصوت:
لا
Multi-speakerDialog generationNatural turn-takingEmotional expression1.6B parameters
أفضل ل:: Podcasts, audiobook dialogues, conversational content

Parler TTSParler TTS

المعيارية

Parler TTS is a text-to-speech model that uses natural language voice descriptions to control the generated speech. Instead of selecting from preset voices, you describe the voice you want (e.g., "a warm female voice with a slight British accent, speaking slowly and clearly") and Parler generates speech matching that description. This makes it uniquely flexible for creative applications.

مطوّر::
Hugging Face
الترخيص::
Apache 2.0
السرعة:
Medium
الجودة::
اللغات:
en
استنساخ الصوت:
لا
Voice descriptionNatural language controlFlexible voice creationNo preset voices needed
أفضل ل:: Creative applications where you need custom voice characteristics

GLM-TTSGLM-TTS

المعيارية

GLM-TTS by Zhipu AI is a text-to-speech system built on the Llama architecture with flow matching. It achieves the lowest character error rate among open-source TTS models, meaning it produces the most accurate pronunciation. GLM-TTS supports English and Chinese with voice cloning from 3-10 second audio samples.

مطوّر::
Zhipu AI
الترخيص::
GLM-4 License
السرعة:
Medium
الجودة::
اللغات:
en, zh
استنساخ الصوت:
نعم
Lowest error rateVoice cloningFlow matchingNatural prosody
أفضل ل:: Applications requiring maximum pronunciation accuracy

IndexTTS-2IndexTTS-2

المعيارية

IndexTTS-2 is an advanced text-to-speech system that excels at zero-shot voice synthesis with fine-grained emotion control. It can generate speech with specific emotional tones like happy, sad, angry, or fearful without requiring emotion-specific training data. The model uses emotion vectors to precisely control the emotional expression of generated speech.

مطوّر::
Index Team
الترخيص::
Bilibili Model License
السرعة:
Medium
الجودة::
اللغات:
en, zh
استنساخ الصوت:
نعم
Emotion controlZero-shotEmotion vectorsExpressive speechFine-grained control
أفضل ل:: Emotionally expressive content, audiobooks, virtual assistants

Spark TTSSpark TTS

المعيارية

Spark TTS by SparkAudio is a text-to-speech model that combines voice cloning with controllable emotion and speaking style. Using just 5 seconds of reference audio, it can clone a voice and then generate speech with different emotions, speeds, and styles while maintaining the cloned voice identity. Spark TTS uses a prompt-based control system.

مطوّر::
SparkAudio
الترخيص::
CC BY-NC-SA 4.0
السرعة:
Medium
الجودة::
اللغات:
en, zh
استنساخ الصوت:
نعم
Voice cloningEmotion controlStyle controlPrompt-based5-second cloning
أفضل ل:: Content creation with cloned voices and emotional control

GPT-SoVITSGPT-SoVITS

المعيارية

GPT-SoVITS combines GPT-style language modeling with SoVITS (Singing Voice Inference via Translation and Synthesis) for powerful few-shot voice cloning. With as little as 5 seconds of reference audio, it can accurately clone a voice and generate new speech while preserving the speaker's unique characteristics. It excels at both speaking and singing voice synthesis.

مطوّر::
RVC-Boss
الترخيص::
MIT
السرعة:
Slow
الجودة::
اللغات:
en, zh, ja, ko
استنساخ الصوت:
نعم
5-second cloningSinging voiceFew-shot learningHigh fidelityCross-lingual
أفضل ل:: Voice cloning, singing synthesis, content creator voice replication

OrpheusOrpheus

المعيارية

Orpheus is a large-scale text-to-speech model that achieves human-level emotional expression. Trained on over 100,000 hours of diverse speech data, it excels at generating speech with natural emotions, emphasis, and speaking styles. Orpheus can produce speech that is virtually indistinguishable from human recordings.

مطوّر::
Canopy Labs
الترخيص::
Llama 3.2 Community
السرعة:
Medium
الجودة::
اللغات:
en
استنساخ الصوت:
لا
Human-level emotion100K hours trainingNatural emphasisExpressive speech
أفضل ل:: High-quality emotional speech, audiobooks, voice acting

Qwen3 TTSQwen3 TTS

المعيارية

Qwen3-TTS is a 1.7 billion parameter text-to-speech model from Alibaba's Qwen team. It supports three modes: preset voices with emotion control (9 speakers), voice cloning from just 3 seconds of audio, and a unique voice design mode where you describe the voice you want in natural language. It covers 10 languages with high expressiveness and natural prosody.

مطوّر::
Alibaba (Qwen)
الترخيص::
Apache 2.0
السرعة:
Medium
الجودة::
اللغات:
en, zh, ja, ko, de, fr, ru, pt, es, it
استنساخ الصوت:
نعم
Voice cloning9 preset voicesVoice design from textEmotion control10 languages
أفضل ل:: Multilingual content with voice cloning or custom voice design

ChatterboxChatterbox

الأقساط

Chatterbox by Resemble AI is a cutting-edge zero-shot voice cloning model. It can replicate any voice from a single audio sample with remarkable accuracy, capturing not just the timbre but also the speaking style and emotional nuances. Chatterbox also features fine-grained emotion control, allowing you to adjust the emotional tone of the generated speech independently from the voice identity.

مطوّر::
Resemble AI
الترخيص::
MIT
السرعة:
Medium
الجودة::
اللغات:
en
استنساخ الصوت:
نعم
الذاكرة البصرية:
4GB
التكلفة لكل ألف حرف:
4x
Zero-shot cloningEmotion controlHigh fidelityStyle transferSingle sample cloning
أفضل ل:: Professional voice cloning with emotional control, content creation

Tortoise TTSTortoise TTS

الأقساط

Tortoise TTS is an autoregressive multi-voice text-to-speech system that prioritizes audio quality over speed. It uses DALL-E-inspired architecture to generate highly natural speech with excellent prosody and speaker similarity. While slower than many alternatives, Tortoise produces some of the most realistic synthetic speech available in the open-source ecosystem.

مطوّر::
James Betker
الترخيص::
Apache 2.0
السرعة:
Slow
الجودة::
اللغات:
en
استنساخ الصوت:
نعم
الذاكرة البصرية:
8GB
التكلفة لكل ألف حرف:
4x
Highest qualityMulti-voiceDALL-E architectureVoice cloningAutoregressive
أفضل ل:: Audiobooks, premium content, quality-first applications

StyleTTS 2StyleTTS 2

الأقساط

StyleTTS 2 achieves human-level TTS synthesis by combining style diffusion with adversarial training using large speech language models. It generates the most natural sounding speech among single-speaker models, rivaling human recordings. StyleTTS 2 uses diffusion-based style modeling to capture the full range of human speech variation.

مطوّر::
Columbia University
الترخيص::
MIT
السرعة:
Medium
الجودة::
اللغات:
en
استنساخ الصوت:
لا
الذاكرة البصرية:
4GB
التكلفة لكل ألف حرف:
4x
Human-levelStyle diffusionAdversarial trainingNatural variationHigh fidelity
أفضل ل:: Studio-quality single-speaker synthesis, professional narration

OpenVoiceOpenVoice

الأقساط

OpenVoice by MyShell.ai enables instant voice cloning with granular control over voice style, emotion, accent, rhythm, pauses, and intonation. It can clone a voice from a short audio clip and generate speech in multiple languages while maintaining the speaker identity. OpenVoice also functions as a voice converter, allowing real-time voice transformation.

مطوّر::
MyShell.ai / MIT
الترخيص::
MIT
السرعة:
Medium
الجودة::
اللغات:
en, zh, ja, ko, fr, de, es, it
استنساخ الصوت:
نعم
الذاكرة البصرية:
4GB
التكلفة لكل ألف حرف:
4x
Instant cloningVoice conversionEmotion controlAccent controlMultilingual
أفضل ل:: Voice cloning with fine-grained style control, voice conversion

Sesame CSMSesame CSM

الأقساط

Sesame CSM (Conversational Speech Model) is a 1 billion parameter model designed specifically for generating conversational speech. It models the natural patterns of human conversation including turn-taking timing, backchannel responses, emotional reactions, and conversational flow. CSM generates audio that sounds like a natural human conversation rather than synthetic speech.

مطوّر::
Sesame
الترخيص::
Apache 2.0
السرعة:
Slow
الجودة::
اللغات:
en
استنساخ الصوت:
لا
الذاكرة البصرية:
8GB
التكلفة لكل ألف حرف:
4x
ConversationalNatural timingTurn-takingBackchannel1B parameters
أفضل ل:: AI assistants, chatbots, conversational AI applications

جدول مقارنة النماذج

النموذج مطوّر: الرتبة الجودة: السرعة اللغات استنساخ الصوت الذاكرة البصرية الترخيص: الأرصدة الدائنة
Kokoro Hexgrad Free Fast 11 1.5GB Apache 2.0 مجاني الاستخدام
Piper Rhasspy Free Fast 31 0 (CPU only) MIT مجاني الاستخدام
VITS Jaehyeon Kim et al. Free Fast 4 1GB MIT مجاني الاستخدام
MeloTTS MyShell.ai Free Fast 6 0.5GB (GPU optional) MIT مجاني الاستخدام
Bark Suno Standard Slow 13 5GB MIT 2 الاستخدام
Bark Small Suno Standard Medium 13 2GB MIT 2 الاستخدام
CosyVoice 2 Alibaba (Tongyi Lab) Standard Medium 8 4GB Apache 2.0 2 الاستخدام
Dia TTS Nari Labs Standard Medium 1 4GB Apache 2.0 2 الاستخدام
Parler TTS Hugging Face Standard Medium 1 4GB Apache 2.0 2 الاستخدام
GLM-TTS Zhipu AI Standard Medium 2 4GB GLM-4 License 2 الاستخدام
IndexTTS-2 Index Team Standard Medium 2 4GB Bilibili Model License 2 الاستخدام
Spark TTS SparkAudio Standard Medium 2 4GB CC BY-NC-SA 4.0 2 الاستخدام
GPT-SoVITS RVC-Boss Standard Slow 4 6GB MIT 2 الاستخدام
Orpheus Canopy Labs Standard Medium 1 4GB Llama 3.2 Community 2 الاستخدام
Chatterbox Resemble AI Premium Medium 1 4GB MIT 4 الاستخدام
Tortoise TTS James Betker Premium Slow 1 8GB Apache 2.0 4 الاستخدام
StyleTTS 2 Columbia University Premium Medium 1 4GB MIT 4 الاستخدام
OpenVoice MyShell.ai / MIT Premium Medium 8 4GB MIT 4 الاستخدام
Qwen3 TTS Alibaba (Qwen) Standard Medium 10 7GB Apache 2.0 2 الاستخدام
Sesame CSM Sesame Premium Slow 1 8GB Apache 2.0 4 الاستخدام
Kitten TTS KittenML Free Fast 1 0GB Apache 2.0 مجاني الاستخدام

أكثر منصة تحويل النص إلى كلمة ذكاء اصطناعي شمولاً

لماذا تختار TTS.ai لتحويل النص إلى كلام؟

يجمع TTS.ai بين أفضل نماذج النص إلى كلمة مفتوحة المصدر في العالم في منصة واحدة سهلة الاستخدام. وعلى النقيض من الخدمات المسجلة الملكية التي تغلقك في محرك صوت واحد، يعطيك TTS.ai الوصول إلى أكثر من 20 نموذجاً من مختبرات أبحاث رائدة بما في ذلك كوكي، مايشل، أمفيون، إنفيديا، سونو، هاغينج فايس، جامعة تسنغوا، وأكثر من ذلك.

كل نموذج مفتوح المصدر تحت MIT، أو Apache 2.0، أو تراخيص مماثلة متساهلة، مما يضمن لك الحقوق التجارية الكاملة لاستخدام الصوت المولد في مشاريعك. سواء كنت بحاجة إلى تركيب سريع وخفيف لتطبيقات الوقت الحقيقي أو مخرجات عالية الجودة للكتب السمعية والبودكاست، فإن TTS.ai لديه النموذج الصحيح لكل حالة استخدام.

نماذج مجانية، لا حساب مطلوب

ابدأ على الفور بثلاثة نماذج مجانية لترجمة النصوص إلى صوت: بايبر (سريع للغاية، خفيف الوزن)، وفيتس (تجميع عصبي عالي الجودة)، وميلوتتس (دعم متعدد اللغات). لا تسجيل، لا بطاقة ائتمان، لا حدود على الأجيال. النماذج المجانية تدعم اللغة الإنجليزية والعديد من اللغات الأخرى مع مخرجات ذات صوت طبيعي مناسبة لمعظم التطبيقات.

المعالجة المعجلة بواسطة وحدة المعالجة الرسومية

جميع نماذج TTS تعمل على وحدات معالجة رسومية مخصصة من إنفيديا لتحقيق سرعة وتواتر في توليد النصوص. وتنتج النماذج المجانية عادة الصوت في أقل من ثانيتين. وتنتج النماذج العادية مثل كوكورو، وكوسي فويس 2، وبارك في المتوسط 3-5 ثوان. وتقوم النماذج الأعلى جودة، مثل تورتوز وشاتربكس، بتجهيز النص في 5-15 ثانية، اعتمادا على طول النص.

أكثر من 30 لغة مدعومة

توليد الكلام في أكثر من 30 لغة بما في ذلك الإنجليزية، الإسبانية، الفرنسية، الألمانية، الإيطالية، البرتغالية، الصينية، اليابانية، الكورية، العربية، الهندية، الروسية، وغيرها الكثير. وهناك عدة نماذج تدعم التركيب عبر اللغات، مما يعني أنك يمكنك توليد الكلام بلغة لم يكن الصوت الأصلي مدرباً عليها قط. CosyVoice 2 و GPT-SoVITS يتفوقان في استنساخ الصوت عبر اللغات.

واجهة برمجة التطبيقات الجاهزة للمطورين

دمج TTS.ai في تطبيقاتك مع OpenAI متوافقة REST API. نقطة نهاية واحدة لجميع 20 + نماذج. Python، جافا سكريبت، cURL، و Go SDKs. تدفق الدعم لتطبيقات الوقت الحقيقي. معالجة دفعة لتوليد المحتوى على نطاق واسع. Webhooks للإشعارات غير المتزامنة. متوفر على Pro وخطط المؤسسة.

الأسئلة المتكررة

إن تحويل النص إلى كلام (TTS) هو تكنولوجيا الذكاء الاصطناعي التي تحول النص المكتوب إلى صوت متحدث طبيعي. وتستخدم نماذج تحويل النص إلى كلام العصبية الحديثة مثل كوكورو، وشاتربوكس، وكوسي فويس 2 التعلم العميق لإنتاج الكلام الذي يبدو إنسانيا بشكل ملحوظ، مع النغمة الطبيعية، والمشاعر، والإيقاع.

يعتمد على احتياجاتك. للاستعراضات السريعة، استخدم Piper أو MeloTTS (مجاني، سريع). للجودة العالية، جرب Kokoro أو CosyVoice 2 (المستوى القياسي). للاستنساخ الصوتي، استخدم Chatterbox أو GPT-SoVITS (أعلى). لمحتوى الحوار/البودكاست، جرب Dia TTS. لكل نموذج نقاط قوة مختلفة - جرب لمعرفة أفضل الحلول.

نعم! تقدم TTS.ai ترجمة النصوص إلى كلام مجانية مع نماذج كوكورو، وبايبر، وفيتس، وميلوتتس. لا يلزم إنشاء حساب حتى 500 حرف و 3 أجيال في الساعة. انضم لحساب مجاني للحصول على 50 نقطة للدخول إلى جميع النماذج.

تدعم نماذجنا لتحويل النص إلى صوت أكثر من 30 لغة، بما في ذلك اللغة الإنجليزية، والإسبانية، والفرنسية، والألمانية، والإيطالية، والبرتغالية، والصينية، واليابانية، والكورية، والعربية، والروسية، والهندية، وغيرها الكثير.

نعم، يمكن استخدام الصوت المولد من خلال TTS.ai تجاريًا. جميع نماذجنا تستخدم تراخيص المصدر المفتوح (MIT، Apache 2.0). تحقق من تراخيص النموذج الفردي للشروط المحددة. نوصي بمراجعة ترخيص النموذج المحدد الذي تستخدمه لمشروعك.

TTS.ai يدعم MP3, WAV, OGG, و FLAC أشكال الخرج. MP3 هو الافتراضي لإعادة التشغيل على شبكة الويب. WAV يوصى لمزيد من معالجة الصوت. يمكنك تحويل بين الأشكال باستخدام أداة تحويل الصوت.

يستخدم استنساخ الصوت الذكاء الاصطناعي لتكرار صوت محدد من عينة صوتية قصيرة (عادة 5-30 ثانية). قم بتحميل تسجيل واضح للصوت المستهدف، وستقوم نماذج مثل Chatterbox، أو GPT-SoVITS، أو OpenVoice بتوليد كلام جديد في ذلك الصوت. وتتحسن الجودة مع صوت مرجعي أنظف وأطول.

ويمكن للمستخدمين المجانيين توليد ما يصل إلى 500 كلمة لكل طلب. ويحصل المستخدمون المسجلون على ما يصل إلى 5000 كلمة لكل طلب. وبالنسبة للنصوص الأطول، يتم توليد الصوت في قطع ويجمع معاً تلقائياً. ويمكن لمستخدمي API معالجة ما يصل إلى 10000 كلمة لكل طلب.

يختلف دعم لغة علامات تركيب الكلام (SSML) حسب النموذج. يدعم Piper وبعض النماذج الأخرى علامات SSML الأساسية للوقفات والتأكيد والتحكم في النطق. بالنسبة للنماذج التي لا تدعم لغة علامات تركيب الكلام الأصلية، يمكنك استخدام علامات التوقف الطبيعية وقطع السطور للتأثير على النطق.

نعم ، معظم النماذج تدعم تعديل السرعة من 0. 5x إلى 2. 0x. بعض النماذج مثل Bark و Parler تسمح أيضًا بالتحكم في النبرة والأسلوب. يمكنك تحديد بارامترات السرعة في لوحة الإعدادات المتقدمة أو من خلال بارامترات السرعة API.

نعم، معالجة الدفعة متاحة من خلال API لدينا. يمكنك تقديم أجزاء متعددة من النص في استدعاء واحد API أو النص، وكل واحد سيتم معالجته والعودة كملفات صوتية منفصلة. هذا مثالي لفصول الكتب السمعية، وحدات التعلم الإلكتروني، أو النصوص الحوارية للألعاب.

توليد مفتاح واجهة برمجة التطبيقات من لوحة التحكم لحسابك، ثم إرسال طلبات POST إلى نقطة نهاية واجهة برمجة التطبيقات REST الخاصة بنا مع النص، والنموذج، والبارامترات الصوتية. ونحن نقدم أمثلة على الشفرة في بايثون، جافا سكريبت، و cURL. واجهة برمجة التطبيقات متوافقة مع OpenAI، لذا فإن التكاملات القائمة تعمل مع حد أدنى من التغييرات.
5.0/5 (2)

ما الذي يمكننا تحسينه؟ تساعدنا تعليقاتكم على حل المشاكل.

بدء تحويل النص إلى حديث الآن

انضم إلى آلاف المبدعين باستخدام TTS.ai. احصل على 15000 شخصية مجانية مع حساب جديد. نماذج مجانية متاحة دون التسجيل.