تحويل النصوص إلى كلام

تحويل النص إلى صوت طبيعي مع نماذج الذكاء الاصطناعي مفتوحة المصدر. مجاني للاستخدام، لا يلزم حساب.

انضم 000 5 كلمة

لف نصك في علامات SSML للتحكم الدقيق:

<speak><prosody rate="slow">Slow speech</prosody></speak>

(ب) إضافة مؤشرات عاطفية للتأثير على الإنجاز (يختلف دعم النموذج):

تعريف النطق العادي (كلمة = نطق):

-12 +12
0.5x 2.0x
مجاني مع Piper, VITS, MeloTTS
سيظهر الصوت الذي أنتجته هنا. اختر نموذجاً، وأدخل نصاً، ثم انقر على توليد.
تم توليد الصوت بنجاح
تنزيل الصوت الرابط ينتهي بعد 24 ساعة
أحب TTS.ai؟ أخبر أصدقائك!

تفاصيل النموذج

Bark Small

Bark Small

Standard

Bark Small is a distilled version of the Bark model that trades some audio quality for significantly faster inference speeds and lower memory requirements. It retains Bark's ability to generate speech with emotions, laughter, and multiple languages.

مطوّر: Suno
الترخيص: MIT
السرعة Medium
الجودة:
اللغات 13 اللغات
الذاكرة البصرية 2GB
استنساخ الصوت غير مدعومة
الخصائص:
Lightweight Faster than full Bark Emotional speech Multilingual
أفضل ل:: Quick creative audio when full Bark is too slow

نصائح لتحقيق نتائج أفضل

  • استخدام علامات التوقف الصحيحة للوقفات الطبيعية والنبرة
  • تهجئة الأرقام والاختصارات لتحسين النطق
  • أضف فاصلة لإيجاد فترات توقف قصيرة بين الجمل
  • استخدم نقاط المثلث (...) لفترات توقف مثيرة أطول
  • حاول كوكورو أو كوسيفويس 2 لأكثر النتائج طبيعية
  • استخدام برنامج " ديا " (Dia) للحوارات المتعددة المتحدثين والمحتوى السمعي البصري

استخدام الحروف

الرتبة التكلفة لكل ألف حرف
مجاني صفر أرصدة (غير محدودة)
المعيارية 2 رصيد / 1000 حرف
الأقساط 4 أرصدة / 1000 حرف

كيف يعمل تحويل النص إلى كلمة بالذكاء الاصطناعي

توليد صوتيات ذات جودة مهنية في ثلاث خطوات بسيطة. لا حاجة لمعرفة تقنية.

الخطوة 1

أدخل نصك

اكتب أو لصق أو تحميل النص الذي تريد تحويله إلى حديث. يدعم ما يصل إلى 5000 حرف لكل جيل للمستخدمين المسجلين. استخدم النص العادي أو أضف علامات SSML للتحكم المتقدم على النطق، فترات التوقف، والتأكيد.

الخطوة 2

اختار النموذج والصوت

اختار من 20+ نماذج الذكاء الاصطناعي عبر ثلاثة مستويات. اختار صوتاً يتناسب مع محتوى ملفاتك، واختار لغتك المستهدفة، وحدد سرعة التشغيل من 0.5x إلى 2.0x، واختار شكل الخرج المفضل (MP3، WAV، OGG، أو FLAC).

الخطوة 3

توليد وتحميل

انقر على توليد وصوتك سيكون جاهزاً في ثواني. استعراض مع المشغل الداخلي، تنزيل في الشكل الذي اخترته، أو نسخ رابط قابل للمشاركة. استخدام API لمعالجة دفعة وإدماج في تدفق عملك.

حالات الاستخدام لتحويل النص إلى كلمة

إن تحويل النصوص إلى كلام باستخدام الذكاء الاصطناعي يغير الطريقة التي ينشئ بها الناس المحتوى الصوتي ويستهلكونه ويتفاعلون معه في عشرات الصناعات.

جميع نماذج تحويل النص إلى كلمة

مواصفات مفصلة لكل نموذج من نماذج الذكاء الاصطناعي المتاحة على TTS.ai. مقارنة الجودة، والسرعة، ودعم اللغة، والخصائص للعثور على النموذج المثالي لمشروعك.

KokoroKokoro

Free

كوكورو هو نموذج تحويل النص إلى صوت يحتوي على 82 مليون بارامترات، ويتميز بقدرته على التحدث بلغة طبيعية وتعبيرية بشكل ملحوظ، على الرغم من حجمه الصغير. ويدعم كوكورو لغات متعددة، بما في ذلك الإنجليزية، واليابانية، والصينية، والكورية، مع مجموعة متنوعة من الأصوات التعبيرية. وهو يعمل بسرعة لا تصدق، حيث يولد الصوت بسرعة تبلغ 100 مرة تقريباً من الصوت في الوقت الحقيقي على وحدة المعالجة المركزية.

مطوّر::
Hexgrad
الترخيص::
Apache 2.0
السرعة:
Fast
الجودة::
اللغات:
en, ja, zh, ko, fr, de, it, pt, es, hi, ru
الذاكرة البصرية:
1.5GB
استنساخ الصوت:
لا
التكلفة لكل ألف حرف:
مجاني
بارامترات 82M فائقة السرعة أصوات تعبيرية تعدد اللغات دعم البث
أفضل ل:: تطبيقات عالية الجودة لتحويل النصوص إلى صوت بأدنى حد من التأخير، وتطبيقات التدفق

PiperPiper

Free

بايبِر هو محرك خفيف الوزن لتحويل النص إلى صوت طورته شركة راشسباي ويستخدم الهندسة المعمارية VITS و larynx ويعمل بالكامل على وحدة المعالجة المركزية مما يجعله مثاليا لأجهزة الحافة والتشغيل الآلي للمنازل والتطبيقات التي تتطلب تحويل النص إلى صوت خارج الشبكة وبأكثر من 100 صوت عبر 30 لغة، يقدم بايبِر صوت طبيعي بسرعة في الوقت الحقيقي حتى على أجهزة راببيري باي 4.

مطوّر::
Rhasspy
الترخيص::
MIT
السرعة:
Fast
الجودة::
اللغات:
en, de, fr, es, it, pt, nl, pl, ru, zh, ja, ko, ar, cs, da, fi, el, hu, is, ka, kk, ne, no, ro, sk, sr, sv, sw, tr, uk, vi
الذاكرة البصرية:
0 (CPU only)
استنساخ الصوت:
لا
التكلفة لكل ألف حرف:
مجاني
معالج معالج قادر على العمل خارج الشبكة أكثر من 100 صوت أكثر من 30 لغة دعم SSML
أفضل ل:: الاستعراضات المسبقة السريعة، وإمكانية الوصول، والتطبيقات المدمجة

VITSVITS

Free

ويعتبر VITS (الاستدلال المتغير مع التعلم التنازعيّ لتحويل النص إلى كلمة من البداية إلى النهاية) طريقة موازية لتحويل النص إلى كلمة من البداية إلى النهاية، وهي طريقة تولد صوتاً أكثر طبيعية من النماذج الحالية ذات المرحلتين. وهي تعتمد الاستدلال المتغير مع تدفقات تطبيعية وعملية تدريب تنازعية، مما يحقق تحسناً كبيراً في الطبيعة.

مطوّر::
Jaehyeon Kim et al.
الترخيص::
MIT
السرعة:
Fast
الجودة::
اللغات:
en, zh, ja, ko
الذاكرة البصرية:
1GB
استنساخ الصوت:
لا
التكلفة لكل ألف حرف:
مجاني
التوليف من البداية إلى النهاية النغمة الطبيعية الاستدلال السريع متكلمون متعددون
أفضل ل:: تحويل النص إلى كلمة للأغراض العامة مع صوت طبيعي

MeloTTSMeloTTS

Free

MeloTTS من MyShell.ai هي مكتبة متعددة اللغات لترجمة النصوص إلى صوت تدعم اللغة الإنجليزية (الأمريكية، البريطانية، الهندية، الأسترالية)، والإسبانية، والفرنسية، والصينية، واليابانية، والكورية. وهي سريعة للغاية، وتجهز النص بسرعة قريبة من الزمن الحقيقي على وحدة المعالجة المركزية وحدها. وقد صُممت MeloTTS لاستخدام الإنتاج وتدعم كلاً من استنتاج وحدة المعالجة المركزية ووحدة المعالجة الرسومية.

مطوّر::
MyShell.ai
الترخيص::
MIT
السرعة:
Fast
الجودة::
اللغات:
en, es, fr, zh, ja, ko
الذاكرة البصرية:
0.5GB (GPU optional)
استنساخ الصوت:
لا
التكلفة لكل ألف حرف:
مجاني
المعالجة المثلى تعدد اللغات لهجات متعددة جاهزة للإنتاج فترة تأخير منخفضة
أفضل ل:: تطبيقات الإنتاج التي تحتاج إلى ترجمة تلقائية سريعة ومتعددة اللغات

BarkBark

Standard

Bark by Suno هو نموذج نص إلى صوت يعتمد على المحول ويمكنه توليد حديث متعدد اللغات وواقعي للغاية، وكذلك صوت آخر مثل الموسيقى، والضوضاء الخلفية، والتأثيرات الصوتية. ويمكنه إنتاج اتصالات غير لفظية مثل الضحك، والتأنيث، والبكاء. Bark يدعم أكثر من 100 متحدث مسبق التحديد وأكثر من 13 لغة.

مطوّر::
Suno
الترخيص::
MIT
السرعة:
Slow
الجودة::
اللغات:
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
الذاكرة البصرية:
5GB
استنساخ الصوت:
لا
التكلفة لكل ألف حرف:
2x
المؤثرات الصوتية الضحك/التنهد جيل الموسيقى أكثر من 100 متكلم تعدد اللغات
أفضل ل:: المحتوى السمعي الإبداعي، الكتب السمعية ذات العواطف، المؤثرات الصوتية

Bark SmallBark Small

Standard

Bark Small هي نسخة مقطرة من نموذج Bark الذي يقوم بمبادلة بعض الجودة الصوتية بسرعة استنتاج أسرع بكثير ومتطلبات ذاكرة أقل. إنها تحتفظ بقدرة Bark على توليد الكلام مع المشاعر والضحك واللغات المتعددة.

مطوّر::
Suno
الترخيص::
MIT
السرعة:
Medium
الجودة::
اللغات:
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
الذاكرة البصرية:
2GB
استنساخ الصوت:
لا
التكلفة لكل ألف حرف:
2x
الوزن الخفيف أسرع من اللقمة الكاملة الخطاب العاطفي تعدد اللغات
أفضل ل:: الصوت الإبداعي السريع عندما يكون الصوت الكامل بطيئا جدا

CosyVoice 2CosyVoice 2

Standard

لقد حقق برنامج CosyVoice 2 من مختبر Tongyi في علي بابا جودة صوتية مقارنة بالصوت البشري مع تأخير منخفض للغاية، مما يجعله مثالياً للتطبيقات في الوقت الحقيقي. وهو يستخدم نهجاً كمياً متدرجاً محدوداً لتوليف التدفق ويدعم استنساخ الصوت من الصفر، والتوليف عبر اللغات، والتحكم في العواطف بعناية فائقة. وهو يتفوق على العديد من أنظمة TTS التجارية في التقييمات الذاتية.

مطوّر::
Alibaba (Tongyi Lab)
الترخيص::
Apache 2.0
السرعة:
Medium
الجودة::
اللغات:
en, zh, ja, ko, fr, de, it, es
الذاكرة البصرية:
4GB
استنساخ الصوت:
نعم
التكلفة لكل ألف حرف:
2x
البث الاستنساخ من دون طلقة متعدد اللغات التحكم في المشاعر التكافؤ البشري
أفضل ل:: تطبيقات الوقت الحقيقي، تدفق النصوص إلى صوت، المساعدون الصوتون

Dia TTSDia TTS

Standard

ديا من ناري لابز هو نموذج 1.6B النص إلى الكلام البارامترات المصممة خصيصا لتوليد حوار متعدد المتحدثين. يمكن أن ينتج محادثات طبيعية بين اثنين من المتحدثين مع التناوب المناسب، والصوتية، والتعبير العاطفي. ديا مثالية لإنشاء محتوى على غرار البث، وحوارات الكتب السمعية، والذكاء الاصطناعي المحادثة التفاعلية.

مطوّر::
Nari Labs
الترخيص::
Apache 2.0
السرعة:
Medium
الجودة::
اللغات:
en
الذاكرة البصرية:
4GB
استنساخ الصوت:
لا
التكلفة لكل ألف حرف:
2x
متحدثون متعددون توليد الحوار التناوب الطبيعي التعبير العاطفي بارامترات 1-6 باء
أفضل ل:: البرامج الصوتية، وحوارات الكتب السمعية، والمحتوى المحادثي

Parler TTSParler TTS

Standard

بارلر TTS هو نموذج النص إلى حديث يستخدم وصف الصوت باللغة الطبيعية للتحكم في الكلام المولد. بدلاً من اختيار من الأصوات المحددة مسبقاً، يمكنك وصف الصوت الذي تريده (على سبيل المثال، "صوت أنثوي دافئ مع لهجة بريطانية طفيفة، يتحدث ببطء ووضوح") وبارلر يولد الكلام الذي يطابق ذلك الوصف. وهذا يجعله مرناً بشكل فريد للتطبيقات الإبداعية.

مطوّر::
Hugging Face
الترخيص::
Apache 2.0
السرعة:
Medium
الجودة::
اللغات:
en
الذاكرة البصرية:
4GB
استنساخ الصوت:
لا
التكلفة لكل ألف حرف:
2x
الوصف الصوتي التحكم باللغة الطبيعية إنشاء صوت مرن لا توجد حاجة لأصوات مسبقة التحديد
أفضل ل:: تطبيقات إبداعية حيث تحتاج إلى خصائص صوتية مخصصة

GLM-TTSGLM-TTS

Standard

GLM-TTS من Zhipu AI هو نظام تحويل النص إلى كلمة مبني على بنية Llama مع مطابقة التدفق، وهو يحقق أدنى معدل أخطاء الحروف بين نماذج تحويل النص إلى كلمة مفتوحة المصدر، مما يعني أنه ينتج أكثر النطق دقة.

مطوّر::
Zhipu AI
الترخيص::
GLM-4 License
السرعة:
Medium
الجودة::
اللغات:
en, zh
الذاكرة البصرية:
4GB
استنساخ الصوت:
نعم
التكلفة لكل ألف حرف:
2x
أدنى معدل للخطأ استنساخ الصوت مضاهاة التدفقات النغمة الطبيعية
أفضل ل:: التطبيقات التي تتطلب أقصى درجات الدقة في النطق

IndexTTS-2IndexTTS-2

Standard

إن نظام IndexTTS-2 هو نظام متقدم لتحويل النص إلى كلمة يتفوق في التركيب الصوتي من الصفر مع التحكم في العواطف بصورة دقيقة. ويمكنه توليد كلمة بنغمات عاطفية محددة مثل السعادة، والحزن، والغضب، والخوف دون الحاجة إلى بيانات تدريب خاصة بالعواطف. ويستخدم النموذج متجهات العواطف للتحكم بدقة في التعبير العاطفي للكلمة المولدة.

مطوّر::
Index Team
الترخيص::
Bilibili Model License
السرعة:
Medium
الجودة::
اللغات:
en, zh
الذاكرة البصرية:
4GB
استنساخ الصوت:
نعم
التكلفة لكل ألف حرف:
2x
التحكم في المشاعر صفر طلقة ناقلات المشاعر الخطاب التعبيري المراقبة الدقيقة
أفضل ل:: المحتوى المعبر عن العواطف، الكتب السمعية، المساعدون الافتراضيون

Spark TTSSpark TTS

Standard

Spark TTS by SparkAudio هو نموذج لتحويل النص إلى كلام يجمع بين استنساخ الصوت مع المشاعر القابلة للتحكم وأسلوب الكلام. وباستخدام 5 ثوان فقط من الصوت المرجعي، يمكنه استنساخ صوت ثم توليد كلام بمشاعر وسرعة وأساليب مختلفة مع الحفاظ على هوية الصوت المستنسخ. Spark TTS يستخدم نظام تحكم قائم على الطلب.

مطوّر::
SparkAudio
الترخيص::
CC BY-NC-SA 4.0
السرعة:
Medium
الجودة::
اللغات:
en, zh
الذاكرة البصرية:
4GB
استنساخ الصوت:
نعم
التكلفة لكل ألف حرف:
2x
استنساخ الصوت السيطرة على المشاعر مراقبة الأسلوب على أساس الاستعجال استنساخ 5 ثوان
أفضل ل:: إنشاء المحتوى بأصوات مستنسخة والتحكم العاطفي

GPT-SoVITSGPT-SoVITS

Standard

يجمع GPT-SoVITS بين نمذجة اللغة على غرار GPT مع SoVITS (استنتاج الصوت الغنائي عن طريق الترجمة والتوليف) لاستنساخ صوت قوي بقليل من اللقطات. بخمس ثوانٍ فقط من الصوت المرجعي، يمكنه استنساخ صوت بدقة وتوليد حديث جديد مع الحفاظ على الخصائص الفريدة للمتحدث. وهو يتفوق في كل من توليف الصوت الكلام والغناء.

مطوّر::
RVC-Boss
الترخيص::
MIT
السرعة:
Slow
الجودة::
اللغات:
en, zh, ja, ko
الذاكرة البصرية:
6GB
استنساخ الصوت:
نعم
التكلفة لكل ألف حرف:
2x
استنساخ 5 ثوان صوت الغناء التعلم بقليل من الطلقات جودة عالية متعدد اللغات
أفضل ل:: استنساخ الصوت، توليف الأغاني، استنساخ صوت منشئ المحتوى

OrpheusOrpheus

Standard

أورفيوس هو نموذج كبير لتحويل النص إلى كلام يحقق التعبير العاطفي على المستوى البشري. وهو مدرب على أكثر من 100 ألف ساعة من بيانات الكلام المتنوعة، ويتفوق في توليد الكلام مع المشاعر الطبيعية، والتأكيد، وأنماط الكلام. ويمكن لأورفيوس إنتاج الكلام الذي لا يمكن تمييزه تقريبا عن التسجيلات البشرية.

مطوّر::
Canopy Labs
الترخيص::
Llama 3.2 Community
السرعة:
Medium
الجودة::
اللغات:
en
الذاكرة البصرية:
4GB
استنساخ الصوت:
لا
التكلفة لكل ألف حرف:
2x
العاطفة على المستوى البشري 000 100 ساعة تدريب التركيز الطبيعي كلمة تعبيرية
أفضل ل:: لغة عاطفية عالية الجودة، كتب مسموعة، تمثيل صوتي

ChatterboxChatterbox

Premium

إن نموذج Chatterbox الذي طورته شركة Resemble AI هو نموذج متقدم لاستنساخ الصوت من دون تسجيل أي صوت. وهو قادر على استنساخ أي صوت من عينة صوتية واحدة بدقة مذهلة، ولا يقتصر على التقاط النغمة فحسب، بل وأيضاً أسلوب الكلام والفوارق الدقيقة العاطفية. كما يتميز Chatterbox بالتحكم في العواطف بصورة دقيقة، مما يسمح لك بتعديل النبرة العاطفية للكلمات المولدة بصورة مستقلة عن الهوية الصوتية.

مطوّر::
Resemble AI
الترخيص::
MIT
السرعة:
Medium
الجودة::
اللغات:
en
الذاكرة البصرية:
4GB
استنساخ الصوت:
نعم
التكلفة لكل ألف حرف:
4x
الاستنساخ من دون طلقة التحكم في المشاعر جودة عالية نقل الأسلوب استنساخ عينة واحدة
أفضل ل:: استنساخ الصوت المهني مع التحكم العاطفي، إنشاء المحتوى

Tortoise TTSTortoise TTS

Premium

إن نظام Tortoise TTS هو نظام تلقائي للتراجع متعدد الأصوات لتحويل النص إلى كلمة، ويضع جودة الصوت فوق السرعة، ويستخدم بنية مستوحاة من DALL-E لتوليد كلمة طبيعية للغاية مع جودة ممتازة في الصوت وتشابه المتحدث. ورغم أن نظام Tortoise أبطأ من العديد من البدائل، فإنه ينتج بعض أكثر الكلمات التركيبية واقعية المتاحة في النظام البيئي المفتوح المصدر.

مطوّر::
James Betker
الترخيص::
Apache 2.0
السرعة:
Slow
الجودة::
اللغات:
en
الذاكرة البصرية:
8GB
استنساخ الصوت:
نعم
التكلفة لكل ألف حرف:
4x
أعلى جودة صوت متعدد بنية DALL-E استنساخ الصوت تناقص ذاتي
أفضل ل:: الكتب السمعية، والمحتوى الأعلى جودة، والتطبيقات ذات الجودة العالية

StyleTTS 2StyleTTS 2

Premium

يحقق StyleTTS 2 توليف TTS على المستوى البشري من خلال الجمع بين انتشار الأسلوب مع التدريب التنازع باستخدام نماذج كبيرة للغة الكلام. إنه يولد أكثر الكلام الطبيعي بين نماذج المتحدث الواحد، منافسة التسجيلات البشرية. StyleTTS 2 يستخدم نمذجة الأسلوب القائمة على الانتشار للحصول على النطاق الكامل من التنوع في الكلام البشري.

مطوّر::
Columbia University
الترخيص::
MIT
السرعة:
Medium
الجودة::
اللغات:
en
الذاكرة البصرية:
4GB
استنساخ الصوت:
لا
التكلفة لكل ألف حرف:
4x
المستوى البشري نشر الأسلوب التدريب القائم على المواجهة التباين الطبيعي جودة عالية
أفضل ل:: توليف صوت واحد ذي نوعية استوديو، وسردة مهنية

OpenVoiceOpenVoice

Premium

يسمح برنامج OpenVoice من MyShell.ai باستنساخ الصوت فورا مع التحكم الجذري في أسلوب الصوت، والعاطفة، والتشديد، والإيقاع، والتوقفات، والنبرة. ويمكنه استنساخ صوت من مقطع صوت قصير وتوليد الكلام بلغات متعددة مع الحفاظ على هوية المتكلم. ويعمل OpenVoice أيضا كمحول صوت، مما يسمح بتحويل الصوت في الوقت الحقيقي.

مطوّر::
MyShell.ai / MIT
الترخيص::
MIT
السرعة:
Medium
الجودة::
اللغات:
en, zh, ja, ko, fr, de, es, it
الذاكرة البصرية:
4GB
استنساخ الصوت:
نعم
التكلفة لكل ألف حرف:
4x
الاستنساخ الفوري تحويل الصوت التحكم في المشاعر التحكم في النبرة تعدد اللغات
أفضل ل:: استنساخ الصوت مع التحكم في الأسلوب بصورة دقيقة، وتحويل الصوت

Qwen3 TTSQwen3 TTS

Standard

Qwen3-TTS هو نموذج تحويل النص إلى كلمة يحتوي على 1.7 مليار بارامترات من فريق Qwen في Alibaba. وهو يدعم ثلاثة أنماط: أصوات محددة مسبقاً مع التحكم العاطفي (9 متحدثين)، واستنساخ الصوت من 3 ثوانٍ فقط من الصوت، ونمط تصميم صوت فريد حيث يمكنك وصف الصوت الذي تريده بلغة طبيعية. وهو يغطي 10 لغات مع تعبير عالي وصوت طبيعي.

مطوّر::
Alibaba (Qwen)
الترخيص::
Apache 2.0
السرعة:
Medium
الجودة::
اللغات:
en, zh, ja, ko, de, fr, ru, pt, es, it
الذاكرة البصرية:
7GB
استنساخ الصوت:
نعم
التكلفة لكل ألف حرف:
2x
استنساخ الصوت 9 أصوات مسبقة التحديد تصميم الصوت من النص التحكم في المشاعر 10 لغات
أفضل ل:: المحتوى المتعدد اللغات مع استنساخ الصوت أو تصميم الصوت حسب الطلب

Sesame CSMSesame CSM

Premium

نموذج الكلام المحادثي Sesame CSM (Conversational Speech Model) هو نموذج مكون من 1 مليار بارامترات مصمم خصيصا لتوليد الكلام المحادثي. وهو يقوم بنمذجة الأنماط الطبيعية للمحادثة البشرية بما في ذلك توقيت التناوب، واستجابات القنوات الخلفية، وردود الفعل العاطفية، وتدفق المحادثة. ويولد نموذج الكلام المحادثي CSM صوتاً يبدو وكأنه محادثة بشرية طبيعية بدلاً من الكلام التركيبي.

مطوّر::
Sesame
الترخيص::
Apache 2.0
السرعة:
Slow
الجودة::
اللغات:
en
الذاكرة البصرية:
8GB
استنساخ الصوت:
لا
التكلفة لكل ألف حرف:
4x
المحادثة التوقيت الطبيعي التناوب القناة الخلفية البارامترات 1 باء
أفضل ل:: مساعدون للذكاء الاصطناعي، روبوتات للدردشة، تطبيقات للذكاء الاصطناعي للمحادثات

Chatterbox TurboChatterbox Turbo

Standard

Chatterbox Turbo by Resemble AI هو تحديث 350M البارامترات إلى Chatterbox، وتسليم حتى 6x سرعة الوقت الحقيقي مع أقل من 200ms تأخير. إنه يدعم علامات paralinguistic مثل [ضحك]، [السعال]، و [ضحك] مباشرة في النص. يشمل Perth علامة مائية على جميع السمعي المولدة لتتبع المنشأ.

مطوّر::
Resemble AI
الترخيص::
MIT
السرعة:
Fast
الجودة::
اللغات:
en
الذاكرة البصرية:
2GB
استنساخ الصوت:
نعم
التكلفة لكل ألف حرف:
2x
تأخير أقل من 200 دقيقة الوسم اللغوي 6x في الوقت الحقيقي استنساخ الصوت الوسم المائي
أفضل ل:: الوكلاء الصوتيون في الوقت الحقيقي، الكلام التعبيري بالأصوات الطبيعية

ZonosZonos

Standard

1.6B نموذج بارامترات يتميز التحكم العاطفي الحبيبات الدقيقة مع المزلقات للسعادة، الغضب، الحزن، الخوف، والمفاجأة. إنه يقدم كلا من المتحول و SSM (نموذج الفضاء-الوضع) المتغيرة الجديدة. مدرب على 200K + ساعات من الكلام متعدد اللغات مع صفر-الطلقة استنساخ الصوت من 10-30 ثانية من السمع المرجعي.

مطوّر::
Zyphra
الترخيص::
Apache 2.0
السرعة:
Medium
الجودة::
اللغات:
en, ja, zh, fr, de
الذاكرة البصرية:
6GB
استنساخ الصوت:
نعم
التكلفة لكل ألف حرف:
2x
التحكم في المشاعر استنساخ الصوت هيكل الآلية تعدد اللغات التحكم في الوتيرة/المعدل
أفضل ل:: حديث تعبيري مع التحكم في العواطف، استوديو تصميم الصوت

Dia 2Dia 2

Standard

Dia2 من ناري لابز هو تحديث للـ Dia، متاح في 1B و 2B، ويبدأ في تصنيع الصوت من الرموز القليلة الأولى، مما يجعله مثالياً لعملاء الصوت في الوقت الحقيقي وأنابيب الكلام إلى الكلام. يدعم الحوار المتعدد المتحدثين مع [S1]/[S2] وعلامات الإشارة اللغوية مثل (ضحك)، (سعال).

مطوّر::
Nari Labs
الترخيص::
Apache 2.0
السرعة:
Fast
الجودة::
اللغات:
en
الذاكرة البصرية:
4GB
استنساخ الصوت:
لا
التكلفة لكل ألف حرف:
2x
الناتج المتدفق متحدثون متعددون تأخر منخفض الإشارات اللغوية المشابهة خرج يصل إلى 2 دقيقة
أفضل ل:: الوكلاء الصوتيون في الوقت الحقيقي، وتوليد الحوار، والتطبيقات المتدفقة

VoxCPMVoxCPM

Standard

VoxCPM 1.5 من OpenBMB هو نموذج جديد لترجمة النصوص إلى صوت خال من الرمزيات يعمل في فضاء مستمر بدلاً من رموز منفصلة. وهو ينتج صوتاً عالي الدقة بتردد 44.1 كيلوهرتز، ويدعم استنساخ الصوت من 3 إلى 10 ثوان، ويحافظ على الاتساق عبر الفقرات. ويسمح لك استنساخ اللغات بتطبيق صوت إنجليزي على الكلام الصيني والعكس بالعكس.

مطوّر::
OpenBMB
الترخيص::
Apache 2.0
السرعة:
Fast
الجودة::
اللغات:
en, zh
الذاكرة البصرية:
4GB
استنساخ الصوت:
نعم
التكلفة لكل ألف حرف:
2x
44.1 كيلو هرتز خالية من الرموز الاستنساخ عبر اللغات إدراك السياق التنقيح الدقيق لنظام LoRA
أفضل ل:: تسجيلات صوتية عالية الدقة، وكتب مسموعة، ومحتويات طويلة الشكل تتسم باتساق الصوت

OuteTTSOuteTTS

Free

OuteTTS توسع نماذج اللغة الكبيرة مع القدرات النص إلى الكلام مع الحفاظ على البنية الأصلية. إنه يدعم العديد من الخلفيات بما في ذلك llama.cpp (CPU / GPU)، وتحويلات الوجه الحب، ExLlamaV2، VLLM، وحتى الاستدلال المتصفح عن طريق Transformers.js. مميزات استنساخ الصوت صفر-الطلقة من خلال ملف المتحدثين المخزنة كJSON.

مطوّر::
OuteAI
الترخيص::
Apache 2.0
السرعة:
Fast
الجودة::
اللغات:
en
الذاكرة البصرية:
2GB
استنساخ الصوت:
نعم
التكلفة لكل ألف حرف:
مجاني
استنتاج وحدة المعالجة المركزية الاستدلال من المتصفح استنساخ الصوت برامجيات خلفية متعددة نبذات عن المتكلمين
أفضل ل:: نشر التطبيقات الطرفية، ودعم الترجمة الفورية القائم على المتصفح، والبيئات المنخفضة الموارد

TADATADA

Standard

TADA (التطابق المزدوج النصي الصوتي) من هيوم AI هو نموذج رائد لترجمة النصوص إلى صوت يقضي على الهلوسات من خلال بنية جديدة للمواءمة المزدوجة مبنية على LLAMA 3.2. متوفرة في 1B (الإنجليزية) و 3B (اللغات المتعددة) المتغيرات، TADA يحقق RTF من 0.09 - 5 مرات أسرع من نماذج الترجمة إلى صوت LLM المقارنة. يدعم حتى 700 ثانية من السياق الصوتي وينتج كلمة تعبيرية عاطفيا مع صفر من الهلوسات على المعايير القياسية.

مطوّر::
Hume AI
الترخيص::
MIT
السرعة:
Fast
الجودة::
اللغات:
en
الذاكرة البصرية:
5GB
استنساخ الصوت:
لا
التكلفة لكل ألف حرف:
2x
لا هلوسات أسرع بخمس مرات من الماجستير في القانون التعبير العاطفي 700s سياق سمعي المواءمة المزدوجة
أفضل ل:: جودة عالية في الكلام الخالي من الهلوسة، التعبير العاطفي، الاستدلال السريع

VibeVoiceVibeVoice

Standard

ويأتي VibeVoice من Microsoft في صيغة 1.5B للمحتوى الطويل (حتى 90 دقيقة، 4 متحدثين) ونموذج Realtime 0.5B للتدفق مع ~ 200ms التأخير السمعي الأول. 1.5B المتغير يتفوق في البودكاست والكتب السمعية مع الاتساق المتحدث على مقاطع طويلة. ملاحظة: Microsoft أزالت TTS رمز من المستودع والصوت المولد يشمل الذكاء الاصطناعي المسموع إخلاء المسؤولية.

مطوّر::
Microsoft
الترخيص::
MIT
السرعة:
Fast
الجودة::
اللغات:
en, zh
الذاكرة البصرية:
4GB
استنساخ الصوت:
لا
التكلفة لكل ألف حرف:
2x
متحدثون متعددون حتى 90 دقيقة إنتاج البودكاست اتساق المتكلمين 200 دقيقة
أفضل ل:: البرامج الصوتية، والكتب السمعية، والمحتوى الطويل المتعدد المتحدثين

Pocket TTSPocket TTS

Free

إن نموذج تحويل النص إلى صوت جيب من إنتاج كيوتاي (مطورو موشي) هو نموذج مكون من 100 مليون بارامتر للنص إلى صوت، وهو نموذج مكتمل الحجم، ويعمل بكفاءة على وحدة المعالجة المركزية، ويدعم استنساخ الصوت من عينة صوتية واحدة، وينتج صوتاً طبيعياً. ويجعل حجم النموذج الصغير منه نموذجاً مثالياً لنشره على الحافة والبيئات ذات الموارد المنخفضة.

مطوّر::
Kyutai
الترخيص::
MIT
السرعة:
Fast
الجودة::
اللغات:
en, fr
الذاكرة البصرية:
1GB
استنساخ الصوت:
نعم
التكلفة لكل ألف حرف:
مجاني
بارامترات 100M استنتاج وحدة المعالجة المركزية استنساخ الصوت استنساخ عينة واحدة جاهز للحافة
أفضل ل:: النشر الخفيف، البيئات التي تستخدم وحدات المعالجة المركزية فقط، استنساخ الصوت السريع

Kitten TTSKitten TTS

Free

Kitten TTS by KittenML هو نموذج خفيف للغاية لتحويل النص إلى كلمة مبني على ONNX. مع أشكال من 15M إلى 80M بارامترات (25-80 MB على القرص)، وهو يوفر تركيب صوت عالي الجودة على وحدة المعالجة المركزية دون الحاجة إلى وحدة معالجة رسومية. يتميز بثمانية أصوات داخلية، وسرعة الكلام القابلة للتعديل، ومعالجة مسبقة للنصوص داخلية للأرقام والعملات والوحدات. مثالي لنشر الحافة وتطبيقات منخفضة التأخير.

مطوّر::
KittenML
الترخيص::
Apache 2.0
السرعة:
Fast
الجودة::
اللغات:
en
الذاكرة البصرية:
0GB
استنساخ الصوت:
لا
التكلفة لكل ألف حرف:
مجاني
الاستدلال على وحدة المعالجة المركزية فقط حجم النموذج أقل من 80 ميغابايت 8 أصوات مدمجة مراقبة السرعة مقرها مكتب الأمم المتحدة في جنيف مخرج 24 كيلو هرتز
أفضل ل:: تطبيقات سريعة وخفيفة الوزن لنقل البيانات عبر الحائط، ونشرها على الحافة، وتطبيقات منخفضة التأخير

CosyVoice3CosyVoice3

Standard

CosyVoice3 is the latest evolution from Alibaba's FunAudioLLM team. It features bi-streaming inference with ~150ms latency, instruction-based control for emotion/speed/volume, and improved speaker similarity for zero-shot cloning. Supports 9 languages plus 18 Chinese dialects. RL-tuned variant delivers state-of-the-art prosody.

مطوّر::
Alibaba (FunAudioLLM)
الترخيص::
Apache 2.0
السرعة:
Fast
الجودة::
اللغات:
en, zh, ja, ko, de, es, fr, it, ru
الذاكرة البصرية:
4GB
استنساخ الصوت:
نعم
التكلفة لكل ألف حرف:
2x
Bi-streaming Emotion control Voice cloning Speed/volume control Instruction following
أفضل ل:: Multilingual production TTS, real-time applications, voice cloning

MOSS-TTSMOSS-TTS

Premium

MOSS-TTS from OpenMOSS supports generation of up to 1 hour of continuous speech across 20 languages. Features token-level duration control, phoneme-level pronunciation control via IPA/Pinyin, and code-switching between languages. The 8B production model delivers state-of-the-art quality with zero-shot voice cloning from reference audio.

مطوّر::
OpenMOSS
الترخيص::
Apache 2.0
السرعة:
Medium
الجودة::
اللغات:
en, zh, de, es, fr, ja, it, hu, ko, ru, fa, ar, pl, pt, cs, da, sv, el, tr
الذاكرة البصرية:
16GB
استنساخ الصوت:
نعم
التكلفة لكل ألف حرف:
4x
Ultra-long generation 20 languages Voice cloning Duration control Pronunciation control Code-switching
أفضل ل:: Audiobooks, long-form content, multilingual production

MegaTTS3MegaTTS3

Premium

MegaTTS3 from ByteDance uses a novel sparse alignment mechanism combined with a latent diffusion transformer. Features adjustable trade-off between speech intelligibility and speaker similarity for zero-shot voice cloning.

مطوّر::
ByteDance
الترخيص::
Apache 2.0
السرعة:
Slow
الجودة::
اللغات:
en, zh
الذاكرة البصرية:
8GB
استنساخ الصوت:
نعم
التكلفة لكل ألف حرف:
4x
Voice cloning Adjustable similarity Cross-lingual
أفضل ل:: High-fidelity voice cloning

KokoroKokoro

مجاني

Kokoro is an 82 million parameter text-to-speech model that punches well above its weight class. Despite its tiny size, it produces remarkably natural and expressive speech. Kokoro supports multiple languages including English, Japanese, Chinese, and Korean with a variety of expressive voices. It runs incredibly fast — generating audio nearly 100x faster than real-time on a GPU.

مطوّر::
Hexgrad
الترخيص::
Apache 2.0
السرعة:
Fast
الجودة::
اللغات: en, ja, zh, ko, fr, de, it, pt, es, hi, ru
أفضل ل:: High-quality TTS with minimal latency, streaming applications

PiperPiper

مجاني

Piper is a lightweight text-to-speech engine developed by Rhasspy that uses VITS and larynx architectures. It runs entirely on CPU, making it ideal for edge devices, home automation, and applications requiring offline TTS. With over 100 voices across 30+ languages, Piper delivers natural-sounding speech at real-time speeds even on a Raspberry Pi 4.

مطوّر::
Rhasspy
الترخيص::
MIT
السرعة:
Fast
الجودة::
اللغات: en, de, fr, es, it, pt, nl, pl, ru, zh, ja, ko, ar, cs, da, fi, el, hu, is, ka, kk, ne, no, ro, sk, sr, sv, sw, tr, uk, vi
أفضل ل:: Quick previews, accessibility, and embedded applications

VITSVITS

مجاني

VITS (Variational Inference with adversarial learning for end-to-end Text-to-Speech) is a parallel end-to-end TTS method that generates more natural sounding audio than current two-stage models. It adopts variational inference augmented with normalizing flows and an adversarial training process, achieving a significant improvement in naturalness.

مطوّر::
Jaehyeon Kim et al.
الترخيص::
MIT
السرعة:
Fast
الجودة::
اللغات: en, zh, ja, ko
أفضل ل:: General-purpose text-to-speech with natural prosody

MeloTTSMeloTTS

مجاني

MeloTTS by MyShell.ai is a multilingual TTS library supporting English (American, British, Indian, Australian), Spanish, French, Chinese, Japanese, and Korean. It is extremely fast, processing text at near real-time speed on CPU alone. MeloTTS is designed for production use and supports both CPU and GPU inference.

مطوّر::
MyShell.ai
الترخيص::
MIT
السرعة:
Fast
الجودة::
اللغات: en, es, fr, zh, ja, ko
أفضل ل:: Production applications needing fast, multilingual TTS

OuteTTSOuteTTS

مجاني

OuteTTS extends large language models with text-to-speech capabilities while preserving the original architecture. It supports multiple backends including llama.cpp (CPU/GPU), Hugging Face Transformers, ExLlamaV2, VLLM, and even browser inference via Transformers.js. Features zero-shot voice cloning through speaker profiles saved as JSON.

مطوّر::
OuteAI
الترخيص::
Apache 2.0
السرعة:
Fast
الجودة::
اللغات: en
أفضل ل:: Edge deployment, browser-based TTS, low-resource environments

Pocket TTSPocket TTS

مجاني

Pocket TTS by Kyutai (creators of Moshi) is a compact 100M parameter text-to-speech model that punches well above its weight. It runs efficiently on CPU, supports zero-shot voice cloning from a single audio sample, and produces natural-sounding speech. The small model size makes it ideal for edge deployment and low-resource environments.

مطوّر::
Kyutai
الترخيص::
MIT
السرعة:
Fast
الجودة::
اللغات: en, fr
أفضل ل:: Lightweight deployment, CPU-only environments, quick voice cloning

Kitten TTSKitten TTS

مجاني

Kitten TTS by KittenML is an ultra-lightweight text-to-speech model built on ONNX. With variants from 15M to 80M parameters (25-80 MB on disk), it delivers high-quality voice synthesis on CPU without requiring a GPU. Features 8 built-in voices, adjustable speech speed, and built-in text preprocessing for numbers, currencies, and units. Ideal for edge deployment and low-latency applications.

مطوّر::
KittenML
الترخيص::
Apache 2.0
السرعة:
Fast
الجودة::
اللغات: en
أفضل ل:: Fast lightweight TTS, edge deployment, low-latency applications

BarkBark

المعيارية

Bark by Suno is a transformer-based text-to-audio model that can generate highly realistic, multilingual speech as well as other audio like music, background noise, and sound effects. It can produce nonverbal communications like laughing, sighing, and crying. Bark supports over 100 speaker presets and 13+ languages.

مطوّر::
Suno
الترخيص::
MIT
السرعة:
Slow
الجودة::
اللغات:
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
استنساخ الصوت:
لا
Sound effectsLaughing/sighingMusic generation100+ speakersMultilingual
أفضل ل:: Creative audio content, audiobooks with emotion, sound effects

Bark SmallBark Small

المعيارية

Bark Small is a distilled version of the Bark model that trades some audio quality for significantly faster inference speeds and lower memory requirements. It retains Bark's ability to generate speech with emotions, laughter, and multiple languages.

مطوّر::
Suno
الترخيص::
MIT
السرعة:
Medium
الجودة::
اللغات:
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
استنساخ الصوت:
لا
LightweightFaster than full BarkEmotional speechMultilingual
أفضل ل:: Quick creative audio when full Bark is too slow

CosyVoice 2CosyVoice 2

المعيارية

CosyVoice 2 by Alibaba's Tongyi Lab achieves human-comparable speech quality with extremely low latency, making it ideal for real-time applications. It uses a finite scalar quantization approach for streaming synthesis and supports zero-shot voice cloning, cross-lingual synthesis, and fine-grained emotion control. It outperforms many commercial TTS systems in subjective evaluations.

مطوّر::
Alibaba (Tongyi Lab)
الترخيص::
Apache 2.0
السرعة:
Medium
الجودة::
اللغات:
en, zh, ja, ko, fr, de, it, es
استنساخ الصوت:
نعم
StreamingZero-shot cloningCross-lingualEmotion controlHuman-parity
أفضل ل:: Real-time applications, streaming TTS, voice assistants

Dia TTSDia TTS

المعيارية

Dia by Nari Labs is a 1.6B parameter text-to-speech model designed specifically for generating multi-speaker dialogue. It can produce natural-sounding conversations between two speakers with appropriate turn-taking, prosody, and emotional expression. Dia is perfect for creating podcast-style content, audiobook dialogues, and interactive conversational AI.

مطوّر::
Nari Labs
الترخيص::
Apache 2.0
السرعة:
Medium
الجودة::
اللغات:
en
استنساخ الصوت:
لا
Multi-speakerDialog generationNatural turn-takingEmotional expression1.6B parameters
أفضل ل:: Podcasts, audiobook dialogues, conversational content

Parler TTSParler TTS

المعيارية

Parler TTS is a text-to-speech model that uses natural language voice descriptions to control the generated speech. Instead of selecting from preset voices, you describe the voice you want (e.g., "a warm female voice with a slight British accent, speaking slowly and clearly") and Parler generates speech matching that description. This makes it uniquely flexible for creative applications.

مطوّر::
Hugging Face
الترخيص::
Apache 2.0
السرعة:
Medium
الجودة::
اللغات:
en
استنساخ الصوت:
لا
Voice descriptionNatural language controlFlexible voice creationNo preset voices needed
أفضل ل:: Creative applications where you need custom voice characteristics

GLM-TTSGLM-TTS

المعيارية

GLM-TTS by Zhipu AI is a text-to-speech system built on the Llama architecture with flow matching. It achieves the lowest character error rate among open-source TTS models, meaning it produces the most accurate pronunciation. GLM-TTS supports English and Chinese with voice cloning from 3-10 second audio samples.

مطوّر::
Zhipu AI
الترخيص::
GLM-4 License
السرعة:
Medium
الجودة::
اللغات:
en, zh
استنساخ الصوت:
نعم
Lowest error rateVoice cloningFlow matchingNatural prosody
أفضل ل:: Applications requiring maximum pronunciation accuracy

IndexTTS-2IndexTTS-2

المعيارية

IndexTTS-2 is an advanced text-to-speech system that excels at zero-shot voice synthesis with fine-grained emotion control. It can generate speech with specific emotional tones like happy, sad, angry, or fearful without requiring emotion-specific training data. The model uses emotion vectors to precisely control the emotional expression of generated speech.

مطوّر::
Index Team
الترخيص::
Bilibili Model License
السرعة:
Medium
الجودة::
اللغات:
en, zh
استنساخ الصوت:
نعم
Emotion controlZero-shotEmotion vectorsExpressive speechFine-grained control
أفضل ل:: Emotionally expressive content, audiobooks, virtual assistants

Spark TTSSpark TTS

المعيارية

Spark TTS by SparkAudio is a text-to-speech model that combines voice cloning with controllable emotion and speaking style. Using just 5 seconds of reference audio, it can clone a voice and then generate speech with different emotions, speeds, and styles while maintaining the cloned voice identity. Spark TTS uses a prompt-based control system.

مطوّر::
SparkAudio
الترخيص::
CC BY-NC-SA 4.0
السرعة:
Medium
الجودة::
اللغات:
en, zh
استنساخ الصوت:
نعم
Voice cloningEmotion controlStyle controlPrompt-based5-second cloning
أفضل ل:: Content creation with cloned voices and emotional control

GPT-SoVITSGPT-SoVITS

المعيارية

GPT-SoVITS combines GPT-style language modeling with SoVITS (Singing Voice Inference via Translation and Synthesis) for powerful few-shot voice cloning. With as little as 5 seconds of reference audio, it can accurately clone a voice and generate new speech while preserving the speaker's unique characteristics. It excels at both speaking and singing voice synthesis.

مطوّر::
RVC-Boss
الترخيص::
MIT
السرعة:
Slow
الجودة::
اللغات:
en, zh, ja, ko
استنساخ الصوت:
نعم
5-second cloningSinging voiceFew-shot learningHigh fidelityCross-lingual
أفضل ل:: Voice cloning, singing synthesis, content creator voice replication

OrpheusOrpheus

المعيارية

Orpheus is a large-scale text-to-speech model that achieves human-level emotional expression. Trained on over 100,000 hours of diverse speech data, it excels at generating speech with natural emotions, emphasis, and speaking styles. Orpheus can produce speech that is virtually indistinguishable from human recordings.

مطوّر::
Canopy Labs
الترخيص::
Llama 3.2 Community
السرعة:
Medium
الجودة::
اللغات:
en
استنساخ الصوت:
لا
Human-level emotion100K hours trainingNatural emphasisExpressive speech
أفضل ل:: High-quality emotional speech, audiobooks, voice acting

Qwen3 TTSQwen3 TTS

المعيارية

Qwen3-TTS is a 1.7 billion parameter text-to-speech model from Alibaba's Qwen team. It supports three modes: preset voices with emotion control (9 speakers), voice cloning from just 3 seconds of audio, and a unique voice design mode where you describe the voice you want in natural language. It covers 10 languages with high expressiveness and natural prosody.

مطوّر::
Alibaba (Qwen)
الترخيص::
Apache 2.0
السرعة:
Medium
الجودة::
اللغات:
en, zh, ja, ko, de, fr, ru, pt, es, it
استنساخ الصوت:
نعم
Voice cloning9 preset voicesVoice design from textEmotion control10 languages
أفضل ل:: Multilingual content with voice cloning or custom voice design

Chatterbox TurboChatterbox Turbo

المعيارية

Chatterbox Turbo by Resemble AI is a 350M parameter upgrade to Chatterbox, delivering up to 6x real-time speed with sub-200ms latency. It supports paralinguistic tags like [laugh], [cough], and [chuckle] directly in text. Includes Perth watermarking on all generated audio for provenance tracking.

مطوّر::
Resemble AI
الترخيص::
MIT
السرعة:
Fast
الجودة::
اللغات:
en
استنساخ الصوت:
نعم
Sub-200ms latencyParalinguistic tags6x real-timeVoice cloningWatermarking
أفضل ل:: Real-time voice agents, expressive speech with natural sounds

ZonosZonos

المعيارية

Zonos v0.1 by Zyphra is a 1.6B parameter model featuring fine-grained emotion control with sliders for happiness, anger, sadness, fear, and surprise. It offers both a Transformer and a novel SSM (state-space model) variant. Trained on 200K+ hours of multilingual speech with zero-shot voice cloning from 10-30 seconds of reference audio.

مطوّر::
Zyphra
الترخيص::
Apache 2.0
السرعة:
Medium
الجودة::
اللغات:
en, ja, zh, fr, de
استنساخ الصوت:
نعم
Emotion controlVoice cloningSSM architectureMultilingualPitch/rate control
أفضل ل:: Expressive speech with emotion control, voice design studio

Dia 2Dia 2

المعيارية

Dia2 by Nari Labs is a streaming-first upgrade to Dia, available in 1B and 2B parameter variants. It begins synthesizing audio from the first few tokens, making it ideal for real-time voice agents and speech-to-speech pipelines. Supports multi-speaker dialogue with [S1]/[S2] tags and paralinguistic cues like (laughs), (coughs).

مطوّر::
Nari Labs
الترخيص::
Apache 2.0
السرعة:
Fast
الجودة::
اللغات:
en
استنساخ الصوت:
لا
Streaming outputMulti-speakerLow latencyParalinguistic cuesUp to 2 min output
أفضل ل:: Real-time voice agents, dialogue generation, streaming applications

VoxCPMVoxCPM

المعيارية

VoxCPM 1.5 by OpenBMB is a novel tokenizer-free TTS model that operates in continuous space rather than discrete tokens. It produces high-fidelity 44.1kHz audio, supports zero-shot voice cloning from 3-10 seconds, and maintains consistency across paragraphs. Cross-language cloning lets you apply an English voice to Chinese speech and vice versa.

مطوّر::
OpenBMB
الترخيص::
Apache 2.0
السرعة:
Fast
الجودة::
اللغات:
en, zh
استنساخ الصوت:
نعم
44.1kHz audioTokenizer-freeCross-lingual cloningContext-awareLoRA fine-tuning
أفضل ل:: High-fidelity audio, audiobooks, long-form content with voice consistency

TADATADA

المعيارية

TADA (Text-Acoustic Dual Alignment) by Hume AI is a groundbreaking TTS model that eliminates hallucinations through a novel dual alignment architecture built on Llama 3.2. Available in 1B (English) and 3B (multilingual) variants, TADA achieves an RTF of 0.09 — 5x faster than comparable LLM-based TTS models. It supports up to 700 seconds of audio context and produces emotionally expressive speech with zero hallucinations on standard benchmarks.

مطوّر::
Hume AI
الترخيص::
MIT
السرعة:
Fast
الجودة::
اللغات:
en
استنساخ الصوت:
لا
Zero hallucinations5x faster than LLM TTSEmotional expression700s audio contextDual alignment
أفضل ل:: High-quality hallucination-free speech, emotional expression, fast inference

VibeVoiceVibeVoice

المعيارية

VibeVoice from Microsoft generates long-form speech up to 90 minutes with support for 4 simultaneous speakers, making it ideal for podcasts and dialogues. The Realtime 0.5B variant achieves ~300ms latency for interactive use. Supports speaker tags for multi-turn dialogue generation.

مطوّر::
Microsoft
الترخيص::
MIT
السرعة:
Fast
الجودة::
اللغات:
en, zh
استنساخ الصوت:
لا
Multi-speakerLong-form (90 min)Podcast generationDialogueLow latency
أفضل ل:: Podcasts, dialogues, long-form narration, multi-speaker content

CosyVoice3CosyVoice3

المعيارية

CosyVoice3 is the latest evolution from Alibaba's FunAudioLLM team. It features bi-streaming inference with ~150ms latency, instruction-based control for emotion/speed/volume, and improved speaker similarity for zero-shot cloning. Supports 9 languages plus 18 Chinese dialects. RL-tuned variant delivers state-of-the-art prosody.

مطوّر::
Alibaba (FunAudioLLM)
الترخيص::
Apache 2.0
السرعة:
Fast
الجودة::
اللغات:
en, zh, ja, ko, de, es, fr, it, ru
استنساخ الصوت:
نعم
Bi-streamingEmotion controlVoice cloningSpeed/volume controlInstruction following
أفضل ل:: Multilingual production TTS, real-time applications, voice cloning

ChatterboxChatterbox

الأقساط

Chatterbox by Resemble AI is a cutting-edge zero-shot voice cloning model. It can replicate any voice from a single audio sample with remarkable accuracy, capturing not just the timbre but also the speaking style and emotional nuances. Chatterbox also features fine-grained emotion control, allowing you to adjust the emotional tone of the generated speech independently from the voice identity.

مطوّر::
Resemble AI
الترخيص::
MIT
السرعة:
Medium
الجودة::
اللغات:
en
استنساخ الصوت:
نعم
الذاكرة البصرية:
4GB
التكلفة لكل ألف حرف:
4x
Zero-shot cloningEmotion controlHigh fidelityStyle transferSingle sample cloning
أفضل ل:: Professional voice cloning with emotional control, content creation

Tortoise TTSTortoise TTS

الأقساط

Tortoise TTS is an autoregressive multi-voice text-to-speech system that prioritizes audio quality over speed. It uses DALL-E-inspired architecture to generate highly natural speech with excellent prosody and speaker similarity. While slower than many alternatives, Tortoise produces some of the most realistic synthetic speech available in the open-source ecosystem.

مطوّر::
James Betker
الترخيص::
Apache 2.0
السرعة:
Slow
الجودة::
اللغات:
en
استنساخ الصوت:
نعم
الذاكرة البصرية:
8GB
التكلفة لكل ألف حرف:
4x
Highest qualityMulti-voiceDALL-E architectureVoice cloningAutoregressive
أفضل ل:: Audiobooks, premium content, quality-first applications

StyleTTS 2StyleTTS 2

الأقساط

StyleTTS 2 achieves human-level TTS synthesis by combining style diffusion with adversarial training using large speech language models. It generates the most natural sounding speech among single-speaker models, rivaling human recordings. StyleTTS 2 uses diffusion-based style modeling to capture the full range of human speech variation.

مطوّر::
Columbia University
الترخيص::
MIT
السرعة:
Medium
الجودة::
اللغات:
en
استنساخ الصوت:
لا
الذاكرة البصرية:
4GB
التكلفة لكل ألف حرف:
4x
Human-levelStyle diffusionAdversarial trainingNatural variationHigh fidelity
أفضل ل:: Studio-quality single-speaker synthesis, professional narration

OpenVoiceOpenVoice

الأقساط

OpenVoice by MyShell.ai enables instant voice cloning with granular control over voice style, emotion, accent, rhythm, pauses, and intonation. It can clone a voice from a short audio clip and generate speech in multiple languages while maintaining the speaker identity. OpenVoice also functions as a voice converter, allowing real-time voice transformation.

مطوّر::
MyShell.ai / MIT
الترخيص::
MIT
السرعة:
Medium
الجودة::
اللغات:
en, zh, ja, ko, fr, de, es, it
استنساخ الصوت:
نعم
الذاكرة البصرية:
4GB
التكلفة لكل ألف حرف:
4x
Instant cloningVoice conversionEmotion controlAccent controlMultilingual
أفضل ل:: Voice cloning with fine-grained style control, voice conversion

Sesame CSMSesame CSM

الأقساط

Sesame CSM (Conversational Speech Model) is a 1 billion parameter model designed specifically for generating conversational speech. It models the natural patterns of human conversation including turn-taking timing, backchannel responses, emotional reactions, and conversational flow. CSM generates audio that sounds like a natural human conversation rather than synthetic speech.

مطوّر::
Sesame
الترخيص::
Apache 2.0
السرعة:
Slow
الجودة::
اللغات:
en
استنساخ الصوت:
لا
الذاكرة البصرية:
8GB
التكلفة لكل ألف حرف:
4x
ConversationalNatural timingTurn-takingBackchannel1B parameters
أفضل ل:: AI assistants, chatbots, conversational AI applications

MOSS-TTSMOSS-TTS

الأقساط

MOSS-TTS from OpenMOSS supports generation of up to 1 hour of continuous speech across 20 languages. Features token-level duration control, phoneme-level pronunciation control via IPA/Pinyin, and code-switching between languages. The 8B production model delivers state-of-the-art quality with zero-shot voice cloning from reference audio.

مطوّر::
OpenMOSS
الترخيص::
Apache 2.0
السرعة:
Medium
الجودة::
اللغات:
en, zh, de, es, fr, ja, it, hu, ko, ru, fa, ar, pl, pt, cs, da, sv, el, tr
استنساخ الصوت:
نعم
الذاكرة البصرية:
16GB
التكلفة لكل ألف حرف:
4x
Ultra-long generation20 languagesVoice cloningDuration controlPronunciation controlCode-switching
أفضل ل:: Audiobooks, long-form content, multilingual production

MegaTTS3MegaTTS3

الأقساط

MegaTTS3 from ByteDance uses a novel sparse alignment mechanism combined with a latent diffusion transformer. Features adjustable trade-off between speech intelligibility and speaker similarity for zero-shot voice cloning.

مطوّر::
ByteDance
الترخيص::
Apache 2.0
السرعة:
Slow
الجودة::
اللغات:
en, zh
استنساخ الصوت:
نعم
الذاكرة البصرية:
8GB
التكلفة لكل ألف حرف:
4x
Voice cloningAdjustable similarityCross-lingual
أفضل ل:: High-fidelity voice cloning

جدول مقارنة النماذج

النموذج مطوّر: الرتبة الجودة: السرعة اللغات استنساخ الصوت الذاكرة البصرية الترخيص: الأرصدة الدائنة
Kokoro Hexgrad Free Fast 11 1.5GB Apache 2.0 مجاني الاستخدام
Piper Rhasspy Free Fast 31 0 (CPU only) MIT مجاني الاستخدام
VITS Jaehyeon Kim et al. Free Fast 4 1GB MIT مجاني الاستخدام
MeloTTS MyShell.ai Free Fast 6 0.5GB (GPU optional) MIT مجاني الاستخدام
Bark Suno Standard Slow 13 5GB MIT 2 الاستخدام
Bark Small Suno Standard Medium 13 2GB MIT 2 الاستخدام
CosyVoice 2 Alibaba (Tongyi Lab) Standard Medium 8 4GB Apache 2.0 2 الاستخدام
Dia TTS Nari Labs Standard Medium 1 4GB Apache 2.0 2 الاستخدام
Parler TTS Hugging Face Standard Medium 1 4GB Apache 2.0 2 الاستخدام
GLM-TTS Zhipu AI Standard Medium 2 4GB GLM-4 License 2 الاستخدام
IndexTTS-2 Index Team Standard Medium 2 4GB Bilibili Model License 2 الاستخدام
Spark TTS SparkAudio Standard Medium 2 4GB CC BY-NC-SA 4.0 2 الاستخدام
GPT-SoVITS RVC-Boss Standard Slow 4 6GB MIT 2 الاستخدام
Orpheus Canopy Labs Standard Medium 1 4GB Llama 3.2 Community 2 الاستخدام
Chatterbox Resemble AI Premium Medium 1 4GB MIT 4 الاستخدام
Tortoise TTS James Betker Premium Slow 1 8GB Apache 2.0 4 الاستخدام
StyleTTS 2 Columbia University Premium Medium 1 4GB MIT 4 الاستخدام
OpenVoice MyShell.ai / MIT Premium Medium 8 4GB MIT 4 الاستخدام
Qwen3 TTS Alibaba (Qwen) Standard Medium 10 7GB Apache 2.0 2 الاستخدام
Sesame CSM Sesame Premium Slow 1 8GB Apache 2.0 4 الاستخدام
Chatterbox Turbo Resemble AI Standard Fast 1 2GB MIT 2 الاستخدام
Zonos Zyphra Standard Medium 5 6GB Apache 2.0 2 الاستخدام
Dia 2 Nari Labs Standard Fast 1 4GB Apache 2.0 2 الاستخدام
VoxCPM OpenBMB Standard Fast 2 4GB Apache 2.0 2 الاستخدام
OuteTTS OuteAI Free Fast 1 2GB Apache 2.0 مجاني الاستخدام
TADA Hume AI Standard Fast 1 5GB MIT 2 الاستخدام
VibeVoice Microsoft Standard Fast 2 4GB MIT 2 الاستخدام
Pocket TTS Kyutai Free Fast 2 1GB MIT مجاني الاستخدام
Kitten TTS KittenML Free Fast 1 0GB Apache 2.0 مجاني الاستخدام
CosyVoice3 Alibaba (FunAudioLLM) Standard Fast 9 4GB Apache 2.0 2 الاستخدام
MOSS-TTS OpenMOSS Premium Medium 19 16GB Apache 2.0 4 الاستخدام
MegaTTS3 ByteDance Premium Slow 2 8GB Apache 2.0 4 الاستخدام

أكثر منصة تحويل النص إلى كلمة ذكاء اصطناعي شمولاً

لماذا تختار TTS.ai لتحويل النص إلى كلمة؟

يجمع TTS.ai بين أفضل نماذج النص إلى كلمة مفتوحة المصدر في العالم في منصة واحدة سهلة الاستخدام. وعلى النقيض من الخدمات المسجلة الملكية التي تغلقك في محرك صوت واحد، يعطيك TTS.ai الوصول إلى أكثر من 20 نموذجاً من مختبرات أبحاث رائدة بما في ذلك كوكي، مايشل، أمفيون، إنفيديا، سونو، هاغينج فايس، جامعة تسنغوا، وأكثر من ذلك.

كل نموذج مفتوح المصدر تحت MIT، أو Apache 2.0، أو تراخيص مماثلة متساهلة، مما يضمن لك الحقوق التجارية الكاملة لاستخدام الصوت المولد في مشاريعك. سواء كنت بحاجة إلى تركيب سريع وخفيف لتطبيقات الوقت الحقيقي أو مخرجات عالية الجودة للكتب السمعية والبودكاست، فإن TTS.ai لديه النموذج الصحيح لكل حالة استخدام.

نماذج مجانية، لا حساب مطلوب

ابدأ على الفور بثلاثة نماذج مجانية لترجمة النصوص إلى صوت: بايبر (سريع للغاية، خفيف الوزن)، وفيتس (تجميع عصبي عالي الجودة)، وميلوتتس (دعم متعدد اللغات). لا تسجيل، لا بطاقة ائتمان، لا حدود على الأجيال. النماذج المجانية تدعم اللغة الإنجليزية والعديد من اللغات الأخرى مع مخرجات ذات صوت طبيعي مناسبة لمعظم التطبيقات.

المعالجة المعجلة بواسطة وحدة المعالجة الرسومية

جميع نماذج TTS تعمل على وحدات معالجة رسومية مخصصة من إنفيديا لتحقيق سرعة وتواتر في توليد النصوص. وتنتج النماذج المجانية عادة الصوت في أقل من ثانيتين. وتنتج النماذج العادية مثل كوكورو، وكوسي فويس 2، وبارك في المتوسط 3-5 ثوان. وتقوم النماذج الأعلى جودة، مثل تورتوز وشاتربكس، بتجهيز النص في 5-15 ثانية، اعتمادا على طول النص.

أكثر من 30 لغة مدعومة

توليد الكلام في أكثر من 30 لغة بما في ذلك الإنجليزية، الإسبانية، الفرنسية، الألمانية، الإيطالية، البرتغالية، الصينية، اليابانية، الكورية، العربية، الهندية، الروسية، وغيرها الكثير. وهناك عدة نماذج تدعم التركيب عبر اللغات، مما يعني أنك يمكنك توليد الكلام بلغة لم يكن الصوت الأصلي مدرباً عليها قط. CosyVoice 2 و GPT-SoVITS يتفوقان في استنساخ الصوت عبر اللغات.

واجهة برمجة التطبيقات الجاهزة للمطورين

دمج TTS.ai في تطبيقاتك مع OpenAI متوافقة REST API. نقطة نهاية واحدة لجميع 20 + نماذج. Python، جافا سكريبت، cURL، و Go SDKs. تدفق الدعم لتطبيقات الوقت الحقيقي. معالجة دفعة لتوليد المحتوى على نطاق واسع. Webhooks للإشعارات غير المتزامنة. متوفر على Pro وخطط المؤسسة.

الأسئلة المتكررة

إن تحويل النص إلى كلام (TTS) هو تكنولوجيا الذكاء الاصطناعي التي تحول النص المكتوب إلى صوت متحدث طبيعي. وتستخدم نماذج تحويل النص إلى كلام العصبية الحديثة مثل كوكورو، وشاتربوكس، وكوسي فويس 2 التعلم العميق لإنتاج الكلام الذي يبدو إنسانيا بشكل ملحوظ، مع النغمة الطبيعية، والمشاعر، والإيقاع.

يعتمد على احتياجاتك. للاستعراضات السريعة، استخدم Piper أو MeloTTS (مجاني، سريع). للجودة العالية، جرب Kokoro أو CosyVoice 2 (المستوى القياسي). للاستنساخ الصوتي، استخدم Chatterbox أو GPT-SoVITS (أعلى). لمحتوى الحوار/البودكاست، جرب Dia TTS. لكل نموذج نقاط قوة مختلفة - جرب لمعرفة أفضل الحلول.

نعم! تقدم TTS.ai ترجمة النصوص إلى كلام مجانية مع نماذج كوكورو، وبايبر، وفيتس، وميلوتتس. لا يلزم إنشاء حساب حتى 500 حرف و 3 أجيال في الساعة. انضم لحساب مجاني للحصول على 50 نقطة للدخول إلى جميع النماذج.

تدعم نماذجنا لتحويل النص إلى صوت أكثر من 30 لغة، بما في ذلك اللغة الإنجليزية، والإسبانية، والفرنسية، والألمانية، والإيطالية، والبرتغالية، والصينية، واليابانية، والكورية، والعربية، والروسية، والهندية، وغيرها الكثير.

نعم، يمكن استخدام الصوت المولد من خلال TTS.ai تجارياً. جميع نماذجنا تستخدم تراخيص المصدر المفتوح (MIT, Apache 2.0). تحقق من تراخيص النموذج الفردية للحصول على شروط محددة. نوصي بمراجعة ترخيص النموذج المحدد الذي تستخدمه لمشروعك.

TTS.ai يدعم MP3, WAV, OGG, و FLAC أشكال الخرج. MP3 هو الافتراضي لإعادة التشغيل على شبكة الويب. WAV يوصى لمزيد من معالجة الصوت. يمكنك تحويل بين الأشكال باستخدام أداة تحويل الصوت.

يستخدم استنساخ الصوت الذكاء الاصطناعي لتكرار صوت محدد من عينة صوتية قصيرة (عادة 5-30 ثانية). قم بتحميل تسجيل واضح للصوت المستهدف، وستقوم نماذج مثل Chatterbox، أو GPT-SoVITS، أو OpenVoice بتوليد كلام جديد في ذلك الصوت. وتتحسن الجودة مع صوت مرجعي أنظف وأطول.

ويمكن للمستخدمين المجانيين توليد ما يصل إلى 500 كلمة لكل طلب. ويحصل المستخدمون المسجلون على ما يصل إلى 5000 كلمة لكل طلب. وبالنسبة للنصوص الأطول، يتم توليد الصوت في قطع ويجمع معاً تلقائياً. ويمكن لمستخدمي API معالجة ما يصل إلى 10000 كلمة لكل طلب.

يختلف دعم لغة علامات تركيب الكلام (SSML) حسب النموذج. يدعم Piper وبعض النماذج الأخرى علامات SSML الأساسية للوقفات والتأكيد والتحكم في النطق. بالنسبة للنماذج التي لا تدعم لغة علامات تركيب الكلام الأصلية، يمكنك استخدام علامات التوقف الطبيعية وقطع السطور للتأثير على النطق.

نعم ، معظم النماذج تدعم تعديل السرعة من 0. 5x إلى 2. 0x. بعض النماذج مثل Bark و Parler تسمح أيضًا بالتحكم في النبرة والأسلوب. يمكنك تحديد بارامترات السرعة في لوحة الإعدادات المتقدمة أو من خلال بارامترات السرعة API.

نعم، معالجة الدفعة متاحة من خلال API لدينا. يمكنك تقديم أجزاء متعددة من النص في استدعاء واحد API أو النص، وكل واحد سيتم معالجته والعودة كملفات صوتية منفصلة. هذا مثالي لفصول الكتب السمعية، وحدات التعلم الإلكتروني، أو النصوص الحوارية للألعاب.

توليد مفتاح واجهة برمجة التطبيقات من لوحة التحكم لحسابك، ثم إرسال طلبات POST إلى نقطة نهاية واجهة برمجة التطبيقات REST الخاصة بنا مع النص، والنموذج، والبارامترات الصوتية. ونحن نقدم أمثلة على الشفرة في بايثون، جافا سكريبت، و cURL. واجهة برمجة التطبيقات متوافقة مع OpenAI، لذا فإن التكاملات القائمة تعمل مع حد أدنى من التغييرات.
5.0/5 (2)

ما الذي يمكننا تحسينه؟ تساعدنا تعليقاتكم على حل المشاكل.

بدء تحويل النص إلى حديث الآن

انضم إلى آلاف المبدعين باستخدام TTS.ai. احصل على 15000 شخصية مجانية مع حساب جديد. نماذج مجانية متاحة دون التسجيل.