Report Bug / Feature Request

تحويل النصوص إلى كلام

تحويل النص إلى صوت طبيعي مع نماذج الذكاء الاصطناعي مفتوحة المصدر. مجاني للاستخدام، لا يلزم حساب.

انضم مجاناً

0/500 حروف · Sign up for 5,000 per generation →

انضم 000 5 كلمة

طريقة SSML (لغة الترميز الخاصة بتركيب الكلام للتحكم الدقيق)

لف نصك في علامات SSML للتحكم الدقيق:

<speak><prosody rate="slow">Slow speech</prosody></speak>

العاطفة/الأسلوب

(ب) إضافة مؤشرات عاطفية للتأثير على الإنجاز (يختلف دعم النموذج):

قاموس النطق

تعريف النطق العادي (كلمة = نطق):

1 - الصوت 0

-12 +12

نموذج الذكاء الاصطناعي

الصوت

ألف - اللغة

شكل المخرج

السرعة 1.0x

0.5x 2.0x

مجاني مع Piper, VITS, MeloTTS

سيظهر الصوت الذي أنتجته هنا. اختر نموذجاً، وأدخل نصاً، ثم انقر على توليد.

تفاصيل النموذج

OpenVoice

Premium

OpenVoice by MyShell.ai enables instant voice cloning with granular control over voice style, emotion, accent, rhythm, pauses, and intonation. It can clone a voice from a short audio clip and generate speech in multiple languages while maintaining the speaker identity. OpenVoice also functions as a voice converter, allowing real-time voice transformation.

مطوّر:	MyShell.ai / MIT
الترخيص:	MIT
السرعة	Medium
الجودة:
اللغات	8 اللغات
الذاكرة البصرية	4GB
استنساخ الصوت	مدعومة

الخصائص:

Instant cloning Voice conversion Emotion control Accent control Multilingual

أفضل ل:: Voice cloning with fine-grained style control, voice conversion

نصائح لتحقيق نتائج أفضل

استخدام علامات التوقف الصحيحة للوقفات الطبيعية والنبرة
تهجئة الأرقام والاختصارات لتحسين النطق
أضف فاصلة لإيجاد فترات توقف قصيرة بين الجمل
استخدم نقاط المثلث (...) لفترات توقف مثيرة أطول
حاول كوكورو أو كوسيفويس 2 لأكثر النتائج طبيعية
استخدام برنامج " ديا " (Dia) للحوارات المتعددة المتحدثين والمحتوى السمعي البصري

استخدام الحروف

الرتبة	التكلفة لكل ألف حرف
مجاني	صفر أرصدة (غير محدودة)
المعيارية	2 رصيد / 1000 حرف
الأقساط	4 أرصدة / 1000 حرف

حصل على المزيد من الشخصيات

كيف يعمل تحويل النص إلى كلمة بالذكاء الاصطناعي

توليد صوتيات ذات جودة مهنية في ثلاث خطوات بسيطة. لا حاجة لمعرفة تقنية.

الخطوة 1

أدخل نصك

اكتب أو لصق أو تحميل النص الذي تريد تحويله إلى حديث. يدعم ما يصل إلى 5000 حرف لكل جيل للمستخدمين المسجلين. استخدم النص العادي أو أضف علامات SSML للتحكم المتقدم على النطق، فترات التوقف، والتأكيد.

الخطوة 2

اختار النموذج والصوت

اختار من 20+ نماذج الذكاء الاصطناعي عبر ثلاثة مستويات. اختار صوتاً يتناسب مع محتوى ملفاتك، واختار لغتك المستهدفة، وحدد سرعة التشغيل من 0.5x إلى 2.0x، واختار شكل الخرج المفضل (MP3، WAV، OGG، أو FLAC).

الخطوة 3

توليد وتحميل

انقر على توليد وصوتك سيكون جاهزاً في ثواني. استعراض مع المشغل الداخلي، تنزيل في الشكل الذي اخترته، أو نسخ رابط قابل للمشاركة. استخدام API لمعالجة دفعة وإدماج في تدفق عملك.

حالات الاستخدام لتحويل النص إلى كلمة

إن تحويل النصوص إلى كلام باستخدام الذكاء الاصطناعي يغير الطريقة التي ينشئ بها الناس المحتوى الصوتي ويستهلكونه ويتفاعلون معه في عشرات الصناعات.

كتب مسموعة

تحويل الكتب بأكملها إلى كتب سمعية ذات صوت طبيعي مع سرد عالي الجودة. دعم المكالمات المتعددة مع ديا لحوار الشخصيات.

تسجيلات صوتية بالفيديو

إنشاء صوتيات مهنية لليوتيوب، تيك توك، سيل إنستاغرام، وقصص قصيرة. 100+ أصوات أو استنساخ الخاص بك.

البودكاست

توليد حلقات البودكاست من النصوص بأصوات الذكاء الاصطناعي المتعددة. استخدام Dia للمحادثات الطبيعية من متحدثين اثنين.

ألعاب القمار

التمثيل الصوتي للذكاء الاصطناعي للألعاب المستقلة، الروايات البصرية، والخيال التفاعلي. حوار NPC، أصوات المشهد، أكثر من 30 لغة.

التعلم الإلكتروني

تحويل مواد الدورات والمحاضرات والمحتوى التدريبي إلى صوت. دعم متعدد اللغات للمنصات العالمية.

إمكانية الوصول

جعل المواقع الشبكية والوثائق والتطبيقات سهلة المنال؛ إدماج واجهة برمجة التطبيقات لقراءة الشاشة وتحويل المقالات إلى صوت.

النظم الهاتفية

دعم أنظمة IVR، قوائم الهاتف، وخدمة العملاء مع الأصوات الطبيعية الذكاء الاصطناعي.

وسائط الإعلام الاجتماعية

قصص تيك توك، فيديوهات إنستغرام، تعليقات تويتر/إكس، فيديوهات يوتيوب القصيرة، توليد سريع باستخدام نماذج مجانية.

البث المباشر

تنبيهات Twitch TTS، الدردشة إلى الصوت، AI المضيفين المشاركين، و Discord الروبوتات، منخفض التأخير، 100+ الأصوات، StreamElements متوافقة.

التسويق

صوتيات الإعلانات، وأشرطة الفيديو التوضيحية، وعروض المنتجات، وعروض المبيعات، وزيادة إنتاج المحتوى الصوتي عبر الحملات.

الدبلجة والترجمة المحلية

ترجمة وتسجيل الفيديو إلى أكثر من 30 لغة مع الذكاء الاصطناعي المطابقة للصوت.

التأمل والرفاه

التأمل الموجه، قصص النوم، تمارين التنفس، والتأكيدات مع صوت ذكاء اصطناعي هادئ ومريح.

عرض جميع حالات الاستخدام والأدوات

جميع نماذج تحويل النص إلى كلمة

مواصفات مفصلة لكل نموذج من نماذج الذكاء الاصطناعي المتاحة على TTS.ai. مقارنة الجودة، والسرعة، ودعم اللغة، والخصائص للعثور على النموذج المثالي لمشروعك.

Kokoro

Free

كوكورو هو نموذج تحويل النص إلى صوت يحتوي على 82 مليون بارامترات، ويتميز بقدرته على التحدث بلغة طبيعية وتعبيرية بشكل ملحوظ، على الرغم من حجمه الصغير. ويدعم كوكورو لغات متعددة، بما في ذلك الإنجليزية، واليابانية، والصينية، والكورية، مع مجموعة متنوعة من الأصوات التعبيرية. وهو يعمل بسرعة لا تصدق، حيث يولد الصوت بسرعة تبلغ 100 مرة تقريباً من الصوت في الوقت الحقيقي على وحدة المعالجة المركزية.

مطوّر::
Hexgrad

الترخيص::
Apache 2.0

السرعة:
Fast

الجودة::

اللغات:
en, ja, zh, ko, fr, de, it, pt, es, hi, ru

الذاكرة البصرية:
1.5GB

استنساخ الصوت:
لا

التكلفة لكل ألف حرف:
مجاني

بارامترات 82M فائقة السرعة أصوات تعبيرية تعدد اللغات دعم البث

أفضل ل:: تطبيقات عالية الجودة لتحويل النصوص إلى صوت بأدنى حد من التأخير، وتطبيقات التدفق

حاول Kokoro

Piper

Free

بايبِر هو محرك خفيف الوزن لتحويل النص إلى صوت طورته شركة راشسباي ويستخدم الهندسة المعمارية VITS و larynx ويعمل بالكامل على وحدة المعالجة المركزية مما يجعله مثاليا لأجهزة الحافة والتشغيل الآلي للمنازل والتطبيقات التي تتطلب تحويل النص إلى صوت خارج الشبكة وبأكثر من 100 صوت عبر 30 لغة، يقدم بايبِر صوت طبيعي بسرعة في الوقت الحقيقي حتى على أجهزة راببيري باي 4.

مطوّر::
Rhasspy

الترخيص::
MIT

السرعة:
Fast

الجودة::

اللغات:
en, de, fr, es, it, pt, nl, pl, ru, zh, ja, ko, ar, cs, da, fi, el, hu, is, ka, kk, ne, no, ro, sk, sr, sv, sw, tr, uk, vi

الذاكرة البصرية:
0 (CPU only)

استنساخ الصوت:
لا

التكلفة لكل ألف حرف:
مجاني

معالج معالج قادر على العمل خارج الشبكة أكثر من 100 صوت أكثر من 30 لغة دعم SSML

أفضل ل:: الاستعراضات المسبقة السريعة، وإمكانية الوصول، والتطبيقات المدمجة

حاول Piper

VITS

Free

ويعتبر VITS (الاستدلال المتغير مع التعلم التنازعيّ لتحويل النص إلى كلمة من البداية إلى النهاية) طريقة موازية لتحويل النص إلى كلمة من البداية إلى النهاية، وهي طريقة تولد صوتاً أكثر طبيعية من النماذج الحالية ذات المرحلتين. وهي تعتمد الاستدلال المتغير مع تدفقات تطبيعية وعملية تدريب تنازعية، مما يحقق تحسناً كبيراً في الطبيعة.

مطوّر::
Jaehyeon Kim et al.

الترخيص::
MIT

السرعة:
Fast

الجودة::

اللغات:
en, de, es, fr, pt, nl, fi, hu, bg, uk, pl

الذاكرة البصرية:
1GB

استنساخ الصوت:
لا

التكلفة لكل ألف حرف:
مجاني

التوليف من البداية إلى النهاية النغمة الطبيعية الاستدلال السريع متكلمون متعددون

أفضل ل:: تحويل النص إلى كلمة للأغراض العامة مع صوت طبيعي

حاول VITS

MeloTTS

Free

MeloTTS من MyShell.ai هي مكتبة متعددة اللغات لترجمة النصوص إلى صوت تدعم اللغة الإنجليزية (الأمريكية، البريطانية، الهندية، الأسترالية)، والإسبانية، والفرنسية، والصينية، واليابانية، والكورية. وهي سريعة للغاية، وتجهز النص بسرعة قريبة من الزمن الحقيقي على وحدة المعالجة المركزية وحدها. وقد صُممت MeloTTS لاستخدام الإنتاج وتدعم كلاً من استنتاج وحدة المعالجة المركزية ووحدة المعالجة الرسومية.

مطوّر::
MyShell.ai

الترخيص::
MIT

السرعة:
Fast

الجودة::

اللغات:
en, es, fr, zh, ja, ko

الذاكرة البصرية:
0.5GB (GPU optional)

استنساخ الصوت:
لا

التكلفة لكل ألف حرف:
مجاني

المعالجة المثلى تعدد اللغات لهجات متعددة جاهزة للإنتاج فترة تأخير منخفضة

أفضل ل:: تطبيقات الإنتاج التي تحتاج إلى ترجمة تلقائية سريعة ومتعددة اللغات

حاول MeloTTS

Bark

Standard

Bark by Suno هو نموذج نص إلى صوت يعتمد على المحول ويمكنه توليد حديث متعدد اللغات وواقعي للغاية، وكذلك صوت آخر مثل الموسيقى، والضوضاء الخلفية، والتأثيرات الصوتية. ويمكنه إنتاج اتصالات غير لفظية مثل الضحك، والتأنيث، والبكاء. Bark يدعم أكثر من 100 متحدث مسبق التحديد وأكثر من 13 لغة.

مطوّر::
Suno

الترخيص::
MIT

السرعة:
Slow

الجودة::

اللغات:
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr

الذاكرة البصرية:
5GB

استنساخ الصوت:
لا

التكلفة لكل ألف حرف:
2x

المؤثرات الصوتية الضحك/التنهد جيل الموسيقى أكثر من 100 متكلم تعدد اللغات

أفضل ل:: المحتوى السمعي الإبداعي، الكتب السمعية ذات العواطف، المؤثرات الصوتية

حاول Bark

Bark Small

Standard

Bark Small هي نسخة مقطرة من نموذج Bark الذي يقوم بمبادلة بعض الجودة الصوتية بسرعة استنتاج أسرع بكثير ومتطلبات ذاكرة أقل. إنها تحتفظ بقدرة Bark على توليد الكلام مع المشاعر والضحك واللغات المتعددة.

مطوّر::
Suno

الترخيص::
MIT

السرعة:
Medium

الجودة::

اللغات:
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr

الذاكرة البصرية:
2GB

استنساخ الصوت:
لا

التكلفة لكل ألف حرف:
2x

الوزن الخفيف أسرع من اللقمة الكاملة الخطاب العاطفي تعدد اللغات

أفضل ل:: الصوت الإبداعي السريع عندما يكون الصوت الكامل بطيئا جدا

حاول Bark Small

CosyVoice 2

Standard

لقد حقق برنامج CosyVoice 2 من مختبر Tongyi في علي بابا جودة صوتية مقارنة بالصوت البشري مع تأخير منخفض للغاية، مما يجعله مثالياً للتطبيقات في الوقت الحقيقي. وهو يستخدم نهجاً كمياً متدرجاً محدوداً لتوليف التدفق ويدعم استنساخ الصوت من الصفر، والتوليف عبر اللغات، والتحكم في العواطف بعناية فائقة. وهو يتفوق على العديد من أنظمة TTS التجارية في التقييمات الذاتية.

مطوّر::
Alibaba (Tongyi Lab)

الترخيص::
Apache 2.0

السرعة:
Medium

الجودة::

اللغات:
en, zh, ja, ko, fr, de, it, es

الذاكرة البصرية:
4GB

استنساخ الصوت:
نعم

التكلفة لكل ألف حرف:
2x

البث الاستنساخ من دون طلقة متعدد اللغات التحكم في المشاعر التكافؤ البشري

أفضل ل:: تطبيقات الوقت الحقيقي، تدفق النصوص إلى صوت، المساعدون الصوتون

حاول CosyVoice 2

Dia TTS

Standard

ديا من ناري لابز هو نموذج 1.6B النص إلى الكلام البارامترات المصممة خصيصا لتوليد حوار متعدد المتحدثين. يمكن أن ينتج محادثات طبيعية بين اثنين من المتحدثين مع التناوب المناسب، والصوتية، والتعبير العاطفي. ديا مثالية لإنشاء محتوى على غرار البث، وحوارات الكتب السمعية، والذكاء الاصطناعي المحادثة التفاعلية.

مطوّر::
Nari Labs

الترخيص::
Apache 2.0

السرعة:
Medium

الجودة::

اللغات:
en

الذاكرة البصرية:
4GB

استنساخ الصوت:
لا

التكلفة لكل ألف حرف:
2x

متحدثون متعددون توليد الحوار التناوب الطبيعي التعبير العاطفي بارامترات 1-6 باء

أفضل ل:: البرامج الصوتية، وحوارات الكتب السمعية، والمحتوى المحادثي

حاول Dia TTS

Parler TTS

Standard

بارلر TTS هو نموذج النص إلى حديث يستخدم وصف الصوت باللغة الطبيعية للتحكم في الكلام المولد. بدلاً من اختيار من الأصوات المحددة مسبقاً، يمكنك وصف الصوت الذي تريده (على سبيل المثال، "صوت أنثوي دافئ مع لهجة بريطانية طفيفة، يتحدث ببطء ووضوح") وبارلر يولد الكلام الذي يطابق ذلك الوصف. وهذا يجعله مرناً بشكل فريد للتطبيقات الإبداعية.

مطوّر::
Hugging Face

الترخيص::
Apache 2.0

السرعة:
Medium

الجودة::

اللغات:
en

الذاكرة البصرية:
4GB

استنساخ الصوت:
لا

التكلفة لكل ألف حرف:
2x

الوصف الصوتي التحكم باللغة الطبيعية إنشاء صوت مرن لا توجد حاجة لأصوات مسبقة التحديد

أفضل ل:: تطبيقات إبداعية حيث تحتاج إلى خصائص صوتية مخصصة

حاول Parler TTS

GLM-TTS

Standard

GLM-TTS من Zhipu AI هو نظام تحويل النص إلى كلمة مبني على بنية Llama مع مطابقة التدفق، وهو يحقق أدنى معدل أخطاء الحروف بين نماذج تحويل النص إلى كلمة مفتوحة المصدر، مما يعني أنه ينتج أكثر النطق دقة.

مطوّر::
Zhipu AI

الترخيص::
GLM-4 License

السرعة:
Medium

الجودة::

اللغات:
en, zh

الذاكرة البصرية:
4GB

استنساخ الصوت:
نعم

التكلفة لكل ألف حرف:
2x

أدنى معدل للخطأ استنساخ الصوت مضاهاة التدفقات النغمة الطبيعية

أفضل ل:: التطبيقات التي تتطلب أقصى درجات الدقة في النطق

حاول GLM-TTS

IndexTTS-2

Standard

إن نظام IndexTTS-2 هو نظام متقدم لتحويل النص إلى كلمة يتفوق في التركيب الصوتي من الصفر مع التحكم في العواطف بصورة دقيقة. ويمكنه توليد كلمة بنغمات عاطفية محددة مثل السعادة، والحزن، والغضب، والخوف دون الحاجة إلى بيانات تدريب خاصة بالعواطف. ويستخدم النموذج متجهات العواطف للتحكم بدقة في التعبير العاطفي للكلمة المولدة.

مطوّر::
Index Team

الترخيص::
Bilibili Model License

السرعة:
Medium

الجودة::

اللغات:
en, zh

الذاكرة البصرية:
4GB

استنساخ الصوت:
نعم

التكلفة لكل ألف حرف:
2x

التحكم في المشاعر صفر طلقة ناقلات المشاعر الخطاب التعبيري المراقبة الدقيقة

أفضل ل:: المحتوى المعبر عن العواطف، الكتب السمعية، المساعدون الافتراضيون

حاول IndexTTS-2

Spark TTS

Standard

Spark TTS by SparkAudio هو نموذج لتحويل النص إلى كلام يجمع بين استنساخ الصوت مع المشاعر القابلة للتحكم وأسلوب الكلام. وباستخدام 5 ثوان فقط من الصوت المرجعي، يمكنه استنساخ صوت ثم توليد كلام بمشاعر وسرعة وأساليب مختلفة مع الحفاظ على هوية الصوت المستنسخ. Spark TTS يستخدم نظام تحكم قائم على الطلب.

مطوّر::
SparkAudio

الترخيص::
CC BY-NC-SA 4.0

السرعة:
Medium

الجودة::

اللغات:
en, zh

الذاكرة البصرية:
4GB

استنساخ الصوت:
نعم

التكلفة لكل ألف حرف:
2x

استنساخ الصوت السيطرة على المشاعر مراقبة الأسلوب على أساس الاستعجال استنساخ 5 ثوان

أفضل ل:: إنشاء المحتوى بأصوات مستنسخة والتحكم العاطفي

حاول Spark TTS

GPT-SoVITS

Standard

يجمع GPT-SoVITS بين نمذجة اللغة على غرار GPT مع SoVITS (استنتاج الصوت الغنائي عن طريق الترجمة والتوليف) لاستنساخ صوت قوي بقليل من اللقطات. بخمس ثوانٍ فقط من الصوت المرجعي، يمكنه استنساخ صوت بدقة وتوليد حديث جديد مع الحفاظ على الخصائص الفريدة للمتحدث. وهو يتفوق في كل من توليف الصوت الكلام والغناء.

مطوّر::
RVC-Boss

الترخيص::
MIT

السرعة:
Slow

الجودة::

اللغات:
en, zh, ja, ko

الذاكرة البصرية:
6GB

استنساخ الصوت:
نعم

التكلفة لكل ألف حرف:
2x

استنساخ 5 ثوان صوت الغناء التعلم بقليل من الطلقات جودة عالية متعدد اللغات

أفضل ل:: استنساخ الصوت، توليف الأغاني، استنساخ صوت منشئ المحتوى

حاول GPT-SoVITS

Orpheus

Standard

أورفيوس هو نموذج كبير لتحويل النص إلى كلام يحقق التعبير العاطفي على المستوى البشري. وهو مدرب على أكثر من 100 ألف ساعة من بيانات الكلام المتنوعة، ويتفوق في توليد الكلام مع المشاعر الطبيعية، والتأكيد، وأنماط الكلام. ويمكن لأورفيوس إنتاج الكلام الذي لا يمكن تمييزه تقريبا عن التسجيلات البشرية.

مطوّر::
Canopy Labs

الترخيص::
Llama 3.2 Community

السرعة:
Medium

الجودة::

اللغات:
en

الذاكرة البصرية:
4GB

استنساخ الصوت:
لا

التكلفة لكل ألف حرف:
2x

العاطفة على المستوى البشري 000 100 ساعة تدريب التركيز الطبيعي كلمة تعبيرية

أفضل ل:: لغة عاطفية عالية الجودة، كتب مسموعة، تمثيل صوتي

حاول Orpheus

Chatterbox

Premium

إن نموذج Chatterbox الذي طورته شركة Resemble AI هو نموذج متقدم لاستنساخ الصوت من دون تسجيل أي صوت. وهو قادر على استنساخ أي صوت من عينة صوتية واحدة بدقة مذهلة، ولا يقتصر على التقاط النغمة فحسب، بل وأيضاً أسلوب الكلام والفوارق الدقيقة العاطفية. كما يتميز Chatterbox بالتحكم في العواطف بصورة دقيقة، مما يسمح لك بتعديل النبرة العاطفية للكلمات المولدة بصورة مستقلة عن الهوية الصوتية.

مطوّر::
Resemble AI

الترخيص::
MIT

السرعة:
Medium

الجودة::

اللغات:
en

الذاكرة البصرية:
4GB

استنساخ الصوت:
نعم

التكلفة لكل ألف حرف:
4x

الاستنساخ من دون طلقة التحكم في المشاعر جودة عالية نقل الأسلوب استنساخ عينة واحدة

أفضل ل:: استنساخ الصوت المهني مع التحكم العاطفي، إنشاء المحتوى

حاول Chatterbox

Tortoise TTS

Premium

إن نظام Tortoise TTS هو نظام تلقائي للتراجع متعدد الأصوات لتحويل النص إلى كلمة، ويضع جودة الصوت فوق السرعة، ويستخدم بنية مستوحاة من DALL-E لتوليد كلمة طبيعية للغاية مع جودة ممتازة في الصوت وتشابه المتحدث. ورغم أن نظام Tortoise أبطأ من العديد من البدائل، فإنه ينتج بعض أكثر الكلمات التركيبية واقعية المتاحة في النظام البيئي المفتوح المصدر.

مطوّر::
James Betker

الترخيص::
Apache 2.0

السرعة:
Slow

الجودة::

اللغات:
en

الذاكرة البصرية:
8GB

استنساخ الصوت:
نعم

التكلفة لكل ألف حرف:
4x

أعلى جودة صوت متعدد بنية DALL-E استنساخ الصوت تناقص ذاتي

أفضل ل:: الكتب السمعية، والمحتوى الأعلى جودة، والتطبيقات ذات الجودة العالية

حاول Tortoise TTS

StyleTTS 2

Premium

يحقق StyleTTS 2 توليف TTS على المستوى البشري من خلال الجمع بين انتشار الأسلوب مع التدريب التنازع باستخدام نماذج كبيرة للغة الكلام. إنه يولد أكثر الكلام الطبيعي بين نماذج المتحدث الواحد، منافسة التسجيلات البشرية. StyleTTS 2 يستخدم نمذجة الأسلوب القائمة على الانتشار للحصول على النطاق الكامل من التنوع في الكلام البشري.

مطوّر::
Columbia University

الترخيص::
MIT

السرعة:
Medium

الجودة::

اللغات:
en

الذاكرة البصرية:
4GB

استنساخ الصوت:
لا

التكلفة لكل ألف حرف:
4x

المستوى البشري نشر الأسلوب التدريب القائم على المواجهة التباين الطبيعي جودة عالية

أفضل ل:: توليف صوت واحد ذي نوعية استوديو، وسردة مهنية

حاول StyleTTS 2

OpenVoice

Premium

يسمح برنامج OpenVoice من MyShell.ai باستنساخ الصوت فورا مع التحكم الجذري في أسلوب الصوت، والعاطفة، والتشديد، والإيقاع، والتوقفات، والنبرة. ويمكنه استنساخ صوت من مقطع صوت قصير وتوليد الكلام بلغات متعددة مع الحفاظ على هوية المتكلم. ويعمل OpenVoice أيضا كمحول صوت، مما يسمح بتحويل الصوت في الوقت الحقيقي.

مطوّر::
MyShell.ai / MIT

الترخيص::
MIT

السرعة:
Medium

الجودة::

اللغات:
en, zh, ja, ko, fr, de, es, it

الذاكرة البصرية:
4GB

استنساخ الصوت:
نعم

التكلفة لكل ألف حرف:
4x

الاستنساخ الفوري تحويل الصوت التحكم في المشاعر التحكم في النبرة تعدد اللغات

أفضل ل:: استنساخ الصوت مع التحكم في الأسلوب بصورة دقيقة، وتحويل الصوت

حاول OpenVoice

Qwen3 TTS

Standard

Qwen3-TTS هو نموذج تحويل النص إلى كلمة يحتوي على 1.7 مليار بارامترات من فريق Qwen في Alibaba. وهو يدعم ثلاثة أنماط: أصوات محددة مسبقاً مع التحكم العاطفي (9 متحدثين)، واستنساخ الصوت من 3 ثوانٍ فقط من الصوت، ونمط تصميم صوت فريد حيث يمكنك وصف الصوت الذي تريده بلغة طبيعية. وهو يغطي 10 لغات مع تعبير عالي وصوت طبيعي.

مطوّر::
Alibaba (Qwen)

الترخيص::
Apache 2.0

السرعة:
Medium

الجودة::

اللغات:
en, zh, ja, ko, de, fr, ru, pt, es, it

الذاكرة البصرية:
7GB

استنساخ الصوت:
نعم

التكلفة لكل ألف حرف:
2x

استنساخ الصوت 9 أصوات مسبقة التحديد تصميم الصوت من النص التحكم في المشاعر 10 لغات

أفضل ل:: المحتوى المتعدد اللغات مع استنساخ الصوت أو تصميم الصوت حسب الطلب

حاول Qwen3 TTS

Sesame CSM

Premium

نموذج الكلام المحادثي Sesame CSM (Conversational Speech Model) هو نموذج مكون من 1 مليار بارامترات مصمم خصيصا لتوليد الكلام المحادثي. وهو يقوم بنمذجة الأنماط الطبيعية للمحادثة البشرية بما في ذلك توقيت التناوب، واستجابات القنوات الخلفية، وردود الفعل العاطفية، وتدفق المحادثة. ويولد نموذج الكلام المحادثي CSM صوتاً يبدو وكأنه محادثة بشرية طبيعية بدلاً من الكلام التركيبي.

مطوّر::
Sesame

الترخيص::
Apache 2.0

السرعة:
Slow

الجودة::

اللغات:
en

الذاكرة البصرية:
8GB

استنساخ الصوت:
لا

التكلفة لكل ألف حرف:
4x

المحادثة التوقيت الطبيعي التناوب القناة الخلفية البارامترات 1 باء

أفضل ل:: مساعدون للذكاء الاصطناعي، روبوتات للدردشة، تطبيقات للذكاء الاصطناعي للمحادثات

حاول Sesame CSM

Chatterbox Turbo

Standard

Chatterbox Turbo by Resemble AI هو تحديث 350M البارامترات إلى Chatterbox، وتسليم حتى 6x سرعة الوقت الحقيقي مع أقل من 200ms تأخير. إنه يدعم علامات paralinguistic مثل [ضحك]، [السعال]، و [ضحك] مباشرة في النص. يشمل Perth علامة مائية على جميع السمعي المولدة لتتبع المنشأ.

مطوّر::
Resemble AI

الترخيص::
MIT

السرعة:
Fast

الجودة::

اللغات:
en

الذاكرة البصرية:
2GB

استنساخ الصوت:
نعم

التكلفة لكل ألف حرف:
2x

تأخير أقل من 200 دقيقة الوسم اللغوي 6x في الوقت الحقيقي استنساخ الصوت الوسم المائي

أفضل ل:: الوكلاء الصوتيون في الوقت الحقيقي، الكلام التعبيري بالأصوات الطبيعية

حاول Chatterbox Turbo

Dia 2

Standard

Dia2 من ناري لابز هو تحديث للـ Dia، متاح في 1B و 2B، ويبدأ في تصنيع الصوت من الرموز القليلة الأولى، مما يجعله مثالياً لعملاء الصوت في الوقت الحقيقي وأنابيب الكلام إلى الكلام. يدعم الحوار المتعدد المتحدثين مع [S1]/[S2] وعلامات الإشارة اللغوية مثل (ضحك)، (سعال).

مطوّر::
Nari Labs

الترخيص::
Apache 2.0

السرعة:
Fast

الجودة::

اللغات:
en

الذاكرة البصرية:
4GB

استنساخ الصوت:
لا

التكلفة لكل ألف حرف:
2x

الناتج المتدفق متحدثون متعددون تأخر منخفض الإشارات اللغوية المشابهة خرج يصل إلى 2 دقيقة

أفضل ل:: الوكلاء الصوتيون في الوقت الحقيقي، وتوليد الحوار، والتطبيقات المتدفقة

حاول Dia 2

VoxCPM

Standard

VoxCPM 1.5 من OpenBMB هو نموذج جديد لترجمة النصوص إلى صوت خال من الرمزيات يعمل في فضاء مستمر بدلاً من رموز منفصلة. وهو ينتج صوتاً عالي الدقة بتردد 44.1 كيلوهرتز، ويدعم استنساخ الصوت من 3 إلى 10 ثوان، ويحافظ على الاتساق عبر الفقرات. ويسمح لك استنساخ اللغات بتطبيق صوت إنجليزي على الكلام الصيني والعكس بالعكس.

مطوّر::
OpenBMB

الترخيص::
Apache 2.0

السرعة:
Fast

الجودة::

اللغات:
en, zh

الذاكرة البصرية:
4GB

استنساخ الصوت:
نعم

التكلفة لكل ألف حرف:
2x

44.1 كيلو هرتز خالية من الرموز الاستنساخ عبر اللغات إدراك السياق التنقيح الدقيق لنظام LoRA

أفضل ل:: تسجيلات صوتية عالية الدقة، وكتب مسموعة، ومحتويات طويلة الشكل تتسم باتساق الصوت

حاول VoxCPM

OuteTTS

Free

OuteTTS توسع نماذج اللغة الكبيرة مع القدرات النص إلى الكلام مع الحفاظ على البنية الأصلية. إنه يدعم العديد من الخلفيات بما في ذلك llama.cpp (CPU / GPU)، وتحويلات الوجه الحب، ExLlamaV2، VLLM، وحتى الاستدلال المتصفح عن طريق Transformers.js. مميزات استنساخ الصوت صفر-الطلقة من خلال ملف المتحدثين المخزنة كJSON.

مطوّر::
OuteAI

الترخيص::
Apache 2.0

السرعة:
Fast

الجودة::

اللغات:
en

الذاكرة البصرية:
2GB

استنساخ الصوت:
نعم

التكلفة لكل ألف حرف:
مجاني

استنتاج وحدة المعالجة المركزية الاستدلال من المتصفح استنساخ الصوت برامجيات خلفية متعددة نبذات عن المتكلمين

أفضل ل:: نشر التطبيقات الطرفية، ودعم الترجمة الفورية القائم على المتصفح، والبيئات المنخفضة الموارد

حاول OuteTTS

TADA

Standard

TADA (التطابق المزدوج النصي الصوتي) من هيوم AI هو نموذج رائد لترجمة النصوص إلى صوت يقضي على الهلوسات من خلال بنية جديدة للمواءمة المزدوجة مبنية على LLAMA 3.2. متوفرة في 1B (الإنجليزية) و 3B (اللغات المتعددة) المتغيرات، TADA يحقق RTF من 0.09 - 5 مرات أسرع من نماذج الترجمة إلى صوت LLM المقارنة. يدعم حتى 700 ثانية من السياق الصوتي وينتج كلمة تعبيرية عاطفيا مع صفر من الهلوسات على المعايير القياسية.

مطوّر::
Hume AI

الترخيص::
MIT

السرعة:
Fast

الجودة::

اللغات:
en

الذاكرة البصرية:
5GB

استنساخ الصوت:
لا

التكلفة لكل ألف حرف:
2x

لا هلوسات أسرع بخمس مرات من الماجستير في القانون التعبير العاطفي 700s سياق سمعي المواءمة المزدوجة

أفضل ل:: جودة عالية في الكلام الخالي من الهلوسة، التعبير العاطفي، الاستدلال السريع

حاول TADA

VibeVoice

Standard

ويأتي VibeVoice من Microsoft في صيغة 1.5B للمحتوى الطويل (حتى 90 دقيقة، 4 متحدثين) ونموذج Realtime 0.5B للتدفق مع ~ 200ms التأخير السمعي الأول. 1.5B المتغير يتفوق في البودكاست والكتب السمعية مع الاتساق المتحدث على مقاطع طويلة. ملاحظة: Microsoft أزالت TTS رمز من المستودع والصوت المولد يشمل الذكاء الاصطناعي المسموع إخلاء المسؤولية.

مطوّر::
Microsoft

الترخيص::
MIT

السرعة:
Fast

الجودة::

اللغات:
en, zh

الذاكرة البصرية:
4GB

استنساخ الصوت:
لا

التكلفة لكل ألف حرف:
2x

متحدثون متعددون حتى 90 دقيقة إنتاج البودكاست اتساق المتكلمين 200 دقيقة

أفضل ل:: البرامج الصوتية، والكتب السمعية، والمحتوى الطويل المتعدد المتحدثين

حاول VibeVoice

Pocket TTS

Free

إن نموذج تحويل النص إلى صوت جيب من إنتاج كيوتاي (مطورو موشي) هو نموذج مكون من 100 مليون بارامتر للنص إلى صوت، وهو نموذج مكتمل الحجم، ويعمل بكفاءة على وحدة المعالجة المركزية، ويدعم استنساخ الصوت من عينة صوتية واحدة، وينتج صوتاً طبيعياً. ويجعل حجم النموذج الصغير منه نموذجاً مثالياً لنشره على الحافة والبيئات ذات الموارد المنخفضة.

مطوّر::
Kyutai

الترخيص::
MIT

السرعة:
Fast

الجودة::

اللغات:
en, fr

الذاكرة البصرية:
1GB

استنساخ الصوت:
نعم

التكلفة لكل ألف حرف:
مجاني

بارامترات 100M استنتاج وحدة المعالجة المركزية استنساخ الصوت استنساخ عينة واحدة جاهز للحافة

أفضل ل:: النشر الخفيف، البيئات التي تستخدم وحدات المعالجة المركزية فقط، استنساخ الصوت السريع

حاول Pocket TTS

Kitten TTS

Free

Kitten TTS by KittenML هو نموذج خفيف للغاية لتحويل النص إلى كلمة مبني على ONNX. مع أشكال من 15M إلى 80M بارامترات (25-80 MB على القرص)، وهو يوفر تركيب صوت عالي الجودة على وحدة المعالجة المركزية دون الحاجة إلى وحدة معالجة رسومية. يتميز بثمانية أصوات داخلية، وسرعة الكلام القابلة للتعديل، ومعالجة مسبقة للنصوص داخلية للأرقام والعملات والوحدات. مثالي لنشر الحافة وتطبيقات منخفضة التأخير.

مطوّر::
KittenML

الترخيص::
Apache 2.0

السرعة:
Fast

الجودة::

اللغات:
en

الذاكرة البصرية:
0GB

استنساخ الصوت:
لا

التكلفة لكل ألف حرف:
مجاني

الاستدلال على وحدة المعالجة المركزية فقط حجم النموذج أقل من 80 ميغابايت 8 أصوات مدمجة مراقبة السرعة مقرها مكتب الأمم المتحدة في جنيف مخرج 24 كيلو هرتز

أفضل ل:: تطبيقات سريعة وخفيفة الوزن لنقل البيانات عبر الحائط، ونشرها على الحافة، وتطبيقات منخفضة التأخير

حاول Kitten TTS

CosyVoice3

Standard

CosyVoice3 is the latest evolution from Alibaba's FunAudioLLM team. It features bi-streaming inference with ~150ms latency, instruction-based control for emotion/speed/volume, and improved speaker similarity for zero-shot cloning. Supports 9 languages plus 18 Chinese dialects. RL-tuned variant delivers state-of-the-art prosody.

مطوّر::
Alibaba (FunAudioLLM)

الترخيص::
Apache 2.0

السرعة:
Fast

الجودة::

اللغات:
en, zh, ja, ko, de, es, fr, it, ru

الذاكرة البصرية:
4GB

استنساخ الصوت:
نعم

التكلفة لكل ألف حرف:
2x

Bi-streaming Emotion control Voice cloning Speed/volume control Instruction following

أفضل ل:: Multilingual production TTS, real-time applications, voice cloning

حاول CosyVoice3

MOSS-TTS

Premium

MOSS-TTS from OpenMOSS supports generation of up to 1 hour of continuous speech across 20 languages. Features token-level duration control, phoneme-level pronunciation control via IPA/Pinyin, and code-switching between languages. The 8B production model delivers state-of-the-art quality with zero-shot voice cloning from reference audio.

مطوّر::
OpenMOSS

الترخيص::
Apache 2.0

السرعة:
Medium

الجودة::

اللغات:
en, zh, de, es, fr, ja, it, hu, ko, ru, fa, ar, pl, pt, cs, da, sv, el, tr

الذاكرة البصرية:
16GB

استنساخ الصوت:
نعم

التكلفة لكل ألف حرف:
4x

Ultra-long generation 20 languages Voice cloning Duration control Pronunciation control Code-switching

أفضل ل:: Audiobooks, long-form content, multilingual production

حاول MOSS-TTS

MegaTTS3

Premium

MegaTTS3 from ByteDance uses a novel sparse alignment mechanism combined with a latent diffusion transformer. Features adjustable trade-off between speech intelligibility and speaker similarity for zero-shot voice cloning.

مطوّر::
ByteDance

الترخيص::
Apache 2.0

السرعة:
Slow

الجودة::

اللغات:
en, zh

الذاكرة البصرية:
8GB

استنساخ الصوت:
نعم

التكلفة لكل ألف حرف:
4x

Voice cloning Adjustable similarity Cross-lingual

أفضل ل:: High-fidelity voice cloning

حاول MegaTTS3

Kokoro

مجاني

Kokoro is an 82 million parameter text-to-speech model that punches well above its weight class. Despite its tiny size, it produces remarkably natural and expressive speech. Kokoro supports multiple languages including English, Japanese, Chinese, and Korean with a variety of expressive voices. It runs incredibly fast — generating audio nearly 100x faster than real-time on a GPU.

مطوّر::
Hexgrad

الترخيص::
Apache 2.0

السرعة:
Fast

الجودة::

اللغات: en, ja, zh, ko, fr, de, it, pt, es, hi, ru

أفضل ل:: High-quality TTS with minimal latency, streaming applications

تجربة مجانية

Piper

مجاني

Piper is a lightweight text-to-speech engine developed by Rhasspy that uses VITS and larynx architectures. It runs entirely on CPU, making it ideal for edge devices, home automation, and applications requiring offline TTS. With over 100 voices across 30+ languages, Piper delivers natural-sounding speech at real-time speeds even on a Raspberry Pi 4.

مطوّر::
Rhasspy

الترخيص::
MIT

السرعة:
Fast

الجودة::

اللغات: en, de, fr, es, it, pt, nl, pl, ru, zh, ja, ko, ar, cs, da, fi, el, hu, is, ka, kk, ne, no, ro, sk, sr, sv, sw, tr, uk, vi

أفضل ل:: Quick previews, accessibility, and embedded applications

تجربة مجانية

VITS

مجاني

VITS (Variational Inference with adversarial learning for end-to-end Text-to-Speech) is a parallel end-to-end TTS method that generates more natural sounding audio than current two-stage models. It adopts variational inference augmented with normalizing flows and an adversarial training process, achieving a significant improvement in naturalness.

مطوّر::
Jaehyeon Kim et al.

الترخيص::
MIT

السرعة:
Fast

الجودة::

اللغات: en, de, es, fr, pt, nl, fi, hu, bg, uk, pl

أفضل ل:: General-purpose text-to-speech with natural prosody

تجربة مجانية

MeloTTS

مجاني

MeloTTS by MyShell.ai is a multilingual TTS library supporting English (American, British, Indian, Australian), Spanish, French, Chinese, Japanese, and Korean. It is extremely fast, processing text at near real-time speed on CPU alone. MeloTTS is designed for production use and supports both CPU and GPU inference.

مطوّر::
MyShell.ai

الترخيص::
MIT

السرعة:
Fast

الجودة::

اللغات: en, es, fr, zh, ja, ko

أفضل ل:: Production applications needing fast, multilingual TTS

تجربة مجانية

OuteTTS

مجاني

OuteTTS extends large language models with text-to-speech capabilities while preserving the original architecture. It supports multiple backends including llama.cpp (CPU/GPU), Hugging Face Transformers, ExLlamaV2, VLLM, and even browser inference via Transformers.js. Features zero-shot voice cloning through speaker profiles saved as JSON.

مطوّر::
OuteAI

الترخيص::
Apache 2.0

السرعة:
Fast

الجودة::

اللغات: en

أفضل ل:: Edge deployment, browser-based TTS, low-resource environments

تجربة مجانية

Pocket TTS

مجاني

Pocket TTS by Kyutai (creators of Moshi) is a compact 100M parameter text-to-speech model that punches well above its weight. It runs efficiently on CPU, supports zero-shot voice cloning from a single audio sample, and produces natural-sounding speech. The small model size makes it ideal for edge deployment and low-resource environments.

مطوّر::
Kyutai

الترخيص::
MIT

السرعة:
Fast

الجودة::

اللغات: en, fr

أفضل ل:: Lightweight deployment, CPU-only environments, quick voice cloning

المعيارية

مطوّر::
Alibaba (FunAudioLLM)

الترخيص::
Apache 2.0

السرعة:
Fast

الجودة::

اللغات:
en, zh, ja, ko, de, es, fr, it, ru

استنساخ الصوت:
نعم

Bi-streamingEmotion controlVoice cloningSpeed/volume controlInstruction following

أفضل ل:: Multilingual production TTS, real-time applications, voice cloning

حاول CosyVoice3

Chatterbox

الأقساط

Chatterbox by Resemble AI is a cutting-edge zero-shot voice cloning model. It can replicate any voice from a single audio sample with remarkable accuracy, capturing not just the timbre but also the speaking style and emotional nuances. Chatterbox also features fine-grained emotion control, allowing you to adjust the emotional tone of the generated speech independently from the voice identity.

مطوّر::
Resemble AI

الترخيص::
MIT

السرعة:
Medium

الجودة::

اللغات:
en

استنساخ الصوت:
نعم

الذاكرة البصرية:
4GB

التكلفة لكل ألف حرف:
4x

Zero-shot cloningEmotion controlHigh fidelityStyle transferSingle sample cloning

أفضل ل:: Professional voice cloning with emotional control, content creation

حاول Chatterbox

Tortoise TTS

الأقساط

Tortoise TTS is an autoregressive multi-voice text-to-speech system that prioritizes audio quality over speed. It uses DALL-E-inspired architecture to generate highly natural speech with excellent prosody and speaker similarity. While slower than many alternatives, Tortoise produces some of the most realistic synthetic speech available in the open-source ecosystem.

مطوّر::
James Betker

الترخيص::
Apache 2.0

السرعة:
Slow

الجودة::

اللغات:
en

استنساخ الصوت:
نعم

الذاكرة البصرية:
8GB

التكلفة لكل ألف حرف:
4x

Highest qualityMulti-voiceDALL-E architectureVoice cloningAutoregressive

أفضل ل:: Audiobooks, premium content, quality-first applications

حاول Tortoise TTS

StyleTTS 2

الأقساط

StyleTTS 2 achieves human-level TTS synthesis by combining style diffusion with adversarial training using large speech language models. It generates the most natural sounding speech among single-speaker models, rivaling human recordings. StyleTTS 2 uses diffusion-based style modeling to capture the full range of human speech variation.

مطوّر::
Columbia University

الترخيص::
MIT

السرعة:
Medium

الجودة::

اللغات:
en

استنساخ الصوت:
لا

الذاكرة البصرية:
4GB

التكلفة لكل ألف حرف:
4x

Human-levelStyle diffusionAdversarial trainingNatural variationHigh fidelity

أفضل ل:: Studio-quality single-speaker synthesis, professional narration

حاول StyleTTS 2

OpenVoice

الأقساط

مطوّر::
MyShell.ai / MIT

الترخيص::
MIT

السرعة:
Medium

الجودة::

اللغات:
en, zh, ja, ko, fr, de, es, it

استنساخ الصوت:
نعم

الذاكرة البصرية:
4GB

التكلفة لكل ألف حرف:
4x

Instant cloningVoice conversionEmotion controlAccent controlMultilingual

أفضل ل:: Voice cloning with fine-grained style control, voice conversion

حاول OpenVoice

Sesame CSM

الأقساط

Sesame CSM (Conversational Speech Model) is a 1 billion parameter model designed specifically for generating conversational speech. It models the natural patterns of human conversation including turn-taking timing, backchannel responses, emotional reactions, and conversational flow. CSM generates audio that sounds like a natural human conversation rather than synthetic speech.

مطوّر::
Sesame

الترخيص::
Apache 2.0

السرعة:
Slow

الجودة::

اللغات:
en

استنساخ الصوت:
لا

الذاكرة البصرية:
8GB

التكلفة لكل ألف حرف:
4x

ConversationalNatural timingTurn-takingBackchannel1B parameters

أفضل ل:: AI assistants, chatbots, conversational AI applications

حاول Sesame CSM

MOSS-TTS

الأقساط

مطوّر::
OpenMOSS

الترخيص::
Apache 2.0

السرعة:
Medium

الجودة::

اللغات:
en, zh, de, es, fr, ja, it, hu, ko, ru, fa, ar, pl, pt, cs, da, sv, el, tr

استنساخ الصوت:
نعم

الذاكرة البصرية:
16GB

التكلفة لكل ألف حرف:
4x

Ultra-long generation20 languagesVoice cloningDuration controlPronunciation controlCode-switching

أفضل ل:: Audiobooks, long-form content, multilingual production

حاول MOSS-TTS

MegaTTS3

الأقساط

مطوّر::
ByteDance

الترخيص::
Apache 2.0

السرعة:
Slow

الجودة::

اللغات:
en, zh

استنساخ الصوت:
نعم

الذاكرة البصرية:
8GB

التكلفة لكل ألف حرف:
4x

Voice cloningAdjustable similarityCross-lingual

أفضل ل:: High-fidelity voice cloning

حاول MegaTTS3

جدول مقارنة النماذج

النموذج	مطوّر:	الرتبة	السرعة	اللغات	الذاكرة البصرية	الترخيص:	الأرصدة الدائنة
Kokoro	Hexgrad	Free	Fast	11	1.5GB	Apache 2.0	مجاني	الاستخدام
Piper	Rhasspy	Free	Fast	31	0 (CPU only)	MIT	مجاني	الاستخدام
VITS	Jaehyeon Kim et al.	Free	Fast	11	1GB	MIT	مجاني	الاستخدام
MeloTTS	MyShell.ai	Free	Fast	6	0.5GB (GPU optional)	MIT	مجاني	الاستخدام
Bark	Suno	Standard	Slow	13	5GB	MIT	2	الاستخدام
Bark Small	Suno	Standard	Medium	13	2GB	MIT	2	الاستخدام
CosyVoice 2	Alibaba (Tongyi Lab)	Standard	Medium	8	4GB	Apache 2.0	2	الاستخدام
Dia TTS	Nari Labs	Standard	Medium	1	4GB	Apache 2.0	2	الاستخدام
Parler TTS	Hugging Face	Standard	Medium	1	4GB	Apache 2.0	2	الاستخدام
GLM-TTS	Zhipu AI	Standard	Medium	2	4GB	GLM-4 License	2	الاستخدام
IndexTTS-2	Index Team	Standard	Medium	2	4GB	Bilibili Model License	2	الاستخدام
Spark TTS	SparkAudio	Standard	Medium	2	4GB	CC BY-NC-SA 4.0	2	الاستخدام
GPT-SoVITS	RVC-Boss	Standard	Slow	4	6GB	MIT	2	الاستخدام
Orpheus	Canopy Labs	Standard	Medium	1	4GB	Llama 3.2 Community	2	الاستخدام
Chatterbox	Resemble AI	Premium	Medium	1	4GB	MIT	4	الاستخدام
Tortoise TTS	James Betker	Premium	Slow	1	8GB	Apache 2.0	4	الاستخدام
StyleTTS 2	Columbia University	Premium	Medium	1	4GB	MIT	4	الاستخدام
OpenVoice	MyShell.ai / MIT	Premium	Medium	8	4GB	MIT	4	الاستخدام
Qwen3 TTS	Alibaba (Qwen)	Standard	Medium	10	7GB	Apache 2.0	2	الاستخدام
Sesame CSM	Sesame	Premium	Slow	1	8GB	Apache 2.0	4	الاستخدام
Chatterbox Turbo	Resemble AI	Standard	Fast	1	2GB	MIT	2	الاستخدام
Dia 2	Nari Labs	Standard	Fast	1	4GB	Apache 2.0	2	الاستخدام
VoxCPM	OpenBMB	Standard	Fast	2	4GB	Apache 2.0	2	الاستخدام
OuteTTS	OuteAI	Free	Fast	1	2GB	Apache 2.0	مجاني	الاستخدام
TADA	Hume AI	Standard	Fast	1	5GB	MIT	2	الاستخدام
VibeVoice	Microsoft	Standard	Fast	2	4GB	MIT	2	الاستخدام
Pocket TTS	Kyutai	Free	Fast	2	1GB	MIT	مجاني	الاستخدام
Kitten TTS	KittenML	Free	Fast	1	0GB	Apache 2.0	مجاني	الاستخدام
CosyVoice3	Alibaba (FunAudioLLM)	Standard	Fast	9	4GB	Apache 2.0	2	الاستخدام
MOSS-TTS	OpenMOSS	Premium	Medium	19	16GB	Apache 2.0	4	الاستخدام
MegaTTS3	ByteDance	Premium	Slow	2	8GB	Apache 2.0	4	الاستخدام

أكثر منصة تحويل النص إلى كلمة ذكاء اصطناعي شمولاً

لماذا تختار TTS.ai لتحويل النص إلى كلمة؟

يجمع TTS.ai بين أفضل نماذج النص إلى كلمة مفتوحة المصدر في العالم في منصة واحدة سهلة الاستخدام. وعلى النقيض من الخدمات المسجلة الملكية التي تغلقك في محرك صوت واحد، يعطيك TTS.ai الوصول إلى أكثر من 20 نموذجاً من مختبرات أبحاث رائدة بما في ذلك كوكي، مايشل، أمفيون، إنفيديا، سونو، هاغينج فايس، جامعة تسنغوا، وأكثر من ذلك.

كل نموذج مفتوح المصدر تحت MIT، أو Apache 2.0، أو تراخيص مماثلة متساهلة، مما يضمن لك الحقوق التجارية الكاملة لاستخدام الصوت المولد في مشاريعك. سواء كنت بحاجة إلى تركيب سريع وخفيف لتطبيقات الوقت الحقيقي أو مخرجات عالية الجودة للكتب السمعية والبودكاست، فإن TTS.ai لديه النموذج الصحيح لكل حالة استخدام.

نماذج مجانية، لا حساب مطلوب

ابدأ على الفور بثلاثة نماذج مجانية لترجمة النصوص إلى صوت: بايبر (سريع للغاية، خفيف الوزن)، وفيتس (تجميع عصبي عالي الجودة)، وميلوتتس (دعم متعدد اللغات). لا تسجيل، لا بطاقة ائتمان، لا حدود على الأجيال. النماذج المجانية تدعم اللغة الإنجليزية والعديد من اللغات الأخرى مع مخرجات ذات صوت طبيعي مناسبة لمعظم التطبيقات.

المعالجة المعجلة بواسطة وحدة المعالجة الرسومية

جميع نماذج TTS تعمل على وحدات معالجة رسومية مخصصة من إنفيديا لتحقيق سرعة وتواتر في توليد النصوص. وتنتج النماذج المجانية عادة الصوت في أقل من ثانيتين. وتنتج النماذج العادية مثل كوكورو، وكوسي فويس 2، وبارك في المتوسط 3-5 ثوان. وتقوم النماذج الأعلى جودة، مثل تورتوز وشاتربكس، بتجهيز النص في 5-15 ثانية، اعتمادا على طول النص.

أكثر من 30 لغة مدعومة

توليد الكلام في أكثر من 30 لغة بما في ذلك الإنجليزية، الإسبانية، الفرنسية، الألمانية، الإيطالية، البرتغالية، الصينية، اليابانية، الكورية، العربية، الهندية، الروسية، وغيرها الكثير. وهناك عدة نماذج تدعم التركيب عبر اللغات، مما يعني أنك يمكنك توليد الكلام بلغة لم يكن الصوت الأصلي مدرباً عليها قط. CosyVoice 2 و GPT-SoVITS يتفوقان في استنساخ الصوت عبر اللغات.

واجهة برمجة التطبيقات الجاهزة للمطورين

دمج TTS.ai في تطبيقاتك مع OpenAI متوافقة REST API. نقطة نهاية واحدة لجميع 20 + نماذج. Python، جافا سكريبت، cURL، و Go SDKs. تدفق الدعم لتطبيقات الوقت الحقيقي. معالجة دفعة لتوليد المحتوى على نطاق واسع. Webhooks للإشعارات غير المتزامنة. متوفر على Pro وخطط المؤسسة.

الأسئلة المتكررة

إن تحويل النص إلى كلام (TTS) هو تكنولوجيا الذكاء الاصطناعي التي تحول النص المكتوب إلى صوت متحدث طبيعي. وتستخدم نماذج تحويل النص إلى كلام العصبية الحديثة مثل كوكورو، وشاتربوكس، وكوسي فويس 2 التعلم العميق لإنتاج الكلام الذي يبدو إنسانيا بشكل ملحوظ، مع النغمة الطبيعية، والمشاعر، والإيقاع.

يعتمد على احتياجاتك. للاستعراضات السريعة، استخدم Piper أو MeloTTS (مجاني، سريع). للجودة العالية، جرب Kokoro أو CosyVoice 2 (المستوى القياسي). للاستنساخ الصوتي، استخدم Chatterbox أو GPT-SoVITS (أعلى). لمحتوى الحوار/البودكاست، جرب Dia TTS. لكل نموذج نقاط قوة مختلفة - جرب لمعرفة أفضل الحلول.

نعم! تقدم TTS.ai ترجمة النصوص إلى كلام مجانية مع نماذج كوكورو، وبايبر، وفيتس، وميلوتتس. لا يلزم إنشاء حساب حتى 500 حرف و 3 أجيال في الساعة. انضم لحساب مجاني للحصول على 50 نقطة للدخول إلى جميع النماذج.

تدعم نماذجنا لتحويل النص إلى صوت أكثر من 30 لغة، بما في ذلك اللغة الإنجليزية، والإسبانية، والفرنسية، والألمانية، والإيطالية، والبرتغالية، والصينية، واليابانية، والكورية، والعربية، والروسية، والهندية، وغيرها الكثير.

نعم، يمكن استخدام الصوت المولد من خلال TTS.ai تجارياً. جميع نماذجنا تستخدم تراخيص المصدر المفتوح (MIT, Apache 2.0). تحقق من تراخيص النموذج الفردية للحصول على شروط محددة. نوصي بمراجعة ترخيص النموذج المحدد الذي تستخدمه لمشروعك.

TTS.ai يدعم MP3, WAV, OGG, و FLAC أشكال الخرج. MP3 هو الافتراضي لإعادة التشغيل على شبكة الويب. WAV يوصى لمزيد من معالجة الصوت. يمكنك تحويل بين الأشكال باستخدام أداة تحويل الصوت.

يستخدم استنساخ الصوت الذكاء الاصطناعي لتكرار صوت محدد من عينة صوتية قصيرة (عادة 5-30 ثانية). قم بتحميل تسجيل واضح للصوت المستهدف، وستقوم نماذج مثل Chatterbox، أو GPT-SoVITS، أو OpenVoice بتوليد كلام جديد في ذلك الصوت. وتتحسن الجودة مع صوت مرجعي أنظف وأطول.

ويمكن للمستخدمين المجانيين توليد ما يصل إلى 500 كلمة لكل طلب. ويحصل المستخدمون المسجلون على ما يصل إلى 5000 كلمة لكل طلب. وبالنسبة للنصوص الأطول، يتم توليد الصوت في قطع ويجمع معاً تلقائياً. ويمكن لمستخدمي API معالجة ما يصل إلى 10000 كلمة لكل طلب.

يختلف دعم لغة علامات تركيب الكلام (SSML) حسب النموذج. يدعم Piper وبعض النماذج الأخرى علامات SSML الأساسية للوقفات والتأكيد والتحكم في النطق. بالنسبة للنماذج التي لا تدعم لغة علامات تركيب الكلام الأصلية، يمكنك استخدام علامات التوقف الطبيعية وقطع السطور للتأثير على النطق.

نعم ، معظم النماذج تدعم تعديل السرعة من 0. 5x إلى 2. 0x. بعض النماذج مثل Bark و Parler تسمح أيضًا بالتحكم في النبرة والأسلوب. يمكنك تحديد بارامترات السرعة في لوحة الإعدادات المتقدمة أو من خلال بارامترات السرعة API.

نعم، معالجة الدفعة متاحة من خلال API لدينا. يمكنك تقديم أجزاء متعددة من النص في استدعاء واحد API أو النص، وكل واحد سيتم معالجته والعودة كملفات صوتية منفصلة. هذا مثالي لفصول الكتب السمعية، وحدات التعلم الإلكتروني، أو النصوص الحوارية للألعاب.

توليد مفتاح واجهة برمجة التطبيقات من لوحة التحكم لحسابك، ثم إرسال طلبات POST إلى نقطة نهاية واجهة برمجة التطبيقات REST الخاصة بنا مع النص، والنموذج، والبارامترات الصوتية. ونحن نقدم أمثلة على الشفرة في بايثون، جافا سكريبت، و cURL. واجهة برمجة التطبيقات متوافقة مع OpenAI، لذا فإن التكاملات القائمة تعمل مع حد أدنى من التغييرات.

5.0/5 (3)

بدء تحويل النص إلى حديث الآن

انضم إلى آلاف المبدعين باستخدام TTS.ai. احصل على 15000 شخصية مجانية مع حساب جديد. نماذج مجانية متاحة دون التسجيل.

انضم مجاناً عرض التسعير

تحويل النصوص إلى كلام

أحب TTS.ai؟ أخبر أصدقائك!

تفاصيل النموذج

OpenVoice

نصائح لتحقيق نتائج أفضل

استخدام الحروف

كيف يعمل تحويل النص إلى كلمة بالذكاء الاصطناعي

أدخل نصك

اختار النموذج والصوت

توليد وتحميل

حالات الاستخدام لتحويل النص إلى كلمة

كتب مسموعة

تسجيلات صوتية بالفيديو

البودكاست

ألعاب القمار

التعلم الإلكتروني

إمكانية الوصول

النظم الهاتفية

وسائط الإعلام الاجتماعية

البث المباشر

التسويق

الدبلجة والترجمة المحلية

التأمل والرفاه

جميع نماذج تحويل النص إلى كلمة

Kokoro

Piper

VITS

MeloTTS

Bark

Bark Small

CosyVoice 2

Dia TTS

Parler TTS

GLM-TTS

IndexTTS-2

Spark TTS

GPT-SoVITS

Orpheus

Chatterbox

Tortoise TTS

StyleTTS 2

OpenVoice

Qwen3 TTS

Sesame CSM

Chatterbox Turbo

Dia 2

VoxCPM

OuteTTS

TADA

VibeVoice

Pocket TTS

Kitten TTS

CosyVoice3

MOSS-TTS

MegaTTS3

Kokoro

Piper

VITS

MeloTTS

OuteTTS

Pocket TTS

Kitten TTS

Bark

Bark Small

CosyVoice 2

Dia TTS

Parler TTS

GLM-TTS

IndexTTS-2

Spark TTS

GPT-SoVITS

Orpheus

Qwen3 TTS

Chatterbox Turbo

Dia 2

VoxCPM

TADA

VibeVoice

CosyVoice3

Chatterbox