الذكاء الاصطناعي المجاني تحويل النص إلى كلمة

31+ :: نماذج المصدر المفتوح، 231+ الأصوات، 34+ لا يلزم إنشاء حساب.

8K+
المبدعون
30K+
الأجيال
31+
نماذج الذكاء الاصطناعي
231+
الأصوات
0/500 حروف · Sign up for 5,000 per generation → مجاني
أحب TTS.ai؟ أخبر أصدقائك!

كل ما تحتاجه للذكاء الاصطناعي الصوتي

أكثر من 30 أداة تعتمد على نماذج الذكاء الاصطناعي المفتوح المصدر

31+ نماذج صوت الذكاء الاصطناعي

أشمل مجموعة من نماذج تكنولوجيا المعلومات والاتصالات المفتوحة المصدر في منصة واحدة

KokoroKokoro مجاني

كوكورو هو نموذج تحويل النص إلى صوت يحتوي على 82 مليون بارامترات، ويتميز بقدرته على التحدث بلغة طبيعية وتعبيرية بشكل ملحوظ، على الرغم من حجمه الصغير. ويدعم كوكورو لغات متعددة، بما في ذلك الإنجليزية، واليابانية، والصينية، والكورية، مع مجموعة متنوعة من الأصوات التعبيرية. وهو يعمل بسرعة لا تصدق، حيث يولد الصوت بسرعة تبلغ 100 مرة تقريباً من الصوت في الوقت الحقيقي على وحدة المعالجة المركزية.

أفضل ل: تطبيقات عالية الجودة لتحويل النصوص إلى صوت بأدنى حد من التأخير، وتطبيقات التدفق

جرب مجانا

PiperPiper مجاني

بايبِر هو محرك خفيف الوزن لتحويل النص إلى صوت طورته شركة راشسباي ويستخدم الهندسة المعمارية VITS و larynx ويعمل بالكامل على وحدة المعالجة المركزية مما يجعله مثاليا لأجهزة الحافة والتشغيل الآلي للمنازل والتطبيقات التي تتطلب تحويل النص إلى صوت خارج الشبكة وبأكثر من 100 صوت عبر 30 لغة، يقدم بايبِر صوت طبيعي بسرعة في الوقت الحقيقي حتى على أجهزة راببيري باي 4.

أفضل ل: الاستعراضات المسبقة السريعة، وإمكانية الوصول، والتطبيقات المدمجة

جرب مجانا

VITSVITS مجاني

ويعتبر VITS (الاستدلال المتغير مع التعلم التنازعيّ لتحويل النص إلى كلمة من البداية إلى النهاية) طريقة موازية لتحويل النص إلى كلمة من البداية إلى النهاية، وهي طريقة تولد صوتاً أكثر طبيعية من النماذج الحالية ذات المرحلتين. وهي تعتمد الاستدلال المتغير مع تدفقات تطبيعية وعملية تدريب تنازعية، مما يحقق تحسناً كبيراً في الطبيعة.

أفضل ل: تحويل النص إلى كلمة للأغراض العامة مع صوت طبيعي

جرب مجانا

MeloTTSMeloTTS مجاني

MeloTTS من MyShell.ai هي مكتبة متعددة اللغات لترجمة النصوص إلى صوت تدعم اللغة الإنجليزية (الأمريكية، البريطانية، الهندية، الأسترالية)، والإسبانية، والفرنسية، والصينية، واليابانية، والكورية. وهي سريعة للغاية، وتجهز النص بسرعة قريبة من الزمن الحقيقي على وحدة المعالجة المركزية وحدها. وقد صُممت MeloTTS لاستخدام الإنتاج وتدعم كلاً من استنتاج وحدة المعالجة المركزية ووحدة المعالجة الرسومية.

أفضل ل: تطبيقات الإنتاج التي تحتاج إلى ترجمة تلقائية سريعة ومتعددة اللغات

جرب مجانا

OuteTTSOuteTTS مجاني

OuteTTS توسع نماذج اللغة الكبيرة مع القدرات النص إلى الكلام مع الحفاظ على البنية الأصلية. إنه يدعم العديد من الخلفيات بما في ذلك llama.cpp (CPU / GPU)، وتحويلات الوجه الحب، ExLlamaV2، VLLM، وحتى الاستدلال المتصفح عن طريق Transformers.js. مميزات استنساخ الصوت صفر-الطلقة من خلال ملف المتحدثين المخزنة كJSON.

أفضل ل: نشر التطبيقات الطرفية، ودعم الترجمة الفورية القائم على المتصفح، والبيئات المنخفضة الموارد

جرب مجانا

Pocket TTSPocket TTS مجاني

إن نموذج تحويل النص إلى صوت جيب من إنتاج كيوتاي (مطورو موشي) هو نموذج مكون من 100 مليون بارامتر للنص إلى صوت، وهو نموذج مكتمل الحجم، ويعمل بكفاءة على وحدة المعالجة المركزية، ويدعم استنساخ الصوت من عينة صوتية واحدة، وينتج صوتاً طبيعياً. ويجعل حجم النموذج الصغير منه نموذجاً مثالياً لنشره على الحافة والبيئات ذات الموارد المنخفضة.

أفضل ل: النشر الخفيف، البيئات التي تستخدم وحدات المعالجة المركزية فقط، استنساخ الصوت السريع

جرب مجانا

Kitten TTSKitten TTS مجاني

Kitten TTS by KittenML هو نموذج خفيف للغاية لتحويل النص إلى كلمة مبني على ONNX. مع أشكال من 15M إلى 80M بارامترات (25-80 MB على القرص)، وهو يوفر تركيب صوت عالي الجودة على وحدة المعالجة المركزية دون الحاجة إلى وحدة معالجة رسومية. يتميز بثمانية أصوات داخلية، وسرعة الكلام القابلة للتعديل، ومعالجة مسبقة للنصوص داخلية للأرقام والعملات والوحدات. مثالي لنشر الحافة وتطبيقات منخفضة التأخير.

أفضل ل: تطبيقات سريعة وخفيفة الوزن لنقل البيانات عبر الحائط، ونشرها على الحافة، وتطبيقات منخفضة التأخير

جرب مجانا

BarkBark المعيار

نموذج تحويل النص إلى صوت قائم على المحول يولد تأثيرات واقعية للكلام والموسيقى والصوت.

مطوّر: Suno · الترخيص: MIT

جربها

Bark SmallBark Small المعيار

نسخة أخف من Bark مع استنتاج أسرع وانخفاض استخدام الذاكرة.

مطوّر: Suno · الترخيص: MIT

جربها

CosyVoice 2CosyVoice 2 المعيار

صوت علي بابا القابل للتعديل مع تكافؤ طبيعية الإنسان والتأخير قريب من الصفر.

مطوّر: Alibaba (Tongyi Lab) · الترخيص: Apache 2.0

جربها

Dia TTSDia TTS المعيار

نموذج توليد الحوار المتعدد المتحدثين الذي يخلق محادثات طبيعية بين المتحدثين.

مطوّر: Nari Labs · الترخيص: Apache 2.0

جربها

Parler TTSParler TTS المعيار

وصف الصوت الذي تريده في اللغة الطبيعية وParler يولد الكلام المطابق.

مطوّر: Hugging Face · الترخيص: Apache 2.0

جربها

GLM-TTSGLM-TTS المعيار

يحقق أدنى معدل خطأ في الحروف بين نماذج TTS مفتوحة المصدر.

مطوّر: Zhipu AI · الترخيص: GLM-4 License

جربها

IndexTTS-2IndexTTS-2 المعيار

صوت تلقائي من دون طلقة مع تحكم دقيق في العواطف وتعبير عالي

مطوّر: Index Team · الترخيص: Bilibili Model License

جربها

Spark TTSSpark TTS المعيار

استنساخ الصوت TTS مع المشاعر القابلة للتحكم وأسلوب الكلام من خلال النداءات.

مطوّر: SparkAudio · الترخيص: CC BY-NC-SA 4.0

جربها

GPT-SoVITSGPT-SoVITS المعيار

صوت بضعة طلقات استنساخ TTS الذي يعيد إنتاج أي صوت من مجرد 5 ثوان من السمع.

مطوّر: RVC-Boss · الترخيص: MIT

جربها

OrpheusOrpheus المعيار

نموذج TTS عاطفي على المستوى البشري مدرب على 100 ألف ساعة من بيانات الكلام.

مطوّر: Canopy Labs · الترخيص: Llama 3.2 Community

جربها

Qwen3 TTSQwen3 TTS المعيار

Alibaba's multilingual TTS with voice cloning, preset voices, and voice design from text. (باللغة الإنجليزية).

مطوّر: Alibaba (Qwen) · الترخيص: Apache 2.0

جربها

Chatterbox TurboChatterbox Turbo المعيار

Chatterbox أسرع مع تأخير أقل من 200 مللي ثانية وعلامات لغة مساعدة للضحك والسعال وأكثر.

مطوّر: Resemble AI · الترخيص: MIT

جربها

Dia 2Dia 2 المعيار

تدفق أول محادثة TTS مع حوار متعدد المتحدثين وعلامات paralinguistic.

مطوّر: Nari Labs · الترخيص: Apache 2.0

جربها

VoxCPMVoxCPM المعيار

TTS خالية من tokenizer إنتاج 44.1 كيلوهرتز السمعي مع الفقرة السياق الوعي الاتساق.

مطوّر: OpenBMB · الترخيص: Apache 2.0

جربها

TADATADA المعيار

صفر الهلوسة TTS مع النص الصوت المزدوج المواءمة، 5x أسرع من LLM TTS مماثلة.

مطوّر: Hume AI · الترخيص: MIT

جربها

VibeVoiceVibeVoice المعيار

نموذج مايكروسوفت لمحتوى الشكل الطويل متعدد المتحدثين مثل البودكاست والكتب السمعية.

مطوّر: Microsoft · الترخيص: MIT

جربها

CosyVoice3CosyVoice3 المعيار

Next-generation multilingual TTS with bi-streaming, emotion control, and zero-shot voice cloning.

مطوّر: Alibaba (FunAudioLLM) · الترخيص: Apache 2.0

جربها

ChatterboxChatterbox القسط

أحدث صيغة من استنساخ الصوت بدون طلقة مع التحكم العاطفي من (ريزيمبل آي)

الجودة:

جربها

Tortoise TTSTortoise TTS القسط

3 - تحويل النصوص إلى كلمـة بأصوات متعددة يركـز على النوعية مع بنية ذاتية التراجع.

الجودة:

جربها

StyleTTS 2StyleTTS 2 القسط

تحويل النص إلى كلمة على المستوى البشري من خلال نشر الأسلوب والتدريب على المواجهة.

الجودة:

جربها

OpenVoiceOpenVoice القسط

استنساخ الصوت الفوري مع التحكم الحبيبي على الأسلوب، العاطفة، والتشديد.

الجودة:

جربها

Sesame CSMSesame CSM القسط

نموذج الكلام المحادثي الذي يولد حواراً طبيعياً مع التوقيت المناسب والمشاعر المناسبة.

الجودة:

جربها

MOSS-TTSMOSS-TTS القسط

Ultra-long 20-language TTS supporting up to 1 hour of continuous generation with phoneme-level control.

الجودة:

جربها

MegaTTS3MegaTTS3 القسط

ByteDance's sparse alignment TTS with adjustable intelligibility vs. speaker similarity.

الجودة:

جربها

CosyVoice 2CosyVoice 2

صوت علي بابا القابل للتعديل مع تكافؤ طبيعية الإنسان والتأخير قريب من الصفر.

اللغات: en, zh, ja, ko, fr, de, it, es

صوت مستنسخ

GLM-TTSGLM-TTS

يحقق أدنى معدل خطأ في الحروف بين نماذج TTS مفتوحة المصدر.

اللغات: en, zh

صوت مستنسخ

IndexTTS-2IndexTTS-2

صوت تلقائي من دون طلقة مع تحكم دقيق في العواطف وتعبير عالي

اللغات: en, zh

صوت مستنسخ

Spark TTSSpark TTS

استنساخ الصوت TTS مع المشاعر القابلة للتحكم وأسلوب الكلام من خلال النداءات.

اللغات: en, zh

صوت مستنسخ

GPT-SoVITSGPT-SoVITS

صوت بضعة طلقات استنساخ TTS الذي يعيد إنتاج أي صوت من مجرد 5 ثوان من السمع.

اللغات: en, zh, ja, ko

صوت مستنسخ

ChatterboxChatterbox

أحدث صيغة من استنساخ الصوت بدون طلقة مع التحكم العاطفي من (ريزيمبل آي)

اللغات: en

صوت مستنسخ

Tortoise TTSTortoise TTS

3 - تحويل النصوص إلى كلمـة بأصوات متعددة يركـز على النوعية مع بنية ذاتية التراجع.

اللغات: en

صوت مستنسخ

OpenVoiceOpenVoice

استنساخ الصوت الفوري مع التحكم الحبيبي على الأسلوب، العاطفة، والتشديد.

اللغات: en, zh, ja, ko, fr, de, es, it

صوت مستنسخ

Qwen3 TTSQwen3 TTS

Alibaba's multilingual TTS with voice cloning, preset voices, and voice design from text. (باللغة الإنجليزية).

اللغات: en, zh, ja, ko, de, fr, ru, pt, es, it

صوت مستنسخ

Chatterbox TurboChatterbox Turbo

Chatterbox أسرع مع تأخير أقل من 200 مللي ثانية وعلامات لغة مساعدة للضحك والسعال وأكثر.

اللغات: en

صوت مستنسخ

VoxCPMVoxCPM

TTS خالية من tokenizer إنتاج 44.1 كيلوهرتز السمعي مع الفقرة السياق الوعي الاتساق.

اللغات: en, zh

صوت مستنسخ

OuteTTSOuteTTS

LLM-based TTS الذي يعمل على CPU، GPU، أو المتصفح عن طريق llama.cpp و Transformers.js.

اللغات: en

صوت مستنسخ

Pocket TTSPocket TTS

نموذج بارامترات خفيف الوزن 100M من Kyutai مع استنساخ الصوت من عينة واحدة.

اللغات: en, fr

صوت مستنسخ

CosyVoice3CosyVoice3

Next-generation multilingual TTS with bi-streaming, emotion control, and zero-shot voice cloning.

اللغات: en, zh, ja, ko, de, es, fr, it, ru

صوت مستنسخ

MOSS-TTSMOSS-TTS

Ultra-long 20-language TTS supporting up to 1 hour of continuous generation with phoneme-level control.

اللغات: en, zh, de, es, fr, ja, it, hu, ko, ru, fa, ar, pl, pt, cs, da, sv, el, tr

صوت مستنسخ

MegaTTS3MegaTTS3

ByteDance's sparse alignment TTS with adjustable intelligibility vs. speaker similarity.

اللغات: en, zh

صوت مستنسخ

واجهة برمجة التطبيقات التي تركز على المطورين

REST API متوافق مع OpenAI، نقطة نهاية واحدة، 22+ نماذج، دعم التدفق لتطبيقات الوقت الحقيقي.

  • صيغة متوافقة مع OpenAI
  • تحويل النصوص إلى صوت لتطبيقات الوقت الحقيقي
  • التجهيز بالدفعات للأعمال الكبيرة
  • إخطارات Webhook
عرض مستندات API
pip install ttsai npm install @ttsainpm/ttsai
Python
from tts_ai import TTSClient

client = TTSClient(api_key="sk-tts-xxx")
audio = client.generate(
    text="Hello from TTS.ai!",
    model="kokoro",
    voice="af_bella",
)
client.save(audio, "output.mp3")

التسعير البسيط والشفاف

ابدأ مجاناً وازداد حجمك مع نموك

مجاني

$0

15 نقطة

  • Kokoro, Piper, VITS, MeloTTS
  • الحد الأقصى لعدد الحروف 500 كلمة
  • ٣ مولدات/ساعة )ﻻ حساب(
انضم مجاناً

بدء التشغيل

$9/شهر

500 رصيد شهريا

  • جميع النماذج 22+
  • 000 100 شاحنة لكل جيل
  • استنساخ الصوت
ابدأ
أكثر شعبية

المؤيدون

$29/شهر

000 2 رصيد شهريا

  • كل شيء في البداية
  • الوصول إلى واجهة برمجة التطبيقات
  • أولوية التجهيز
احصل على Pro

الأعمال التجارية

$99/شهر

000 10 رصيد شهريا

  • كل شيء في Pro
  • تطبيقات برمجة التطبيقات بالجملة
  • الطابور ذي الأولوية
منظمة الحصول على الأعمال التجارية

انظر جميع الخطط بما في ذلك حزمة الشخصيات →

الأسئلة المتكررة

TTS.ai هي أكثر منصة صوتية للذكاء الاصطناعي شمولاً، حيث توفر أكثر من 22 نموذجاً لتحويل النص إلى كلمة، واستنساخ الصوت، وتحويل الكلام إلى نص، وأدوات سمعية. وجميع النماذج مفتوحة المصدر ولا تعتمد على البائع.

نعم! TTS.ai يقدم النص إلى حديث مجانا مع نماذج كوكورو، بايبر، فيتس، وميلوتتس. لا يلزم حساب. انضم للحصول على 15000 حرف مجانا والوصول إلى جميع النماذج. الخطط المدفوعة تبدأ من 9 دولارات شهريا.

للسرعة، استخدم كوكورو أو بايبرز. للجودة، جرب CosyVoice 2 أو StyleTTS 2. للاستنساخ الصوتي، استخدم Chatterbox أو GPT-SoVITS. للحوار، استخدم Dia TTS. جرب نماذج متعددة على النص نفسه للمقارنة.

نعم، REST API متوافق مع OpenAI لـ TTS، STT، استنساخ الصوت، وأدوات الصوت. متوفر على خطط Pro ($29/mo) و Enterprise ($99/mo). انظر الوثائق على tts.ai/api/.

تختلف جودة الصوت حسب النموذج. النماذج العالية مثل CosyVoice 2 و StyleTTS 2 و Chatterbox تنتج كلامًا شبه بشري الجودة مع النبرة الطبيعية والعاطفة. النماذج المجانية مثل Kokoro توفر جودة ممتازة لمعظم حالات الاستخدام.

يدعم TTS.ai أكثر من 30 لغة في مكتبة نماذجه، والإنجليزية لديها أوسع دعم للنماذج، ولكن نماذج مثل CosyVoice 2 تغطي الصينية واليابانية والكورية؛ GPT-SoVITS تتعامل مع الصينية واليابانية والكورية والإنجليزية؛ وMeloTTS تدعم الإنجليزية والإسبانية والفرنسية والصينية واليابانية والكوريّة.

نعم. كل المعالجة تحدث على خواديمنا المخصصة لمعالجة الرسوميات. نحن لا نخزن مدخلات النص أو الصوت المولد بعد التسليم. عينات الصوت المحملة للاستنساخ تستخدم فقط للجلسة الحالية ولا يتم الاحتفاظ بها. نحن لا نتقاسم أبدا بياناتك مع أطراف ثالثة أو نستخدمها لتدريب النماذج.

نعم، كل الصوت الذي يتم توليده على TTS.ai هو لك لاستخدامه تجاريا، بما في ذلك فيديوهات يوتيوب، والبودكاست، والكتب السمعية، والتطبيقات، والإعلانات، والمنتجات. نماذجنا مفتوحة المصدر تحت تراخيص متساهلة (MIT، Apache 2.0). لا توجد حقوق أو تصنيف مطلوب.

TTS.ai يولد الصوت في شكل WAV تلقائيا لأقصى جودة. يمكنك تحويل إلى MP3، FLAC، OGG، أو M4A باستخدام أداة تحويل الصوت المجانية. يدعم API تحديد شكل الخرج المفضل لديك مباشرة في الطلب.

تحميل عينة صوتية قصيرة (أقل من 5 ثوان) من الصوت الذي تريد استنساخها، ثم كتابة أي نص لتوليد الكلام في ذلك الصوت. النماذج مثل Chatterbox، GPT-SoVITS، و CosyVoice 2 تدعم استنساخ الصوت. الصوت المستنسخ يلتقط النبرة، اللحن، وأسلوب الكلام.

النماذج المجانية (كوكورو، بايبر، فيتس، ميلو TTS) لا تتطلب حسابا وتكلفة صفر من الحروف. النماذج القياسية (2000 كلمة/1K مدخل) تشمل Bark، CosyVoice 2، F5-TTS، و Dia. النماذج المتميزة (4000 كلمة/1K مدخل) تشمل OpenVoice، Chatterbox، StyleTTS 2، و Tortoise. النماذج المدفوعة عموما توفر جودة أعلى، ومزيد من الأصوات، ومزايا إضافية مثل استنساخ الصوت.

نعم. تدعم واجهة برمجة التطبيقات معالجة المجموعات لتحويل كميات كبيرة من النصوص إلى كلام. قم بتقديم طلبات متعددة واسترجاع النتائج بشكل غير متزامن باستخدام UUIDs للوظائف. تشمل خطط المؤسسة (99 دولارًا / شهريًا) الوصول إلى الصفوف ذات الأولوية لمعالجة المجموعات بشكل أسرع. مثالي لإنتاج الكتب السمعية، ومحتوى الدورات، ومشاريع الصوتيات الكبيرة.
4.1/5 (21)

ما الذي يمكننا تحسينه؟ تساعدنا تعليقاتكم على حل المشاكل.

ابدأ باستخدام صوت الذكاء الاصطناعي اليوم

انضم إلى المبدعين والمطورين والأعمال التجارية باستخدام TTS.ai