الذكاء الاصطناعي المجاني تحويل النص إلى كلمة

بارامترات 82M فائقة السرعة أصوات تعبيرية تعدد اللغات دعم البث

نموذج بارامترات خفيف الوزن 82M يقدم كلاماً بجودة استوديو مع استنتاجات سريعة.

سريع · 1.5GB VRAM جربها

Piper

معالج قادر على العمل خارج الشبكة أكثر من 100 صوت 35+ لغة دعم SSML

نظام نص إلى صوت عصبي سريع ومحليّ مُحسنٌ لـ Raspberry Pi وأجهزة مُدمجة.

سريع · 0 (CPU only) VRAM جربها

VITS

التوليف من البداية إلى النهاية النغمة الطبيعية الاستدلال السريع متكلمون متعددون

رمز أوتوماتيكي مشروط للتباين مع التعلم التنازعـي لتحويل النص إلى كلمة من البداية إلى النهاية.

سريع · 1GB VRAM جربها

MeloTTS

المعالجة المثلى تعدد اللغات لهجات متعددة جاهزة للإنتاج فترة تأخير منخفضة

تحويل النصوص إلى صوت عالي الجودة بلغات متعددة يعمل على وحدة المعالجة المركزية بأدنى حد من التأخير.

سريع · 0.5GB (GPU optional) VRAM جربها

Bark

المؤثرات الصوتية الضحك/التنهد جيل الموسيقى أكثر من 100 متكلم تعدد اللغات

نموذج تحويل النص إلى صوت قائم على المحول يولد تأثيرات واقعية للكلام والموسيقى والصوت.

بطيء · 5GB VRAM جربها

Bark Small

الوزن الخفيف أسرع من اللقمة الكاملة الخطاب العاطفي تعدد اللغات

نسخة أخف من Bark مع استنتاج أسرع وانخفاض استخدام الذاكرة.

متوسطة · 2GB VRAM جربها

CosyVoice 2

البث الاستنساخ من دون طلقة متعدد اللغات التحكم في المشاعر التكافؤ البشري

صوت علي بابا القابل للتعديل مع تكافؤ طبيعية الإنسان والتأخير قريب من الصفر.

Dia TTS

متحدثون متعددون توليد الحوار التناوب الطبيعي التعبير العاطفي بارامترات 1-6 باء

نموذج توليد الحوار المتعدد المتحدثين الذي يخلق محادثات طبيعية بين المتحدثين.

Parler TTS

الوصف الصوتي التحكم باللغة الطبيعية إنشاء صوت مرن لا توجد حاجة لأصوات مسبقة التحديد

وصف الصوت الذي تريده في اللغة الطبيعية وParler يولد الكلام المطابق.

Indic Parler TTS

11 لغة هندية الوصف الصوتي التحكم باللغة الطبيعية النطق الهندي الأصلي

حديث عالي الجودة لأكثر من 8 لغات هندية مع التحكم الصوتي باللغة الطبيعية.

بطيء · 8GB VRAM جربها

KhanomTan TTS

تايلندية متكلمون متعددون هيكلية YourTTS ترخيص آمن تجاريا

التايلاندية أولا النص إلى الكلام مع خيار من أصوات المتكلمين.

سريع · 2GB VRAM جربها

IndexTTS-2

التحكم في المشاعر صفر طلقة ناقلات المشاعر الخطاب التعبيري المراقبة الدقيقة

صوت تلقائي من دون طلقة مع تحكم دقيق في العواطف وتعبير عالي

Spark TTS

استنساخ الصوت السيطرة على المشاعر مراقبة الأسلوب على أساس الاستعجال استنساخ 5 ثوان

استنساخ الصوت TTS مع المشاعر القابلة للتحكم وأسلوب الكلام من خلال النداءات.

GPT-SoVITS

استنساخ 5 ثوان صوت الغناء التعلم بقليل من الطلقات جودة عالية متعدد اللغات

صوت بضعة طلقات استنساخ TTS الذي يعيد إنتاج أي صوت من مجرد 5 ثوان من السمع.

بطيء · 6GB VRAM جربها

Orpheus

العاطفة على المستوى البشري 000 100 ساعة تدريب التركيز الطبيعي كلمة تعبيرية

نموذج TTS عاطفي على المستوى البشري مدرب على 100 ألف ساعة من بيانات الكلام.

Chatterbox

الاستنساخ من دون طلقة التحكم في المشاعر جودة عالية نقل الأسلوب استنساخ عينة واحدة

أحدث صيغة من استنساخ الصوت بدون طلقة مع التحكم العاطفي من (ريزيمبل آي)

Tortoise TTS

أعلى جودة صوت متعدد بنية DALL-E استنساخ الصوت تناقص ذاتي

3 - تحويل النصوص إلى كلمـة بأصوات متعددة يركـز على النوعية مع بنية ذاتية التراجع.

بطيء · 8GB VRAM جربها

StyleTTS 2

المستوى البشري نشر الأسلوب التدريب القائم على المواجهة التباين الطبيعي جودة عالية

تحويل النص إلى كلمة على المستوى البشري من خلال نشر الأسلوب والتدريب على المواجهة.

OpenVoice

الاستنساخ الفوري تحويل الصوت التحكم في المشاعر التحكم في النبرة تعدد اللغات

استنساخ الصوت الفوري مع التحكم الحبيبي على الأسلوب، العاطفة، والتشديد.

Qwen3 TTS

9 أصوات مسبقة التحديد تصميم الصوت من النص التحكم في المشاعر 10 لغات

Alibaba's multilingual TTS with preset voices and voice design from text (باللغة الإنجليزية).

متوسطة · 7GB VRAM جربها

VieNeu-TTS-v2

7 أصوات مسبقة التحديد (لهجات الشمال والجنوب) أجهزة تحويل الرموز استنساخ الصوت (مرجع 3-5 ثوان) دعم البث/المتكلمين المتعددين وحدة المعالجة المركزية فقط - لا حاجة إلى وحدة المعالجة الرسومية

فيتنامية + إنجليزية رمز تبديل TTS مع 7 أصوات مسبقة و Zero-shot استنساخ الصوت.

سريع · CPU VRAM جربها

Sesame CSM

المحادثة التوقيت الطبيعي التناوب القناة الخلفية البارامترات 1 باء

نموذج الكلام المحادثي الذي يولد حواراً طبيعياً مع التوقيت المناسب والمشاعر المناسبة.

بطيء · 8GB VRAM جربها

Chatterbox Turbo

تأخير أقل من 200 دقيقة الوسم اللغوي 6x في الوقت الحقيقي استنساخ الصوت الوسم المائي

Chatterbox أسرع مع تأخير أقل من 200 مللي ثانية وعلامات لغة مساعدة للضحك والسعال وأكثر.

سريع · 2GB VRAM جربها

VoxCPM

44.1 كيلو هرتز خالية من الرموز الاستنساخ عبر اللغات إدراك السياق التنقيح الدقيق لنظام LoRA

TTS خالية من tokenizer إنتاج 44.1 كيلوهرتز السمعي مع الفقرة السياق الوعي الاتساق.

سريع · 4GB VRAM جربها

Kani TTS 2

3 جيجا بايت فائقة السرعة الخفيفة نانو كوديك مجاني

نموذج TTS الإنجليزي الخفيف للغاية 400M يعمل في 3GB فقط من ذاكرة VRAM.

سريع · 3GB VRAM جربها

OuteTTS

استنتاج وحدة المعالجة المركزية الاستدلال من المتصفح برامجيات خلفية متعددة نبذات عن المتكلمين

LLM-based TTS الذي يعمل على CPU، GPU، أو المتصفح عن طريق llama.cpp و Transformers.js.

بطيء · 2GB VRAM جربها

VibeVoice

متحدثون متعددون حتى 90 دقيقة إنتاج البودكاست اتساق المتكلمين 200 دقيقة

نموذج مايكروسوفت لمحتوى الشكل الطويل متعدد المتحدثين مثل البودكاست والكتب السمعية.

سريع · 4GB VRAM جربها

Pocket TTS

بارامترات 100M استنتاج وحدة المعالجة المركزية استنساخ الصوت استنساخ عينة واحدة جاهز للحافة

نموذج بارامترات خفيف الوزن 100M من Kyutai مع استنساخ الصوت من عينة واحدة.

سريع · 1GB VRAM جربها

Kitten TTS

الاستدلال على وحدة المعالجة المركزية فقط حجم النموذج أقل من 80 ميغابايت 8 أصوات مدمجة مراقبة السرعة مقرها مكتب الأمم المتحدة في جنيف مخرج 24 كيلو هرتز

خفيف للغاية TTS أقل من 80 ميغابايت يعمل على وحدة المعالجة المركزية بدون وحدة المعالجة الرسومية.

سريع · 0GB VRAM جربها

CosyVoice3

التدفق المزدوج التحكم في المشاعر استنساخ الصوت التحكم في السرعة/الحجم التعليمات التالية

الجيل القادم من برامج ترجمة النصوص إلى صوت متعددة اللغات مع تدفق ثنائي، والتحكم العاطفي، واستنساخ الصوت من الصفر.

سريع · 4GB VRAM جربها

NAMAA Saudi TTS

العربية السعودية العربية الحديثة الموحدة استنساخ الصوت التحكم في المشاعر النطق الأصلي

أول صوت مفتوح سعودي عربي TTS. لهجة سعودية أصلية مع Chatterbox-جودة استنساخ الصوت.

متوسطة · 6GB VRAM جربها

Darwin TTS

استنساخ الصوت متعدد اللغات مختلطة بالنفط الخام 4 لغات أساسية شبكة Qwen3 الرئيسية

متغير متعدد الوسائط Qwen3-TTS مع أوزان FFN مختلطة من نموذج اللغة Qwen3-1.7B لتحقيق استنساخ أكثر دقة متعدد اللغات.

متوسطة · 7GB VRAM جربها

MOSS-TTSD

حوار بين متكلمين متعددين ما يصل إلى 5 متكلمين 60 دقيقة من الصوت المتماسك استنساخ الصوت التحسينات على البودكاست

نموذج استمرار الحوار بين متحدثين متعددين - توليد محادثات على غرار البث الصوتي مع عدد يصل إلى 5 متحدثين و 60 دقيقة من الصوت المترابط.

متوسطة · 12GB VRAM جربها

Ming-Omni TTS

44.1 كيلو هرتز استنساخ الصوت التحكم في المشاعر السيطرة على اللهجات جيل BGM 0.5 باء

نموذج كلام متعدد الوسائط 0.5B من InclusionAI مع خرج عالي الدقة 44.1kHz واستنساخ الصوت بدون طلقة.

متوسطة · 3GB VRAM جربها

MOSS-TTS Nano