كلمة إلى كلمة

تحويل الصوت المنطوق - تغيير الصوت، العاطفة، اللغة، والأسلوب مع الحفاظ على المحتوى الأصلي.

المصدر الصوتي

اسحب و أسقط ملفك هنا، أو تصفح

Upload your speech recording. MP3, WAV, FLAC, OGG. Max 50MB.

ملف.mp3

0 MB
— أو تسجيل صوتك —
00:00

إعدادات التحول

اسحب و أسقط ملفك هنا، أو تصفح

Upload a reference of the target voice. 10-30 sec recommended.

ملف.mp3

0 MB

النتيجة

تحميل صوت الكلام، واختر تحويلك، وانقر على تحويل للبدء

تحويل الكلام... هذا قد يستغرق لحظة

الأصل

المحولة

كيف يعمل

1 - تحميل الخطاب

تسجيل أو تحميل الصوت الذي تريد تحويله

2 - اختار تحويل

اختار تغيير الصوت أو نقل الأسلوب أو تحويل اللغة

3 - تحولات الذكاء الاصطناعي

الذكاء الاصطناعي يعالج الصوت من البداية إلى النهاية مع الحفاظ على محتوى الكلام

4 - التنزيل

الاستماع إلى النتيجة وتحميل الصوت المحول الخاص بك

حالات الاستخدام

كلمة إلى كلمة للمحتوى، وإمكانية الوصول، والمشاريع الإبداعية

تسجيل الفيديو

فيديوهات الترجمة إلى لغات أخرى مع الحفاظ على خصائص صوت المتحدث الأصلي.

تعديل العواطف

تغيير النبرة العاطفية للتسجيلات - جعل الخطاب الهادئ مثيرا، أو الخطاب المحايد دافئا ووديا.

إنتاج الصوت

تحويل التسجيلات الصوتية الخام إلى صوتيات مصقولة بأصوات وأنماط مختلفة.

إخفاء الهوية الصوتية

إخفاء هوية المتحدث مع الحفاظ على كل كلمة، للإبلاغ أو حماية الخصوصية.

نماذج الكلام إلى الكلام

OpenVoice

تحويل الصوت السريع مع التحكم في الأسلوب الحبيبي. تغيير هوية الصوت، والسرعة، والعاطفة في ثوان.

  • سرعة التجهيز
  • نقل الأسلوب
  • متعدد اللغات

Chatterbox

استنساخ الصوت من الصفر مع التحكم العاطفي الدقيق من (ريزيمبل آي)

  • السيطرة على المشاعر
  • استنساخ الطلقة الصفرية
  • دقة عالية

CosyVoice 2

استنساخ صوت متعدد اللغات عبر 8 لغات مع دعم الصوت الطبيعي والتدفق.

  • 8 لغات
  • استنساخ الصوت
  • البث المباشر

الأسئلة المتكررة

إن الذكاء الاصطناعي من الكلام إلى الكلام (STS) يحول تسجيلاً صوتياً متحدثاً إلى مخرج كلام مختلف ــ بتغيير الصوت، أو الأسلوب، أو العاطفة، أو اللغة مع الحفاظ على الكلمات الأصلية والتوقيت. وهو يجمع بين التعرف على الكلام، والمعالجة، والتوليف في خط أنابيب واحد.

يقوم النص إلى حديث بتحويل النص المكتوب إلى صوت. ويأخذ النص إلى حديث الصوت القائم كمدخلات ويحوله مباشرة إلى صوت جديد - مع الحفاظ على الإيقاع الطبيعي، والتوقفات، والتأكيد، والعاطفة للتسجيل الأصلي بدلا من توليد الكلام من نص بسيط.

وتشمل الاستخدامات الشائعة دبلجة الفيديوهات إلى لغات أخرى، وتغيير صوت المتحدث في التسجيل، وتعديل المشاعر أو نغمة الصوت الحالي، وإنشاء صوت من التسجيلات الخام، وجعل التسجيلات الصوتية مجهولة الهوية مع الاحتفاظ بالمحتوى.

وتقوم نماذج التحويل الصوتي مثل OpenVoice و RVC بمعالجة التحويل من صوت إلى صوت. وبالنسبة للكلام عبر اللغات إلى الكلام، يمكن لـ CosyVoice 2 و GPT-SoVITS استنساخ وإعادة التركيب في لغة مختلفة.

نعم، باستخدام نماذج استنساخ الصوت، يمكنك تحويل كلمتك إلى لغة مختلفة مع الحفاظ على خصائص صوتك. يستخرج الذكاء الاصطناعي هويتك الصوتية ويعيد توليف الصوت باللغة أو الأسلوب المستهدف.

يقوم خط الأنابيب أولا بنسخ كلمتك، ويترجم النص إلى اللغة المستهدفة، ثم يستخدم استنساخ الصوت لتوليف النص المترجم في صوتك الأصلي. وتدعم نماذج مثل CosyVoice 2 8 لغات للتوليف عبر اللغات.

للحصول على أفضل النتائج، يرجى تحميل الصوت النظيف مع الحد الأدنى من الضوضاء الخلفية. WAV أو FLAC على 16kHz أو أعلى يعمل بشكل أفضل. MP3، OGG، M4A، و WEBM مقبولة أيضا. الكلام الواضح ينتج أكثر التحويلات دقة.

إن المعالجة في الوقت الحقيقي شبه التام متاحة من خلال واجهة برمجة التطبيقات الخاصة بنا باستخدام نماذج سريعة مثل كوكورو للتخليق و فاستر ويسبر للتعرف. ويعتمد التأخير على النموذج وطول الصوت، ولكن من الممكن تحقيق فترات معالجة تقل عن ثلاث ثوان للنطق القصير.

نعم، تدعم نماذج مثل Chatterbox، و Spark TTS، و IndexTTS-2 التحكم في المشاعر والأسلوب. فبوسعك أن تحول الخطاب الهادئ إلى متحمس، أو الحزين إلى سعيد، أو المحايد إلى درامي، مع الحفاظ على نفس الكلمات وهوية المتحدث.

يجمع التحويل من الكلام إلى الكلام بين أرصدة التعرف والتوليف، ويستخدم التحويل النموذجي الذي يستغرق دقيقة واحدة من 3 إلى 8 أرصدة اعتمادا على النماذج المختارة، ويمكن استخدام نماذج المستوى الحر مثل كوكورو لخطوة التوليف بتكلفة صفرية.

يمكن للمستخدمين المجانيين معالجة الصوت حتى دقيقة واحدة. الخطط المدفوعة تدعم الملفات حتى 10 دقائق. للتسجيلات الأطول، تقسيم الصوت إلى أجزاء أو استخدام API لمعالجة دفعة بدون حدود الطول.

نعم، كل الصوتيات التي يتم تحميلها يتم معالجتها على خوادمنا الآمنة ويتم حذفها تلقائياً خلال 24 ساعة. نحن لا نستخدم أبداً صوتك لتدريب النماذج. كل عمليات النقل تستخدم اتصالات مشفرة والاتصالات من خادم إلى خادم يتم التحقق منها.
5.0/5 (1)

ما الذي يمكننا تحسينه؟ تساعدنا تعليقاتكم على حل المشاكل.

تحويل أي خطاب بالذكاء الاصطناعي

تغيير الصوت، العاطفة، اللغة، والأسلوب انضم مجاناً واحصل على 50 نقطة للبدء.