صوت

لقد حان الوقت لإعادة تسجيل الصوت. فاستبدال جزء من الصوت بكلام اصطناعي يتوافق مع الصوت المحيط. وتصحيح تسجيل سيء من دون إعادة تسجيل كل شيء.

تحميل الصوت إلى Inpaint

استبدال 500 حرف في الثانية من الصوت

اسحب و أسقط ملفك هنا، أو تصفح

Supports MP3, WAV, FLAC, OGG, M4A. Max 500 MB (2 GB on paid plans). Up to 10 minutes.

ملف.mp3

0 MB

المصدر السمعي - تنظيف للعثور على المقطع السيئ

0.00s / 0.00s

إعدادات الرسم

0 / 500 حروف
كم من الوقت يلزم لخلط نقاط الوصل. 80 مللي ثانية هي القيمة الافتراضية - تشعر القطع المطابقة بالطبيعية، لا يوجد صوت مزدوج.
تسجيل مجاني لاستخدام الصوت في الرسم
صوت يرسم...

استنساخ الصوت و تصنيع البديل

تقطيع → استنساخ الصوت المحيط → تجميع مع التلاشي المتقاطع
هل تستغرق وقتاً؟ تاريخ الجيل عندما تكون جاهزاً
جاهز للاستخدام

قبل (الأصلي)

بعد (الطلاء)

تنزيل الصوت

كيف يعمل الصوت

إن عملية الرسم هي المعادل السمعي لعملية ملء المحتوى في برنامج فوتوشوب. فنحن نستنسخ الصوت من الصوت المحيط باختيارك، ثم نقوم بتوليف السطر الجديد في ذلك الصوت، ثم نعيد وصله مع تداخل قصير.

أفضل النتائج: اترك على الأقل 3 ثوان من الكلام النظيف قبل نقطة التحرير مباشرة حتى يكون لدى المستنسخ مادة مرجعية جيدة.

نصائح لتحقيق أفضل النتائج

  • اﻻحتفاظ بالنطاق المحدد بقدر اﻹمكان - اﻻقتصار على اﻻستخدام السيئ
  • ينبغي أن يكون النص البديل بنفس طول النص الذي يحل محله تقريباً
  • حدد اللغة التي تطابق الصوت المصدر لأفضل مطابقة للصوت
  • 80 مللي ثانية من التلاشي المتقاطع غير مرئي عادة؛ تحول إلى 150 مللي ثانية إذا سمعت نقرة
  • بالنسبة للتحرير الطويل (> 10 ثوان)، انظر إلى إعادة تسجيل المقطع بأكمله بدلاً من ذلك

كيف يعمل الرسم الصوتي بالذكاء الاصطناعي

تحرير جراحي، صوت مطابق، بدون جلسة إعادة التسجيل.

الخطوة 1

نطاق العلامات

تحميل الصوت الخاص بك واستخدام المسح لتحديد بداية/نهاية الجزء الذي تريد استبدال. كتابة النص البديل.

الخطوة 2

نسخ الصوت + تركيب

نحن نستخلص ما يصل إلى 12 ثانية من الصوت المرجعي النظيف المحيط باختيارك، ونستنسخ صوت المتحدث، ونقوم بتوليف السطر الجديد في ذلك الصوت.

الخطوة 3

اتصال التلاشي المتقاطع

يتم دمج المقطع المركب في التسجيل الأصلي مع تداخل متساوٍ في القوة عند نقطتي التحرير. والحدود غير مسموعة.

خطط إعادة رسم السجلات الصوتية

ابدأ مجانا، وارتفع عندما تحتاج إلى المزيد

مجاني
  • ملفات المصدر التي تصل مدتها إلى 10 دقائق
  • نص بديل من 500 كلمة
  • 4 ثوان من الرسم لكل طلب
  • 80 دقيقة
  • برامجيات OpenVoice + CosyVoice 2
الأكثر شعبية
حساب مجاني
  • ملفات المصدر التي تصل مدتها إلى 10 دقائق
  • نص بديل من 000 5 كلمة
  • )٠-٢٥٠ ميسقط(
  • نموذج الصوت
  • تاريخ توليد البيانات + إعادة التحرير
انضم مجانا
المؤيدون
  • ملفات المصدر التي تصل مدتها إلى 30 دقيقة
  • نص بديل من 000 100 حرف
  • صف أولوية وحدة المعالجة الرسومية
  • الوصول إلى واجهة البرمجة (/v1/audio-inpaint/)
  • الطلاء بالتجزئة (نطاقات متعددة)
التحسين

الأسئلة المتكررة

إن الرسم الصوتيّ (الذي يُسمَّى أيضاً ملء الصوت أو تسجيل الكلام) يسمح لك باستبدال جزء من تسجيل صوتي قائم بحديث جديد مصنوع بواسطة الذكاء الاصطناعي والذي يطابق الصوت الأصلي. وهو المعادل الصوتي لملء المحتوى في برنامج فوتوشوب ــ ضع الرسم فوق الجزء الذي لا تريده، وكتِب ما ينبغي أن يكون هناك بدلاً من ذلك، ويولد الذكاء الاصطناعي استبدالاً سلساً.

ضع علامة على النطاق الزمني الذي تريد استبداله، وكتابة سطر الحوار الجديد، ثم انقر فوق زر "الرسم". ويقوم الذكاء الاصطناعي باستنساخ الصوت من الصوت المحيط باختيارك، ويقوم بتوليف السطر الجديد في ذلك الصوت، ثم يعيده إلى تسجيلك مع تداخل قصير بحيث لا يمكن سماع التحرير.

لقد وجدت عدة طرق لتسجيل الصوت من خلال إعادة تسجيل المقطع. استخدمه عندما تجد كلمة سيئة واحدة، أو نطقاً خاطئاً، أو كلمة باطلة، أو خطأ في الحقيقة في مقطع جيد. وعادة ما يسبب إعادة تسجيل المقطع بالكامل عدم توافق النغمة مع بقية المشروع - يقوم التثبيت فقط بتثبيت ما يحتاج إلى إصلاح مع الحفاظ على كل مقطع آخر سليما.

يمكن للمستخدمين المجانيين أن يرسموا ملفات تصل إلى 10 دقائق، ويمكن للمشتركين أن يرسمو ملفات تصل إلى 30 دقيقة، والنص البديل نفسه له حد أقصى قدره 500 حرف للمستخدمين المجانيين، و 5000 حرف للحسابات المجانية، و 100000 حرف للخطط المدفوعة.

قريب جدًا. يستخدم الذكاء الاصطناعي ما يصل إلى 12 ثانية من الصوت المحيط بالتحرير كمرجع صوتي، وهو ما يكفي لأي من نماذجنا القادرة على الاستنساخ (OpenVoice، CosyVoice 2) للحصول على نغمة المتحدث، ودرجة الصوت، وأسلوب الكلام. لتحقيق أفضل النتائج، اترك على الأقل 3 ثوان من الكلام النظيف قبل نقطة التحرير مباشرة.

نحن نطبق 80 مللي ثانية من التلاشي المتساوي القوة على كلا نقطتي الوصل (رأس→استبدال واستبدال→ذيل) بشكل افتراضي. يمكنك ضبط هذا من 0 مللي ثانية (قطع صارم) إلى 250 مللي ثانية من خلال المُزلّل التلاشي المتقاطع. التلاشيات المتقاطعة الأطول تخفي التحرير بشكل أكثر دقة ولكن يمكن أن تدمج الكلمات المتداخلة على الحدود بشكل مسموع.

يتبع الرسم الصوتي نفس تغطية اللغة مثل استنساخ الصوت. نختار تلقائياً OpenVoice لمعظم اللغات و CosyVoice 2 للصينية واليابانية والكورية. يمكنك إبطال النموذج في الإعدادات المتقدمة.

يتم تحصيل 500 حرف لكل ثانية من الصوت المستبدل. تكلفة إصلاح 4 ثانية 2000 حرف. التكلفة مستقلة عن طول النص البديل، حيث أن تركيب النسخة الأساسية يتم تحديده بزمن تشغيل المقطع الجديد، وليس طول النص.

وفقا لشروط الخدمة، لا يمكنك أن تقوم بالرسم إلا على الصوت الذي تمتلكه أو الذي لديك إذن صريح بتحريره. ويحظر توليد اقتباسات مزيفة، أو محتوى مضلل، أو انتحال الشخصية. ونضع علامة مائية على الصوت المولد ونقوم بتسجيل جميع وظائف الرسم لمراجعة إساءة الاستخدام.

إن قطع مقطع فيديو يترك فجوة ملحوظة في الوتيرة والتنفس؛ ويترك التداخل بين مقطعين عدم توافق في النغمة. ويملأ التداخل الفجوة بالكلام الذي يتوافق مع الصوت المحيط، حتى يسمع المستمعون صوتاً مستمراً طبيعي الصوت.

نعم — POST إلى /v1/audio-inpaint/ مع الملف الصوتي، start_sec، end_sec، و replacement_text. وتعيد نقطة النهاية UUID للعمل؛ وتسأل /v1/speech/results/?uuid= لاستعادة الصوت الملون عندما يكون جاهزاً. انظر مستندات API للحصول على التفاصيل.

إن برنامج الكلام إلى الكلام في مختبرات إلينوب يعمل على تجديد الخط الصوتي بالكامل من الصفر في صوت مستهدف. وعملية التضمين الصوتية التي نقوم بها عملية جراحية: فهي لا تقوم إلا بتحرير النطاق المحدد، وتحافظ على كل بايت آخر من تسجيلك الأصلي دون مساس، وتطابق المقطع الجديد مع الصوت المحيط بدلاً من مكتبة صوتية منفصلة.
5.0/5 (1)

ما الذي يمكننا تحسينه؟ تساعدنا تعليقاتكم على حل المشاكل.

إصلاح الصوت في ثوانٍ

استبدال أي جزء من أي تسجيل مع الذكاء الاصطناعي التركيب الكلام الذي يطابق الصوت الأصلي.