Report Bug / Feature Request

تحويل الكلام إلى نص

نسخ الصوت والفيديو إلى نص مع الذكاء الاصطناعي. يدعم 99 لغة، وعلامات التوقيت، والكشف عن المتحدث.

تحميل صوت أو فيديو

اسحب و أسقط ملفك هنا، أو تصفح

دعم MP3, WAV, FLAC, OGG, M4A, MP4, WebM.

ملف.mp3

0 MB
— أو تسجيل من ميكروفونك —
00:00

الإعدادات

1,000/min حروف انضم لتتبع الاستخدام

نسخة

تحميل ملف صوتي وانقر فوق نسخ للبدء

نقل الصوت قد يستغرق هذا لحظة

تم اكتشافها:

كيف يعمل

1 - تحميل الصوت

تحميل ملف الصوت أو الفيديو الخاص بك. ونحن ندعم MP3, WAV, FLAC, OGG, M4A, MP4, و WebM صيغ حتى 100 ميغابايت.

2 - منظمة العفو الدولية

نماذج الذكاء الاصطناعي لدينا معالجة الصوت، والكشف عن اللغة، وتحديد المتحدثين، وتوليد نص دقيق مع الختم الزمني.

3 - احصل على نصك

نسخ نسختك أو تحميلها في شكل TXT أو SRT النصوص الجانبية. تحرير وصقل حسب الحاجة.

حالات الاستخدام

تحويل الكلام إلى نص لكل صناعة وتدفق عمل

الاجتماعات والمؤتمرات

تسجيل تلقائيا Zoom، فريق، و Google Meet تسجيلات. لا تفوت أي بند من بنود العمل مرة أخرى. تصدير كجلسة ملاحظات أو النصوص الفرعية.

المقابلات والصحافة

تسجيل المقابلات للمقالات، والورقات البحثية، والأفلام الوثائقية. تحدد تسجيلات المتحدثين من قال ماذا من أجل الإسناد السهل.

البرامج الصوتية ووسائط الإعلام

إنشاء نسخ وعرض ملاحظات لحلقات البث. إنشاء محفوظات قابلة للبحث من المحتوى الصوتي. إضافة النصوص إلى البث الفيديو.

المحاضرات والتعليم

وتحويل المحاضرات المسجلة إلى مذكرات دراسية، وجعل المحتوى التعليمي متاحا مع تعليقات دقيقة، ودعم الطلاب ذوي الإعاقة السمعية.

الإملاء الطبي

تسجيل استشارات الأطباء والمرضى، والملاحظات السريرية، والإملاء الطبي. توفير ساعات من التوثيق اليدوي مع دقة الذكاء الاصطناعي.

الإجراءات القانونية

تسجيل الشهادات وجلسات الاستماع والاجتماعات مع العملاء، ووضع أختام زمنية دقيقة للمراجع القانونية، وتصدير البيانات في أشكال مناسبة لوثائق المحكمة.

مقارنة نماذج STT

Whisper

نموذج التعرف على الكلام القوي لـ OpenAI يدعم 99 لغة.

  • 99 لغة
  • الترجمة التحريرية
  • الختم الزمني
  • مقاومة للضوضاء
OpenAI

Faster Whisper

4x أسرع من Whisper مع CTranslate2 التحسين، نفس الدقة.

  • أسرع بأربع مرات
  • الذاكرة الدنيا
  • جميع أحجام النماذج
  • التجهيز بالدفعات
  • ترشيح VAD
SYSTRAN

SenseVoice

نموذج فهم الكلام مع الكشف عن العواطف، 50+ لغات.

  • أكثر من 50 لغة
  • كشف العواطف
  • المناسبات السمعية
  • تحليل المتكلمين
  • البيانات الفوقية الغنية
Alibaba (FunAudioLLM)

خطط تحويل الكلام إلى نص

ابدأ مجانا، وارتفع عندما تحتاج إلى المزيد

مجاني
  • دقيقة واحدة كحد أقصى للصوت
  • نموذج أسرع هويسبر
  • النسخ الأساسي
  • أكثر من 100 لغة
الأكثر شعبية
حساب مجاني
  • 30 دقيقة سمعية + 000 15 حرف
  • جميع نماذج STT
  • الختم الزمني على مستوى الكلمات
  • تصدير النصوص الجانبية
  • 1 - تحليل المتحدث
انضم مجانا
المؤيدون
  • ملفات سمعية مدتها ساعتان
  • نسخ الدفعة
  • تجهيز الأولويات
  • الوصول إلى برمجيات التطبيقات
  • المفردات العرفية
التحسين

الأسئلة المتكررة

إن تحويل الكلام إلى نص (STT)، والذي يطلق عليه أيضاً التعرف التلقائي على الكلام (ASR)، يحول اللغة المنطوقة إلى نص مكتوب. وتستخدم نماذجنا الذكاء الاصطناعي لنقل الصوت بدقة من الاجتماعات، والمقابلات، والمواد الصوتية، والمحاضرات، وما إلى ذلك.

يوصى باستخدام Whisper الأسرع لمعظم حالات الاستخدام - وهو أسرع بأربع مرات من Whisper الأصلي مع الحفاظ على نفس الدقة. استخدم SenseVoice إذا كنت بحاجة إلى كشف المشاعر أو كشف الأحداث الصوتية إلى جانب النسخ.

نحن ندعم MP3, WAV, M4A, OGG, FLAC, WEBM, وأكثر الصيغ السمعية/الفيديو شيوعاً. الحد الأقصى لحجم الملف هو 50 ميغابايت. بالنسبة للملفات الكبيرة، فكر في تقسيم الصوت أولاً.

يمكن للمستخدمين المجانيين نسخ ما يصل إلى 5 دقائق من التسجيلات الصوتية. الخطط المدفوعة تدعم ملفات صوتية تصل إلى ساعتين. للتسجيلات الأطول، استخدم API مع معالجة دفعة.

تحقق نماذجنا دقة 95%+ على الكلام الإنجليزي الواضح. تتفاوت الدقة حسب اللغة، ونوعية الصوت، والضوضاء الخلفية. يدعم Faster Whisper و Whisper 99 لغة بمستويات دقة مختلفة.

نعم، تستطيع أنماطنا المتقدمة للنسخ التصويري أن تحدد وتضع علامات على المتحدثين المختلفين في الصوت. ويُعَد تسجيل المتحدثين مفيداً بشكل خاص في محاضر الاجتماعات، والمقابلات، والمواد الصوتية المتعددة الأشخاص حيث تحتاج إلى معرفة من قال ماذا.

يتوفر تدفق النصوص في الوقت الحقيقي من خلال واجهة برمجة التطبيقات الخاصة بنا باستخدام Faster Whisper. ويتم معالجة الصوت في قطع عند وصوله، مما يوفر نصوصا جزئية مع تأخير منخفض. وهذا مثالي للعرض النصي المباشر وأخذ الملاحظات في الوقت الحقيقي.

نعم، تتضمن نواتجنا للنسخ التصويري أختام زمنية على مستوى الكلمات التي يمكن تصديرها كملفات SRT، أو VTT، أو ASS. وهذا مثالي لإضافة العناوين إلى فيديوهات يوتيوب، والدورات على الإنترنت، ومحتوى وسائل التواصل الاجتماعي.

نعم، تتضمن جميع نتائج النصوص المستنسخة الختم الزمني على مستوى القسم بصورة افتراضية، كما أن الختم الزمني على مستوى الكلمة متاح أيضا، ويبين بدقة وقت البداية والنهاية لكل كلمة في النص السمعي.

تم تدريب Faster Whisper على صوتيات متنوعة ويتعامل مع الضوضاء الخلفية المعتدلة بشكل جيد. بالنسبة للتسجيلات الشديدة الضوضاء، نوصي بتشغيل الصوت عبر محسن الصوت أولا لتحسين الوضوح قبل النسخ.

نعم، يتم معالجة الملفات الصوتية التي يتم تحميلها على خواديمنا الآمنة للمعالجة الرسومية ويتم حذفها تلقائيا بعد الانتهاء من النسخ. ونحن لا نخزن أو نتقاسم أو نستخدم ملفاتك الصوتية لأغراض التدريب. وجميع عمليات النقل مشفرة.

يمكن للمستخدمين المجانيين نسخ ما يصل إلى 5 دقائق من الصوت بدون تكلفة. الخطط المدفوعة تستخدم الحروف على أساس مدة الصوت: حوالي 1000 حرف في الدقيقة من الصوت. انظر إلى صفحة التسعير لدينا للحصول على معلومات مفصلة عن الخطة وحزمة الحروف.
5.0/5 (1)

ما الذي يمكننا تحسينه؟ تساعدنا تعليقاتكم على حل المشاكل.

نسخ الصوت مع الذكاء الاصطناعي

احصل على نسخ دقيقة في 99 لغة. انضم مجاناً واحصل على 15,000 حرف للبدء.