إبلاغ عن خطأ/طلب خاصية

دائرة النصوص المستنسخة

تحويل الكلام إلى نص مع الدقة الرائدة في الصناعة. نسخ الاجتماعات، والمقابلات، والمحاضرات، والبودكاست، والإملاء الطبي، والإجراءات القانونية في 99 لغة. مدعومة من Faster Whisper (4 مرات أسرع من OpenAI Whisper) و SenseVoice مع الكشف عن المشاعر.

ألف - الاجتماعات المقابلات الرعاية الطبية قانونية 99 لغات

أداة STT الكاملة وثائق API

محاولة النسخ

فتح أداة STT الكاملة

خصائص النسخ الآلي

تحويل الكلام إلى نص دقيق وسريع وبتكلفة معقولة لكل حالة استخدام

99 الدعم اللغوي

نسخ الصوت في 99 لغة مع Whisper و Faster Whisper. ترجمة إلى اللغة الإنجليزية مدرجة لعمليات العمل عبر اللغات.

4x أسرع تجهيز

يقدم Faster Whisper نفس الدقة التي يقدمها OpenAI Whisper بسرعة 4x واستخدام ذاكرة أقل.

الختم الزمني

إضافة أختام زمنية على مستوى الكلمات وعلى مستوى الأجزاء من أجل المراجع الدقيقة.

كشف العواطف

ويكشف SenseVoice عن مشاعر المتكلم، والأحداث الصوتية، والمشاعر إلى جانب النصوص المنسوبة للبيانات الفوقية الغنية.

تحديد هوية المتكلم

علامات المتحدثين التي تحدد من قال ماذا في التسجيلات المتعددة المشاركين مثل الاجتماعات والمقابلات.

أشكال تصدير متعددة

تصدير النص العادي، أو النصوص الفرعية SRT، أو النصوص الفرعية VTT، أو JSON مع البيانات الوصفية الكاملة. جاهز لأي منصة.

نماذج تحويل الكلام إلى نص

محركات نسخ رائدة في الصناعة

Faster Whisper

4x faster than Whisper with CTranslate2 optimization, same accuracy.

أفضل ل: أفضل إجمالا - أسرع أربع مرات من برنامج Whisper، وذات دقة، ويوصى به لمعظم حالات الاستخدام

حاول Faster Whisper

Whisper

OpenAI's robust speech recognition model supporting 99 languages.

أفضل ل: نموذج مرجعي من OpenAI مع دعم قوي لـ 99 لغة وترجمة

حاول Whisper

SenseVoice

Speech understanding model with emotion detection, 50+ languages.

أفضل ل: كشف المشاعر وتحليل الأحداث السمعية إلى جانب النسخ

حاول SenseVoice

كيف نستنسخ الصوت باستخدام الذكاء الاصطناعي

تحميل واستنساخ وتصدير في ثوان

تحميل صوت أو فيديو

تحميل MP3, WAV, M4A, OGG, FLAC, أو ملفات الفيديو حتى 50MB. يدعم جميع الصيغ الشائعة.

انتقِ النموذج واللغة

اختر Faster Whisper للسرعة، Whisper للترجمة، أو SenseVoice للكشف عن المشاعر. اختر لغة المصدر.

نسخ

وتستغرق عملية التجهيز ثواني إلى دقائق حسب طول الملف.

مراجعة وتصدير

استعراض النص، وتحرير إذا لزم الأمر، وتصدير النص، أو SRT، أو VTT، أو JSON مع الختم الزمني.

النسخ لكل صناعة

تدفقات العمل المصممة خصيصا للمهنيين

اجتماعات الأعمال

احصل على مذكرات اجتماع دقيقة مع تحديد هوية المتحدث، والختم الزمني، وبنود العمل. معالجة التسجيلات من أي منصة اجتماع - فقط تحميل ملف الصوت أو الفيديو.

تسجيل المكالمات الهاتفية المتعددة المشتركين
شروح الختم الزمني للرجوع إليها
يدعم جميع أشكال تسجيل الاجتماعات
التجهيز الجماعي لمحفوظات الاجتماعات

الصحافة والمقابلات

نسخ المقابلات، والمؤتمرات الصحفية، والتسجيلات الميدانية مع 95% + دقة. Faster Whisper تتعامل مع البيئات الضوضاء والمتحدثين المتعددين. الحصول على الختم الزمني على مستوى الكلمة لتحديد دقيق اقتباس والتحقق من الحقائق.

الختم الزمني على مستوى الكلمات للاقتباسات
النسخ المقاوم للضوضاء
دعم 99 لغة للإبلاغ الدولي
الترجمة إلى الإنكليزية مشمولة

الطبية

تسجيل الإملاء الطبي، واستشارات المرضى، والملاحظات السريرية. النماذج القائمة على الهمس تتعامل مع المصطلحات الطبية بدقة عالية. معالجة مذكرات SOAP، والتقارير الجراحية، وسرد تاريخ المرضى من التسجيلات الصوتية.

معالجة المصطلحات الطبية
صياغة الملاحظات SOAP
تجهيز يدرك قانون الصحة والسلامة المهنية
تدفقات العمل المتعلقة بتحويل الإملاء إلى نص

النصوص القانونية

تسجيل الإفادات، وإجراءات المحكمة، واجتماعات العملاء، والإملاء القانوني. الحصول على نسخ دقيقة مع علامات المتحدث والختم الزمني لتوثيق القضية. نماذجنا تتعامل مع المصطلحات القانونية وأنماط اللغة الرسمية.

النصوص المستنسخة المحددة للمتكلمين
دقة المصطلحات القانونية
تاريخ الختم للرجوع إليه
معالجة الترسب السائب

الأكاديمية والبحث

تسجيل المحاضرات، والحلقات الدراسية، والمقابلات البحثية، ومجموعات التركيز، وإنشاء محفوظات للمحتوى الأكاديمي قابلة للبحث، وإضافة الكشف عن العواطف والمشاعر لتحليل البحوث النوعية.

نسخ المحاضرات والحلقات الدراسية
تجهيز المقابلات البحثية
كشف العواطف لأغراض البحث النوعي
المحتوى الأكاديمي المتعدد اللغات

وسائط الإعلام والمحتوى

توليد النصوص الفرعية والشروح للفيديوهات، ونسخ حلقات البودكاست لملاحظات العرض، وإنشاء نص قابل للبحث من المحفوظات الصوتية. التصدير في SRT، VTT، أو شكل النص العادي لأي منصة.

تصدير النصوص الجانبية SRT/VTT
إنتاج مذكرات البرامج الإذاعية
إضافة شروحات فيديوية لموقع يوتيوب/تيك توك
رقمنة المحفوظات السمعية

محاولة مجانية

مقارنة محركات النسخ

اختار النموذج المناسب لاحتياجاتك

النموذج	السرعة	اللغات	السمات الخاصة	أفضل لل
هامس أسرع	أسرع أربع مرات	99	ترشيح أجهزة التحليل البصري، تجهيز الدفعات	معظم حالات الاستخدام (موصى بها)
Whisper	المعيار	99	الترجمة إلى الإنكليزية، علامات التوقيت	مهام الترجمة، دقة المراجع
SenseVoice	سريع	50+	كشف المشاعر، والأحداث السمعية، وتحليل المتحدثين	البحوث وتحليل المشاعر

نسخ الصوت الآن

دقة وأداء النصوص المستنسخة

95%+

الإنكليزية

اللغات المدعومة

أسرع من الهمس

2hr

أقصى طول سمعي

اختبار دقة النسخ

برنامج تشغيل النسخ

دمج النصوص في تطبيقك

بايثون (نسخ الملف الصوتي) REST API

import requests

with open("meeting_recording.mp3", "rb") as f:
    response = requests.post("https://api.tts.ai/v1/stt", files={
        "audio": f
    }, data={
        "model": "faster-whisper",
        "language": "en",
        "timestamps": "true"
    }, headers={"Authorization": "Bearer YOUR_API_KEY"})

result = response.json()
print(result["text"])       # Full transcription
print(result["segments"])   # Timestamped segments

عرض وثائق API

الأسئلة المتكررة

أسئلة شائعة حول نسخ الذكاء الاصطناعي

تحقق نماذجنا دقة تزيد عن 95% في الكلام الإنجليزي الواضح. وتختلف الدقة بحسب اللغة، ونوعية الصوت، والضوضاء الخلفية. تم تدريب Faster Whisper و Whisper على 680,000 ساعة من البيانات، وتقترب من مستوى الدقة البشري على التسجيلات النظيفة.

يمكن للمستخدمين المجانيين نسخ ما يصل إلى 5 دقائق. الخطط المدفوعة تدعم ما يصل إلى ساعتين لكل ملف. للتسجيلات الأطول، يدعم API معالجة دفعة حيث يمكنك تقسيم ومعالجة الملفات برمجية.

نعم، تحدد عملية تقسيم المتحدثين إلى أقسام وتسجل أسماء المتحدثين في النص. وهذه الطريقة تعمل على أفضل وجه مع الصوت الواضح حيث يتناوب المتحدثون. وقد يقلل تداخل الكلام من الدقة.

وتتعامل النماذج القائمة على الهمس مع المصطلحات المتخصصة بشكل جيد لأنها مدربة على بيانات متنوعة. وبالنسبة للنسخ الطبية أو القانونية الحرجة، نوصي بمراجعة المخرجات للتأكد من دقتها، حيث لا يوجد نظام آلي دقيق بنسبة 100% مع المصطلحات المتخصصة.

نعم. تصدير النصوص المستنسخة كملفات SRT أو VTT مع الختم الزمني الدقيق. ويمكن تحميل هذه الملفات مباشرة على يوتيوب، أو فيميو، أو أي منصة فيديو تدعم أشكال النصوص المعيارية.

نعم. تدعم واجهة برمجة التطبيقات (REST API) الخاصة بنا نسخ النصوص في دفعات، والتدفق في الوقت الحقيقي، والإخطارات بالوصلات الشبكية. أرسل الملفات الصوتية إلى نقطة النهاية /v1/stt واستلم النصوص المنسوخة مع الأختام الزمنية. انظر وثائق واجهة برمجة التطبيقات للحصول على أمثلة في Python و JavaScript و cURL.

إن صوت الوعي من علي بابا يتجاوز النص - فهو يكشف عن مشاعر المتكلم (سعيد، حزين، غاضب)، والأحداث الصوتية (ضحك، تصفيق، موسيقى)، ويقدم بيانات وصفية غنية عن المحتوى الصوتي. إنه يدعم أكثر من 50 لغة. استخدمه عندما تحتاج إلى أكثر من مجرد النص.

يتم تدريب النماذج القائمة على الهمس على ظروف صوتية متنوعة وتتعامل مع الضوضاء الخلفية المعتدلة بشكل جيد إلى حد ما. ولتحقيق أفضل النتائج، استخدم حجم النموذج الكبير وانظر في تشغيل الصوت من خلال أداة تعزيز الصوت أولا لتقليل الضوضاء قبل النسخ.

يدعم برنامج التواصل البيني (API) النسخ المتدفق لحالات الاستخدام شبه الآنية. إرسال قطع صوتية عند تسجيلها وتلقي نتائج النسخ تدريجياً. يعمل هذا بشكل جيد للشروح الحية، وملاحظات الاجتماعات، وتطبيقات التسهيلات.

نعم، يتضمن برنامجا Whisper وFaster Whisper طريقة ترجمة داخلية تقوم بنسخ الصوت بأي لغة من اللغات الـ 99 المدعومة وتصدر النص باللغة الإنكليزية، وهذا مفيد لفهم محتوى اللغة الأجنبية دون خطوة ترجمة منفصلة.

استخدام أكبر حجم نموذج متاح لأفضل دقة. توفير نظيفة، عالية الجودة الصوت كلما كان ذلك ممكنا. بالنسبة للمصطلحات المتخصصة المتكررة، يمكنك معالجة ما بعد النسخة مع البحث والاستبدال لتصحيح أخطاء التعرف الشائعة المحددة المجال.

يمكنك تحميل ملفات الفيديو MP4، MOV، AVI، MKV، و WebM. يستخرج النظام تلقائيا المسار الصوتي للنسخ. وهذا يجعل من السهل توليد النصوص الجانبية أو النصوص مباشرة من محتوى الفيديو دون استخراج صوتي يدويا.

5.0/5 (1)

مستعد للتسجيل؟

99 لغة، دقة 95%+، نتائج فورية لا تحتاج إلى بطاقة ائتمان

انضم مجاناً عرض التسعير