گزارش اشکال / درخواست ویژگی

خدمات رونوشت AI

تبدیل گفتار به متن با دقت پیشرو در صنعت. جلسات، مصاحبه‌ها، سخنرانی‌ها، پادکست‌ها، دیکتاتورهای پزشکی، و روندهای قانونی را در ۹۹ زبان رونوشت کنید. توسط Faster Whisper (۴ برابر سریع‌تر از OpenAI Whisper) و SenseVoice با تشخیص احساسات پشتیبانی می‌شود.

جلسه مصاحبه پزشکی قانونی زبان‌ها

ابزار کامل STT مستندات API

تلاش رونوشت

باز کردن ابزار کامل STT

ویژگیهای رونویسی AI

گفتار به متن دقیق، سریع و مقرون به صرفه برای هر مورد استفاده

پشتیبانی از ۹۹ زبان

رونوشت صدا در ۹۹ زبان با Whisper و Faster Whisper. ترجمه به انگلیسی برای جریان‌های کاری زبانی شامل می‌شود.

پردازش ۴ برابر سریعتر

Faster Whisper همان دقت OpenAI Whisper را با سرعت ۴x و مصرف حافظه کمتر ارائه می‌دهد.

مهرهای زمانی و قطعه‌ها

نشان زمان سطح کلمه و سطح بخش برای مرجع دقیق. رونوشت‌های نشان زمان را برای زیرنویس‌های ویدئو صادر کنید.

تشخیص احساسات

SenseVoice احساسات سخنران، رویدادهای صوتی و احساسات را در کنار رونویسی برای فراداده‌های غنی شناسایی می‌کند.

شناسایی گوینده

گوینده برچسب‌های دیاریزاسیون را که در ضبط‌های چند شرکت‌کننده مانند جلسات و مصاحبه‌ها چه گفته‌اند، نشان می‌دهد.

قالبهای صادرات چندگانه

صادرات به عنوان متن ساده ، زیرنویس SRT ، زیرنویس VTT ، یا JSON با فراداده‌های کامل. آماده برای هر پلتفرم.

مدل‌های گفتار به متن

موتورهای رونویسی پیشرو در صنعت

Faster Whisper

4x faster than Whisper with CTranslate2 optimization, same accuracy.

بهترین برای: بهترین در کل — ۴x سریعتر از Whisper، دقت یکسان، برای بیشتر موارد استفاده توصیه می‌شود

سعي کن Faster Whisper

Whisper

OpenAI's robust speech recognition model supporting 99 languages.

بهترین برای: مدل مرجع توسط OpenAI با پشتیبانی و ترجمه قوی ۹۹ زبان

سعي کن Whisper

SenseVoice

Speech understanding model with emotion detection, 50+ languages.

بهترین برای: تشخیص احساسات و تجزیه و تحلیل رویدادهای صوتی در کنار رونویسی

سعي کن SenseVoice

چگونه صدا را با هوش مصنوعی رونویسی کنیم

بارگذاری، رونوشت و صادرات در چند ثانیه

بارگذاری صدا یا ویدئو

پرونده‌های MP3، WAV، M4A، OGG، FLAC یا ویدئویی تا ۵۰ مگابایت را بارگذاری کنید. از همه قالب‌های رایج پشتیبانی می‌کند.

برگزیدن مدل و زبان

زمزمه سریعتر را برای سرعت ، زمزمه را برای ترجمه ، یا SenseVoice را برای تشخیص احساس انتخاب کنید. زبان منبع را انتخاب کنید.

رونوشت

پردازش بسته به طول پرونده از ثانیه تا دقیقه طول می‌کشد. به روزرسانی پیشرفت در زمان واقعی.

بازنگری و صادرات

رونوشت را بررسی کنید، در صورت نیاز ویرایش کنید و به صورت متن، SRT، VTT یا JSON با مهرهای زمانی صادر کنید.

رونوشت برای هر صنعت

جریان‌های کاری هدفمند برای متخصصان

جلسات کاری

به صورت خودکار ضبط‌های Zoom، Teams و Google Meet را رونوشت کنید. یادداشت‌های دقیق جلسه را با شناسایی سخنران، مهر زمان و اجزای عملیاتی دریافت کنید. ضبط‌ها را از هر بستر جلسه‌ای پردازش کنید - فقط پرونده صوتی یا ویدئویی را بارگذاری کنید.

نوشتارهای مرتبط با تماس‌های چند نفره
یادداشتهای مهر زمان برای مراجعه
پشتیبانی از تمام قالب‌های ضبط جلسه
پردازش انبوه برای آرشیوهای جلسه

روزنامه‌نگاری و مصاحبه‌ها

مصاحبه‌ها، کنفرانس‌های مطبوعاتی و ضبط‌های میدانی را با دقت ۹۵٪+ رونوشت کنید. Whisper سریعتر محیط‌های پر سر و صدا و چند سخنران را مدیریت می‌کند. مهر زمان سطح کلمه را برای ارجاع دقیق نقل قول و بررسی حقایق دریافت کنید.

مهرهای زمانی سطح کلمه برای نقل قول
رونوشت نویز- پایدار
پشتیبانی از ۹۹ زبان برای گزارش‌های بین‌المللی
ترجمه به انگلیسی

رونوشت پزشکی

مدل‌های مبتنی بر صدای آهسته اصطلاحات پزشکی را با دقت بالا مدیریت می‌کنند. یادداشت‌های SOAP، گزارش‌های جراحی و روایت‌های تاریخچه بیمار را از ضبط‌های صوتی پردازش می‌کنند.

مدیریت اصطلاحات پزشکی
قالب‌بندی یادداشت SOAP
پردازش HIPAA-Aware
جریان‌های کاری دیکتیشن به متن

رونوشت قانونی

رونوشت اظهارات، دادخواست‌های دادگاه، جلسات مشتری و دیکتات قانونی. رونوشت‌های دقیق با برچسب‌های سخنران و مهرهای زمانی برای مستندات پرونده را دریافت کنید. مدل‌های ما اصطلاحات حقوقی و الگوهای زبان رسمی را مدیریت می‌کنند.

رونوشت‌های برچسب‌دار گوینده
لغت‌نامه دهخدا
مهر زمان برای مراجعه
فرایند ذخیره‌سازی انبوه

پژوهش

رونوشت سخنرانی‌ها، کارگاه‌ها، مصاحبه‌های پژوهشی و گروه‌های تمرکز. ایجاد آرشیوهای قابل جستجو از محتوای علمی. SenseVoice تشخیص احساسات و احساسات را برای تجزیه و تحلیل پژوهش کیفی اضافه می‌کند.

وب‌گاه رسمی وب‌گاه رسمی
پژوهش مصاحبه
تشخیص احساسات برای تحقیقات کیفی
محتوای آکادمیک چندزبانه

رسانه و محتوا

تولید زیرنویس و عنوان برای ویدئوها، رونوشت قسمت‌های پادکست برای یادداشت‌های نمایش، و ایجاد متن قابل جستجو از آرشیوهای صوتی. صادرات در قالب SRT، VTT، یا قالب متن ساده برای هر پلتفرم.

صادرات زیرنویس SRT/VTT
تولید یادداشت نمایش پادکست
زیرنویس ویدئو برای یوتیوب/تیک‌تاک
دیجیتالی کردن بایگانی صوتی

رونوشت آزاد

مقایسه موتور رونویسی

مدل مناسب برای نیازهای شما را انتخاب کنید

مدل	سرعت	زبانها	ویژگیهای ویژه	بهترین برای
آهسته تر	۴ برابر سریعتر	99	پالایش VAD، پردازش دسته	بیشتر موارد استفاده) توصیه می‌شود (
Whisper	پیش‌فرض	99	ترجمه به انگلیسی، مهر زمان	ترجمه، دقت مرجع
SenseVoice	سریع	50+	تشخیص احساسات، رویدادهای صوتی، تحلیل سخنران	پژوهش، تحلیل احساسات

رونوشت صدا

دقت و کارایی رونویسی

95%+

دقت انگلیسی

زبان‌های پشتیبانی‌شده

سریعتر از زمزمه

2hr

طول صوتی بیشینه

دقت رونوشت آزمون

API رونوشت

یکپارچه‌سازی رونوشت‌برداری در برنامه‌ی کاربردی شما

پایتون (پرونده صوتی رونوشت) REST API

import requests

with open("meeting_recording.mp3", "rb") as f:
    response = requests.post("https://api.tts.ai/v1/stt", files={
        "audio": f
    }, data={
        "model": "faster-whisper",
        "language": "en",
        "timestamps": "true"
    }, headers={"Authorization": "Bearer YOUR_API_KEY"})

result = response.json()
print(result["text"])       # Full transcription
print(result["segments"])   # Timestamped segments

نمایش مستندات API

پرسشهای متداول

پرسش‌های متداول دربارهٔ رونوشت AI

مدل‌های ما دقت ۹۵٪ را در گفتار انگلیسی روشن بدست می‌آورند. دقت با زبان، کیفیت صدا و سر و صدای پس زمینه متفاوت است. فاستر ویسپر و ویسپر بر روی ۶۸۰ ساعت داده آموزش دیده‌اند و در ضبط‌های تمیز دقت سطح انسانی را نزدیک می‌کنند.

کاربران رایگان می‌توانند تا ۵ دقیقه رونوشت کنند. برنامه‌های پرداختی تا ۲ ساعت برای هر پرونده پشتیبانی می‌کنند. برای ضبط‌های طولانی‌تر، API از پردازش دسته ای پشتیبانی می‌کند که در آن می‌توانید پرونده‌ها را به صورت برنامه‌ریزی شده تقسیم و پردازش کنید.

بله. نگارش گوینده ، گویندگان مختلف را در رونوشت شناسایی و برچسب‌گذاری می‌کند. این به بهترین نحو با صدای واضحی که گویندگان نوبت به نوبت صحبت می‌کنند کار می‌کند. تلفیق گفتار ممکن است دقت را کاهش دهد.

برای رونویسی پزشکی یا حقوقی مهم، ما بررسی خروجی برای دقت را توصیه می‌کنیم زیرا هیچ سیستم خودکار ۱۰۰٪ دقیق با اصطلاحات تخصصی نیست.

بله. رونوشت‌ها را به عنوان پرونده‌های زیرنویس SRT یا VTT با مهرهای زمانی دقیق صادر کنید. این پرونده‌ها را می‌توان مستقیماً به یوتیوب، ویمو یا هر پلتفرم ویدئویی که از قالب‌های زیرنویس استاندارد پشتیبانی می‌کند، بارگذاری کرد.

بله. رابط برنامه‌نویسی REST ما از رونویسی گروهی، پخش همزمان و اطلاعیه‌های وب‌هوک پشتیبانی می‌کند. پرونده‌های صوتی را به نقطه پایانی /v1/stt بفرستید و متن رونویسی شده را با مهر زمان دریافت کنید. برای مثال‌ها در پایتون، جاوااسکریپت و cURL مستندات رابط برنامه‌نویسی را ببینید.

SenseVoice توسط Alibaba فراتر از رونویسی است — احساسات سخنران (خوشحال، غمگین، عصبانی)، رویدادهای صوتی (خنده، تشویق، موسیقی) را تشخیص می‌دهد و فراداده‌های غنی در مورد محتوای صوتی را فراهم می‌کند. از ۵۰ زبان پشتیبانی می‌کند. هنگامی که به چیزی بیشتر از متن نیاز دارید از آن استفاده کنید.

مدلهای مبتنی بر صدای آهسته در شرایط مختلف صوتی آموزش داده می‌شوند و نویز پس زمینه متوسط را به خوبی مدیریت می‌کنند. برای بهترین نتایج ، از اندازه مدل بزرگ استفاده کنید و برای کاهش نویز قبل از رونویسی صدا را از طریق ابزار تقویت‌کننده صوتی اجرا کنید.

این رابط برنامه‌نویسی از رونوشت جریانی برای موارد استفاده نزدیک به زمان واقعی پشتیبانی می‌کند. تکه‌های صوتی را همان‌طور که ضبط می‌شوند ارسال کنید و نتایج رونوشت را به صورت پیشرونده دریافت کنید. این برای زیرنویس زنده، یادداشت‌های جلسه و برنامه‌های کاربردی دسترسی‌پذیری به خوبی کار می‌کند.

بله. Whisper و Faster Whisper شامل یک حالت ترجمه درونی است که صدا را در هر یک از ۹۹ زبان پشتیبانی شده رونوشت می‌کند و متن را به انگلیسی خروجی می‌کند. این برای درک محتوای زبان خارجی بدون یک گام ترجمه جداگانه مفید است.

برای بهترین دقت ، از بزرگترین اندازه مدل موجود استفاده کنید. هر زمان که ممکن باشد ، صدای تمیز و با کیفیت بالا را فراهم کنید. برای اصطلاحات تخصصی تکراری ، می‌توانید رونوشت را با یافتن و جایگزینی پس از پردازش برای تصحیح تشخیص نادرست دامنه خاص استفاده کنید.

شما می‌توانید پرونده‌های ویدئو MP4، MOV، AVI، MKV و WebM را بارگذاری کنید. سیستم به‌طور خودکار شیار صوتی را برای رونوشت استخراج می‌کند. این امر تولید زیرنویس یا رونوشت را مستقیماً از محتوای ویدئو بدون استخراج صوتی دستی آسان می‌کند.

5.0/5 (1)

آماده اي که رونوشت کني؟

شروع به رونوشت مجاني کنيد 99 زبان، دقت 95 درصد، نتيجه فوري کارت اعتباري لازم نيست

ثبت نام نمایش قیمت