گزارش اشکال / درخواست ویژگی

تبدیل گفتار به متنComment

رونوشت صدا و ویدئو به متن با هوش مصنوعی. پشتیبانی از ۹۹ زبان، مهر زمان، و تشخیص سخنران.

ثبت نام

هنوز صداهای TTS برای زبان شما نداریم. به ما کمک کنید تا صداهای خودتان را اضافه کنیم! فروش صدای خود

بارگذاری صدا یا ویدئو

پروندۀ خود را به اینجا بکشید و بگذارید ، یا مرور

از فرمت‌های MP3، WAV، FLAC، OGG، M4A، MP4، WebM پشتیبانی می‌کند.

— یا از میکروفون خود ضبط کنید —

00:00

تنظیمات

مدل

زبان

شامل مهرهای زمانی

شناسه گوینده

1,000/min نویسه‌ها — ثبت نام برای ردیابی استفاده

رونوشت

یک پرونده صوتی را بارگذاری کنید و برای شروع رونوشت را فشار دهید

چطور کار میکنه

بارگذاری صوتی

پروندۀ صوتی یا ویدئویی خود را بارگذاری کنید. ما از قالب‌های MP3، WAV، FLAC، OGG، M4A، MP4 و WebM تا ۱۰۰ مگابایت پشتیبانی می‌کنیم.

2. AI رونوشت

مدل های هوش مصنوعی ما صدای شما را پردازش می کنند، زبان را تشخیص می دهند، گویندگان را شناسایی می کنند و متن دقیقی با مهر زمان تولید می کنند.

3. متن خود را دریافت کنید

رونوشت خود را رونوشت کنید یا آن را به شکل زیرنویس TXT یا SRT بارگیری کنید. در صورت نیاز ویرایش و اصلاح کنید.

موارد استفاده

تبدیل گفتار به متن برای هر صنعت و جریان کاری

جلسات و کنفرانسها

به صورت خودکار ضبط‌های Zoom، Teams و Google Meet را رونوشت کنید. دیگر هیچ‌گاه یک مورد عمل را از دست ندهید. به عنوان یادداشت‌های جلسه یا زیرنویس‌ها صادر کنید.

مصاحبه و روزنامه‌نگاری

مصاحبه‌ها را برای مقالات، مقالات پژوهشی و مستندها رونوشت کنید.

پادکست و رسانه

تولید رونوشت و نمایش یادداشت‌ها برای قسمت‌های پادکست. ایجاد آرشیوهای قابل جستجو از محتوای صوتی خود. اضافه کردن زیرنویس به پادکست‌های ویدئویی.

سخنرانی و آموزش

سخنرانی‌های ضبط شده را به یادداشت‌های مطالعه تبدیل کنید. محتوای آموزشی را با زیرنویس‌های دقیق قابل دسترس کنید. از دانش آموزان با اختلالات شنوایی پشتیبانی کنید.

دیکتاتور پزشکی

مشاوره پزشک-بیمار، یادداشت‌های بالینی و دیکتاتورهای پزشکی را رونوشت کنید. ساعت‌ها از مستندات دستی با دقت هوش مصنوعی صرفه‌جویی کنید.

پرونده حقوقی

رونوشت از اظهارات، جلسات و جلسات مشتری. مهر زمان دقیق برای مراجع قانونی. صادرات به قالب‌های مناسب برای مستندات دادگاه.

مقایسه مدل STT

Whisper

مدل تشخیص گفتار قوی اوپن‌آی از ۹۹ زبان پشتیبانی می‌کند.

99 زبان
ترجمه
مهرهای زمانی
مقاوم در برابر نویز

OpenAI

Faster Whisper

4x سریعتر از Whisper با بهینه‌سازی CTranslate2، همان دقت.

۴ برابر سریعتر
حافظه پایین
تمام اندازه‌های مدل
پردازش گروهی
پالایش VAD

SYSTRAN

SenseVoice

مدل درک گفتار با تشخیص احساسات، ۵۰+ زبان.

50+ زبان
تشخیص احساسات
رویدادهای صوتی
تحلیل گوینده
فراداده‌های غنی

Alibaba (FunAudioLLM)

برنامه‌های تبدیل گفتار به متن

شروع مجانی، ارتقاء وقتی که بیشتر نیاز دارید

آزاد

محدودیت صوتی ۱ دقیقه
مدل آهسته سریعتر
رونوشت پایه
بیش از ۱۰۰ زبان

محبوب‌ترین

حساب آزاد

30 دقيقه صدا + 15000 کاراکتر
تمام مدلهای STT
مهرهای زمانی سطح کلمه
صادرات زیرنویس SRT & VTT
شناسه گوینده

ثبت نام

حرفه اي

پرونده‌های صوتی ۲ ساعته
رونوشت دسته
پردازش اولویت
دسترسی API
واژه‌نامه سفارشی

ارتقا

پرسشهای متداول

مدل‌های ما از هوش مصنوعی برای رونویسی دقیق صدا از جلسات، مصاحبه‌ها، پادکست‌ها، سخنرانی‌ها و غیره استفاده می‌کنند.

Whisper سریعتر برای بیشتر موارد استفاده توصیه می‌شود - این ۴ برابر سریعتر از Whisper اصلی است در حالی که دقت یکسانی را حفظ می‌کند. از SenseVoice استفاده کنید اگر به تشخیص احساس یا تشخیص رویداد صوتی در کنار رونویسی نیاز دارید.

ما از MP3، WAV، M4A، OGG، FLAC، WEBM و بیشتر قالب‌های صوتی/ویدئویی رایج پشتیبانی می‌کنیم. اندازهٔ حداکثری پرونده ۵۰ مگابایت است. برای پرونده‌های بزرگتر، ابتدا تقسیم صوتی را در نظر بگیرید.

کاربران رایگان می‌توانند تا ۵ دقیقه صدا را رونوشت کنند. برنامه‌های پرداختی از پرونده‌های صوتی تا ۲ ساعت پشتیبانی می‌کنند. برای ضبط‌های طولانی‌تر، از API ما با پردازش دسته ای استفاده کنید.

مدل‌های ما دقت ۹۵٪+ در گفتار انگلیسی روشن را بدست می‌آورند. دقت با زبان، کیفیت صدا و نویز پس زمینه متفاوت است. Faster Whisper و Whisper از ۹۹ زبان با سطوح دقت متفاوت پشتیبانی می‌کنند.

بله ، حالت های پیشرفته رونویسی ما می توانند گویندگان مختلف را در صدا شناسایی و برچسب بزنند. رونویسی گوینده به ویژه برای رونویسی جلسات ، مصاحبه ها و پادکست های چند نفره که نیاز دارید بدانید که چه کسی چه چیزی گفت مفید است.

رونوشت جریان در زمان واقعی از طریق API ما با استفاده از Faster Whisper در دسترس است. صدا به محض رسیدن در قطعات پردازش می‌شود و رونوشت‌های جزئی با تأخیر کم ارائه می‌شود. این برای زیرنویس زنده و یادداشت‌برداری در زمان واقعی ایده‌آل است.

بله ، خروجی رونوشت ما شامل علامت زمان در سطح کلمه است که می‌تواند به عنوان پرونده زیرنویس SRT ، VTT یا ASS صادر شود. این برای اضافه کردن زیرنویس به ویدئوی یوتیوب ، دوره آنلاین و محتوای رسانه‌های اجتماعی عالی است.

بله، تمام نتایج رونوشت به صورت پیش‌فرض شامل مهرهای زمانی سطح بخش هستند. مهرهای زمانی سطح کلمه نیز در دسترس هستند و زمان دقیق آغاز و پایان هر کلمه در صدا را نشان می‌دهند.

آهسته‌تر آهسته‌تر بر روی صداهای متنوع آموزش داده شده و نویز پس‌زمینه متوسط را به خوبی مدیریت می‌کند. برای ضبط‌های بسیار پر سر و صدا ، توصیه می‌کنیم که صدا را ابتدا از طریق تقویت‌کننده صدای خود اجرا کنید تا شفافیت را قبل از رونوشت بهبود دهید.

بله ، پرونده‌های صوتی بارگذاری شده در کارسازهای GPU ایمن ما پردازش می‌شوند و پس از تکمیل رونوشت به طور خودکار حذف می‌شوند. ما صدای شما را برای مقاصد آموزشی ذخیره، به اشتراک نمی‌گذاریم یا استفاده نمی‌کنیم. همه انتقال‌ها رمزگذاری می‌شوند.

کاربران رایگان می‌توانند تا ۵ دقیقه صدا را بدون هزینه رونوشت کنند. برنامه‌های پرداختی از کاراکترهای بر اساس مدت صدا استفاده می‌کنند: حدود ۱۰۰۰ کاراکتر در دقیقه صدا. برای اطلاعات مفصل برنامه و بسته‌های کاراکتر، صفحه قیمت‌گذاری ما را بررسی کنید.

5.0/5 (1)

رونوشت صدا با هوش مصنوعی

رونوشت دقیق در ۹۹ زبان دریافت کنید. رایگان ثبت نام کنید و ۱۵۰۰۰ کاراکتر برای شروع دریافت کنید.

ثبت نام نمایش قیمت

تبدیل گفتار به متنComment

بارگذاری صدا یا ویدئو

تنظیمات

رونوشت

چطور کار میکنه

بارگذاری صوتی

2. AI رونوشت

3. متن خود را دریافت کنید

موارد استفاده

جلسات و کنفرانسها

مصاحبه و روزنامه‌نگاری

پادکست و رسانه

سخنرانی و آموزش

دیکتاتور پزشکی

پرونده حقوقی

مقایسه مدل STT

Whisper

Faster Whisper

SenseVoice

برنامه‌های تبدیل گفتار به متن

پرسشهای متداول

صوت به متن (STT) چیست؟

کدام مدل رونویسی بهترینه؟

چه قالب‌های صوتی را می‌توانم بارگذاری کنم؟

زمان محدودي براي رونوشت وجود داره؟

رونوشت چقدر دقيقه؟

آیا سخن به متن از دیاریزاسیون سخنگو پشتیبانی می‌کند؟

ميشه يه نسخه رونوشت رو همزمان بدم؟

میتونم زیرنویس یا پرونده های SRT تولید کنم؟

رونوشت شامل مهر زمانه؟

این ابزار چگونه با نویز پس زمینه برخورد می‌کند؟

اطلاعات صوتی من خصوصی نگه داشته میشه؟

ترجمه گفتار به متن چقدر هزینه داره؟

رونوشت صدا با هوش مصنوعی