音声からテキストへ

人工知能でオーディオとビデオをテキストに変換します。99 言語、タイムスタンプ、話者検出をサポートします。

オーディオをアップロード

ファイルをここにドラッグ&ドロップするか、 ブラウズ

Supports MP3, WAV, FLAC, OGG, M4A, MP4, WebM. Max 100MB.

file.mp3

0 MB
マイクで録音してください
00:00

設定

1 credits Sign up to track usage

転写

オーディオファイルをアップロードし、転写をクリックして開始します

音声を転写中 少し時間がかかるかもしれません

検出:

ホー・イット・ワーク

オーディオをアップロード

オーディオまたはビデオファイルをアップロードします。最大 100MB の MP3、WAV、FLAC、OGG、M4A、MP4、WebM フォーマットをサポートします。

AIトランスクリプツ

私たちのAIモデルは,あなたの音声を処理し,言語を検出し,話者を識別し,タイムスタンプ付きの正確なテキストを生成する。

ゲット・ユア・テキスト

転写をコピーしたり、TXT または SRT 字幕フォーマットでダウンロードしたりしてください。必要に応じて編集し、細かく調整してください。

ユースケース

あらゆる産業やワークフローのための音声からテキストへの変換

会議

Zoom、Teams、Google Meet の録音を自動的に転写します。アクションアイテムを二度と見逃すことはありません。会議メモまたは字幕としてエクスポートします。

インタビューとジャーナリズム

記事、研究論文、ドキュメンタリーのためのインタビューの記録を作成します。スピーカーダイアリズムは誰が何を言ったかを特定し、簡単な帰属を提供します。

ポッドキャストとメディア

ポッドキャストのエピソードの記録を作成し、ノートを表示します。オーディオコンテンツの検索可能なアーカイブを作成します。ビデオポッドキャストに字幕を追加します。

講演・教育

録音した講義を学習ノートに変換します。教育コンテンツを正確なキャプションでアクセス可能にします。聴覚障害のある学生をサポートします。

メディカルディクテーション

医師と患者のコンサルテーション、臨床ノート、および医療口頭弁論を記録し、人工知能による精度で手作業の文書作成時間を節約します。

法的手続き

証言、聴聞、クライアント会議を記録します。法的参考に正確なタイムスタンプを付けます。法廷文書に適したフォーマットにエクスポートします。

STTモデル比較

Whisper

OpenAI's robust speech recognition model supporting 99 languages.

  • 0 言語
  • 99 languages
  • Translation
  • Timestamps
  • Robust to noise
OpenAI

Faster Whisper

4x faster than Whisper with CTranslate2 optimization, same accuracy.

  • 0 言語
  • 4x faster
  • Lower memory
  • All model sizes
  • Batch processing
  • VAD filtering
SYSTRAN

SenseVoice

Speech understanding model with emotion detection, 50+ languages.

  • 0 言語
  • 50+ languages
  • Emotion detection
  • Audio events
  • Speaker analysis
  • Rich metadata
Alibaba (FunAudioLLM)

Speech-to-Text Plans

Start free, upgrade when you need more

Free
  • 1-minute audio limit
  • Faster Whisper model
  • Basic transcription
  • 100+ languages
Most Popular
Free Account
  • 30-minute audio + 50 credits
  • All STT models
  • Word-level timestamps
  • SRT & VTT subtitle export
  • Speaker diarization
Sign Up Free
Pro
  • 2-hour audio files
  • Batch transcription
  • Priority processing
  • API access
  • Custom vocabulary
Upgrade

よくある質問

Speech to text (STT), also called automatic speech recognition (ASR), converts spoken language into written text. Our models use AI to accurately transcribe audio from meetings, interviews, podcasts, lectures, and more.

Faster Whisper is recommended for most use cases — it's 4x faster than the original Whisper while maintaining the same accuracy. Use SenseVoice if you need emotion detection or audio event detection alongside transcription.

MP3、WAV、M4A、OGG、FLAC、WEBM、および最も一般的なオーディオ/ビデオフォーマットをサポートします。最大ファイルサイズは50MBです。より大きなファイルの場合は、まずオーディオを分割してください。

Free users can transcribe up to 5 minutes of audio. Paid plans support audio files up to 2 hours. For longer recordings, use our API with batch processing.

Our models achieve 95%+ accuracy on clear English speech. Accuracy varies by language, audio quality, and background noise. Faster Whisper and Whisper support 99 languages with varying accuracy levels.

Yes, our advanced transcription modes can identify and label different speakers in the audio. Speaker diarization is especially useful for meeting transcripts, interviews, and multi-person podcasts where you need to know who said what.

リアルタイムストリーミング転写は Faster Whisper を使った API を通じて利用できます。オーディオは到着時にチャンクで処理され、低遅延で部分的な転写を提供します。これはライブキャプションやリアルタイムメモ作成に理想的です。

Yes, our transcription output includes word-level timestamps that can be exported as SRT, VTT, or ASS subtitle files. This is perfect for adding captions to YouTube videos, online courses, and social media content.

Yes, all transcription results include segment-level timestamps by default. Word-level timestamps are also available, showing the exact start and end time for each word in the audio.

Faster Whisper は多様なオーディオに対して訓練されており、中程度の背景雑音をうまく扱います。非常に雑音の多い録音の場合は、転写する前に音声の明瞭度を向上させるために、オーディオエンハンサーを先に実行することを推奨します。

はい、アップロードされたオーディオファイルは我々のセキュリティの高い GPU サーバで処理され、転写が完了した後に自動的に削除されます。我々はあなたのオーディオを保存、共有、または訓練目的で使用しません。すべての転送は暗号化されます。

Free users can transcribe up to 5 minutes of audio at no cost. Paid plans use credits based on audio duration: approximately 1 credit per minute of audio. Check our pricing page for detailed plan information and credit bundles.
5.0/5 (1)

AI でオーディオを転写

99 言語で正確な転写を取得します。無料で登録し、50 クレジットで始めましょう。