Report Bug / Feature Request

音声からテキストへ

人工知能でオーディオとビデオをテキストに変換します。99 言語、タイムスタンプ、話者検出をサポートします。

音声またはビデオをアップロード

ファイルをここにドラッグ&ドロップするか、 ブラウズ

ファイル形式は MP3、WAV、FLAC、OGG、M4A、MP4、WebM で、最大 100MB まで。

file.mp3

0 MB
マイクで録音してください
00:00

設定

1,000/min 文字 登録 利用を追跡するために

転写

オーディオファイルをアップロードし、転写をクリックして開始します

音声を転写中 少し時間がかかるかもしれません

検出:

ホー・イット・ワーク

音声をアップロード

オーディオまたはビデオファイルをアップロードします。最大 100MB の MP3、WAV、FLAC、OGG、M4A、MP4、WebM フォーマットをサポートします。

AIトランスクリプツ

私たちのAIモデルは,あなたの音声を処理し,言語を検出し,話者を識別し,タイムスタンプ付きの正確なテキストを生成する。

ゲット・ユア・テキスト

転写をコピーしたり、TXT または SRT 字幕フォーマットでダウンロードしたりしてください。必要に応じて編集し、細かく調整してください。

ユースケース

あらゆる産業やワークフローのための音声からテキストへの変換

会議

Zoom、Teams、Google Meet の録音を自動的に転写します。アクションアイテムを二度と見逃すことはありません。会議メモまたは字幕としてエクスポートします。

インタビューとジャーナリズム

記事、研究論文、ドキュメンタリーのためのインタビューの記録を作成します。スピーカーダイアリズムは誰が何を言ったかを特定し、簡単に属性を特定します。

ポッドキャストとメディア

ポッドキャストのエピソードの記録を作成し、ノートを表示します。オーディオコンテンツの検索可能なアーカイブを作成します。ビデオポッドキャストに字幕を追加します。

講演・教育

録音した講義を学習ノートに変換します。教育コンテンツを正確なキャプションでアクセス可能にします。聴覚障害のある学生をサポートします。

医療用ディクテーション

医師と患者の相談、臨床メモ、医療の口頭伝達を記録し、人工知能を駆使した正確さで手作業の文書作成を省略します。

法律事務所

証言、聴聞、および顧客会議を記録します。法的参考に正確なタイムスタンプを付けます。法廷文書に適したフォーマットにエクスポートします。

STTモデル比較

Whisper

OpenAIのロバスト音声認識モデルは99の言語をサポートしている。

  • 99の言語
  • 翻訳
  • タイムスタンプ
  • ノイズに強い
OpenAI

Faster Whisper

Whisperより4倍速く、CTranslate2最適化、同じ精度。

  • 4倍速く
  • 下記メモリ
  • 全てのモデルサイズ
  • バッチ処理
  • VADフィルタリング
SYSTRAN

SenseVoice

50以上の言語の感情検出を含む音声理解モデルを開発した。

  • 50以上の言語
  • 感情検出
  • オーディオイベント
  • 話者分析
  • リッチメタデータ
Alibaba (FunAudioLLM)

音声変換プラン

無料で始め、必要に応じてアップグレード

自由
  • 1分間の音声制限
  • ファスター・ウィスペルモデル
  • 基本転写
  • 100以上の言語
最も人気のある
無料アカウント
  • 30分音声+15,000文字
  • STTの車種
  • ワードレベルタイムスタンプ
  • SRT と VTT 字幕エクスポート
  • 話者の透析
無料登録
プロ
  • 2時間の音声ファイル
  • バッチ転写
  • 優先処理
  • APIアクセス
  • カスタム語彙
アップグレード

よくある質問

音声からテキストへの変換(STT)は,音声を文字に変換する技術である。

ほとんどのユースケースにおいて、Faster Whisperが推奨されます。同じ精度を維持しながら、オリジナルの Whisperより4倍速い。転写と共に感情検出や音声イベント検出が必要な場合は、SenseVoiceを使用してください。

音声ファイルの最大サイズは 50MB です。より大きなファイルの場合は、まず音声を分割してください。

無料ユーザは5分までのオーディオを転写できます。有料プランは2時間までのオーディオファイルをサポートします。長い録音の場合は、バッチ処理を使ったAPIを使用してください。

これらのモデルは,明瞭な英語の話し言葉に対して95%以上の正確性を達成している。

はい、私たちの高度な転写モードはオーディオ中の異なる発言者を識別し、ラベル付けできます。発言者ダイアリゼーションは、誰が何を言ったかを知る必要がある会議の転写、インタビュー、多人数のポッドキャストにとって特に有用です。

リアルタイムストリーミング転写は Faster Whisper を使った API を通じて利用できます。オーディオは到着時にチャンクで処理され、低遅延で部分的な転写を提供します。これはライブキャプションやリアルタイムメモ作成に理想的です。

はい、私たちの転写出力は単語レベルのタイムスタンプを含み、SRT、VTT、ASS字幕ファイルとしてエクスポートできます。これは YouTube ビデオ、オンラインコース、ソーシャルメディアコンテンツに字幕を追加するのに完璧です。

はい、すべての転写結果にはデフォルトでセグメントレベルのタイムスタンプが含まれます。単語レベルのタイムスタンプも利用可能で、オーディオの各単語の正確な開始と終了時間を表示します。

Faster Whisper は多様なオーディオに対して訓練されており、中程度の背景雑音をうまく扱います。非常に雑音の多い録音の場合、音声をオーディオエンハンサーで最初に再生することを推奨します。これにより、転写前に音声の明瞭度を向上させることができます。

はい、アップロードされたオーディオファイルは我々のセキュリティの高い GPU サーバで処理され、転写が完了した後に自動的に削除されます。我々はあなたのオーディオを保存、共有、または訓練目的で使用しません。すべての転送は暗号化されます。

無料ユーザは5分までのオーディオを無料で転写できます。有料プランはオーディオの持続時間に基づいた文字を使用します。約1000文字/分。プランの詳細情報と文字パックについては、プランページをご覧ください。
5.0/5 (1)

改善点は何ですか?フィードバックは問題を解決するのに役立ちます。

AI でオーディオを転写

99 言語で正確な転写を取得します。無料で登録し、15,000 文字を入手して始めましょう。