バグ/機能要求を報告

音声からテキストへ

人工知能でオーディオとビデオをテキストに変換します。99 言語、タイムスタンプ、話者検出をサポートします。

無料登録

音声またはビデオをアップロード

ファイルをここにドラッグ＆ドロップするか、ブラウズ

音声ファイルのフォーマットは、MP3、WAV、FLAC、OGG、M4A、MP4、WebMなどがある。

マイクで録音してください

00:00

設定

モデル

言語

タイムスタンプを含める

話者の透析

1,000/min 文字 — 登録利用を追跡するために

転写

オーディオファイルをアップロードし、転写をクリックして開始します

ホー・イット・ワーク

音声をアップロード

オーディオまたはビデオファイルをアップロードします。最大 100MB の MP3、WAV、FLAC、OGG、M4A、MP4、WebM フォーマットをサポートします。

AIトランスクリプツ

私たちのＡＩモデルは，あなたの音声を処理し，言語を検出し，話者を識別し，タイムスタンプ付きの正確なテキストを生成する。

ゲット・ユア・テキスト

転写をコピーしたり、TXT または SRT 字幕フォーマットでダウンロードしたりしてください。必要に応じて編集し、細かく調整してください。

ユースケース

あらゆる産業やワークフローのための音声からテキストへの変換

会議

Zoom、Teams、Google Meet の録音を自動的に転写します。アクションアイテムを二度と見逃すことはありません。会議メモまたは字幕としてエクスポートします。

インタビューとジャーナリズム

記事、研究論文、ドキュメンタリーのためのインタビューの記録を作成します。スピーカーダイアリズムは誰が何を言ったかを特定し、簡単に属性を特定します。

ポッドキャストとメディア

ポッドキャストのエピソードの記録を作成し、ノートを表示します。オーディオコンテンツの検索可能なアーカイブを作成します。ビデオポッドキャストに字幕を追加します。

講演・教育

録音した講義を学習ノートに変換します。教育コンテンツを正確なキャプションでアクセス可能にします。聴覚障害のある学生をサポートします。

医療用ディクテーション

医師と患者の相談、臨床メモ、医療の口頭伝達を記録し、人工知能を駆使した正確さで手作業の文書作成を省略します。

法律事務所

証言、聴聞、および顧客会議を記録します。法的参考に正確なタイムスタンプを付けます。法廷文書に適したフォーマットにエクスポートします。

STTモデル比較

Whisper

ＯｐｅｎＡＩのロバスト音声認識モデルは９９の言語をサポートしている。

99の言語
翻訳
タイムスタンプ
ノイズに強い

OpenAI

Faster Whisper

Whisperより4倍速く、CTranslate2最適化、同じ精度。

4倍速く
下記メモリ
全てのモデルサイズ
バッチ処理
VADフィルタリング

SYSTRAN

SenseVoice

５０以上の言語の感情検出を含む音声理解モデルを開発した。

50以上の言語
感情検出
オーディオイベント
話者分析
リッチメタデータ

Alibaba (FunAudioLLM)

音声変換プラン

無料で始め、必要に応じてアップグレード

自由

1分間の音声制限
ファスター・ウィスペルモデル
基本転写
100以上の言語

最も人気のある

無料アカウント

30分音声+15,000文字
STTの車種
ワードレベルタイムスタンプ
SRT と VTT 字幕エクスポート
話者の透析

無料登録

プロ

2時間の音声ファイル
バッチ転写
優先処理
APIアクセス
カスタム語彙

アップグレード

よくある質問

音声からテキストへの変換（ＳＴＴ）は，音声を文字に変換する技術である。

ほとんどのユースケースにおいて、Faster Whisperが推奨されます。同じ精度を維持しながら、オリジナルの Whisperより4倍速い。転写と共に感情検出や音声イベント検出が必要な場合は、SenseVoiceを使用してください。

音声ファイルの最大サイズは 50MB です。より大きなファイルの場合は、まず音声を分割してください。

無料ユーザは5分までのオーディオを転写できます。有料プランは2時間までのオーディオファイルをサポートします。長い録音の場合は、バッチ処理を使ったAPIを使用してください。

これらのモデルは，明瞭な英語の話し言葉に対して９５％以上の正確性を達成している。

はい、私たちの高度な転写モードはオーディオ中の異なる発言者を識別し、ラベル付けできます。発言者ダイアリゼーションは、誰が何を言ったかを知る必要がある会議の転写、インタビュー、多人数のポッドキャストにとって特に有用です。

リアルタイムストリーミング転写は Faster Whisper を使った API を通じて利用できます。オーディオは到着時にチャンクで処理され、低遅延で部分的な転写を提供します。これはライブキャプションやリアルタイムメモ作成に理想的です。

はい、私たちの転写出力は単語レベルのタイムスタンプを含み、SRT、VTT、ASS字幕ファイルとしてエクスポートできます。これは YouTube ビデオ、オンラインコース、ソーシャルメディアコンテンツに字幕を追加するのに完璧です。

はい、すべての転写結果にはデフォルトでセグメントレベルのタイムスタンプが含まれます。単語レベルのタイムスタンプも利用可能で、オーディオの各単語の正確な開始と終了時間を表示します。

Faster Whisper は多様なオーディオに対して訓練されており、中程度の背景雑音をうまく扱います。非常に雑音の多い録音の場合、音声をオーディオエンハンサーで最初に再生することを推奨します。これにより、転写前に音声の明瞭度を向上させることができます。

はい、アップロードされたオーディオファイルは我々のセキュリティの高い GPU サーバで処理され、転写が完了した後に自動的に削除されます。我々はあなたのオーディオを保存、共有、または訓練目的で使用しません。すべての転送は暗号化されます。

無料ユーザは5分までのオーディオを無料で転写できます。有料プランはオーディオの持続時間に基づいた文字を使用します。約1000文字/分。プランの詳細情報と文字パックについては、プランページをご覧ください。

5.0/5 (1)

AI でオーディオを転写

99 言語で正確な転写を取得します。無料で登録し、15,000 文字を入手して始めましょう。

無料登録価格を表示

音声からテキストへ

音声またはビデオをアップロード

設定

転写

ホー・イット・ワーク

音声をアップロード

AIトランスクリプツ

ゲット・ユア・テキスト

ユースケース

会議

インタビューとジャーナリズム

ポッドキャストとメディア

講演・教育

医療用ディクテーション

法律事務所

STTモデル比較

Whisper

Faster Whisper

SenseVoice

音声変換プラン

よくある質問

音声からテキスト（STT）とは何ですか？

どの転写モデルが最も良いかを示した。

どのオーディオフォーマットをアップロードできますか？

転写には時間制限はありますか。

転写はどれくらい正確ですか。

音声からテキストへの変換は，話者のダイアリゼーションをサポートするか。

リアルタイムの転写を 出来る？

字幕や SRT ファイルを生成できますか？

転写はタイムスタンプを含んでいますか。

このツールは背景雑音をどのように扱うのか。

私の音声データは プライベートに保管されますか？

音声をテキストに変換するのに いくらかかるの？

AI でオーディオを転写