バグ/機能要求を報告

AI転写サービス

業界トップの精度で音声をテキストに変換します。会議、インタビュー、講演、ポッドキャスト、医療口頭弁論、法的手続きを 99 言語に翻訳します。Faster Whisper (OpenAI Whisperより 4 倍速い) と感情検出の SenseVoice を搭載しています。

会議インタビューメディカル法律 99言語

完全なSTTツール API ドキュメント

転写を試みる

完全な STT ツールを開く

AI転写機能

すべてのユースケースに対する正確で高速で経済的な音声変換

99言語サポート

Whisper と Faster Whisper で99言語のオーディオを転写します。英語への翻訳が含まれています。

4倍速い処理

Ｆａｓｔｅｒ　Ｗｈｉｓｐｅｒは，ＯｐｅｎＡＩ　Ｗｈｉｓｐｅｒと同じ精度を４倍の速度で，より低いメモリ使用量で提供する。

タイムスタンプとセグメント

単語レベルとセグメントレベルのタイムスタンプを正確な参照のために使用します。ビデオ字幕のタイムスタンプ付きの転写をエクスポートします。

感情検出

ＳｅｎｓｅＶｏｉｃｅは，メタデータのための転写と共に，話者の感情，音声イベント，感情を検出する。

スピーカー識別

会議やインタビューのような多人数の録音において，誰が何を言ったかをラベル付けするスピーカダイアリゼーションを提案した。

複数のエクスポートフォーマット

プレーンテキスト、SRT字幕、VTT字幕、または完全なメタデータを含む JSON としてエクスポートします。どのプラットフォームでも使用できます。

音声からテキストへのモデル

業界トップの転写エンジン

Faster Whisper

4x faster than Whisper with CTranslate2 optimization, same accuracy.

適応する: 総合的に最良 — Whisper より4倍速く、精度は同じ、ほとんどのユースケースに推奨される

試してみる Faster Whisper

Whisper

OpenAI's robust speech recognition model supporting 99 languages.

適応する: 99言語のロバストなサポートと翻訳を備えたOpenAIによる参照モデル

試してみる Whisper

SenseVoice

Speech understanding model with emotion detection, 50+ languages.

適応する: 音声イベント解析と感情検出の両立を図るために，音声イベント解析のための音声記録の記録方法を提案した。

試してみる SenseVoice

人工知能で音声を転写する方法

数秒でアップロード、転写、エクスポート

音声またはビデオをアップロード

MP3、WAV、M4A、OGG、FLAC、または最大50MBのビデオファイルをアップロードします。すべての一般的なフォーマットをサポートします。

モデルと言語を選択

速度は Faster Whisper、翻訳は Whisper、感情検出は SenseVoice を選択してください。ソース言語を選択してください。

転写

処理はファイルの長さに依存して数秒から数分かかります。リアルタイムで進捗を更新します。

レビューとエクスポート

転写を検討し、必要なら編集し、タイムスタンプを付けたテキスト、SRT、VTT、またはJSONとしてエクスポートします。

転写

専門家向けのワークフロー

ビジネス・ミーティング

Zoom、Teams、Google Meet の録音を自動的に転写します。スピーカー識別、タイムスタンプ、アクションアイテムを含む正確な会議ノートを取得します。どの会議プラットフォームからも録音を処理できます。オーディオまたはビデオファイルをアップロードするだけです。

マルチ参加者通話のスピーカーダイアリゼーション
参照のためのタイムスタンプ注釈
すべての会議録音フォーマットをサポート
会議アーカイブの大量処理

ジャーナリズムとインタビュー

インタビュー、記者会見、現場録音を95%以上の精度で転写します。Faster Whisperは騒音環境や複数の話者を扱います。正確な引用属性と事実チェックのためのワードレベルのタイムスタンプを取得します。

引用のワードレベルタイムスタンプ
ノイズロバスト転写
国際レポートのための99言語サポート
英語翻訳付き

医療転写

医療用語を高精度で処理するための，Ｗｈｉｓｐｅｒベースのモデルを提供します。

医学用語処理
SOAP ノートフォーマット
HIPAA認識処理
ディクテーションからテキストへのワークフロー

法的転写

証言、裁判手続き、クライアント会議、法的口述を記録します。事件記録のためのスピーカーラベルとタイムスタンプを備えた正確な記録を取得します。このモデルは法的用語と形式言語パターンを扱います。

スピーカータグ付き転写
法律用語の正確性
参照のためのタイムスタンプ
バルク蒸着処理

学術研究

講義、セミナー、研究インタビュー、フォーカスグループを記録します。学術的なコンテンツの検索可能なアーカイブを作成します。SenseVoiceは定性的な研究分析のための感情と感情検出を追加します。

講義・セミナー記録
インタビュー処理
定性的研究のための感情検出
多言語学術コンテンツ

メディアとコンテンツ

ビデオの字幕とキャプションを生成し、ポッドキャストのエピソードをショーノートに転写し、オーディオアーカイブから検索可能なテキストを作成します。SRT、VTT、または任意のプラットフォーム用のプレーンテキストフォーマットにエクスポートします。

SRT/VTT 字幕エクスポート
ポッドキャスト番組のノート生成
YouTube/TikTokのビデオキャプション
オーディオアーカイブのデジタル化

無料転写を試してみる

転写エンジン比較

あなたのニーズに合ったモデルを選択

モデル	スピード	言語	特別な機能	ベスト・フォー
ファスター・ウィスパー	4倍速	99	VADフィルタリング、バッチ処理	多くのユースケース (推奨)
Whisper	標準	99	英語への翻訳、タイムスタンプ	翻訳作業、参考文献の正確性
SenseVoice	ファスト	50+	感情検出，音声イベント，スピーカー分析	調査、感情分析

オーディオを今すぐ転写

転写精度と性能

95%+

英語精度

サポートされている言語

ファスター・ザン・ウィスパー

2hr

最大オーディオ長

転写精度テスト

転写API

転写をアプリケーションに統合

Python (オーディオファイルの書き込み) REST API

import requests

with open("meeting_recording.mp3", "rb") as f:
    response = requests.post("https://api.tts.ai/v1/stt", files={
        "audio": f
    }, data={
        "model": "faster-whisper",
        "language": "en",
        "timestamps": "true"
    }, headers={"Authorization": "Bearer YOUR_API_KEY"})

result = response.json()
print(result["text"])       # Full transcription
print(result["segments"])   # Timestamped segments

API ドキュメントを表示

よくある質問

AI転写に関するよくある質問

ファスター・ウィスパーとウィスパーは６８万時間のデータを用いて訓練され，清潔な録音において人間レベルの精度に近づいた。

無料ユーザは5分まで転写できます。有料プランはファイルあたり2時間までサポートします。長い録音の場合、APIはバッチ処理をサポートし、ファイルをプログラム的に分割して処理できます。

はい。スピーカーダイアリズムは、転写中の異なるスピーカーを識別し、ラベル付けします。これは、スピーカーが交互に話す明瞭なオーディオで最も効果的です。重なり合うスピーチは正確性を低下させる可能性があります。

医療用語や法律用語の転写においては，出力の正確性を確認する必要がある。

はい。転写を正確なタイムスタンプを持つ SRT または VTT 字幕ファイルとしてエクスポートします。これらのファイルは YouTube、Vimeo、または標準字幕フォーマットをサポートする他のビデオプラットフォームに直接アップロードできます。

はい。REST API はバッチ転写、リアルタイムストリーミング、ウェブフック通知をサポートします。オーディオファイルを /v1/stt エンドポイントに送信し、タイムスタンプ付きの転写テキストを受信します。Python、JavaScript、cURLの例は API ドキュメントを参照してください。

SenseVoice by Alibabaは転写を超えて、話者の感情（幸せ、悲しみ、怒り）、音声イベント（笑い、拍手、音楽）を検出し、音声コンテンツに関する豊富なメタデータを提供します。50以上の言語をサポートします。テキストだけでなく、テキスト以外のものが必要な場合に使用してください。

Whisperベースのモデルは様々な音声条件で訓練され、中程度の背景雑音を適度に扱うことができる。最良の結果を得るには、大きなモデルサイズを使用し、転写前に雑音を減らすためにオーディオエンハンサーツールを使用することを検討してください。

API は、実時間近傍のユースケースに対してストリーミング転写をサポートします。録音中にオーディオチャンクを送信し、転写結果を順次受信します。これはライブキャプション、会議ノート、アクセシビリティアプリケーションに適しています。

はい。Whisper と Faster Whisper には内蔵された翻訳モードがあり、音声をサポートされている 99 言語のいずれかに転写し、テキストを英語で出力します。これは別の翻訳ステップなしで外国語コンテンツを理解するのに役立ちます。

最高の精度を得るために、利用可能な最大のモデルサイズを使用します。可能な限り清潔で高品質なオーディオを提供します。繰り返される専門用語の場合は、ドメイン特有の誤認識を修正するために、検索と置換を使って転写を後処理できます。

MP4、MOV、AVI、MKV、WebM のビデオファイルをアップロードできます。システムは自動的に音声トラックを抽出して転写します。これにより、手動で音声を抽出する必要なく、ビデオコンテンツから直接字幕や転写を簡単に生成できます。

5.0/5 (1)

転写する準備はいいか？

99言語、95%以上の正確性、即時結果。クレジットカードは必要ありません。

無料登録価格を表示