报告错误/功能要求

对文本的语音

支持99种语言、时间戳和语音探测。

签署自由

上传音频或视频

拖放您的文件到这里( D), 或者浏览

支持MP3、WAV、FLAC、OGG、M4A、MP4、WebM. 免费最多500 MB 和 2 GB。

- 或记录从你的麦克风 -

00:00

设置

型

语言

包含时间戳

议长对角

1,000/min 字符 — 签名跟踪使用

翻译

上传音频文件, 单击 Transcrip 开始

如何运作

1. 上传音频

上传您的音频或视频文件。我们支持 MP3, WAV, FLAC, OGG, M4A, MP4 和WebM 格式, 最多可达 100MB 。

2. 大赦国际

我们的人工智能模型处理你的音频,探测语言,识别发言者,用时间戳生成准确的文字。

3. 获取文本

复制您的转录或以 TXT 或 SRT 字幕格式下载。需要时编辑和精细。

使用案例

每个行业和工作流程对文本的发言

会议和会议

自动改写 Zom、团队和 Google 的录音。永远不要再错过一个动作项目。以会议笔记或字幕导出。

采访和新闻

将采访写成文章、研究论文和纪录片,

播客和媒体

为播客节目生成记录誊本和显示笔记。创建您音频内容的可搜索档案。在视频播客中添加字幕。

讲座和教育

将已录制的讲座转换成学习笔记; 以准确的字幕提供教育内容无障碍; 支持有听力障碍的学生。

医疗诊断

将医生-病人咨询、临床笔记和医学传说写成。节省人工文件的小时,并使用人工智能的准确性。

法律诉讼程序

记录证词、听证和客户会议; 法律参考的准确时间戳; 以适合法院文件的格式出口。

STT 模型比较

Whisper

OpenAI的强力语音识别模式支持99种语言。

99种语言
笔译
时标
强烈到噪音

OpenAI

Faster Whisper

4x比耳语速度快具有C Translate2优化, 精确度相同。

加速 4x 速度
较低内存
所有模型大小
批次处理
VAD 过滤

SYSTRAN

SenseVoice

语音理解模式,情感检测,50+语言。

50岁以上语言
情感检测
音音音活动
议长分析
丰富元数据

Alibaba (FunAudioLLM)

语音对文字计划

开始免费, 需要时升级

自由

1分钟录音限制
快速耳语模式
基本转录
100+语言

最受欢迎的

自由帐户

30分钟音频+15 000个字符
所有STT 模型
单词级时间戳
SRT & VTT 字幕导出
议长对角

签署自由

职业

2小时2小时音频文件
批次转录
优先处理事项处理
API 访问
自定义词汇表

升级

常问问题

对文本的演讲(STT)也被称为自动语音识别(ASR ), 将口语转换成书面文本。我们的模型使用AI来准确记录会议、采访、播客、演讲等内容的音频。

推荐快速耳语用于大多数使用的案例——比原耳语快4x,同时保持同样的准确性。如果需要感应检测或音频事件探测,请使用SenseVoice,同时进行笔录。

我们支持MP3、WAV、M4A、OGG、FLAC、WEBM和最常用的音频/视频格式。最大文件大小为 5000MB。对于较大的文件,先考虑分割音频。

免费用户可以输入最多5分钟的音频。付费计划支持音频文件, 最多2小时。对于较长的录音, 请使用我们的 API 进行批量处理。

我们的模型在明确的英语语言上实现了95的准确性。准确性因语言、音频质量和背景噪音而异。更快的低语和低语支持99种语言,其准确性不同。

是的,我们先进的抄录模式可以在音频中识别和标注不同的演讲者。议长的对称对于在需要知道谁说了些什么的地方会见笔录、访谈和多人播客尤其有用。

实时流出记录通过我们的API 使用“快速耳语” 提供。音频在到达时按块进行处理,以低延迟提供部分记录。这是现场字幕和实时记录记录的理想方式。

是的,我们的转录输出包括可以作为 SRT、 VTT 或 ASS 字幕文件出口的字级时间戳。这对于在YouTube 视频、在线课程和社交媒体内容中添加字幕来说是完美的。

是的, 所有转录结果都包含部分层次的默认时间戳。单词层次的时间戳也可用, 显示音频中每个单词的准确开始和结束时间。

快速耳语在各种音频方面得到了培训,并很好地处理中度背景噪音。对于非常吵闹的录音,我们建议首先通过音频增强器运行音频,以便在转录前提高清晰度。

是的, 上传的音频文件会在我们的安全 GPU 服务器上处理, 并在转录完成后自动删除。我们不存储、共享或使用您的音频进行训练。所有传输都加密了。

免费用户可以免费抄录最多5分钟的音频。付费计划使用基于音频持续时间的字符: 每分钟大约1,000个字符。请查看我们的定价页面以获取详细的计划信息和字符包。

5.0/5 (1)

使用 AI 加密音频

获得99种语言的准确抄本。免费签名, 并获得 15,000 个字符启动。

签署自由视图定价

对文本的语音

上传音频或视频

设置

翻译

如何运作

1. 上传音频

2. 大赦国际

3. 获取文本

使用案例

会议和会议

采访和新闻

播客和媒体

讲座和教育

医疗诊断

法律诉讼程序

STT 模型比较

Whisper

Faster Whisper

SenseVoice

语音对文字计划

常问问题

文字演讲(STT)是什么?

哪一种转录模型是最好的?

我能上传什么音频格式?

抄录是否有时限?

笔录的准确性如何?

是否要用文字支持发言者的diarization?

我能得到实时抄本吗?

我能制作字幕或SRT文件吗?

抄录是否包括时间戳?

该工具如何处理背景噪音?

我的音频数据是保密的吗?

讲稿要花多少钱?

使用 AI 加密音频