对文本的语音

支持99种语言、时间戳和语音探测。

上传音频或视频

拖放您的文件到这里( D), 或者 浏览浏览

支持MP3、WAV、FLAC、OGG、M4A、MP4、WebM. Max 100MB。

file.mp3

0 MB
- 或记录 从你的麦克风 -
00:00

设置设置设置设置设置设置设置设置设置设置设置

1,000/min 字符字符字符字符 签名签名 跟踪使用

翻译

上传音频文件, 单击 Transcrip 开始

记录音频...

检测到:

如何运作

1. 上传音频

上传您的音频或视频文件。 我们支持 MP3, WAV, FLAC, OGG, M4A, MP4 和WebM 格式, 最多可达 100MB 。

2. 大赦国际

我们的人工智能模型处理你的音频,探测语言,识别发言者,用时间戳生成准确的文字。

3. 获取文本

复制您的转录或以 TXT 或 SRT 字幕格式下载。 需要时编辑和精细 。

使用案例

每个行业和工作流程对文本的发言

会议和会议

自动改写 Zom、 团队和 Google 的录音。 永远不要再错过一个动作项目。 以会议笔记或字幕导出 。

采访和新闻

将采访写成文章、研究论文和纪录片,

播客和媒体

为播客节目生成记录誊本和显示笔记。 创建您音频内容的可搜索档案。 在视频播客中添加字幕 。

讲座和教育

将已录制的讲座转换成学习笔记; 以准确的字幕提供教育内容无障碍; 支持有听力障碍的学生。

医疗诊断

将医生-病人咨询、临床笔记和医学传说写成。 节省人工文件的小时,并使用人工智能的准确性。

法律诉讼诉讼程序

记录证词、听证和客户会议; 法律参考的准确时间戳; 以适合法院文件的格式出口。

STT 模型比较

Whisper

OpenAI的强力语音识别模式支持99种语言。

  • 99种语言
  • 笔译 笔译
  • 时标
  • 强烈到噪音
OpenAI

Faster Whisper

4x比耳语速度快 具有C Translate2优化, 精确度相同。

  • 加速 4x 速度
  • 较低内存
  • 所有模型大小
  • 批次处理
  • VAD 过滤过滤
SYSTRAN

SenseVoice

语音理解模式,情感检测,50+语言。

  • 50岁以上语言
  • 情感检测
  • 音音音活动
  • 议长分析
  • 丰富元元元元数据
Alibaba (FunAudioLLM)

语音对文字计划

开始免费, 需要时升级

自由
  • 1分钟录音限制
  • 快速耳语模式
  • 基本转录
  • 100+语言
最受欢迎的
自由帐户
  • 30分钟音频+15 000个字符
  • 所有STT 模型
  • 单词级时间戳
  • SRT & VTT 字幕导出
  • 议长对角
签署自由
职业
  • 2小时2小时音频文件
  • 批次转录
  • 优先处理事项处理
  • API 访问
  • 自定义词汇表
升级

常问问题

对文本的演讲(STT)也被称为自动语音识别(ASR ), 将口语转换成书面文本。 我们的模型使用AI来准确记录会议、采访、播客、演讲等内容的音频。

推荐快速耳语用于大多数使用的案例——比原耳语快4x,同时保持同样的准确性。如果需要感应检测或音频事件探测,请使用SenseVoice,同时进行笔录。

我们支持MP3、WAV、M4A、OGG、FLAC、WEBM和最常用的音频/视频格式。最大文件大小为 5000MB。 对于较大的文件,先考虑分割音频。

免费用户可以输入最多5分钟的音频。 付费计划支持音频文件, 最多2小时。 对于较长的录音, 请使用我们的 API 进行批量处理 。

我们的模型在明确的英语语言上实现了95的准确性。 准确性因语言、音频质量和背景噪音而异。 更快的低语和低语支持99种语言,其准确性不同。

是的,我们先进的抄录模式可以在音频中识别和标注不同的演讲者。 议长的对称对于在需要知道谁说了些什么的地方会见笔录、访谈和多人播客尤其有用。

实时流出记录通过我们的API 使用“快速耳语” 提供。 音频在到达时按块进行处理,以低延迟提供部分记录。 这是现场字幕和实时记录记录的理想方式。

是的,我们的转录输出包括可以作为 SRT、 VTT 或 ASS 字幕文件出口的字级时间戳。 这对于在YouTube 视频、 在线课程和社交媒体内容中添加字幕来说是完美的。

是的, 所有转录结果都包含部分层次的默认时间戳。 单词层次的时间戳也可用, 显示音频中每个单词的准确开始和结束时间 。

快速耳语在各种音频方面得到了培训,并很好地处理中度背景噪音。 对于非常吵闹的录音,我们建议首先通过音频增强器运行音频,以便在转录前提高清晰度。

是的, 上传的音频文件会在我们的安全 GPU 服务器上处理, 并在转录完成后自动删除。 我们不存储、 共享或使用您的音频进行训练。 所有传输都加密了 。

免费用户可以免费抄录最多5分钟的音频。 付费计划使用基于音频持续时间的字符: 每分钟大约1,000个字符。 请查看我们的定价页面以获取详细的计划信息和字符包 。
5.0/5 (1)

我们能改进什么?您的反馈帮助我们解决问题。

使用 AI 加密音频

获得99种语言的准确抄本。 免费签名, 并获得 15,000 个字符启动 。