Discurso ao texto

Transcriba áudio e vídeo para texto com IA. Suporta 99 idiomas, marcas horárias e detecção de alto-falantes.

Envie áudio ou vídeo

Arraste e largue o seu arquivo aqui, ou navegar

Apoia MP3, WAV, FLAC, OGG, M4A, MP4, WebM. Max 100MB.

file.mp3

0 MB
— ou registo do seu microfone —
00:00

Configurações

1,000/min caracteres Inscrever-se para acompanhar o uso

Transcrição

Carregue um arquivo de áudio e clique Transcribe para começar

Transcrição de áudio... pode demorar um momento.

Detectado:

Como funciona

1. Carregar áudio

Carregue seu arquivo de áudio ou vídeo. Nós suportamos MP3, WAV, FLAC, OGG, M4A, MP4, e formatos WebM até 100MB.

2. AI Transcrições

Nossos modelos de IA processam o seu áudio, detectando linguagem, identificando alto-falantes e gerando texto preciso com selos de tempo.

3. Obtenha seu texto

Copie sua transcrição ou baixe-a como formato de subtítulo TXT ou SRT. Edite e refine conforme necessário.

Casos de utilização

Discurso a texto para todas as indústrias e fluxos de trabalho

Reuniões e Conferências

Transcriba automaticamente Zoom, Teams e Google Meet as gravações. Nunca mais perca um item de ação. Exportar como notas de reunião ou legendas.

Entrevistas e Jornalismo

Transcriba entrevistas para artigos, trabalhos de pesquisa e documentários. Diarização do orador identifica quem disse o que para fácil atribuição.

Podcasts e mídias

Gerar transcrições e mostrar notas para episódios de podcast. Criar arquivos pesquisáveis de seu conteúdo de áudio. Adicionar legendas para podcasts de vídeo.

Conferências & Educação

Converta palestras gravadas em notas de estudo. Torne o conteúdo educacional acessível com legendas precisas. Apoiar os alunos com deficiência auditiva.

Dicionário Médico

Transcriba consultas médicas-pacientes, notas clínicas e dicionários médicos. Poupa horas de documentação manual com acurácia de IA.

Procedimentos jurídicos

Transcriba deposições, audições e reuniões de clientes. Tempos precisos para referência legal. Exportação em formatos adequados para a documentação do tribunal.

Comparação do modelo STT

Whisper

O robusto modelo de reconhecimento de fala da OpenAI apoia 99 línguas.

  • 99 línguas
  • Tradução
  • Selos de tempo
  • Robusto ao barulho
OpenAI

Faster Whisper

4x mais rápido do que Whisper com otimização CTranslate2, a mesma precisão.

  • 4x mais rápido
  • Memória inferior
  • Todos os tamanhos dos modelos
  • Processamento de lote
  • Filtragem VAD
SYSTRAN

SenseVoice

Modelo de compreensão da fala com detecção de emoções, 50+ línguas.

  • Mais de 50 idiomas
  • Detecção de emoções
  • Eventos de áudio
  • Análise dos oradores
  • Metadados ricos
Alibaba (FunAudioLLM)

Planos de fala a texto

Comece livre, atualização quando você precisa mais

Grátis
  • Limite de 1 minuto de áudio
  • Modelo de Whisper mais rápido
  • Transcrição básica
  • 100 mais línguas
Mais Popular
Conta Livre
  • áudio de 30 minutos + 15.000 caracteres
  • Todos os modelos STT
  • Marcas horárias de nível de palavra
  • Exportação de subtítulos SRT & VTT
  • Diarização dos oradores
Inscreva-se gratuitamente
Pro
  • Arquivos de áudio de 2 horas
  • Transcrição de lote
  • Tratamento prioritário
  • Acesso à API
  • Vocabulário personalizado
Actualização

Perguntas Frequentes

Discurso ao texto (STT), também chamado reconhecimento automático da fala (ASR), converte a linguagem falada em texto escrito. Nossos modelos usam IA para transcribir com precisão áudio de reuniões, entrevistas, podcasts, palestras e muito mais.

O Whisper mais rápido é recomendado para a maioria dos casos de uso — é 4x mais rápido do que o Whisper original, mantendo a mesma precisão. Use SenseVoice se você precisar de detecção de emoções ou detecção de eventos de áudio ao lado da transcrição.

Nós suportamos MP3, WAV, M4A, OGG, FLAC, WEBM e formatos mais comuns de áudio/vídeo. O tamanho máximo do arquivo é 50MB. Para arquivos maiores, considere a divisão do áudio primeiro.

Os usuários gratuitos podem transcrever até 5 minutos de áudio. Planos pagos suportam arquivos de áudio até 2 horas. Para gravações mais longas, use nossa API com processamento por lotes.

Nossos modelos atingem a precisão de 95%+ em fala clara em inglês. A precisão varia por linguagem, qualidade de áudio e ruído de fundo. Mais rápido Whisper e Whisper suportam 99 idiomas com diferentes níveis de precisão.

Sim, nossos modos avançados de transcrição podem identificar e etiquetar diferentes alto-falantes no áudio. Diarização do orador é especialmente útil para encontro transcrições, entrevistas e podcasts multipessoal onde você precisa saber quem disse o que.

A transcrição de streaming em tempo real está disponível através da nossa API usando o Faster Whisper. O áudio é processado em pedaços à medida que chega, entregando transcrições parciais com baixa latência. Isto é ideal para legendamento ao vivo e tomada de notas em tempo real.

Sim, nossa saída de transcrição inclui horários de tempo que podem ser exportados como arquivos SRT, VTT ou ASS. Isto é perfeito para adicionar legendas aos vídeos do YouTube, cursos on-line e conteúdo de mídia social.

Sim, todos os resultados da transcrição incluem selos de tempo de segmento por padrão. Os selos de tempo de nível Word também estão disponíveis, mostrando o tempo exato de início e fim para cada palavra no áudio.

O Whisper mais rápido é treinado em vários áudios e manipula um ruído moderado de fundo bem. Para gravações muito ruidosas, recomendamos executar o áudio através do nosso Enhancer de Áudio primeiro para melhorar a clareza antes da transcrição.

Sim, arquivos de áudio carregados são processados em nossos servidores GPU seguros e automaticamente apagados após transcrição completa. Não armazenamos, compartilhamos ou usamos seu áudio para fins de treinamento. Todas as transferências são cifradas.

Os usuários gratuitos podem transcrever até 5 minutos de áudio sem custo. Os planos pagos usam caracteres baseados na duração do áudio: aproximadamente 1.000 caracteres por minuto de áudio. Verifique a nossa página de preços para informações detalhadas sobre planos e pacotes de caracteres.
5.0/5 (1)

O que podemos melhorar? Seu feedback nos ajuda a resolver problemas.

Transcriba áudio com IA

Obtenha transcrições precisas em 99 idiomas. Inscreva-se livre e obtenha 15.000 caracteres para começar.