Informar de Bug / Pedido de Feature

Discurso ao texto

Transcriba áudio e vídeo para texto com IA. Suporta 99 idiomas, marcas horárias e detecção de alto-falantes.

Inscreva-se gratuitamente

Envie áudio ou vídeo

Arraste e largue o seu arquivo aqui, ou navegar

Suporta MP3, WAV, FLAC, OGG, M4A, MP4, WebM. Livre até 500 MB · Pro até 2 GB.

— ou registo do seu microfone —

00:00

Configurações

Modelo

Língua

Incluir os selos de tempo

Diarização dos oradores

1,000/min caracteres — Inscrever-se para acompanhar o uso

Transcrição

Carregue um arquivo de áudio e clique Transcribe para começar

Como funciona

1. Carregar áudio

Carregue seu arquivo de áudio ou vídeo. Nós suportamos MP3, WAV, FLAC, OGG, M4A, MP4, e formatos WebM até 100MB.

2. AI Transcrições

Nossos modelos de IA processam o seu áudio, detectando linguagem, identificando alto-falantes e gerando texto preciso com selos de tempo.

3. Obtenha seu texto

Copie sua transcrição ou baixe-a como formato de subtítulo TXT ou SRT. Edite e refine conforme necessário.

Casos de utilização

Discurso a texto para todas as indústrias e fluxos de trabalho

Reuniões e Conferências

Transcriba automaticamente Zoom, Teams e Google Meet as gravações. Nunca mais perca um item de ação. Exportar como notas de reunião ou legendas.

Entrevistas e Jornalismo

Transcriba entrevistas para artigos, trabalhos de pesquisa e documentários. Diarização do orador identifica quem disse o que para fácil atribuição.

Podcasts e mídias

Gerar transcrições e mostrar notas para episódios de podcast. Criar arquivos pesquisáveis de seu conteúdo de áudio. Adicionar legendas para podcasts de vídeo.

Conferências & Educação

Converta palestras gravadas em notas de estudo. Torne o conteúdo educacional acessível com legendas precisas. Apoiar os alunos com deficiência auditiva.

Dicionário Médico

Transcriba consultas médicas-pacientes, notas clínicas e dicionários médicos. Poupa horas de documentação manual com acurácia de IA.

Procedimentos jurídicos

Transcriba deposições, audições e reuniões de clientes. Tempos precisos para referência legal. Exportação em formatos adequados para a documentação do tribunal.

Comparação do modelo STT

Whisper

O robusto modelo de reconhecimento de fala da OpenAI apoia 99 línguas.

99 línguas
Tradução
Selos de tempo
Robusto ao barulho

OpenAI

Faster Whisper

4x mais rápido do que Whisper com otimização CTranslate2, a mesma precisão.

4x mais rápido
Memória inferior
Todos os tamanhos dos modelos
Processamento de lote
Filtragem VAD

SYSTRAN

SenseVoice

Modelo de compreensão da fala com detecção de emoções, 50+ línguas.

Mais de 50 idiomas
Detecção de emoções
Eventos de áudio
Análise dos oradores
Metadados ricos

Alibaba (FunAudioLLM)

Planos de fala a texto

Comece livre, atualização quando você precisa mais

Grátis

Limite de 1 minuto de áudio
Modelo de Whisper mais rápido
Transcrição básica
100 mais línguas

Mais Popular

Conta Livre

áudio de 30 minutos + 15.000 caracteres
Todos os modelos STT
Marcas horárias de nível de palavra
Exportação de subtítulos SRT & VTT
Diarização dos oradores

Inscreva-se gratuitamente

Pro

Arquivos de áudio de 2 horas
Transcrição de lote
Tratamento prioritário
Acesso à API
Vocabulário personalizado

Actualização

Perguntas Frequentes

Discurso ao texto (STT), também chamado reconhecimento automático da fala (ASR), converte a linguagem falada em texto escrito. Nossos modelos usam IA para transcribir com precisão áudio de reuniões, entrevistas, podcasts, palestras e muito mais.

O Whisper mais rápido é recomendado para a maioria dos casos de uso — é 4x mais rápido do que o Whisper original, mantendo a mesma precisão. Use SenseVoice se você precisar de detecção de emoções ou detecção de eventos de áudio ao lado da transcrição.

Nós suportamos MP3, WAV, M4A, OGG, FLAC, WEBM e formatos mais comuns de áudio/vídeo. O tamanho máximo do arquivo é 50MB. Para arquivos maiores, considere a divisão do áudio primeiro.

Os usuários gratuitos podem transcrever até 5 minutos de áudio. Planos pagos suportam arquivos de áudio até 2 horas. Para gravações mais longas, use nossa API com processamento por lotes.

Nossos modelos atingem a precisão de 95%+ em fala clara em inglês. A precisão varia por linguagem, qualidade de áudio e ruído de fundo. Mais rápido Whisper e Whisper suportam 99 idiomas com diferentes níveis de precisão.

Sim, nossos modos avançados de transcrição podem identificar e etiquetar diferentes alto-falantes no áudio. Diarização do orador é especialmente útil para encontro transcrições, entrevistas e podcasts multipessoal onde você precisa saber quem disse o que.

A transcrição de streaming em tempo real está disponível através da nossa API usando o Faster Whisper. O áudio é processado em pedaços à medida que chega, entregando transcrições parciais com baixa latência. Isto é ideal para legendamento ao vivo e tomada de notas em tempo real.

Sim, nossa saída de transcrição inclui horários de tempo que podem ser exportados como arquivos SRT, VTT ou ASS. Isto é perfeito para adicionar legendas aos vídeos do YouTube, cursos on-line e conteúdo de mídia social.

Sim, todos os resultados da transcrição incluem selos de tempo de segmento por padrão. Os selos de tempo de nível Word também estão disponíveis, mostrando o tempo exato de início e fim para cada palavra no áudio.

O Whisper mais rápido é treinado em vários áudios e manipula um ruído moderado de fundo bem. Para gravações muito ruidosas, recomendamos executar o áudio através do nosso Enhancer de Áudio primeiro para melhorar a clareza antes da transcrição.

Sim, arquivos de áudio carregados são processados em nossos servidores GPU seguros e automaticamente apagados após transcrição completa. Não armazenamos, compartilhamos ou usamos seu áudio para fins de treinamento. Todas as transferências são cifradas.

Os usuários gratuitos podem transcrever até 5 minutos de áudio sem custo. Os planos pagos usam caracteres baseados na duração do áudio: aproximadamente 1.000 caracteres por minuto de áudio. Verifique a nossa página de preços para informações detalhadas sobre planos e pacotes de caracteres.

5.0/5 (1)

Transcriba áudio com IA

Obtenha transcrições precisas em 99 idiomas. Inscreva-se livre e obtenha 15.000 caracteres para começar.

Inscreva-se gratuitamente Ver Preços

Discurso ao texto

Envie áudio ou vídeo

Configurações

Transcrição

Como funciona

1. Carregar áudio

2. AI Transcrições

3. Obtenha seu texto

Casos de utilização

Reuniões e Conferências

Entrevistas e Jornalismo

Podcasts e mídias

Conferências & Educação

Dicionário Médico

Procedimentos jurídicos

Comparação do modelo STT

Whisper

Faster Whisper

SenseVoice

Planos de fala a texto

Perguntas Frequentes

O que é a fala ao texto (STT)?

Qual é o melhor modelo de transcrição?

Que formatos de áudio posso fazer upload?

Existe um limite de tempo para a transcrição?

Quão precisa é a transcrição?

Será que o discurso ao texto apoia a diarização dos oradores?

Posso obter transcrição em tempo real?

Posso gerar legendas ou arquivos SRT?

A transcrição inclui selos de tempo?

Como a ferramenta lida com o ruído de fundo?

Os meus dados de áudio são privados?

Quanto custa a fala ao texto?

Transcriba áudio com IA