Discurso ao texto

Transcriba áudio e vídeo para texto com IA. Suporta 99 idiomas, marcas horárias e detecção de alto-falantes.

Carregar áudio

Arraste e largue o seu arquivo aqui, ou navegar

Supports MP3, WAV, FLAC, OGG, M4A, MP4, WebM. Max 100MB.

file.mp3

0 MB
— ou registo do seu microfone —
00:00

Configurações

1 credits Sign up to track usage

Transcrição

Carregue um arquivo de áudio e clique Transcribe para começar

Transcrição de áudio... pode demorar um momento.

Detectado:

Como funciona

1. Carregar áudio

Carregue seu arquivo de áudio ou vídeo. Nós suportamos MP3, WAV, FLAC, OGG, M4A, MP4, e formatos WebM até 100MB.

2. AI Transcrições

Nossos modelos de IA processam o seu áudio, detectando linguagem, identificando alto-falantes e gerando texto preciso com selos de tempo.

3. Obtenha seu texto

Copie sua transcrição ou baixe-a como formato de subtítulo TXT ou SRT. Edite e refine conforme necessário.

Casos de utilização

Discurso a texto para todas as indústrias e fluxos de trabalho

Reuniões e Conferências

Transcriba automaticamente Zoom, Teams e Google Meet as gravações. Nunca mais perca um item de ação. Exportar como notas de reunião ou legendas.

Entrevistas e Jornalismo

Transcriba entrevistas para artigos, trabalhos de pesquisa e documentários. Diarização do orador identifica quem disse o que para fácil atribuição.

Podcasts e mídias

Gerar transcrições e mostrar notas para episódios de podcast. Criar arquivos pesquisáveis de seu conteúdo de áudio. Adicionar legendas para podcasts de vídeo.

Conferências & Educação

Converta palestras gravadas em notas de estudo. Torne o conteúdo educacional acessível com legendas precisas. Apoiar os alunos com deficiência auditiva.

Dicionário Médico

Transcriba consultas médicas-pacientes, notas clínicas e dicionários médicos. Poupa horas de documentação manual com acurácia de IA.

Procedimentos jurídicos

Transcriba deposições, audições e reuniões de clientes. Tempos precisos para referência legal. Exportação em formatos adequados para a documentação do tribunal.

Comparação do modelo STT

Whisper

OpenAI's robust speech recognition model supporting 99 languages.

  • 0 Línguas
  • 99 languages
  • Translation
  • Timestamps
  • Robust to noise
OpenAI

Faster Whisper

4x faster than Whisper with CTranslate2 optimization, same accuracy.

  • 0 Línguas
  • 4x faster
  • Lower memory
  • All model sizes
  • Batch processing
  • VAD filtering
SYSTRAN

SenseVoice

Speech understanding model with emotion detection, 50+ languages.

  • 0 Línguas
  • 50+ languages
  • Emotion detection
  • Audio events
  • Speaker analysis
  • Rich metadata
Alibaba (FunAudioLLM)

Speech-to-Text Plans

Start free, upgrade when you need more

Free
  • 1-minute audio limit
  • Faster Whisper model
  • Basic transcription
  • 100+ languages
Most Popular
Free Account
  • 30-minute audio + 50 credits
  • All STT models
  • Word-level timestamps
  • SRT & VTT subtitle export
  • Speaker diarization
Sign Up Free
Pro
  • 2-hour audio files
  • Batch transcription
  • Priority processing
  • API access
  • Custom vocabulary
Upgrade

Perguntas Frequentes

Speech to text (STT), also called automatic speech recognition (ASR), converts spoken language into written text. Our models use AI to accurately transcribe audio from meetings, interviews, podcasts, lectures, and more.

Faster Whisper is recommended for most use cases — it's 4x faster than the original Whisper while maintaining the same accuracy. Use SenseVoice if you need emotion detection or audio event detection alongside transcription.

Nós suportamos MP3, WAV, M4A, OGG, FLAC, WEBM e formatos mais comuns de áudio/vídeo. O tamanho máximo do arquivo é 50MB. Para arquivos maiores, considere a divisão do áudio primeiro.

Free users can transcribe up to 5 minutes of audio. Paid plans support audio files up to 2 hours. For longer recordings, use our API with batch processing.

Our models achieve 95%+ accuracy on clear English speech. Accuracy varies by language, audio quality, and background noise. Faster Whisper and Whisper support 99 languages with varying accuracy levels.

Yes, our advanced transcription modes can identify and label different speakers in the audio. Speaker diarization is especially useful for meeting transcripts, interviews, and multi-person podcasts where you need to know who said what.

A transcrição de streaming em tempo real está disponível através da nossa API usando o Faster Whisper. O áudio é processado em pedaços à medida que chega, entregando transcrições parciais com baixa latência. Isto é ideal para legendamento ao vivo e tomada de notas em tempo real.

Yes, our transcription output includes word-level timestamps that can be exported as SRT, VTT, or ASS subtitle files. This is perfect for adding captions to YouTube videos, online courses, and social media content.

Yes, all transcription results include segment-level timestamps by default. Word-level timestamps are also available, showing the exact start and end time for each word in the audio.

O Whisper mais rápido é treinado em vários áudios e manipula um ruído moderado de fundo bem. Para gravações muito ruidosas, recomendamos executar o áudio através do nosso Enhancer de Áudio primeiro para melhorar a clareza antes da transcrição.

Sim, arquivos de áudio carregados são processados em nossos servidores GPU seguros e automaticamente apagados após transcrição completa. Não armazenamos, compartilhamos ou usamos seu áudio para fins de treinamento. Todas as transferências são cifradas.

Free users can transcribe up to 5 minutes of audio at no cost. Paid plans use credits based on audio duration: approximately 1 credit per minute of audio. Check our pricing page for detailed plan information and credit bundles.
5.0/5 (1)

Transcriba áudio com IA

Obtenha transcrições precisas em 99 idiomas. Inscreva-se gratuitamente e obtenha 50 créditos para começar.