Từ nói sang văn bảnName

Transcribe audio and video to text with AI. Hỗ trợ 99 ngôn ngữ, dấu thời gian, và phát hiện người nói.

Tải lên âm thanh

Kéo và thả tập tin vào đây, hoặc duyệt

Supports MP3, WAV, FLAC, OGG, M4A, MP4, WebM. Max 100MB.

file.mp3

0 MB
— hoặc ghi âm từ micro của bạn —
00:00

Thiết lập

1 credits Sign up to track usage

Phiên âm

Tải lên một tập tin âm thanh và nhấn vào Transcribe để bắt đầu

Đang phiên âm... có thể mất một chút thời gian.

Đã phát hiện:

Nó hoạt động thế nào?

Tải lên âm thanh

Tải lên tập tin âm thanh hoặc video của bạn. Chúng tôi hỗ trợ các định dạng MP3, WAV, FLAC, OGG, M4A, MP4, và WebM lên đến 100MB.

2. AI Transcribes

Mô hình AI của chúng tôi xử lý âm thanh của bạn, phát hiện ngôn ngữ, xác định người nói, và tạo ra văn bản chính xác với dấu thời gian.

3. Lấy văn bản của bạn

Copy your transcription or download it as TXT or SRT subtitle format. Edit and refine as needed.

Ví dụ sử dụng

Lời nói thành văn bản cho mọi ngành công nghiệp và luồng công việc

Hội nghị và cuộc họpName

Tự động phiên dịch Zoom, Teams, và Google Meet ghi âm. Đừng bao giờ bỏ lỡ một mục hành động nữa. Xuất khẩu như ghi chú cuộc họp hoặc phụ đề.

Phỏng vấn và báo chí

Transcript interviews for articles, research papers, and documentaries. Speaker diarization identifies who said what for easy attribution.

Truyền thông và Podcast

Tạo bản ghi và hiển thị ghi chú cho các tập podcast. Tạo các kho lưu có thể tìm kiếm của nội dung âm thanh của bạn. Thêm phụ đề cho các podcast video.

Thuyết trình & Giáo dục

Thay đổi bài giảng ghi âm thành ghi chú học tập. Làm cho nội dung giáo dục dễ tiếp cận với phụ đề chính xác. Hỗ trợ học sinh bị suy giảm thính giác.

Đọc chép y họcName

Transcript doctor-patient consultations, clinical notes, and medical dictation. Save hours of manual documentation with AI-powered precision.

Quy trình pháp lý

Transcript statements, hearing, and client meetings. Precise time stamps for legal reference. Export in formats suitable for court documentation.

So sánh mô hình STT

Whisper

OpenAI's robust speech recognition model supporting 99 languages.

  • 0 ngôn ngữ
  • 99 languages
  • Translation
  • Timestamps
  • Robust to noise
OpenAI

Faster Whisper

4x faster than Whisper with CTranslate2 optimization, same accuracy.

  • 0 ngôn ngữ
  • 4x faster
  • Lower memory
  • All model sizes
  • Batch processing
  • VAD filtering
SYSTRAN

SenseVoice

Speech understanding model with emotion detection, 50+ languages.

  • 0 ngôn ngữ
  • 50+ languages
  • Emotion detection
  • Audio events
  • Speaker analysis
  • Rich metadata
Alibaba (FunAudioLLM)

Speech-to-Text Plans

Start free, upgrade when you need more

Free
  • 1-minute audio limit
  • Faster Whisper model
  • Basic transcription
  • 100+ languages
Most Popular
Free Account
  • 30-minute audio + 50 credits
  • All STT models
  • Word-level timestamps
  • SRT & VTT subtitle export
  • Speaker diarization
Sign Up Free
Pro
  • 2-hour audio files
  • Batch transcription
  • Priority processing
  • API access
  • Custom vocabulary
Upgrade

Câu hỏi thường gặp

Speech to text (STT), also called automatic speech recognition (ASR), converts spoken language into written text. Our models use AI to accurately transcribe audio from meetings, interviews, podcasts, lectures, and more.

Faster Whisper is recommended for most use cases — it's 4x faster than the original Whisper while maintaining the same accuracy. Use SenseVoice if you need emotion detection or audio event detection alongside transcription.

Chúng tôi hỗ trợ các định dạng MP3, WAV, M4A, OGG, FLAC, WEBM, và hầu hết các định dạng âm thanh/video phổ biến. Cỡ tập tin tối đa là 50MB. Đối với các tập tin lớn hơn, hãy xem xét tách âm thanh trước.

Free users can transcribe up to 5 minutes of audio. Paid plans support audio files up to 2 hours. For longer recordings, use our API with batch processing.

Our models achieve 95%+ accuracy on clear English speech. Accuracy varies by language, audio quality, and background noise. Faster Whisper and Whisper support 99 languages with varying accuracy levels.

Yes, our advanced transcription modes can identify and label different speakers in the audio. Speaker diarization is especially useful for meeting transcripts, interviews, and multi-person podcasts where you need to know who said what.

Transcript thời gian thực có sẵn thông qua API của chúng tôi sử dụng Faster Whisper. Âm thanh được xử lý theo từng mảnh khi nó đến, cung cấp transcript một phần với độ trễ thấp. Điều này lý tưởng cho phụ đề trực tiếp và ghi chú thời gian thực.

Yes, our transcription output includes word-level timestamps that can be exported as SRT, VTT, or ASS subtitle files. This is perfect for adding captions to YouTube videos, online courses, and social media content.

Yes, all transcription results include segment-level timestamps by default. Word-level timestamps are also available, showing the exact start and end time for each word in the audio.

Faster Whisper được huấn luyện cho âm thanh đa dạng và xử lý tốt tiếng ồn nền trung bình. Đối với các bản ghi rất ồn, chúng tôi khuyến cáo chạy âm thanh qua Audio Enhancer trước để cải thiện độ rõ trước khi phiên âm.

Vâng, tập tin âm thanh tải lên sẽ được xử lý trên máy chủ GPU an toàn của chúng tôi và tự động xóa sau khi phiên âm hoàn tất. Chúng tôi không lưu, chia sẻ, hay sử dụng âm thanh của bạn cho mục đích huấn luyện. Tất cả các giao dịch đều được mã hóa.

Free users can transcribe up to 5 minutes of audio at no cost. Paid plans use credits based on audio duration: approximately 1 credit per minute of audio. Check our pricing page for detailed plan information and credit bundles.
5.0/5 (1)

Phiên âm âm thanh với AI

Get accurate transcriptions in 99 languages. Sign up free and get 50 credits to start.