Report Bug / Feature Request

Từ nói sang văn bản

Transcribe audio and video to text with AI. Hỗ trợ 99 ngôn ngữ, dấu thời gian, và phát hiện người nói.

Tải lên âm thanh hoặc phim

Kéo và thả tập tin vào đây, hoặc duyệt

Hỗ trợ MP3, WAV, FLAC, OGG, M4A, MP4, WebM. Tối đa 100MB.

file.mp3

0 MB
— hoặc ghi âm từ micro của bạn —
00:00

Thiết lập

1,000/min chữ cái Đăng ký to track usage

Phiên âm

Tải lên một tập tin âm thanh và nhấn vào Transcribe để bắt đầu

Đang phiên âm... có thể mất một chút thời gian.

Đã phát hiện:

Nó hoạt động thế nào?

Tải lên âm thanh

Tải lên tập tin âm thanh hoặc video của bạn. Chúng tôi hỗ trợ các định dạng MP3, WAV, FLAC, OGG, M4A, MP4, và WebM lên đến 100MB.

2. AI Transcribes

Mô hình AI của chúng tôi xử lý âm thanh của bạn, phát hiện ngôn ngữ, xác định người nói, và tạo ra văn bản chính xác với dấu thời gian.

3. Nhập văn bản

Copy your transcription or download it as TXT or SRT subtitle format. Edit and refine as needed.

Tình huống sử dụng

Lời nói thành văn bản cho mọi ngành công nghiệp và luồng công việc

Hội nghị

Tự động chuyển đổi Zoom, Teams, và Google Meet ghi âm. Đừng bao giờ bỏ lỡ một mục hành động nữa. Xuất khẩu như ghi chú cuộc họp hoặc phụ đề.

Phỏng vấn và báo chí

Transcript interviews for articles, research papers, and documentaries. Speaker diarization identify who said what for easy attribution.

Truyền thông và Podcast

Tạo bản ghi và hiển thị ghi chú cho các tập podcast. Tạo các kho lưu có thể tìm kiếm của nội dung âm thanh của bạn. Thêm phụ đề cho các podcast video.

Thuyết trình và giáo dục

Thay đổi bài giảng ghi âm thành ghi chú học tập. Làm cho nội dung giáo dục dễ tiếp cận với phụ đề chính xác. Hỗ trợ học sinh bị suy giảm thính giác.

Đọc chép y họcName

Transcript doctor-patient consultations, clinical notes, and medical dictation. Save hours of manual documentation with AI-powered accuracy.

Thẩm phán

Transcript statements, hearing, and client meetings. Precise time stamps for legal reference. Export in formats suitable for court documentation.

So sánh mô hình STT

Whisper

Mô hình nhận dạng giọng nói mạnh mẽ của OpenAI hỗ trợ 99 ngôn ngữ.

  • 99 ngôn ngữ
  • Dịch
  • Thời gian
  • Được bảo vệ khỏi tiếng ồn
OpenAI

Faster Whisper

Nhanh hơn 4 lần so với Whisper với tối ưu hóa CTranslate2, cùng độ chính xác.

  • Nhanh hơn 4 lần
  • Hạ bộ nhớ
  • Tất cả kích thước mô hình
  • Xử lý hàng loạt
  • Bộ lọc VAD
SYSTRAN

SenseVoice

Speech understanding model with emotion detection, 50+ languages (bằng tiếng Anh).

  • 50+ ngôn ngữ
  • Phát hiện cảm xúc
  • Sự kiện âm thanh
  • Phân tích loa
  • Siêu dữ liệu phong phú
Alibaba (FunAudioLLM)

Kế hoạch chuyển từ nói sang văn bảnName

Bắt đầu miễn phí, nâng cấp khi cần nhiều hơn

Tự do
  • Giới hạn âm thanh 1 phút
  • Mô hình Whisper nhanh hơn
  • Phiên âm cơ bản
  • 100+ ngôn ngữ
Nổi tiếng nhất
Tài khoản miễn phí
  • Âm thanh 30 phút + 15.000 ký tự
  • Tất cả các mẫu STT
  • Thời gian cấp từ
  • Xuất phụ đề SRT & VTT
  • Tự động
Đăng ký miễn phí
Tốt
  • Tập tin âm thanh 2 giờ
  • Phiên âm hàng loạt
  • Xử lý ưu tiên
  • Truy cập API
  • Từ vựng tùy chỉnh
Cập nhật

Câu hỏi thường gặp

Speech to text (STT), còn được gọi là tự động nhận dạng giọng nói (ASR), chuyển ngôn ngữ nói thành văn bản viết. Các mô hình của chúng tôi sử dụng AI để phiên dịch chính xác âm thanh từ các cuộc họp, phỏng vấn, podcast, bài giảng, và nhiều hơn nữa.

Faster Whisper được khuyến cáo cho hầu hết các trường hợp sử dụng — nó nhanh hơn 4 lần so với Whisper gốc trong khi vẫn giữ được độ chính xác tương tự. Dùng SenseVoice nếu bạn cần phát hiện cảm xúc hoặc phát hiện sự kiện âm thanh cùng với phiên âm.

Chúng tôi hỗ trợ MP3, WAV, M4A, OGG, FLAC, WEBM, và hầu hết các định dạng âm thanh/video phổ biến. Cỡ tập tin tối đa là 50MB. Đối với các tập tin lớn, hãy xem xét chia âm thanh trước.

Người dùng miễn phí có thể phiên âm lên đến 5 phút âm thanh. Các gói trả phí hỗ trợ các tập tin âm thanh lên đến 2 giờ. Đối với các bản ghi dài hơn, hãy sử dụng API của chúng tôi với xử lý theo lô.

Các mô hình của chúng tôi đạt được độ chính xác 95% + trên tiếng Anh nói rõ ràng. Độ chính xác khác nhau tùy theo ngôn ngữ, chất lượng âm thanh, và tiếng ồn nền. Faster Whisper và Whisper hỗ trợ 99 ngôn ngữ với mức độ chính xác khác nhau.

Có, chế độ phiên âm cao cấp của chúng tôi có thể nhận dạng và dán nhãn các người nói khác nhau trong âm thanh. Tính diarization của người nói đặc biệt hữu ích cho phiên âm cuộc họp, phỏng vấn, và podcast đa người nơi bạn cần biết ai nói gì.

Transcript thời gian thực có sẵn thông qua API của chúng tôi sử dụng Faster Whisper. Âm thanh được xử lý theo từng mảnh khi nó đến, cung cấp transcript một phần với độ trễ thấp. Điều này lý tưởng cho phụ đề trực tiếp và ghi chú thời gian thực.

Có, kết quả phiên dịch của chúng tôi bao gồm dấu thời gian ở cấp từ có thể xuất thành tập tin phụ đề SRT, VTT, hoặc ASS. Điều này hoàn hảo cho việc thêm phụ đề vào video YouTube, khóa học trực tuyến, và nội dung truyền thông xã hội.

Vâng, tất cả kết quả phiên âm bao gồm dấu thời gian cấp đoạn theo mặc định. Dấu thời gian cấp từ cũng có sẵn, hiển thị thời gian bắt đầu và kết thúc chính xác cho mỗi từ trong âm thanh.

Faster Whisper được huấn luyện cho nhiều âm thanh khác nhau và xử lý tốt tiếng ồn nền trung bình. Đối với các bản ghi rất ồn, chúng tôi khuyên bạn nên chạy âm thanh qua trình tăng cường âm thanh trước để cải thiện độ rõ trước khi phiên âm.

Vâng, tập tin âm thanh tải lên sẽ được xử lý trên máy chủ GPU an toàn của chúng tôi và tự động xóa sau khi phiên âm hoàn tất. Chúng tôi không lưu, chia sẻ, hay sử dụng âm thanh của bạn cho mục đích huấn luyện. Tất cả các giao dịch đều được mã hóa.

Người dùng miễn phí có thể phiên dịch lên đến 5 phút âm thanh miễn phí. Các kế hoạch trả tiền sử dụng các ký tự dựa trên thời lượng âm thanh: khoảng 1. 000 ký tự mỗi phút âm thanh. Xem trang giá của chúng tôi để biết thông tin chi tiết về kế hoạch và gói ký tự.
5.0/5 (1)

Chúng tôi có thể cải thiện gì? phản hồi của bạn giúp chúng tôi khắc phục vấn đề.

Transcript âm thanh với AI

Nhập 15,000 ký tự để bắt đầu.