Signaler la demande de bogue/caractère

Discours au texte

Transcrire audio et vidéo au texte avec l'IA. Prise en charge 99 langues, horodatage et détection des haut-parleurs.

Inscription gratuite

Télécharger audio ou vidéo

Faites glisser et déposez votre fichier ici, ou parcourir

Supporte MP3, WAV, FLAC, OGG, M4A, MP4, WebM. Gratuit jusqu'à 500 Mo · Pro jusqu'à 2 Go.

— ou enregistrer à partir de votre microphone —

00:00

Paramètres

Modèle

Langue

Inclure les horodatages

Diarisation des orateurs

1,000/min caractères — Inscrivez-vous pour suivre l'utilisation

Transcription

Télécharger un fichier audio et cliquez sur Transcribe pour commencer

Comment ça marche

1. Télécharger l'audio

Téléchargez votre fichier audio ou vidéo. Nous prenons en charge les formats MP3, WAV, FLAC, OGG, M4A, MP4 et WebM jusqu'à 100 Mo.

2. Tracs d'IA

Nos modèles d'IA traitent votre audio, détectent le langage, identifient les haut-parleurs et génèrent du texte précis avec des horodatages.

3. Obtenez votre texte

Copiez votre transcription ou téléchargez-la sous-titres TXT ou SRT. Modifiez et raffinez au besoin.

Cas d'utilisation

Discours au texte pour tous les secteurs et tous les flux de travail

Réunions et conférences

Transcrivez automatiquement Zoom, Teams et Google Meet enregistrements. Ne manquez plus jamais un élément d'action. Exportez comme notes de réunion ou sous-titres.

Entretiens & Journalisme

Trancrivez des entrevues pour des articles, des documents de recherche et des documentaires. La diarisation des conférenciers identifie qui a dit ce qui pour une attribution facile.

Podcasts et médias

Générer des transcriptions et afficher des notes pour les épisodes podcast. Créer des archives consultables de votre contenu audio. Ajouter des sous-titres aux podcasts vidéo.

Conférences et éducation

Convertissez les conférences enregistrées en notes d'étude. Rendez le contenu éducatif accessible avec des sous-titres exacts.

Dictée médicale

Transcrire les consultations médecin-patient, les notes cliniques et la dictée médicale. Épargnez des heures de documentation manuelle avec une précision de l'IA.

Procédures judiciaires

Transcrire les dépositions, les audiences et les réunions des clients.

Comparaison des modèles STT

Whisper

Le modèle robuste de reconnaissance vocale d'OpenAI soutient 99 langues.

99 langues
Traduction
Timbres
Robuste au bruit

OpenAI

Faster Whisper

4x plus rapide que Whisper avec CTra2 optimisation, même précision.

4x plus vite
Mémoire inférieure
Toutes les tailles du modèle
Traitement par lots
Filtre VAD

SYSTRAN

SenseVoice

Modèle de compréhension vocale avec détection d'émotions, 50+ langues.

Plus de 50 langues
Détection de l'émotion
Événements audio
Analyse par le haut-parleur
Métadonnées riches

Alibaba (FunAudioLLM)

Plans de discours à texte

Commencez gratuitement, mise à niveau lorsque vous avez besoin de plus

Gratuit

Limite d'une minute d'audio
Modèle Whisper plus rapide
Transcription de base
Plus de 100 langues

Les plus populaires

Compte gratuit

30 minutes audio + 15 000 caractères
Tous les modèles STT
Horodatages au niveau des mots
Exportation de sous-titres SRT & VTT
Diarisation des orateurs

Inscription gratuite

Pour

Fichiers audio de 2 heures
Transcription par lots
Traitement prioritaire
Accès à l'API
Vocabulaire personnalisé

Mise à jour

Foire aux questions

Le discours au texte (STT), aussi appelé reconnaissance automatique de la parole (ASR), convertit la langue parlée en texte écrit. Nos modèles utilisent l'IA pour transcrire avec précision l'audio des réunions, interviews, podcasts, conférences, et plus encore.

Faster Whisper est recommandé pour la plupart des cas d'utilisation — il est 4x plus rapide que le Whisper original tout en conservant la même précision. Utilisez SenseVoice si vous avez besoin de détection d'émotions ou d'événements audio à côté de la transcription.

Nous prenons en charge les formats MP3, WAV, M4A, OGG, FLAC, WEBM et les formats audio/vidéo les plus courants.

Les utilisateurs gratuits peuvent transcrire jusqu'à 5 minutes d'audio. Les plans payants prennent en charge les fichiers audio jusqu'à 2 heures. Pour des enregistrements plus longs, utilisez notre API avec traitement par lots.

Nos modèles obtiennent une précision de 95%+ sur un langage clair en anglais. L'exactitude varie selon la langue, la qualité audio et le bruit de fond.

Oui, nos modes de transcription avancés permettent d'identifier et d'étiqueter différents haut-parleurs dans l'audio. La diarisation des haut-parleurs est particulièrement utile pour les transcriptions de réunions, les entrevues et les podcasts multi-personnes où vous devez savoir qui a dit quoi.

La transcription en streaming en temps réel est disponible via notre API en utilisant Faster Whisper. L'audio est traité en morceaux à son arrivée, fournissant des transcriptions partielles avec faible latence. Ceci est idéal pour le sous-titrage en direct et la prise de notes en temps réel.

Oui, notre sortie de transcription comprend des horodatages de niveau Word qui peuvent être exportés sous forme de fichiers sous-titrés SRT, VTT ou ASS. Ceci est parfait pour ajouter des légendes aux vidéos YouTube, aux cours en ligne et aux contenus sur les médias sociaux.

Oui, tous les résultats de transcription comprennent des horodatages de niveau segment par défaut. Des horodatages de niveau Word sont également disponibles, montrant l'heure exacte de début et de fin de chaque mot dans l'audio.

Faster Whisper est formé sur divers sons et gère le bruit de fond modéré bien. Pour des enregistrements très bruyants, nous vous recommandons de lancer l'audio à travers notre Audio Enhancer d'abord pour améliorer la clarté avant la transcription.

Oui, les fichiers audio téléchargés sont traités sur nos serveurs GPU sécurisés et automatiquement supprimés après la transcription est terminée. Nous ne stockons, ne partageons pas ou n'utilisons pas votre audio à des fins de formation. Tous les transferts sont cryptés.

Les utilisateurs gratuits peuvent transcrire jusqu'à 5 minutes d'audio sans frais. Les plans payants utilisent des caractères basés sur la durée audio : environ 1000 caractères par minute d'audio. Consultez notre page de prix pour obtenir des informations détaillées sur le plan et les packs de caractères.

5.0/5 (1)

Transcription de l'audio avec l'IA

Obtenez des transcriptions précises en 99 langues. Inscrivez-vous gratuitement et obtenez 15 000 caractères pour commencer.

Inscription gratuite Voir le prix

Discours au texte

Télécharger audio ou vidéo

Paramètres

Transcription

Comment ça marche

1. Télécharger l'audio

2. Tracs d'IA

3. Obtenez votre texte

Cas d'utilisation

Réunions et conférences

Entretiens & Journalisme

Podcasts et médias

Conférences et éducation

Dictée médicale

Procédures judiciaires

Comparaison des modèles STT

Whisper

Faster Whisper

SenseVoice

Plans de discours à texte

Foire aux questions

Qu'est-ce que le discours au texte (STT)?

Quel modèle de transcription est le meilleur?

Quels formats audio puis-je télécharger?

Y a-t-il une limite de temps pour la transcription?

Quelle est la précision de la transcription?

Le discours au texte soutient-il la diarisation des orateurs?

Je peux avoir une transcription en temps réel?

Puis-je générer des sous-titres ou des fichiers SRT?

Est-ce que la transcription inclut des horodatages?

Comment l'outil gère-t-il le bruit de fond?

Mes données audio sont-elles privées?

Combien coûte la parole au texte?

Transcription de l'audio avec l'IA