Imagerie audio de l'IA

Remplacez une section d'audio par un discours synthétisé AI qui correspond à la voix environnante. Corrigez une mauvaise prise sans réenregistrer l'ensemble.

Télécharger l'audio sur Inpaint

500 caractères par seconde d'audio remplacé

Faites glisser et déposez votre fichier ici, ou parcourir

Supports MP3, WAV, FLAC, OGG, M4A. Max 500 MB (2 GB on paid plans). Up to 10 minutes.

fichier.mp3

0 MB

Source audio — gommage pour trouver la mauvaise prise

0.00s / 0.00s

Paramètres de l' image

0 / 500 caractères
Combien de temps pour mélanger les points d'épissage. 80ms est la valeur par défaut — match-cuts se sentent naturels, pas de double-trigger audible.
Inscrivez-vous gratuitement pour utiliser l'inpeinture audio
En peignant l'audio...

Cloner la voix et synthétiser le remplacement...

Sciage → clonage autour de la voix → épissage avec la fade croisée
Vous prenez un peu de temps? Votre résultat apparaîtra dans votre histoire de la génération quand ils sont prêts.
Prêt à l'utilisation de l'audio peint

Avant (Original)

Après (incarné)

Télécharger Inpainted Audio

Comment fonctionne l'inpeinture audio

L'inpeinture est l'équivalent audio du remplissage de contenu de Photoshop. Nous clonons la voix de l'audio entourant votre sélection, synthétisez la nouvelle ligne dans cette voix, et recopiez-la avec une courte crossfade.

Meilleurs résultats : laissez au moins 3 secondes de parole propre immédiatement avant le point d'édition, de sorte que le cloner dispose d'un bon matériel de référence.

Conseils pour les meilleurs résultats

  • Gardez la plage marquée aussi serrée que possible — seulement la mauvaise prise
  • Le texte de remplacement devrait avoir à peu près la même longueur que ce qu'il remplace.
  • Définir la langue pour correspondre à l'audio source pour la meilleure correspondance vocale
  • 80ms crossfade est généralement invisible; bosse jusqu'à 150ms si vous entendez un clic
  • Pour les éditions longues (>10s), envisager de réenregistrer l'intégralité du passage à la place

Comment fonctionne l'inpeinture audio de l'IA

Éditions chirurgicales, appariées à la voix, sans session de réenregistrement.

Étape 1

Charger + Marquer la plage

Téléchargez votre audio et utilisez le gommage pour marquer le début/fin de la section que vous souhaitez remplacer. Tapez le texte de remplacement.

Étape 2

Clé vocale + Synthétisation

Nous extrait jusqu'à 12 secondes d'audio de référence propre entourant votre sélection, clone la voix de l'orateur, et synthétise la nouvelle ligne dans cette voix.

Étape 3

Épice à flasque croisé

Le clip synthétisé est plié dans l'enregistrement original avec une interface de puissance égale aux deux points d'édition. Les limites sont inaudibles.

Plans de peinture audio

Commencez gratuitement, mise à niveau lorsque vous avez besoin de plus

Gratuit
  • Jusqu'à 10 minutes de fichiers sources
  • Texte de remplacement de 500 caractères
  • 4 secondes de peinture par demande
  • Agrafe de 80 ms à flasme croisé
  • OpenVoice + CosyVoice 2 moteurs
Les plus populaires
Compte gratuit
  • Jusqu'à 10 minutes de fichiers sources
  • Texte de remplacement de 5 000 caractères
  • Fenêtres intercalaires (entre 0 et 250 ms)
  • Redéfinition du modèle vocal
  • Historique de la génération + réédition
Inscription gratuite
Pour
  • Jusqu'à 30 minutes de fichiers sources
  • Texte de remplacement de 100 000 caractères
  • file d'attente GPU prioritaire
  • Accès à l'API (/v1/audio-inpaint/)
  • Peinture par lots (intervalles multiples)
Mise à jour

Foire aux questions

L'inpeinture audio (également appelée remplissage audio ou overdub) vous permet de remplacer une section d'un enregistrement audio existant par un nouveau langage synthétique AI qui correspond à la voix d'origine. C'est l'équivalent audio du remplissage de contenu de Photoshop — peinture sur la partie que vous ne voulez pas, tapez ce qui devrait être là à la place, et l'IA génère un remplacement sans faille.

Marquez la plage de temps pour remplacer, tapez la nouvelle ligne de dialogue, et cliquez sur Inpaint. Notre AI clone la voix de l'audio entourant votre sélection, synthétise la nouvelle ligne dans cette voix, et l'enroule dans votre enregistrement avec une courte crossfade afin que l'édition soit inaudible.

Utilisez-le quand vous avez un seul mauvais mot, une mauvaise prononciation, un faux nom, un faux mot, ou une erreur de fait dans une prise autrement-bon. Re-enregistrer l'ensemble du passage introduit souvent l'inadéquation tonale avec le reste du projet — la peinture fixe seulement ce qui a besoin de fixer tout le reste syllabe intact.

Les utilisateurs gratuits peuvent peindre des fichiers jusqu'à 10 minutes. Les abonnés peuvent peindre des fichiers jusqu'à 30 minutes. Le texte de remplacement lui-même est plafonné à 500 caractères pour les utilisateurs gratuits, 5 000 pour les comptes gratuits et 100 000 pour les régimes payants.

Très proche. L'IA utilise jusqu'à 12 secondes d'audio entourant l'édition comme référence vocale, ce qui est suffisant pour tous nos modèles compatibles avec le clonage (OpenVoice, CosyVoice 2) pour capturer le timbre, la hauteur et le style de parole de l'enceinte. Pour de meilleurs résultats, laissez au moins 3 secondes de parole propre immédiatement avant le point d'édition.

Nous appliquons par défaut une coupe transversale de 80 ms d'égale puissance à la fois aux points d'épissage (head→replacement et remplacement→tail). Vous pouvez régler cela de 0 ms (coupe dure) jusqu'à 250 ms via le curseur Crossfade.

L'inpeinture audio suit la même couverture linguistique que le clonage vocal. Nous auto-pick OpenVoice pour la plupart des langues et CosyVoice 2 pour le chinois, le japonais et le coréen.

Vous êtes facturé 500 caractères par seconde d'audio remplacé. Une correction de 4 secondes coûte 2000 caractères. Le coût est indépendant de la durée du texte de remplacement, puisque la synthèse sous-jacente du clone est fermée par le temps d'exécution du nouveau clip, et non par la longueur du texte.

Selon nos Conditions d'utilisation, vous ne pouvez que créer de l'audio que vous possédez ou avoir la permission explicite de modifier. Générer de fausses citations, du contenu trompeur ou des imitations est interdit. Nous avons généré du filigrane audio et log tous les travaux de peinture pour l'examen d'abus.

Couper un clip laisse un écart notable dans le rythme et la respiration; le croisement de deux prend une inadéquation tonale. L'inpeinture comble l'écart avec la parole qui correspond à la voix environnante, de sorte que les auditeurs entendent un son continu et naturel.

Oui — POST to /v1/audio-inpaint/ with the audio file, start_sec, end_sec, and replacement_text. Le paramètre renvoie un travail UUID; poll /v1/speech/results/?uuid= pour récupérer l'audio inpainté une fois prêt.

OnzeLabs Speech-to-Speech régénère toute la ligne vocale à partir de zéro dans une voix cible. Notre inpeinture audio est chirurgicale : elle ne modifie que la plage marquée, garde chaque autre octet de votre enregistrement original intact, et correspond au nouveau clip à la voix environnante plutôt qu'à une bibliothèque vocale séparée.
5.0/5 (1)

Que pourrions-nous améliorer? Vos commentaires nous aident à résoudre les problèmes.

Correction de votre audio en secondes

Remplacez n'importe quelle partie de tout enregistrement par un discours synthétique AI qui correspond à la voix d'origine. Inscrivez-vous gratuitement pour commencer.