AI Audio Inpainting

Ersetzen Sie einen Abschnitt des Audios durch KI-synthesized Rede, die die umgebende Stimme entspricht. Beheben Sie eine schlechte Take, ohne die ganze Sache neu aufzunehmen.

Audio auf Inpaint hochladen

500 Zeichen pro Sekunde Audio ersetzt

Drag & Drop Ihre Datei hier, oder durchsuchen

Supports MP3, WAV, FLAC, OGG, M4A. Max 500 MB (2 GB on paid plans). Up to 10 minutes.

Datei.mp3

0 MB

Quelle Audio — Peeling, um die schlechte Take zu finden

0.00s / 0.00s

Inpaint-Einstellungen

0 / 500 Zeichen
Wie lange man die Spleißpunkte mischt. 80ms ist die Standardeinstellung – Match-Cuts fühlen sich natürlich an, kein hörbarer Doppeltrigger.
Melde dich kostenlos an, um Audio-Inpainting zu verwenden
Inpainting Audio...

Klonen der Stimme und Synthetisieren des Ersatzes...

Schneiden → Klonen umliegende Stimme → Spleißen mit Crossfade
Nehmen Sie eine Weile? Ihr Ergebnis wird in Ihrem erscheinen Erzeugungsgeschichte Wenn bereit.
Bemaltes Audio bereit

Vorher (Original)

Nach (bemalt)

Download Bemaltes Audio

Wie Audio-Inpainting funktioniert

Inpainting ist das Audio-Äquivalent von Photoshops Content-aware-Fill. Wir klonen die Stimme aus dem Audio, das Ihre Auswahl umgibt, synthetisieren die neue Zeile in dieser Stimme und schneiden sie mit einem kurzen Crossfade zurück.

Beste Ergebnisse: Lassen Sie mindestens 3 Sekunden saubere Rede unmittelbar vor dem Bearbeitungspunkt, so dass der Kloner gutes Referenzmaterial hat.

Tipps für beste Ergebnisse

  • Halten Sie den markierten Bereich so eng wie möglich - nur die schlechte nehmen
  • Ersatztext sollte ungefähr die gleiche Länge haben wie das, was er ersetzt
  • Stellen Sie die Sprache, um die Quelle Audio für die beste Stimme entsprechen
  • 80ms Crossfade ist in der Regel unsichtbar; Stoß auf 150ms, wenn Sie einen Klick hören
  • Bei langen Bearbeitungen (>10s) sollten Sie stattdessen die gesamte Passage neu aufnehmen.

Wie AI Audio Inpainting funktioniert

Chirurgische Edits, voice-matched, ohne Wiederaufnahme Sitzung.

Schritt 1

Hochladen + Bereich markieren

Laden Sie Ihr Audio hoch und markieren Sie mit dem Wäscher den Anfang/das Ende des Abschnitts, den Sie ersetzen möchten. Geben Sie den Ersatztext ein.

Schritt 2

Stimme Klonen + Synthesize

Wir extrahieren bis zu 12 Sekunden saubere Referenz-Audio rund um Ihre Auswahl, klonen die Stimme des Lautsprechers, und synthetisieren die neue Zeile in dieser Stimme.

Schritt 3

Crossfade Splice

Der synthetisierte Clip wird an beiden Editierpunkten mit einem gleichberechtigten Crossfade in die Originalaufnahme eingeschnitten. Die Grenzen sind unhörbar.

Audio-Inpainting-Pläne

Starten Sie kostenlos, aktualisieren Sie, wenn Sie mehr benötigen

Frei
  • Bis zu 10-Minuten-Quelldateien
  • 500-Zeichen-Ersatztext
  • 4-Sekunden-Inpaint pro Anfrage
  • 80ms Crossfade-Splice
  • OpenVoice + CosyVoice 2 Backends
Am beliebtesten
Kostenloses Konto
  • Bis zu 10-Minuten-Quelldateien
  • 5.000-Zeichen-Ersatztext
  • Abstimmbare Crossfade (0-250ms)
  • Sprachmodellüberschreiben
  • Erzeugungshistorie + re-edit
Kostenlos anmelden
Pro
  • Bis zu 30-Minuten-Quelldateien
  • 100,000-Zeichen-Ersatztext
  • Prioritäts-GPU-Warteschlange
  • API-Zugriff (/v1/audio-int/)
  • Batch-Inpainting (mehrere Bereiche)
Aktualisierung

Häufig gestellte Fragen

Mit Audio-Inpainting (auch Audio-Fill oder Speaking Overdub genannt) können Sie einen Abschnitt einer vorhandenen Audioaufnahme durch eine neue KI-Synthesize-Sprache ersetzen, die mit der ursprünglichen Stimme übereinstimmt. Es ist das Audio-Äquivalent von Photoshops Content-Aware-Fill – malen Sie über den Teil, den Sie nicht wollen, geben Sie ein, was stattdessen da sein sollte, und die KI erzeugt einen nahtlosen Ersatz.

Markieren Sie den Zeitbereich, um die neue Dialogzeile zu ersetzen, geben Sie die neue Dialogzeile ein und klicken Sie auf Inpaint. Unsere KI klont die Stimme aus dem Audio, das Ihre Auswahl umgibt, synthetisiert die neue Zeile in dieser Stimme und schneidet sie mit einem kurzen Crossfade in Ihre Aufnahme zurück, so dass die Bearbeitung nicht hörbar ist.

Verwenden Sie es, wenn Sie ein einziges schlechtes Wort haben, falsche Aussprache, Namen rutschen, schwören Wort, oder Tatsache Fehler in einem anderen guten nehmen. Wiederaufnahme der gesamten Passage führt oft tonale Fehlanpassung mit dem Rest des Projekts — Inpainting behebt nur, was repariert werden muss, während jede andere Silbe intakt zu halten.

Freie Benutzer können Dateien bis zu 10 Minuten lang bemalen. Abonnenten können Dateien bis zu 30 Minuten bemalen. Der Ersatztext selbst ist mit 500 Zeichen für freie Benutzer, 5.000 für kostenlose Konten und 100.000 für bezahlte Pläne begrenzt.

Sehr nah. Die KI nutzt bis zu 12 Sekunden Audio rund um die Editierung als Sprachreferenz, was für jedes unserer klonfähigen Modelle (OpenVoice, CosyVoice 2) ausreicht, um die Klangfarbe, Tonhöhe und Sprechstil des Lautsprechers einzufangen. Für beste Ergebnisse, lassen Sie mindestens 3 Sekunden saubere Sprache direkt vor dem Bearbeitungspunkt.

An beiden Spleißpunkten (head→replacement und replacement→tail) wenden wir standardmäßig eine 80ms gleichberechtigte Crossfade an. Über den Crossfade-Slider können Sie diese von 0ms (hard cut) bis zu 250ms einstellen. Längere Crossfades verstecken die Bearbeitung gründlicher, können aber überlappende Wörter an der Grenze hörbar mischen.

Wir wählen OpenVoice für die meisten Sprachen und CosyVoice 2 für Chinesisch, Japanisch und Koreanisch. Sie können das Modell in erweiterten Einstellungen überschreiben.

Sie werden 500 Zeichen pro Sekunde Audio ersetzt berechnet. Ein 4-Sekunden-Fix kostet 2.000 Zeichen. Die Kosten sind unabhängig davon, wie lange der Ersatztext ist, da die zugrunde liegende Klonsynthese durch die Laufzeit des neuen Clips, nicht die Textlänge gegated wird.

Nach unseren Nutzungsbedingungen dürfen Sie Audio nur inpaint besitzen oder haben ausdrückliche Erlaubnis zu bearbeiten. Das Erzeugen von gefälschten Zitaten, täuschenden Inhalten oder Impersonationen ist verboten. Wir markieren Audio generiert und protokollieren alle Inpainting-Jobs zur Missbrauchsüberprüfung.

Das Schneiden eines Clips hinterlässt eine spürbare Lücke in Tempo und Atem; Kreuzfaulung zwei nimmt ein tonales Missverhältnis. Inpainting füllt die Lücke mit Sprache, die der umgebenden Stimme entspricht, so hören Zuhörer kontinuierliche, natürlich klingende Audio.

Ja — POST auf /v1/audio-inpaint/ mit der Audiodatei, start_sec, end_sec und replacement_text. Der Endpunkt gibt einen Job UUID; Umfrage /v1/speech/results/?uuid= zurück, um das angestrichene Audio abzurufen, wenn es fertig ist. Siehe API-Dokumente für Details.

ElevenLabs Speech-to-Speech regeneriert die gesamte Sprachlinie von Grund auf in einer Zielstimme. Unsere Audio-Inpainting ist operativ: Sie bearbeitet nur den markierten Bereich, hält jedes andere Byte Ihrer Originalaufnahme unberührt und passt den neuen Clip eher zur umgebenden Stimme als zur separaten Sprachbibliothek.
5.0/5 (1)

Was könnten wir verbessern? Ihr Feedback hilft uns, Probleme zu beheben.

Beheben Sie Ihr Audio in Sekunden

Ersetzen Sie jeden Teil einer Aufnahme durch KI-Synthesensprache, die der ursprünglichen Stimme entspricht. Melden Sie sich kostenlos zum Starten an.