Fehler melden / Feature-Anforderung

AI Audio Inpainting

Ersetzen Sie einen Abschnitt des Audios durch KI-synthesized Rede, die die umgebende Stimme entspricht. Beheben Sie eine schlechte Take, ohne die ganze Sache neu aufzunehmen.

Kostenlos anmelden

Audio auf Inpaint hochladen

500 Zeichen pro Sekunde Audio ersetzt

Drag & Drop Ihre Datei hier, oder durchsuchen

Supports MP3, WAV, FLAC, OGG, M4A. Max 500 MB (2 GB on paid plans). Up to 10 minutes.

Inpaint-Einstellungen

Beginn (Sekunden)

Ende (Sekunden)

Ersetzung des Textes — was in der Lücke zu sagen ist 0 / 500 Zeichen

Sprache

Kreuzfade 80 ms Wie lange man die Spleißpunkte mischt. 80ms ist die Standardeinstellung – Match-Cuts fühlen sich natürlich an, kein hörbarer Doppeltrigger.

Melde dich kostenlos an, um Audio-Inpainting zu verwenden

Wie Audio-Inpainting funktioniert

Inpainting ist das Audio-Äquivalent von Photoshops Content-aware-Fill. Wir klonen die Stimme aus dem Audio, das Ihre Auswahl umgibt, synthetisieren die neue Zeile in dieser Stimme und schneiden sie mit einem kurzen Crossfade zurück.

Beste Ergebnisse: Lassen Sie mindestens 3 Sekunden saubere Rede unmittelbar vor dem Bearbeitungspunkt, so dass der Kloner gutes Referenzmaterial hat.

Tipps für beste Ergebnisse

Halten Sie den markierten Bereich so eng wie möglich - nur die schlechte nehmen
Ersatztext sollte ungefähr die gleiche Länge haben wie das, was er ersetzt
Stellen Sie die Sprache, um die Quelle Audio für die beste Stimme entsprechen
80ms Crossfade ist in der Regel unsichtbar; Stoß auf 150ms, wenn Sie einen Klick hören
Bei langen Bearbeitungen (>10s) sollten Sie stattdessen die gesamte Passage neu aufnehmen.

Wie AI Audio Inpainting funktioniert

Chirurgische Edits, voice-matched, ohne Wiederaufnahme Sitzung.

Schritt 1

Hochladen + Bereich markieren

Laden Sie Ihr Audio hoch und markieren Sie mit dem Wäscher den Anfang/das Ende des Abschnitts, den Sie ersetzen möchten. Geben Sie den Ersatztext ein.

Schritt 2

Stimme Klonen + Synthesize

Wir extrahieren bis zu 12 Sekunden saubere Referenz-Audio rund um Ihre Auswahl, klonen die Stimme des Lautsprechers, und synthetisieren die neue Zeile in dieser Stimme.

Schritt 3

Crossfade Splice

Der synthetisierte Clip wird an beiden Editierpunkten mit einem gleichberechtigten Crossfade in die Originalaufnahme eingeschnitten. Die Grenzen sind unhörbar.

Audio-Inpainting-Pläne

Starten Sie kostenlos, aktualisieren Sie, wenn Sie mehr benötigen

Frei

Bis zu 10-Minuten-Quelldateien
500-Zeichen-Ersatztext
4-Sekunden-Inpaint pro Anfrage
80ms Crossfade-Splice
OpenVoice + CosyVoice 2 Backends

Am beliebtesten

Kostenloses Konto

Bis zu 10-Minuten-Quelldateien
5.000-Zeichen-Ersatztext
Abstimmbare Crossfade (0-250ms)
Sprachmodellüberschreiben
Erzeugungshistorie + re-edit

Kostenlos anmelden

Pro

Bis zu 30-Minuten-Quelldateien
100,000-Zeichen-Ersatztext
Prioritäts-GPU-Warteschlange
API-Zugriff (/v1/audio-int/)
Batch-Inpainting (mehrere Bereiche)

Aktualisierung

Häufig gestellte Fragen

Mit Audio-Inpainting (auch Audio-Fill oder Speaking Overdub genannt) können Sie einen Abschnitt einer vorhandenen Audioaufnahme durch eine neue KI-Synthesize-Sprache ersetzen, die mit der ursprünglichen Stimme übereinstimmt. Es ist das Audio-Äquivalent von Photoshops Content-Aware-Fill – malen Sie über den Teil, den Sie nicht wollen, geben Sie ein, was stattdessen da sein sollte, und die KI erzeugt einen nahtlosen Ersatz.

Markieren Sie den Zeitbereich, um die neue Dialogzeile zu ersetzen, geben Sie die neue Dialogzeile ein und klicken Sie auf Inpaint. Unsere KI klont die Stimme aus dem Audio, das Ihre Auswahl umgibt, synthetisiert die neue Zeile in dieser Stimme und schneidet sie mit einem kurzen Crossfade in Ihre Aufnahme zurück, so dass die Bearbeitung nicht hörbar ist.

Verwenden Sie es, wenn Sie ein einziges schlechtes Wort haben, falsche Aussprache, Namen rutschen, schwören Wort, oder Tatsache Fehler in einem anderen guten nehmen. Wiederaufnahme der gesamten Passage führt oft tonale Fehlanpassung mit dem Rest des Projekts — Inpainting behebt nur, was repariert werden muss, während jede andere Silbe intakt zu halten.

Freie Benutzer können Dateien bis zu 10 Minuten lang bemalen. Abonnenten können Dateien bis zu 30 Minuten bemalen. Der Ersatztext selbst ist mit 500 Zeichen für freie Benutzer, 5.000 für kostenlose Konten und 100.000 für bezahlte Pläne begrenzt.

Sehr nah. Die KI nutzt bis zu 12 Sekunden Audio rund um die Editierung als Sprachreferenz, was für jedes unserer klonfähigen Modelle (OpenVoice, CosyVoice 2) ausreicht, um die Klangfarbe, Tonhöhe und Sprechstil des Lautsprechers einzufangen. Für beste Ergebnisse, lassen Sie mindestens 3 Sekunden saubere Sprache direkt vor dem Bearbeitungspunkt.

An beiden Spleißpunkten (head→replacement und replacement→tail) wenden wir standardmäßig eine 80ms gleichberechtigte Crossfade an. Über den Crossfade-Slider können Sie diese von 0ms (hard cut) bis zu 250ms einstellen. Längere Crossfades verstecken die Bearbeitung gründlicher, können aber überlappende Wörter an der Grenze hörbar mischen.

Wir wählen OpenVoice für die meisten Sprachen und CosyVoice 2 für Chinesisch, Japanisch und Koreanisch. Sie können das Modell in erweiterten Einstellungen überschreiben.

Sie werden 500 Zeichen pro Sekunde Audio ersetzt berechnet. Ein 4-Sekunden-Fix kostet 2.000 Zeichen. Die Kosten sind unabhängig davon, wie lange der Ersatztext ist, da die zugrunde liegende Klonsynthese durch die Laufzeit des neuen Clips, nicht die Textlänge gegated wird.

Nach unseren Nutzungsbedingungen dürfen Sie Audio nur inpaint besitzen oder haben ausdrückliche Erlaubnis zu bearbeiten. Das Erzeugen von gefälschten Zitaten, täuschenden Inhalten oder Impersonationen ist verboten. Wir markieren Audio generiert und protokollieren alle Inpainting-Jobs zur Missbrauchsüberprüfung.

Das Schneiden eines Clips hinterlässt eine spürbare Lücke in Tempo und Atem; Kreuzfaulung zwei nimmt ein tonales Missverhältnis. Inpainting füllt die Lücke mit Sprache, die der umgebenden Stimme entspricht, so hören Zuhörer kontinuierliche, natürlich klingende Audio.

Ja — POST auf /v1/audio-inpaint/ mit der Audiodatei, start_sec, end_sec und replacement_text. Der Endpunkt gibt einen Job UUID; Umfrage /v1/speech/results/?uuid= zurück, um das angestrichene Audio abzurufen, wenn es fertig ist. Siehe API-Dokumente für Details.

ElevenLabs Speech-to-Speech regeneriert die gesamte Sprachlinie von Grund auf in einer Zielstimme. Unsere Audio-Inpainting ist operativ: Sie bearbeitet nur den markierten Bereich, hält jedes andere Byte Ihrer Originalaufnahme unberührt und passt den neuen Clip eher zur umgebenden Stimme als zur separaten Sprachbibliothek.

5.0/5 (1)

Beheben Sie Ihr Audio in Sekunden

Ersetzen Sie jeden Teil einer Aufnahme durch KI-Synthesensprache, die der ursprünglichen Stimme entspricht. Melden Sie sich kostenlos zum Starten an.

Kostenlos anmelden Preise anzeigen

AI Audio Inpainting

Audio auf Inpaint hochladen

Quelle Audio — Peeling, um die schlechte Take zu finden

Inpaint-Einstellungen

Vorher (Original)

Nach (bemalt)

Wie Audio-Inpainting funktioniert

Tipps für beste Ergebnisse

Wie AI Audio Inpainting funktioniert

Hochladen + Bereich markieren

Stimme Klonen + Synthesize

Crossfade Splice

Audio-Inpainting-Pläne

Häufig gestellte Fragen

Beheben Sie Ihr Audio in Sekunden

AI Audio Inpainting

Audio auf Inpaint hochladen

Quelle Audio — Peeling, um die schlechte Take zu finden

Inpaint-Einstellungen

Vorher (Original)

Nach (bemalt)

Wie Audio-Inpainting funktioniert

Tipps für beste Ergebnisse

Wie AI Audio Inpainting funktioniert

Hochladen + Bereich markieren

Stimme Klonen + Synthesize

Crossfade Splice

Audio-Inpainting-Pläne

Häufig gestellte Fragen

Was ist Audio-Inpainting?

Wie funktioniert das?

Wann sollte ich Audio-Inpainting anstelle von Re-Recording verwenden?

Wie lange kann der Quell-Audio sein?

Wird die bemalte Rede genauso klingen wie der Originallautsprecher?

Was passiert an den Bearbeitungsgrenzen?

Welche Sprachen werden unterstützt?

Wie viel kostet Audio-Inpainting?

Kann ich das benutzen, um jemandem Worte in den Mund zu legen, die er nie gesagt hat?

Warum Inpainting verwenden, anstatt nur den schlechten Abschnitt zu löschen?

Ist die Audio-Inpainting-API verfügbar?

Wie steht das mit ElevenLabs Speech-to-Speech?

Beheben Sie Ihr Audio in Sekunden