AI Audio Inpainting

Ersätt en del av ljudet med AI-synthet tal som matchar den omgivande rösten. Fixa en dålig ta utan att åter spela in hela saken.

Ladda upp ljud till Inpaint

500 tecken per sekund av ljud ersatt

Dra och släpp filen här, eller bläddra

Supports MP3, WAV, FLAC, OGG, M4A. Max 500 MB (2 GB on paid plans). Up to 10 minutes.

file.mp3

0 MB

Källa ljud — skrubba för att hitta den dåliga ta

0.00s / 0.00s

Inställningar av målarfärg

0 / 500 tecken
Hur lång tid det tar att blanda skarvarna. 80ms är standard – match-cuts känns naturligt, ingen hörbar dubbeltrigger.
Registrera dig gratis för att använda audioinpainting
Målar ljud...

Klona rösten och syntetisera ersättaren...

Skärning → kloning omgivande röst → skarvning med crossfade
Tar det lång tid? Ditt resultat kommer att visas i din generationshistoria När du är redo.
Målat ljud redo

Före (Ursprunglig)

Efter (målad)

Ladda ner målat ljud

Hur Audio Inpainting fungerar

Inpainting är ljud motsvarigheten till Photoshops innehåll-medveten fyllning. Vi klonar rösten från ljudet som omger ditt val, syntetisera den nya linjen i den rösten, och skarva den tillbaka med en kort crossfade.

Bästa resultat: lämna minst 3 sekunder av rent tal omedelbart innan redigeringspunkten så klonaren har bra referensmaterial.

Tips för bästa resultat

  • Håll det markerade området så tätt som möjligt – bara den dåliga ta
  • Ersättningstexten bör vara ungefär lika lång som den ersätter
  • Ställ in språket för att matcha källljudet för bästa röstmatchning
  • 80 ms crossfade är vanligtvis osynlig; bula till 150 ms om du hör ett klick
  • För långa redigeringar (>10s), överväga att åter spela in hela passagen istället

Hur AI Audio Inpainting fungerar

Kirurgiska redigeringar, röstmatchade, utan omregistreringssession.

Steg 1

Ladda upp + markera intervall

Ladda upp ditt ljud och använd skrubbern för att markera början/slutet av avsnittet du vill byta ut. Skriv in ersättningstexten.

Steg 2

Röstklon + synthesize

Vi extraherar upp till 12 sekunder av rent referensljud som omger ditt val, klonar högtalarens röst, och syntetiserar den nya linjen i den rösten.

Steg 3

Tvärsnittsreplice

Det syntetiserade klippet är skarvat till den ursprungliga inspelningen med en crossfade med lika stor effekt vid båda redigeringspunkterna. Gränserna är ohörbara.

Planer för ljudmålning

Starta gratis, uppgradera när du behöver mer

Avgiftsfri
  • Upp till 10 minuters källfiler
  • Texten som ersätter 500 tecken
  • 4-sekunders färg per begäran
  • 80 ms crossfade splice
  • OpenVoice + CosyVoice 2 gränssnitt
Mest populära
Gratis konto
  • Upp till 10 minuters källfiler
  • 5 000 teckens ersättningstext
  • Avkopplingsbar crossfade (0-250 ms)
  • Överskridning av röstmodell
  • Generationshistorik + återredigering
Registrera dig gratis
För
  • Upp till 30 minuters källfiler
  • Tilläggstext för 100 000 tecken
  • Prioriterad GPU- kö
  • API-åtkomst (/v1/audio-inpaint/)
  • Partiinmålning (flera intervall)
Uppgradera

Vanliga frågor

Audio inpainting (även kallad ljud fylla eller tal overdub) kan du ersätta en del av en befintlig ljudinspelning med nya AI-synthet tal som matchar den ursprungliga rösten. Det är ljud motsvarigheten till Photoshop innehåll-aware fyll — färg över den del du inte vill, skriv vad som ska finnas där istället, och AI genererar en sömlös ersättning.

Markera tidsintervallet för att ersätta, skriv in den nya linjen dialog, och klicka på Inpaint. Vår AI klonar rösten från ljudet som omger ditt val, syntetiserar den nya linjen i den rösten, och skar ihop den igen till din inspelning med en kort crossfade så redigeringen är ohörbar.

Använd det när du har ett enda dåligt ord, fel uttal, namn slip, svär ord, eller fakta fel i en annars bra ta. Ominspelning av hela passagen ofta introducerar tonal missmatchning med resten av projektet - inpainting rättar bara vad som behöver fixas samtidigt som alla andra stavelse intakt.

Gratis användare kan måla filer upp till 10 minuter lång. Prenumeranter kan måla filer upp till 30 minuter. Ersättningstexten i sig är begränsad till 500 tecken för gratis användare, 5000 för gratis konton och 100.000 för betalda planer.

Mycket nära. AI använder upp till 12 sekunders ljud som omger redigeringen som en röstreferens, vilket är tillräckligt för någon av våra kloning-kapabel modeller (OpenVoice, CosyVoice 2) för att fånga högtalarens timbre, tonhöjd och talande stil. För bästa resultat, lämna minst 3 sekunder av rent tal omedelbart innan redigeringspunkten.

Vi tillämpar en 80ms crossfade på både splitterpunkter (head→replacement och ersättning→tail) som standard. Du kan ställa in detta från 0ms (hård cut) upp till 250ms via Crossfade skjutreglaget. Längre crossfades dölja redigeringen mer noggrant men kan hörbart blanda överlappande ord vid gränsen.

Audio inpainting följer samma språkbevakning som röstkloning. Vi auto-pick OpenVoice för de flesta språk och CosyVoice 2 för kinesiska, japanska och koreanska. Du kan åsidosätta modellen i avancerade inställningar.

Du debiteras 500 tecken per sekund av ljud ersatt. En 4-sekunders fix kostar 2000 tecken. Kostnaden är oberoende av hur länge ersättningstexten är, eftersom den underliggande klonsyntesen är inbäddad i körtiden för det nya klippet, inte textlängden.

Enligt våra användarvillkor får du endast måla ljud du äger eller har uttryckligt tillstånd att redigera. Generera falska citat, vilseledande innehåll, eller imiteringar är förbjudet. Vi vattenstämpel genererat ljud och logga alla målande jobb för missbruk granskning.

Skära ett klipp lämnar en märkbar lucka i pacing och andning; kors-fading två tar lämnar en tonal missmatchning. Inpainting fyller gapet med tal som matchar den omgivande rösten, så lyssnare hör kontinuerliga, naturligt ljudande ljud.

Ja — POST till /v1/audio-inpaint/ med ljudfilen, start_sec, end_sec och ersättnings_text. Slutmålet returnerar ett jobb UUID; opinionsundersökning /v1/tal/resultat/?uuid= för att hämta det inmålade ljudet när det är klart. Se API-dokument för detaljer.

ElevenLabs Speech-to-Speech återskapar hela röstlinjen från grunden i en målröst. Vår audioinpainting är kirurgisk: den redigerar bara det markerade intervallet, håller varje annan byte av din originalinspelning orörd, och matchar det nya klippet till den omgivande rösten snarare än ett separat röstbibliotek.
5.0/5 (1)

Vad kan vi förbättra? Din feedback hjälper oss att lösa problem.

Rätta ditt ljud i sekunder

Ersätt alla delar av varje inspelning med AI-synthet tal som matchar den ursprungliga rösten. Registrera dig gratis för att starta.