Inverniciatura AI Audio

Sostituire una sezione di audio con un discorso AI-sintetizzato che corrisponde alla voce circostante. Correggere una cattiva presa senza ri-registrare l'intera cosa.

Carica audio su Inpaint

500 caratteri al secondo dell'audio sostituito

Trascinare & rilasciare il file qui, o sfoglia

Supports MP3, WAV, FLAC, OGG, M4A. Max 500 MB (2 GB on paid plans). Up to 10 minutes.

file.mp3

0 MB

Scrub audio sorgente per trovare la cattiva presa

0.00s / 0.00s

Impostazioni di inpain

0 / 500 caratteri
Per quanto tempo mischiare i punti di splice. 80m è il match-cuts di default si sentono naturali, senza doppio trigger udibile.
Iscriviti gratis per utilizzare l'inpainting audio
Inverniciatura audio...

Clonare la voce e sintetizzare la sostituzione...

Affettatura → clonazione voce circostante → splicing con crossfade
Ci vuole un po'? Il tuo risultato apparirà nel tuo storia della generazione Quando e' pronto.
Pronto per l'audio inverniciato

Prima (originale)

Dopo (dipinto)

Scarica Audio inverniciato

Come funziona l'inverniciatura audio

L'inpainting è l'equivalente audio del riempimento content-aware di Photoshop. Cloniamo la voce dall'audio che circonda la vostra selezione, sintetizzamo la nuova linea in quella voce, e la inseriamo indietro con una breve crossfade.

Risultati migliori: lasciare almeno 3 secondi di discorso pulito immediatamente prima del punto di modifica in modo che il clone abbia un buon materiale di riferimento.

Consigli per i migliori risultati

  • Mantenere l'intervallo marcato il più stretto possibile solo la presa difettosa
  • Il testo di sostituzione dovrebbe essere approssimativamente della stessa lunghezza di quello che sostituisce
  • Imposta la lingua per abbinare l'audio sorgente per la migliore corrispondenza vocale
  • 80 m crossfade è di solito invisibile; urto a 150 m se si sente un clic
  • Per le modifiche lunghe (>10s), prendere in considerazione la ri-registrazione dell'intero passaggio invece

Come funziona AI Audio Inpainting

Edizioni chirurgiche, corrispondenti alla voce, senza nessuna sessione di riregistrazione.

Fase 1

Carica + intervallo di segni

Caricare l'audio e usare lo scrubber per segnare l'inizio/fine della sezione che si desidera sostituire. Digitare il testo di sostituzione.

Fase 2

Clone vocale + Sintetizzazione

Estraiamo fino a 12 secondi di audio di riferimento pulito che circondano la vostra selezione, cloniamo la voce dell'altoparlante e sintetizzamo la nuova linea in quella voce.

Fase 3

Crossfade Splice

Il clip sintetizzato viene inserito nella registrazione originale con una crossfade di uguale potenza in entrambi i punti di modifica. I confini sono inaudibili.

Piani di inverniciatura audio

Avvia gratis, aggiorna quando ne hai bisogno

Libero
  • File sorgente fino a 10 minuti
  • Testo sostitutivo di 500 caratteri
  • 4 secondi di vernice per richiesta
  • Splice crossfade 80ms
  • OpenVoice + CosyVoice 2 backend
Più popolare
Account gratuito
  • File sorgente fino a 10 minuti
  • Testo sostitutivo di 5.000 caratteri
  • Crossfade sintonizzabile (0-250m)
  • Override del modello vocale
  • Cronologia generazione + re-edit
Iscriviti gratis
Pro
  • File sorgente fino a 30 minuti
  • Testo di sostituzione di 100.000 caratteri
  • Coda GPU prioritaria
  • Accesso API (/v1/audio-inpaint/)
  • Inverniciatura batch (frequenze multiple)
Aggiornamento

Domande frequenti

L'inpainting audio (chiamato anche fill audio o speech overdub) consente di sostituire una sezione di una registrazione audio esistente con un nuovo linguaggio AI-sintetizzato che corrisponde alla voce originale. È l'equivalente audio del fill di Photoshop di riempimento di contenuto-aware di vernice sopra la parte che non si desidera, digitare ciò che dovrebbe essere invece lì, e l'AI genera una sostituzione senza soluzione di continuità.

Segna il intervallo di tempo da sostituire, digita la nuova linea di dialogo e fai clic su Inpaint. Il nostro AI clona la voce dall'audio che circonda la tua selezione, sintetizza la nuova linea in quella voce e la inserisce nella tua registrazione con una breve crossfade in modo che la modifica sia inudibile.

Utilizzare quando si dispone di una sola parola cattiva, errata pronuncia, nome slip, parola giurare, o errore di fatto in un altrimenti-buono prendere. Ri-registrare l'intero passaggio spesso introduce squilibrio tonale con il resto del progetto inpainting correzioni solo ciò che ha bisogno di fissaggio, mantenendo ogni altra sillaba intatta.

Gli utenti gratuiti possono imbiancare file fino a 10 minuti. Gli abbonati possono imbiancare file fino a 30 minuti. Il testo sostitutivo è limitato a 500 caratteri per gli utenti gratuiti, 5.000 per gli account gratuiti e 100.000 per i piani a pagamento.

Molto vicino. L'intelligenza artificiale utilizza fino a 12 secondi di audio che circondano l'edit come riferimento vocale, il che è sufficiente per uno qualsiasi dei nostri modelli capaci di clonazione (OpenVoice, CosyVoice 2) per catturare il timbro, il passo e lo stile parlante dell'altoparlante. Per i migliori risultati, lasciare almeno 3 secondi di linguaggio pulito immediatamente prima del punto di modifica.

Applichiamo una crossfade di 80 ms di uguale potenza in entrambi i punti di splice (testa→sostituzione e sostituzione→tail) per impostazione predefinita. Puoi sintonizzarla da 0 ms (taglio duro) fino a 250 ms tramite il cursore Crossfade. Le crossfade più lunghe nascondono l'edit più accuratamente ma possono fondere udibilmente le parole sovrapposte al contorno.

L'inpainting audio segue la stessa copertura linguistica della clonazione vocale. Scegliamo automaticamente OpenVoice per la maggior parte delle lingue e CosyVoice 2 per il cinese, il giapponese e il coreano. Puoi bypassare il modello in impostazioni avanzate.

Si caricano 500 caratteri al secondo dell'audio sostituito. Una correzione di 4 secondi costa 2.000 caratteri. Il costo è indipendente dalla durata del testo di sostituzione, poiché la sintesi del clone sottostante è regolata dal tempo di esecuzione del nuovo clip, non dalla lunghezza del testo.

Secondo i nostri Termini di Servizio, puoi solo inpaint audio che possiedi o avere il permesso esplicito di modificare. Generare citazioni false, contenuti ingannevoli o impersonazioni è proibito. La filigrana ha generato audio e registriamo tutti i lavori di inpainting per la revisione abusiva.

Tagliare una clip lascia un notevole gap nel ritmo e nel respiro; cross-deading due prende foglie un contrasto tonale. Inpainting riempie il gap con il linguaggio che corrisponde alla voce circostante, in modo che gli ascoltatori ascoltino audio continuo, naturale-suono.

Sì POST a /v1/audio-inpaint/ con il file audio, start_sec, end_sec e replacement_text. L'endpoint restituisce un lavoro UUID; poll /v1/speech/results/?uuid= per recuperare l'audio inpainted quando è pronto. Vedere i documenti API per i dettagli.

ElevenLabs Speech-to-Speech rigenera l'intera linea vocale da zero in una voce target. Il nostro inpainting audio è chirurgico: modifica solo la gamma marcata, mantiene ogni altro byte della vostra registrazione originale intatto, e corrisponde il nuovo clip alla voce circostante piuttosto che una libreria vocale separata.
5.0/5 (1)

Cosa potremmo migliorare? Il tuo feedback ci aiuta a risolvere i problemi.

Correggi l'audio in secondi

Sostituire qualsiasi parte di qualsiasi registrazione con un discorso AI-sintetizzato che corrisponda alla voce originale. Iscriviti gratis per iniziare.