Segnala bug / richiesta di funzionalità

Inverniciatura AI Audio

Sostituire una sezione di audio con un discorso AI-sintetizzato che corrisponde alla voce circostante. Correggere una cattiva presa senza ri-registrare l'intera cosa.

Iscriviti gratis

Carica audio su Inpaint

500 caratteri al secondo dell'audio sostituito

Trascinare & rilasciare il file qui, o sfoglia

Supports MP3, WAV, FLAC, OGG, M4A. Max 500 MB (2 GB on paid plans). Up to 10 minutes.

Impostazioni di inpain

Inizio (secondi)

Fine (secondi)

Sostituzione del testo [49] che cosa dovrebbe essere detto nel gap 0 / 500 caratteri

Lingua

CrossfadeCity name (optional, probably does not need a translation) 80 ms Per quanto tempo mischiare i punti di splice. 80m è il match-cuts di default si sentono naturali, senza doppio trigger udibile.

Iscriviti gratis per utilizzare l'inpainting audio

Come funziona l'inverniciatura audio

L'inpainting è l'equivalente audio del riempimento content-aware di Photoshop. Cloniamo la voce dall'audio che circonda la vostra selezione, sintetizzamo la nuova linea in quella voce, e la inseriamo indietro con una breve crossfade.

Risultati migliori: lasciare almeno 3 secondiscorso pulito immediatamente prima del punto di modifica in modo che il clone abbia un buon materiale di riferimento.

Consigli per i migliori risultati

Mantenere l'intervallo marcato il più stretto possibile solo la presa difettosa
Il testo di sostituzione dovrebbe essere approssimativamente della stessa lunghezza di quello che sostituisce
Imposta la lingua per abbinare l'audio sorgente per la migliore corrispondenza vocale
80 m crossfade è di solito invisibile; urto a 150 m se si sente un clic
Per le modifiche lunghe (>10s), prendere in considerazione la ri-registrazione dell'intero passaggio invece

Come funziona AI Audio Inpainting

Edizioni chirurgiche, corrispondenti alla voce, senza nessuna sessione di riregistrazione.

Fase 1

Carica + intervallo di segni

Caricare l'audio e usare lo scrubber per segnare l'inizio/fine della sezione che si desidera sostituire. Digitare il testo di sostituzione.

Fase 2

Clone vocale + Sintetizzazione

Estraiamo fino a 12 secondi di audio di riferimento pulito che circondano la vostra selezione, cloniamo la voce dell'altoparlante e sintetizzamo la nuova linea in quella voce.

Fase 3

Crossfade Splice

Il clip sintetizzato viene inserito nella registrazione originale con una crossfade di uguale potenza in entrambi i punti di modifica. I confini sono inaudibili.

Piani di inverniciatura audio

Avvia gratis, aggiorna quando ne hai bisogno

Libero

File sorgente fino a 10 minuti
Testo sostitutivo di 500 caratteri
4 secondi di vernice per richiesta
Splice crossfade 80ms
OpenVoice + CosyVoice 2 backend

Più popolare

Account gratuito

File sorgente fino a 10 minuti
Testo sostitutivo di 5.000 caratteri
Crossfade sintonizzabile (0-250m)
Override del modello vocale
Cronologia generazione + re-edit

Iscriviti gratis

Pro

File sorgente fino a 30 minuti
Testo di sostituzione di 100.000 caratteri
Coda GPU prioritaria
Accesso API (/v1/audio-inpaint/)
Inverniciatura batch (frequenze multiple)

Aggiornamento

Domande frequenti

L'inpainting audio (chiamato anche fill audio o speech overdub) consente di sostituire una sezione di una registrazione audio esistente con un nuovo linguaggio AI-sintetizzato che corrisponde alla voce originale. È l'equivalente audio del fill di Photoshop di riempimento di contenuto-aware di vernice sopra la parte che non si desidera, digitare ciò che dovrebbe essere invece lì, e l'AI genera una sostituzione senza soluzione di continuità.

Segna il intervallo di tempo da sostituire, digita la nuova linea di dialogo e fai clic su Inpaint. Il nostro AI clona la voce dall'audio che circonda la tua selezione, sintetizza la nuova linea in quella voce e la inserisce nella tua registrazione con una breve crossfade in modo che la modifica sia inudibile.

Utilizzare quando si dispone di una sola parola cattiva, errata pronuncia, nome slip, parola giurare, o errore di fatto in un altrimenti-buono prendere. Ri-registrare l'intero passaggio spesso introduce squilibrio tonale con il resto del progetto inpainting correzioni solo ciò che ha bisogno di fissaggio, mantenendo ogni altra sillaba intatta.

Gli utenti gratuiti possono imbiancare file fino a 10 minuti. Gli abbonati possono imbiancare file fino a 30 minuti. Il testo sostitutivo è limitato a 500 caratteri per gli utenti gratuiti, 5.000 per gli account gratuiti e 100.000 per i piani a pagamento.

Molto vicino. L'intelligenza artificiale utilizza fino a 12 secondi di audio che circondano l'edit come riferimento vocale, il che è sufficiente per uno qualsiasi dei nostri modelli capaci di clonazione (OpenVoice, CosyVoice 2) per catturare il timbro, il passo e lo stile parlante dell'altoparlante. Per i migliori risultati, lasciare almeno 3 secondi di linguaggio pulito immediatamente prima del punto di modifica.

Applichiamo una crossfade di 80 ms di uguale potenza in entrambi i punti di splice (testa→sostituzione e sostituzione→tail) per impostazione predefinita. Puoi sintonizzarla da 0 ms (taglio duro) fino a 250 ms tramite il cursore Crossfade. Le crossfade più lunghe nascondono l'edit più accuratamente ma possono fondere udibilmente le parole sovrapposte al contorno.

L'inpainting audio segue la stessa copertura linguistica della clonazione vocale. Scegliamo automaticamente OpenVoice per la maggior parte delle lingue e CosyVoice 2 per il cinese, il giapponese e il coreano. Puoi bypassare il modello in impostazioni avanzate.

Si caricano 500 caratteri al secondo dell'audio sostituito. Una correzione di 4 secondi costa 2.000 caratteri. Il costo è indipendente dalla durata del testo di sostituzione, poiché la sintesi del clone sottostante è regolata dal tempo di esecuzione del nuovo clip, non dalla lunghezza del testo.

Secondo i nostri Termini di Servizio, puoi solo inpaint audio che possiedi o avere il permesso esplicito di modificare. Generare citazioni false, contenuti ingannevoli o impersonazioni è proibito. La filigrana ha generato audio e registriamo tutti i lavori di inpainting per la revisione abusiva.

Tagliare una clip lascia un notevole gap nel ritmo e nel respiro; cross-deading due prende foglie un contrasto tonale. Inpainting riempie il gap con il linguaggio che corrisponde alla voce circostante, in modo che gli ascoltatori ascoltino audio continuo, naturale-suono.

Sì POST a /v1/audio-inpaint/ con il file audio, start_sec, end_sec e replacement_text. L'endpoint restituisce un lavoro UUID; poll /v1/speech/results/?uuid= per recuperare l'audio inpainted quando è pronto. Vedere i documenti API per i dettagli.

ElevenLabs Speech-to-Speech rigenera l'intera linea vocale da zero in una voce target. Il nostro inpainting audio è chirurgico: modifica solo la gamma marcata, mantiene ogni altro byte della vostra registrazione originale intatto, e corrisponde il nuovo clip alla voce circostante piuttosto che una libreria vocale separata.

5.0/5 (1)

Correggi l'audio in secondi

Sostituire qualsiasi parte di qualsiasi registrazione con un discorso AI-sintetizzato che corrisponda alla voce originale. Iscriviti gratis per iniziare.

Iscriviti gratis Visualizza prezzi

Inverniciatura AI Audio

Carica audio su Inpaint

Scrub audio sorgente per trovare la cattiva presa

Impostazioni di inpain

Prima (originale)

Dopo (dipinto)

Come funziona l'inverniciatura audio

Consigli per i migliori risultati

Come funziona AI Audio Inpainting

Carica + intervallo di segni

Clone vocale + Sintetizzazione

Crossfade Splice

Piani di inverniciatura audio

Domande frequenti

Correggi l'audio in secondi

Inverniciatura AI Audio

Carica audio su Inpaint

Scrub audio sorgente per trovare la cattiva presa

Impostazioni di inpain

Prima (originale)

Dopo (dipinto)

Come funziona l'inverniciatura audio

Consigli per i migliori risultati

Come funziona AI Audio Inpainting

Carica + intervallo di segni

Clone vocale + Sintetizzazione

Crossfade Splice

Piani di inverniciatura audio

Domande frequenti

Cos'è l'inverniciatura audio?

Come funziona?

Quando dovrei usare l'inverniciatura audio invece di ri-registrare?

Quanto può durare l'audio sorgente?

Il discorso dipinto suonerà esattamente come l'altoparlante originale?

Cosa succede ai confini delle modifiche?

Quali lingue sono supportate?

Quanto costa l'inverniciatura audio?

Posso usare questo per mettere parole in bocca a qualcuno che non hanno mai detto?

Perché usare l'inpainting invece di eliminare la sezione difettosa?

È disponibile l'API di inpainting audio?

Come si confronta questo con ElevenLabs Speech-to-Speech?

Correggi l'audio in secondi