Segnala bug / richiesta di funzionalità

Generatore di video di sincronizzazione del labbro di AI

Caricare una foto facciale e un clip audio Ottieni un video a testa parlante con sincronizzazione realistica del labbro, posa della testa e lampeggia. Powered by SadTalker (MIT). Uso commerciale OK.

Iscriviti gratis

Carica Face + Audio

1.000 caratteri al secondo

1. Face Image o guida video

Trascinare & rilasciare il file qui, o sfoglia

JPG, PNG, or short MP4/WebM. Max 10MB. One clear, well-lit face works best.

2. Guida audio

Trascinare & rilasciare il file qui, o sfoglia

MP3, WAV, M4A, or FLAC. Max 10MB. Free: up to 30 sec. Pro: up to 5 min.

Preimpostazione animazione

Dimensione uscita

Enhancer faccia

GFPGAN (affilato, più lento)

A proposito di SadTalker

SadTalker (CVPR 2023, Tencent ARC) è un modello di testa parlante open-source che anima una singola immagine faccia per parlare qualsiasi audio. A differenza di Wav2Lip varianti, SadTalker anima anche testa posa, lampeggia, e l'espressione per un risultato più naturale.

Codice e pesi sono MIT-licensed end to end Llama, Gemma, o non-commerciale spina dorsale così i video generati sono sicuri per uso commerciale.

Consigli per i migliori risultati

Utilizzare un ritratto di alta qualità ben illuminato occhi visibili, bocca chiusa
Centrato faccia, quadrato o 4:5 rapporto di aspetto funziona meglio
Pulire l'audio vocale (senza musica) rende più stretto il labbro sincronizzato
Abilita GFPGAN per scatti da eroe
Utilizzare il preset Still quando si desidera un costante avatar shot

Piani video di sincronizzazione di labbro

Avvia gratis, aggiorna quando ne hai bisogno

Libero

Limite audio di 30 secondi
uscita 256 px
Solo preimpostato "ancora"
Nessun enhancer facciale

Più popolare

Account gratuito

Limite audio di 30 secondi
Preimpostazioni sia "piene" che "ancora"
256 / 512 px uscita
GFPGAN enhancer facciale

Iscriviti gratis

Pro

Limite audio di 5 minuti
Coda GPU prioritaria
Accesso API (upload multiplo)
Callback di completamento di Webhook
Uso commerciale (licenza MIT)

Aggiornamento

Domande frequenti

Caricare una foto facciale e un clip audio, e l'AI genera un video di quella faccia parlando l'audio con movimenti labbro realistici, posa testa, e lampeggia. Costruito su SadTalker (CVPR 2023), un modello parlato-testa licenza MIT che anima l'espressione oltre alla forma bocca.

L'ingresso facciale può essere un'immagine JPG o PNG (fino a 10 MB) o un breve video di guida MP4/WebM (usiamo il primo frame). L'audio di guida può essere MP3, WAV, M4A, o FLAC fino a 10 MB. Ricampioniamo audio a 16 kHz internamente.

Account gratuiti: fino a 30 secondi per clip. Utenti a pagamento: fino a 5 minuti per richiesta. Audio più lungo significa più tempo di rendering e più alto costo del carattere.

Il video di sincronizzazione Lip utilizza 1.000 caratteri al secondo del video generato. Un clip di 30 secondi = 30.000 caratteri. Il costo viene addebitato davanti al tuo saldo del personaggio e rimborsato automaticamente se la generazione fallisce.

Sì Codice SadTalker e pesi sono MIT licenza end to end (nessuna Llama, Gemma, o spina dorsale non commerciale). I video che si generano sono tuoi da utilizzare commercialmente. Siete responsabili per avere i diritti per l'immagine del volto sorgente e audio si carica.

Circa 30 secondi per un clip di 5 secondi sul nostro server A100, scalando approssimativamente lineare con la lunghezza dell'audio. Abilitando l'enhancer facciale GFPGAN raddoppia approssimativamente il tempo di rendering ma produce output più nitide e di qualità superiore.

Full preset (default) anima la testa posa, lampeggia, e l'espressione insieme alle labbra, producendo un video più naturale talking-head. Ancora preset blocca la testa in posizione e anima solo la bocca utile quando si desidera un costante avatar shot.

GFPGAN è un modello di restauro facciale che affina i dettagli facciali dopo il rendering labbra-sincrono. Pulisce gli artefatti e fa 256 pixel di uscita guardare più vicino a 512. Raddoppia approssimativamente il tempo di rendering, ma vale la pena per scatti eroi.

SadTalker renderizza a 256 px per impostazione predefinita. Passare a 512 px per un'uscita più nitida (più bassa, più alta VRAM) o abilitare l'enhancer GFPGAN per migliorare i dettagli del viso. Per ottenere i migliori risultati, caricare una foto ritratto di alta qualità e ben illuminata.

Sì. Caricare un MP4 o WebM come ingresso facciale e useremo il primo frame come identità di guida. Per il ri-dubbing video completo (sostituzione bocca per fotogramma), vedere la prossima pipeline video Dubbing Studio.

Sì. POST una richiesta multipart a /api/v1/lipsync/ con campi faccia e audio, quindi sondaggio /api/v1/lipsync/result/?uuid= fino a quando lo stato è "completato." La risposta contiene un URL per il reso MP4. L'accesso API richiede un piano a pagamento.

SadTalker utilizza l'allineamento facciale per rilevare e ritagliare il volto più prominente. Per ottenere i migliori risultati, caricare un ritratto con una persona centrato, occhi visibili e occlusione minima. Le foto di gruppo possono produrre risultati imprevedibili.

5.0/5 (1)

Pronto per iniziare?

Iscriviti gratis e ottenere 15.000 caratteri. Non è richiesta la carta di credito.

Iscriviti gratis Visualizza prezzi

Generatore di video di sincronizzazione del labbro di AI

Carica Face + Audio

Il tuo video con la testa parlante

A proposito di SadTalker

Consigli per i migliori risultati

Piani video di sincronizzazione di labbro

Domande frequenti

Cosa fa lo strumento di sincronizzazione labbra AI?

Quali formati di input sono supportati?

Quanto può durare l'audio?

Quanto costa?

Posso usare i video in commercio?

Quanto ci mette la generazione?

Qual è la differenza tra "pieno" e "ancora" preimpostato?

Che cos'è il potenziatore GFPGAN?

Perché il mio output sembra a bassa risoluzione?

Posso sincronizzare un video con un nuovo audio?

C'e' un'API?

E se la mia foto facciale ci fosse dentro piu' persone?

Pronto per iniziare?