Segnala bug / richiesta di funzionalità

Generatore di video di sincronizzazione del labbro di AI

Caricare una foto facciale e un clip audio Ottieni un video a testa parlante con sincronizzazione realistica del labbro, posa della testa e lampeggia. Powered by SadTalker (MIT). Uso commerciale OK.

Carica Face + Audio

1.000 caratteri al secondo

Trascinare & rilasciare il file qui, o sfoglia

JPG, PNG, or short MP4/WebM. Max 10MB. One clear, well-lit face works best.

file.mp3

0 MB

Trascinare & rilasciare il file qui, o sfoglia

MP3, WAV, M4A, or FLAC. Max 10MB. Free: up to 30 sec. Pro: up to 5 min.

file.mp3

0 MB

Elaborazione...

Rendering il video. Questo richiede tipicamente 30 secondi a 2 minuti.

Il tuo video con la testa parlante

A proposito di SadTalker

SadTalker (CVPR 2023, Tencent ARC) è un modello di testa parlante open-source che anima una singola immagine faccia per parlare qualsiasi audio. A differenza di Wav2Lip varianti, SadTalker anima anche testa posa, lampeggia, e l'espressione per un risultato più naturale.

Codice e pesi sono MIT-licensed end to end Llama, Gemma, o non-commerciale spina dorsale così i video generati sono sicuri per uso commerciale.

Consigli per i migliori risultati

  • Utilizzare un ritratto di alta qualità ben illuminato occhi visibili, bocca chiusa
  • Centrato faccia, quadrato o 4:5 rapporto di aspetto funziona meglio
  • Pulire l'audio vocale (senza musica) rende più stretto il labbro sincronizzato
  • Abilita GFPGAN per scatti da eroe
  • Utilizzare il preset Still quando si desidera un costante avatar shot

Piani video di sincronizzazione di labbro

Avvia gratis, aggiorna quando ne hai bisogno

Libero
  • Limite audio di 30 secondi
  • uscita 256 px
  • Solo preimpostato "ancora"
  • Nessun enhancer facciale
Più popolare
Account gratuito
  • Limite audio di 30 secondi
  • Preimpostazioni sia "piene" che "ancora"
  • 256 / 512 px uscita
  • GFPGAN enhancer facciale
Iscriviti gratis
Pro
  • Limite audio di 5 minuti
  • Coda GPU prioritaria
  • Accesso API (upload multiplo)
  • Callback di completamento di Webhook
  • Uso commerciale (licenza MIT)
Aggiornamento

Domande frequenti

Caricare una foto facciale e un clip audio, e l'AI genera un video di quella faccia parlando l'audio con movimenti labbro realistici, posa testa, e lampeggia. Costruito su SadTalker (CVPR 2023), un modello parlato-testa licenza MIT che anima l'espressione oltre alla forma bocca.

L'ingresso facciale può essere un'immagine JPG o PNG (fino a 10 MB) o un breve video di guida MP4/WebM (usiamo il primo frame). L'audio di guida può essere MP3, WAV, M4A, o FLAC fino a 10 MB. Ricampioniamo audio a 16 kHz internamente.

Account gratuiti: fino a 30 secondi per clip. Utenti a pagamento: fino a 5 minuti per richiesta. Audio più lungo significa più tempo di rendering e più alto costo del carattere.

Il video di sincronizzazione Lip utilizza 1.000 caratteri al secondo del video generato. Un clip di 30 secondi = 30.000 caratteri. Il costo viene addebitato davanti al tuo saldo del personaggio e rimborsato automaticamente se la generazione fallisce.

Sì Codice SadTalker e pesi sono MIT licenza end to end (nessuna Llama, Gemma, o spina dorsale non commerciale). I video che si generano sono tuoi da utilizzare commercialmente. Siete responsabili per avere i diritti per l'immagine del volto sorgente e audio si carica.

Circa 30 secondi per un clip di 5 secondi sul nostro server A100, scalando approssimativamente lineare con la lunghezza dell'audio. Abilitando l'enhancer facciale GFPGAN raddoppia approssimativamente il tempo di rendering ma produce output più nitide e di qualità superiore.

Full preset (default) anima la testa posa, lampeggia, e l'espressione insieme alle labbra, producendo un video più naturale talking-head. Ancora preset blocca la testa in posizione e anima solo la bocca utile quando si desidera un costante avatar shot.

GFPGAN è un modello di restauro facciale che affina i dettagli facciali dopo il rendering labbra-sincrono. Pulisce gli artefatti e fa 256 pixel di uscita guardare più vicino a 512. Raddoppia approssimativamente il tempo di rendering, ma vale la pena per scatti eroi.

SadTalker renderizza a 256 px per impostazione predefinita. Passare a 512 px per un'uscita più nitida (più bassa, più alta VRAM) o abilitare l'enhancer GFPGAN per migliorare i dettagli del viso. Per ottenere i migliori risultati, caricare una foto ritratto di alta qualità e ben illuminata.

Sì. Caricare un MP4 o WebM come ingresso facciale e useremo il primo frame come identità di guida. Per il ri-dubbing video completo (sostituzione bocca per fotogramma), vedere la prossima pipeline video Dubbing Studio.

Sì. POST una richiesta multipart a /api/v1/lipsync/ con campi faccia e audio, quindi sondaggio /api/v1/lipsync/result/?uuid= fino a quando lo stato è "completato." La risposta contiene un URL per il reso MP4. L'accesso API richiede un piano a pagamento.

SadTalker utilizza l'allineamento facciale per rilevare e ritagliare il volto più prominente. Per ottenere i migliori risultati, caricare un ritratto con una persona centrato, occhi visibili e occlusione minima. Le foto di gruppo possono produrre risultati imprevedibili.
5.0/5 (1)

Cosa potremmo migliorare? Il tuo feedback ci aiuta a risolvere i problemi.

Pronto per iniziare?

Iscriviti gratis e ottenere 15.000 caratteri. Non è richiesta la carta di credito.