AI Lip Sync Video Generator

Ανεβάστε μια φωτογραφία προσώπου και ένα ηχητικό κλιπ Πάρτε ένα ομιλούν-head βίντεο με ρεαλιστικό συγχρονισμό των χειλιών, πόζα του κεφαλιού, και ανοιγοκλείστε τα μάτια.

Ανεβάστε το πρόσωπο + ήχου

1.000 χαρακτήρες ανά δευτερόλεπτο

Σύρετε & αφήστε το αρχείο σας εδώ, ή περιήγηση

JPG, PNG, or short MP4/WebM. Max 10MB. One clear, well-lit face works best.

αρχείο.mp3

0 MB

Σύρετε & αφήστε το αρχείο σας εδώ, ή περιήγηση

MP3, WAV, M4A, or FLAC. Max 10MB. Free: up to 30 sec. Pro: up to 5 min.

αρχείο.mp3

0 MB

Επεξεργασία...

Αυτό συνήθως διαρκεί 30 δευτερόλεπτα έως 2 λεπτά.

Το Βίντεο του Μιλώντας-Κεφάλου σας

Κατεβάστε το MP4

Σχετικά με τον SadTalker

SadTalker (CVPR 2023, Tencent ARC) είναι ένα ανοιχτό-πηγής μοντέλο ομιλούν-κεφαλή που ζωγραφίζει μια εικόνα ενός προσώπου για να μιλήσει οποιοδήποτε ήχο. Σε αντίθεση με Wav2Lip παραλλαγές, SadTalker επίσης κινούμενο κεφάλι πόζα, αναβοσβήνει, και έκφραση για ένα πιο φυσικό αποτέλεσμα.

Ο κώδικας και τα βάρη είναι MIT-licensed τέλος έως το τέλος Δεν Llama, Gemma, ή μη-εμπορική ραχοκοκαλιά Έτσι τα βίντεο που δημιουργείτε είναι ασφαλή για εμπορική χρήση.

Συμβουλές για Καλύτερα Αποτελέσματα

  • Χρησιμοποιήστε ένα υψηλής ποιότητας, καλά φωτισμένο πορτραίτο, μάτια ορατά, στόμα κλειστό
  • Centered face, square or 4:5 aspect ratio works best
  • Καθαρός ήχος ομιλίας (χωρίς μουσική) αποδίδει πιο σφιχτό συγχρονισμό των χειλιών
  • Ενεργοποίηση GFPGAN για πυροβολισμούς ήρωα Τα διπλά καθιστούν το χρόνο αλλά ακονίζει τις λεπτομέρειες
  • Χρησιμοποιήστε το ακόμα προκαθορισμένο όταν θέλετε μια σταθερή avatar shot

Lip Sync Video Plans

Ξεκινήστε δωρεάν, αναβαθμίστε όταν χρειάζεστε περισσότερα

Ατελώς
  • 30-δευτερόλεπτο όριο ήχου
  • 256 px έξοδος
  • Το "Still" έχει προκαθοριστεί μόνο
  • Χωρίς ενισχυτή προσώπου
Πιο Δημοφιλή
Δωρεάν Λογαριασμός
  • 30-δευτερόλεπτο όριο ήχου
  • Τόσο το "πλήρης" όσο και το "ακόμα" προκαθορισμένα
  • 256 / 512 px έξοδος
  • Ενισχυτής προσώπου GFPGAN
Εγγραφή δωρεάν
Pro
  • 5-λεπτό ηχητικό όριο
  • Σειρά προτεραιότητας GPU
  • Πρόσβαση API (πολλαπλή αποστολή)
  • Webhook returning callbacks
  • Εμπορική χρήση (άδεια MIT)
Αναβάθμιση

Συχνές Ερωτήσεις

Ανεβάστε μια φωτογραφία προσώπου και ένα ακουστικό κλιπ, και η AI δημιουργεί ένα βίντεο αυτού του προσώπου μιλώντας τον ήχο με ρεαλιστικές κινήσεις χειλιών, πόζα κεφάλι, και αναβοσβήνει.

Η είσοδος προσώπου μπορεί να είναι μια εικόνα JPG ή PNG (μέχρι 10 MB) ή ένα σύντομο βίντεο οδήγησης MP4/WebM (χρησιμοποιούμε το πρώτο πλαίσιο).

Δωρεάν λογαριασμοί: μέχρι 30 δευτερόλεπτα ανά κλιπ. Χρήστες πληρωμής: έως 5 λεπτά ανά αίτημα.

Ένα βίντεο συγχρονισμού χειλιών χρησιμοποιεί 1.000 χαρακτήρες ανά δευτερόλεπτο του βίντεο που παράγεται. Ένα κλιπ 30 δευτερολέπτων = 30.000 χαρακτήρες. Το κόστος χρεώνεται μπροστά από την ισορροπία του χαρακτήρα σας και επιστρέφεται αυτόματα εάν η γενιά αποτύχει.

Ναι Ο κώδικας SadTalker και τα βάρη είναι MIT αδειοδοτημένο τέλος στο τέλος (όχι Llama, Gemma, ή μη εμπορική ραχοκοκαλιά). Τα βίντεο που δημιουργείτε είναι δικά σας για να χρησιμοποιήσετε εμπορικά. Είστε υπεύθυνοι για την κατοχή των δικαιωμάτων στην εικόνα του προσώπου πηγής και ήχου που ανεβάζετε.

Περίπου 30 δευτερόλεπτα για ένα κλιπ 5 δευτερολέπτων στον διακομιστή μας A100, κλιμακώνοντας περίπου γραμμικά με μήκος ήχου.

Πλήρες προκαθορισμένο (προκαθορισμένο) κινούμενο κεφάλι πόζα, αναβοσβήνει, και την έκφραση μαζί με τα χείλη, παράγοντας ένα πιο φυσικό talking-head βίντεο.

Το GFPGAN είναι ένα μοντέλο αποκατάστασης προσώπου που ακονίζει τις λεπτομέρειες του προσώπου μετά την απόδοση lip-sync. Καθαρίζει τα αντικείμενα και κάνει 256-pixel εξόδου να φαίνονται πιο κοντά στο 512.

SadTalker καθιστά σε 256 px από προεπιλογή. Αλλαγή σε 512 px μέγεθος για πιο αιχμηρή έξοδο (χαμηλή, υψηλότερη VRAM) ή να επιτρέψει τον ενισχυτή GFPGAN να αυξήσει τις λεπτομέρειες προσώπου. Για καλύτερα αποτελέσματα, ανεβάστε μια υψηλής ποιότητας, καλά φωτισμένη φωτογραφία πορτρέτο.

Ναι. Ανεβάστε ένα MP4 ή WebM ως είσοδο προσώπου και θα χρησιμοποιήσουμε το πρώτο πλαίσιο ως την ταυτότητα οδήγησης. Για πλήρη αλλαγή βίντεο (ανά πλαίσιο αντικατάστασης στο στόμα), δείτε τον επικείμενο αγωγό βίντεο Dubbing Studio.

Ναι. Ποστήστε ένα multipart αίτημα στο /api/v1/lipsync/ με το πρόσωπο και τα ακουστικά πεδία, στη συνέχεια δημοσκόπηση /api/v1/lipsync/αποτέλεσμα/?uid= μέχρι η κατάσταση να "ολοκληρωθεί". Η απάντηση περιέχει ένα URL στο μεταδιδόμενο MP4. API πρόσβαση απαιτεί ένα πληρωμένο σχέδιο.

SadTalker χρησιμοποιεί face-connection για να ανιχνεύσει και να καλλιεργήσει το πιο σημαντικό πρόσωπο. Για τα καλύτερα αποτελέσματα, ανεβάστε ένα πορτρέτο με ένα άτομο στο κέντρο, μάτια ορατά, και minimal acclusion. Ομαδική φωτογραφίες μπορεί να παράγει απρόβλεπτα αποτελέσματα.
5.0/5 (1)

Τι θα μπορούσαμε να βελτιώσουμε; Τα σχόλιά σας μάς βοηθούν να διορθώσουμε τα ζητήματα.

Έτοιμος να ξεκινήσουμε;

Εγγραφείτε δωρεάν και να πάρετε 50 μονάδες. Δεν απαιτείται πιστωτική κάρτα.