Αναφορά σφάλματος / αίτησης χαρακτηριστικών

AI Lip Sync Video Generator

Ανεβάστε μια φωτογραφία προσώπου και ένα ηχητικό κλιπ Πάρτε ένα ομιλούν-head βίντεο με ρεαλιστικό συγχρονισμό των χειλιών, πόζα του κεφαλιού, και ανοιγοκλείστε τα μάτια.

Εγγραφή δωρεάν

Ανεβάστε το πρόσωπο + ήχου

1.000 χαρακτήρες ανά δευτερόλεπτο

1. Αντιμετωπίστε την εικόνα ή το βίντεο οδήγησης

Σύρετε & αφήστε το αρχείο σας εδώ, ή περιήγηση

JPG, PNG, or short MP4/WebM. Max 10MB. One clear, well-lit face works best.

2. Οδήγηση ήχου

Σύρετε & αφήστε το αρχείο σας εδώ, ή περιήγηση

MP3, WAV, M4A, or FLAC. Max 10MB. Free: up to 30 sec. Pro: up to 5 min.

Προεπιλογή κινουμένων σχεδίων

Μέγεθος εξόδου

Ενισχυτής προσώπουName

GFPGAN (ακονιστής, πιο αργός)

Σχετικά με τον SadTalker

SadTalker (CVPR 2023, Tencent ARC) είναι ένα ανοιχτό-πηγής μοντέλο ομιλούν-κεφαλή που ζωγραφίζει μια εικόνα ενός προσώπου για να μιλήσει οποιοδήποτε ήχο. Σε αντίθεση με Wav2Lip παραλλαγές, SadTalker επίσης κινούμενο κεφάλι πόζα, αναβοσβήνει, και έκφραση για ένα πιο φυσικό αποτέλεσμα.

Ο κώδικας και τα βάρη είναι MIT-licensed τέλος έως το τέλος Δεν Llama, Gemma, ή μη-εμπορική ραχοκοκαλιά Έτσι τα βίντεο που δημιουργείτε είναι ασφαλή για εμπορική χρήση.

Συμβουλές για Καλύτερα Αποτελέσματα

Χρησιμοποιήστε ένα υψηλής ποιότητας, καλά φωτισμένο πορτραίτο, μάτια ορατά, στόμα κλειστό
Centered face, square or 4:5 aspect ratio works best
Καθαρός ήχος ομιλίας (χωρίς μουσική) αποδίδει πιο σφιχτό συγχρονισμό των χειλιών
Ενεργοποίηση GFPGAN για πυροβολισμούς ήρωα Τα διπλά καθιστούν το χρόνο αλλά ακονίζει τις λεπτομέρειες
Χρησιμοποιήστε το ακόμα προκαθορισμένο όταν θέλετε μια σταθερή avatar shot

Lip Sync Video Plans

Ξεκινήστε δωρεάν, αναβαθμίστε όταν χρειάζεστε περισσότερα

Ατελώς

30-δευτερόλεπτο όριο ήχου
256 px έξοδος
Το "Still" έχει προκαθοριστεί μόνο
Χωρίς ενισχυτή προσώπου

Πιο Δημοφιλή

Δωρεάν Λογαριασμός

30-δευτερόλεπτο όριο ήχου
Τόσο το "πλήρης" όσο και το "ακόμα" προκαθορισμένα
256 / 512 px έξοδος
Ενισχυτής προσώπου GFPGAN

Εγγραφή δωρεάν

Pro

5-λεπτό ηχητικό όριο
Σειρά προτεραιότητας GPU
Πρόσβαση API (πολλαπλή αποστολή)
Webhook returning callbacks
Εμπορική χρήση (άδεια MIT)

Αναβάθμιση

Συχνές Ερωτήσεις

Ανεβάστε μια φωτογραφία προσώπου και ένα ακουστικό κλιπ, και η AI δημιουργεί ένα βίντεο αυτού του προσώπου μιλώντας τον ήχο με ρεαλιστικές κινήσεις χειλιών, πόζα κεφάλι, και αναβοσβήνει.

Η είσοδος προσώπου μπορεί να είναι μια εικόνα JPG ή PNG (μέχρι 10 MB) ή ένα σύντομο βίντεο οδήγησης MP4/WebM (χρησιμοποιούμε το πρώτο πλαίσιο).

Δωρεάν λογαριασμοί: μέχρι 30 δευτερόλεπτα ανά κλιπ. Χρήστες πληρωμής: έως 5 λεπτά ανά αίτημα.

Ένα βίντεο συγχρονισμού χειλιών χρησιμοποιεί 1.000 χαρακτήρες ανά δευτερόλεπτο του βίντεο που παράγεται. Ένα κλιπ 30 δευτερολέπτων = 30.000 χαρακτήρες. Το κόστος χρεώνεται μπροστά από την ισορροπία του χαρακτήρα σας και επιστρέφεται αυτόματα εάν η γενιά αποτύχει.

Ναι Ο κώδικας SadTalker και τα βάρη είναι MIT αδειοδοτημένο τέλος στο τέλος (όχι Llama, Gemma, ή μη εμπορική ραχοκοκαλιά). Τα βίντεο που δημιουργείτε είναι δικά σας για να χρησιμοποιήσετε εμπορικά. Είστε υπεύθυνοι για την κατοχή των δικαιωμάτων στην εικόνα του προσώπου πηγής και ήχου που ανεβάζετε.

Περίπου 30 δευτερόλεπτα για ένα κλιπ 5 δευτερολέπτων στον διακομιστή μας A100, κλιμακώνοντας περίπου γραμμικά με μήκος ήχου.

Πλήρες προκαθορισμένο (προκαθορισμένο) κινούμενο κεφάλι πόζα, αναβοσβήνει, και την έκφραση μαζί με τα χείλη, παράγοντας ένα πιο φυσικό talking-head βίντεο.

Το GFPGAN είναι ένα μοντέλο αποκατάστασης προσώπου που ακονίζει τις λεπτομέρειες του προσώπου μετά την απόδοση lip-sync. Καθαρίζει τα αντικείμενα και κάνει 256-pixel εξόδου να φαίνονται πιο κοντά στο 512.

SadTalker καθιστά σε 256 px από προεπιλογή. Αλλαγή σε 512 px μέγεθος για πιο αιχμηρή έξοδο (χαμηλή, υψηλότερη VRAM) ή να επιτρέψει τον ενισχυτή GFPGAN να αυξήσει τις λεπτομέρειες προσώπου. Για καλύτερα αποτελέσματα, ανεβάστε μια υψηλής ποιότητας, καλά φωτισμένη φωτογραφία πορτρέτο.

Ναι. Ανεβάστε ένα MP4 ή WebM ως είσοδο προσώπου και θα χρησιμοποιήσουμε το πρώτο πλαίσιο ως την ταυτότητα οδήγησης. Για πλήρη αλλαγή βίντεο (ανά πλαίσιο αντικατάστασης στο στόμα), δείτε τον επικείμενο αγωγό βίντεο Dubbing Studio.

Ναι. Ποστήστε ένα multipart αίτημα στο /api/v1/lipsync/ με το πρόσωπο και τα ακουστικά πεδία, στη συνέχεια δημοσκόπηση /api/v1/lipsync/αποτέλεσμα/?uid= μέχρι η κατάσταση να "ολοκληρωθεί". Η απάντηση περιέχει ένα URL στο μεταδιδόμενο MP4. API πρόσβαση απαιτεί ένα πληρωμένο σχέδιο.

SadTalker χρησιμοποιεί face-connection για να ανιχνεύσει και να καλλιεργήσει το πιο σημαντικό πρόσωπο. Για τα καλύτερα αποτελέσματα, ανεβάστε ένα πορτρέτο με ένα άτομο στο κέντρο, μάτια ορατά, και minimal acclusion. Ομαδική φωτογραφίες μπορεί να παράγει απρόβλεπτα αποτελέσματα.

5.0/5 (1)

Έτοιμος να ξεκινήσουμε;

Εγγραφείτε δωρεάν και να πάρετε 50 μονάδες. Δεν απαιτείται πιστωτική κάρτα.

Εγγραφή δωρεάν Προβολή τιμής

AI Lip Sync Video Generator

Ανεβάστε το πρόσωπο + ήχου

Το Βίντεο του Μιλώντας-Κεφάλου σας

Σχετικά με τον SadTalker

Συμβουλές για Καλύτερα Αποτελέσματα

Lip Sync Video Plans

Συχνές Ερωτήσεις

Τι κάνει το εργαλείο συγχρονισμού χειλιών της Αλ-Λι;

Ποιες μορφές εισόδου υποστηρίζονται;

Πόσο μπορεί να διαρκέσει ο ήχος;

Πόσο κοστίζει;

Μπορώ να χρησιμοποιήσω τα βίντεο στο εμπόριο;

Πόσο καιρό παίρνει η γενιά;

Ποια είναι η διαφορά μεταξύ του "γεμάτου" και του "ακόμα" προκαθορισμένου;

Τι είναι ο ενισχυτής GFPGAN;

Γιατί η παραγωγή μου φαίνεται χαμηλή;

Μπορώ να συγχρονίσω ένα βίντεο με νέο ήχο;

Υπάρχει API;

Κι αν η φωτογραφία μου έχει πολλούς ανθρώπους μέσα;

Έτοιμος να ξεκινήσουμε;