Signaler la demande de bogue/caractère

Générateur de vidéo AI Lip Sync

Téléchargez une photo du visage et un clip audio — obtenez une vidéo en tête-à-tête avec une synchronisation réaliste des lèvres, pose de la tête, et clignote. Powered by SadTalker (MIT).

Inscription gratuite

Télécharger Face + Audio

1 000 caractères par seconde

1. Image de visage ou vidéo de conduite

Faites glisser et déposez votre fichier ici, ou parcourir

JPG, PNG, or short MP4/WebM. Max 10MB. One clear, well-lit face works best.

2. L'audio de conduite

Faites glisser et déposez votre fichier ici, ou parcourir

MP3, WAV, M4A, or FLAC. Max 10MB. Free: up to 30 sec. Pro: up to 5 min.

Préréglage de l'animation

Taille de sortie

Enhancer visage

GFPGAN (récolte, plus lente)

À propos de SadTalker

SadTalker (CVPR 2023, Tencent ARC) est un modèle de tête parlante open source qui anime une seule image de visage pour parler n'importe quel son. Contrairement aux variantes Wav2Lip, SadTalker anime également la pose de tête, les clignements et l'expression pour un résultat plus naturel.

Code et poids sont autorisés MIT bout à bout — pas de Llama, Gemma, ou de colonne vertébrale non commerciale — de sorte que les vidéos que vous générez sont sécuritaires pour une utilisation commerciale.

Conseils pour les meilleurs résultats

Utilisez un portrait de haute qualité, bien éclairé — yeux visibles, bouche fermée
Face centrée, carré ou 4:5 le rapport d'aspect fonctionne mieux
Le son de la parole propre (pas de musique) donne une synchronisation des lèvres plus serrée
Activer GFPGAN pour les coups de héros — double rend le temps mais affûte les détails
Utilisez le Toujours préréglé lorsque vous voulez un tir d'avatar stable

Plans vidéo Lip Sync

Commencez gratuitement, mise à niveau lorsque vous avez besoin de plus

Gratuit

Limite audio de 30 secondes
Sortie 256 px
Préréglage "Still" uniquement
Pas de rehausseur de visage

Les plus populaires

Compte gratuit

Limite audio de 30 secondes
Préréglages "plein" et "toujours"
Sortie 256 / 512 px
Enrichisseur du visage GFPGAN

Inscription gratuite

Pour

Limite sonore de 5 minutes
file d'attente GPU prioritaire
Accès à l'API (téléchargement en plusieurs parties)
Callbacks d'achèvement de Webhook
Utilisation commerciale (licence MIT)

Mise à jour

Foire aux questions

Télécharger une photo du visage et un clip audio, et l'IA génère une vidéo de ce visage parlant l'audio avec des mouvements de lèvres réalistes, pose de la tête, et clignote. Construit sur SadTalker (CVPR 2023), un modèle de tête parlante sous licence MIT qui anime l'expression en plus de la forme de la bouche.

L'entrée du visage peut être une image JPG ou PNG (jusqu'à 10 Mo) ou une courte vidéo de conduite MP4/WebM (nous utilisons la première image). L'audio de conduite peut être MP3, WAV, M4A ou FLAC jusqu'à 10 Mo. Nous rééchantillonnons l'audio à 16 kHz en interne.

Comptes gratuits: jusqu'à 30 secondes par clip. Payer les utilisateurs: jusqu'à 5 minutes par demande.

La vidéo Lip Sync utilise 1 000 caractères par seconde de la vidéo générée. Un clip de 30 secondes = 30 000 caractères. Le coût est facturé à partir de votre solde de caractères et remboursé automatiquement si la génération échoue.

Oui — SadTalker code et poids sont MIT sous licence fin à fin (pas de Llama, Gemma, ou non-commerciale colonne vertébrale). Les vidéos que vous générez sont les vôtres à utiliser commercialement. Vous êtes responsable d'avoir les droits sur l'image de visage source et audio que vous téléchargez.

Environ 30 secondes pour un clip de 5 secondes sur notre serveur A100, à l'échelle à peu près linéaire avec la longueur audio. Activer l'amplificateur de visage GFPGAN double à peu près le temps de rendu, mais produit une sortie plus nette et de meilleure qualité.

Complete preset (default) anime la tête pose, clignote, et l'expression avec les lèvres, produisant une vidéo plus naturelle de la tête parlante. Toujours préset verrouille la tête en place et anime seulement la bouche — utile quand vous voulez un coup d'avatar stable.

GFPGAN est un modèle de restauration du visage qui aiguise les détails du visage après le rendu lip-sync. Il nettoie les artefacts et fait 256 pixels de sortie regarder plus près de 512. Il double à peu près le temps de rendu, mais en vaut la peine pour les coups de héros.

SadTalker rend à 256 px par défaut. Passez à 512 px pour une sortie plus nette (VRAM plus faible, plus élevée) ou permet à l'exhausteur GFPGAN d'améliorer les détails du visage. Pour de meilleurs résultats, téléchargez une photo de portrait de haute qualité et bien éclairée.

Oui. Télécharger un MP4 ou WebM comme entrée de visage et nous utiliserons la première image comme identité de conduite. Pour le re-doublage vidéo complet (remplacement de bouche par image), voir le pipeline vidéo de Doubling Studio à venir.

Yes. POST a multipart request to /api/v1/lipsync/ with face and audio fields, then poll /api/v1/lipsync/result/?uuid= until status is "completed". The response contains a URL to the rendered MP4. API access requires a paid plan.

SadTalker utilise l'alignement du visage pour détecter et recouvrir le visage le plus proéminent. Pour de meilleurs résultats, téléchargez un portrait avec une personne centrée, les yeux visibles, et l'occlusion minimale.

5.0/5 (1)

Prêt à commencer?

Inscrivez-vous gratuitement et obtenez 50 crédits. Aucune carte de crédit requise.

Inscription gratuite Voir le prix

Générateur de vidéo AI Lip Sync

Télécharger Face + Audio

Votre vidéo en tête de conversation

À propos de SadTalker

Conseils pour les meilleurs résultats

Plans vidéo Lip Sync

Foire aux questions

Que fait l'outil de synchronisation des lèvres AI?

Quels formats d'entrée sont pris en charge?

Combien de temps l'audio peut-il être?

Combien ça coûte?

Puis-je utiliser les vidéos commercialement?

Combien de temps la génération prend - elle?

Quelle est la différence entre "plein" et "toujours" préréglé?

Qu'est-ce que l'exhausteur GFPGAN?

Pourquoi ma sortie est-elle en basse résolution?

Puis-je lip-sync une vidéo sur un nouvel audio?

Y a-t-il une API?

Et si ma photo du visage a plusieurs personnes dedans?

Prêt à commencer?