Signaler la demande de bogue/caractère

Générateur de vidéo AI Lip Sync

Téléchargez une photo du visage et un clip audio — obtenez une vidéo en tête-à-tête avec une synchronisation réaliste des lèvres, pose de la tête, et clignote. Powered by SadTalker (MIT).

Télécharger Face + Audio

1 000 caractères par seconde

Faites glisser et déposez votre fichier ici, ou parcourir

JPG, PNG, or short MP4/WebM. Max 10MB. One clear, well-lit face works best.

fichier.mp3

0 MB

Faites glisser et déposez votre fichier ici, ou parcourir

MP3, WAV, M4A, or FLAC. Max 10MB. Free: up to 30 sec. Pro: up to 5 min.

fichier.mp3

0 MB

Traitement...

Rendu votre vidéo. Cela prend généralement 30 secondes à 2 minutes.

Votre vidéo en tête de conversation

Télécharger MP4

À propos de SadTalker

SadTalker (CVPR 2023, Tencent ARC) est un modèle de tête parlante open source qui anime une seule image de visage pour parler n'importe quel son. Contrairement aux variantes Wav2Lip, SadTalker anime également la pose de tête, les clignements et l'expression pour un résultat plus naturel.

Code et poids sont autorisés MIT bout à bout — pas de Llama, Gemma, ou de colonne vertébrale non commerciale — de sorte que les vidéos que vous générez sont sécuritaires pour une utilisation commerciale.

Conseils pour les meilleurs résultats

  • Utilisez un portrait de haute qualité, bien éclairé — yeux visibles, bouche fermée
  • Face centrée, carré ou 4:5 le rapport d'aspect fonctionne mieux
  • Le son de la parole propre (pas de musique) donne une synchronisation des lèvres plus serrée
  • Activer GFPGAN pour les coups de héros — double rend le temps mais affûte les détails
  • Utilisez le Toujours préréglé lorsque vous voulez un tir d'avatar stable

Plans vidéo Lip Sync

Commencez gratuitement, mise à niveau lorsque vous avez besoin de plus

Gratuit
  • Limite audio de 30 secondes
  • Sortie 256 px
  • Préréglage "Still" uniquement
  • Pas de rehausseur de visage
Les plus populaires
Compte gratuit
  • Limite audio de 30 secondes
  • Préréglages "plein" et "toujours"
  • Sortie 256 / 512 px
  • Enrichisseur du visage GFPGAN
Inscription gratuite
Pour
  • Limite sonore de 5 minutes
  • file d'attente GPU prioritaire
  • Accès à l'API (téléchargement en plusieurs parties)
  • Callbacks d'achèvement de Webhook
  • Utilisation commerciale (licence MIT)
Mise à jour

Foire aux questions

Télécharger une photo du visage et un clip audio, et l'IA génère une vidéo de ce visage parlant l'audio avec des mouvements de lèvres réalistes, pose de la tête, et clignote. Construit sur SadTalker (CVPR 2023), un modèle de tête parlante sous licence MIT qui anime l'expression en plus de la forme de la bouche.

L'entrée du visage peut être une image JPG ou PNG (jusqu'à 10 Mo) ou une courte vidéo de conduite MP4/WebM (nous utilisons la première image). L'audio de conduite peut être MP3, WAV, M4A ou FLAC jusqu'à 10 Mo. Nous rééchantillonnons l'audio à 16 kHz en interne.

Comptes gratuits: jusqu'à 30 secondes par clip. Payer les utilisateurs: jusqu'à 5 minutes par demande.

La vidéo Lip Sync utilise 1 000 caractères par seconde de la vidéo générée. Un clip de 30 secondes = 30 000 caractères. Le coût est facturé à partir de votre solde de caractères et remboursé automatiquement si la génération échoue.

Oui — SadTalker code et poids sont MIT sous licence fin à fin (pas de Llama, Gemma, ou non-commerciale colonne vertébrale). Les vidéos que vous générez sont les vôtres à utiliser commercialement. Vous êtes responsable d'avoir les droits sur l'image de visage source et audio que vous téléchargez.

Environ 30 secondes pour un clip de 5 secondes sur notre serveur A100, à l'échelle à peu près linéaire avec la longueur audio. Activer l'amplificateur de visage GFPGAN double à peu près le temps de rendu, mais produit une sortie plus nette et de meilleure qualité.

Complete preset (default) anime la tête pose, clignote, et l'expression avec les lèvres, produisant une vidéo plus naturelle de la tête parlante. Toujours préset verrouille la tête en place et anime seulement la bouche — utile quand vous voulez un coup d'avatar stable.

GFPGAN est un modèle de restauration du visage qui aiguise les détails du visage après le rendu lip-sync. Il nettoie les artefacts et fait 256 pixels de sortie regarder plus près de 512. Il double à peu près le temps de rendu, mais en vaut la peine pour les coups de héros.

SadTalker rend à 256 px par défaut. Passez à 512 px pour une sortie plus nette (VRAM plus faible, plus élevée) ou permet à l'exhausteur GFPGAN d'améliorer les détails du visage. Pour de meilleurs résultats, téléchargez une photo de portrait de haute qualité et bien éclairée.

Oui. Télécharger un MP4 ou WebM comme entrée de visage et nous utiliserons la première image comme identité de conduite. Pour le re-doublage vidéo complet (remplacement de bouche par image), voir le pipeline vidéo de Doubling Studio à venir.

Oui. POST une requête en plusieurs parties à /api/v1/lipsync/ avec les champs visage et audio, puis sondage /api/v1/lipsync/result/?uuuid= jusqu'à ce que l'état soit "complété". La réponse contient une URL à l'accès MP4. API rendu nécessite un plan payé.

SadTalker utilise l'alignement du visage pour détecter et recouvrir le visage le plus proéminent. Pour de meilleurs résultats, téléchargez un portrait avec une personne centrée, les yeux visibles, et l'occlusion minimale.
5.0/5 (1)

Que pourrions-nous améliorer? Vos commentaires nous aident à résoudre les problèmes.

Prêt à commencer?

Inscrivez-vous gratuitement et obtenez 50 crédits. Aucune carte de crédit requise.