Àkọlé àwòrán

Àwọn Àkọlé

Fi àwòrán ojú àti àwòrán ìrànwọ́ pamọ́ - gba àwòrán ìrànwọ́ tí o bá sọ̀rọ̀ nípa ìṣàfarawé àwọn ojú, ìṣàfihàn ojú, àti àwọn ìṣàfihàn. Tí SadTalker (MIT) ṣe. Lórúkọ́ ìṣowó Òkè.

A kò ní àwọn ìrànwọ́ TTS nínú ìtàn rẹ̀. Yọ̀ọ̀kan rán wà láti fàyè gba àwọn rẹ̀! Fi Ojú Rẹ̀ pamọ́

Fi Àwòrán Pamọ́

Àwọn àyọkà 1,000 nínú ìṣísẹ̀ kan

Gbé àwọn fáìlì rẹ̀ lọ́wọ́lọ́wọ́ síbẹ̀, tàbí Wá

JPG, PNG, or short MP4/WebM. Max 10MB. One clear, well-lit face works best.

fáìlì.mp3

0 MB

Gbé àwọn fáìlì rẹ̀ lọ́wọ́lọ́wọ́ síbẹ̀, tàbí Wá

MP3, WAV, M4A, or FLAC. Max 10MB. Free: up to 30 sec. Pro: up to 5 min.

fáìlì.mp3

0 MB

Ń Ṣàfikún...

Ń ṣàfihàn àwòrán rẹ̀. Ò lè gba àwọn ìsàlẹ̀-ilà àwọn ìsàlẹ̀-ilà 30 sí àwọn ààtò 2.

Àwọn Àwòrán Àwọn Àkọ́kọ́ Rẹ̀

Àwọn Àkọlé

SadTalker (CVPR 2023, Tencent ARC) ní módè́lì ìraǹrọ̀-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-ìgbà-

Code and weights are MIT-licensed end to end — no Llama, Gemma, or non-commercial backbone — so the videos you generate are safe for commercial use.

Àwọn Àlàyé fún Àwọn Àtòjọ-ẹ̀yàn

  • Lo àwòrán ìṣàfarawé ìṣàfarawé tí a bá mọ́ - ojù náà tí a rí, ẹnu tí a tí pa
  • Centered face, square or 4:5 aspect ratio works best
  • Àwọn àwòrán ìsàlẹ̀-ilà ìṣàfarawé (kò ní ìranṣẹ́) náà náà ìṣàfarawé àwọn àwòrán
  • Fún GFPGAN láti lo fún àwọn àkókò àìdájú - gbàdúró àkókò ìṣàfihàn láti fi àwọn àwọn ìròyìn hàn
  • Lo àtòjọ-ẹ̀yàn ìṣàfihàn tí a tí ìṣàfihàn àwọn àwòrán

Àwọn Àtòjọ-ètò Àwọn Àkọsílẹ̀

Ṣílẹ̀ ọ̀fẹ́, ṣíṣàfihàn tí o bà fẹ́ diẹ́ sii

Àìfẹ́
  • Ìgbà ìpamọ́ àwòrán 30-sekondì
  • Àwọn ààtò ìjánu-ìṣàmúlò-ètò
  • "Still" àwọn ààtò àìṣàfilọ́lẹ̀
  • Kò ní ìṣàfihàn ojù
Àwọn Àkọ́gbégbé
Àwọn
  • Ìgbà ìpamọ́ àwòrán 30-sekondì
  • Àwọn ààtò àwọn ìṣàmúlò-ètò "full" àti "still"
  • 256 / 512 px ìjánu-ìṣàfihàn
  • Àwọn àwọn ìṣàfihàn àwọn oju GFPGAN
Ṣẹ̀dà
Àwọn
  • Ìgbà ìpamọ́ àwòrán 5-minún
  • Àwọn ìṣàmúlò-ètò GPU ìṣàfarawé
  • Ìyàn API (àfihàn àwọn ààyè-iṣẹ́)
  • Àwọn ìṣàfarawé àwọn ìṣàfarawé àwọn àgbéwọlé
  • Ìlò àìṣé (láìsì MIT)
_Ṣàfikún

Àwọn Àtòjọ-ẹ̀yàn

Upload a face photo and an audio clip, and the AI generates a video of that face speaking the audio with realistic lip movements, head pose, and blinks. Built on SadTalker (CVPR 2023), an MIT-licensed talking-head model that animates expression in addition to mouth shape.

Àwọn ìṣàfilọ́lẹ̀ ojù lè jẹ́ àwòrán JPG tàbí PNG (tí 10 MB lọ́wọ́lọ́wọ́) tàbí àwòrán àwọn ààyè-iṣẹ́ MP4/WebM tí a fi pamọ́ (a lò àwọn fèrèsé akọkọ). Àwòrán tí a fi pamọ́ lè jẹ́ MP3, WAV, M4A, tàbí FLAC tí 10 MB lọ́wọ́lọ́wọ́. A tí yipada àwòrán láti inú lọ́wọ́lọ́wọ́ sí 16 kHz.

Free accounts: up to 30 seconds per clip. Paying users: up to 5 minutes per request. Longer audio means longer render time and higher character cost.

Lip sync video uses 1,000 characters per second of generated video. A 30-second clip = 30,000 characters. The cost is billed up front from your character balance and refunded automatically if generation fails.

Ya — Àwọn ìṣàmúlò-ètò SadTalker àti àwọn ìṣàmúlò-ètò àwọn àwọn ìṣàmúlò-ètò ní ìṣẹ̀dá MIT tí a fi pamọ́ sí ìparí (kò si Llama, Gemma, tàbí àwọn ìrísí-lẹ́tà tí kò jẹ́ fún iṣowo). Àwọn àwọn àwòrán tí o ṣẹ̀dá ní ẹ̀yàn rẹ̀ láti lo fún iṣowo. Ò ní ìṣẹ̀dá láti ní àwọn ìṣẹ̀dá àwọn àwòrán ojú àti àwòrán àwòrán tí o fi pamọ́.

About 30 seconds for a 5-second clip on our A100 server, scaling roughly linearly with audio length. Enabling the GFPGAN face enhancer roughly doubles render time but produces sharper, higher-quality output.

Àwọn ààtò ìṣàmúlò-ètò ìparí iṣẹ́ (pípálẹ̀) àwọn ìṣàmúlò-ètò ìṣàmúlò-ètò ìṣàmúlò-ètò ìsàlẹ̀-ètò, àwọn ìṣàmúlò-ètò ìṣàmúlò-ètò, àti àwọn ìṣàmúlò-ètò nípa àwọn ojú, láti mú àwọn àwòrán ìsàlẹ̀-ètò ìsàlẹ̀-ètò tí a bá sọ̀rọ̀ pọ̀ jú lọ. Àwọn ààtò ìsàlẹ̀-ètò tí a tí wà nípa àwọn ààtò ìṣàmúlò-ètò ìsàlẹ̀-ètò náà láti pa ojú náà nípa àwọn ojú náà.

GFPGAN is a face restoration model that sharpens facial details after lip-sync rendering. It cleans up artifacts and makes 256-pixel output look closer to 512. It roughly doubles render time but is worth it for hero shots.

SadTalker renders at 256 px by default. Switch to 512 px size for sharper output (slower, higher VRAM) or enable the GFPGAN enhancer to upscale facial details. For best results, upload a high-quality, well-lit portrait photo.

Yes. Upload an MP4 or WebM as the face input and we will use the first frame as the driving identity. For full video re-dubbing (per-frame mouth replacement), see the upcoming Dubbing Studio video pipeline.

Ya. POST àgbèwọlé àwọn ààyè-iṣẹ́ àwọn àwọn ààyè-iṣẹ́ àwọn àwọn ààyè-iṣẹ́ àwọn àwọn ààyè-iṣẹ́ àwọn àwọn ààyè-iṣẹ́ àwọn àwọn ààyè-iṣẹ́ àwọn ààyè-iṣẹ́ àwọn ààyè-iṣẹ́ àwọn ààyè-iṣẹ́ àwọn ààyè-iṣẹ́ àwọn ààyè-iṣẹ́ àwọn ààyè-iṣẹ́ àwọn ààyè-iṣẹ́ àwọn ààyè-iṣẹ́ àwọn ààyè-iṣẹ́ àwọn ààyè-iṣẹ́ àwọn ààyè-iṣẹ́ àwọn ààyè-iṣẹ́ àwọn ààyè-iṣẹ́ àwọn ààyè-iṣẹ́ àwọn ààyè-iṣẹ́ àwọn ààyè-iṣẹ́ àwọn ààyè-iṣẹ́ àwọn ààyè-iṣẹ́ àwọn ààyè-iṣẹ́ àwọn ààyè-iṣẹ́ àwọn ààyè-iṣẹ́ àwọn ààyè-iṣẹ́ àwọn ààyè-iṣẹ́ àwọn ààyè-iṣẹ́ àwọn ààyè-iṣẹ́ àwọn ààyè-iṣẹ́ àwọn ààyè-iṣẹ́ àwọn ààyè-iṣẹ́ àwọn ààyè-iṣẹ́ àwọn ààyè-iṣẹ́ àwọn ààyè-iṣẹ́ àwọn ààyè-iṣẹ́ àwọn ààyè-iṣẹ́ àwọn ààyè-iṣẹ́ àwọn ààyè-iṣẹ́ àwọn ààyè-iṣẹ́ àwọn ààyè-iṣẹ́ àwọn ààyè-iṣẹ́ àwọn ààyè-iṣẹ́ àwọn ààyè-iṣẹ́ àwọn ààyè-iṣẹ́ àwọn ààyè-iṣẹ́ àwọn ààyè-iṣẹ́ àwọn ààyè-iṣẹ́ àwọn ààyè-iṣẹ́ àwọn ààyè-iṣẹ́ àwọn ààyè-iṣẹ́ àwọn ààyè-iṣẹ́ àwọn ààyè-

SadTalker uses face-alignment to detect and crop the most prominent face. For best results, upload a portrait with one person centered, eyes visible, and minimal occlusion. Group photos may produce unpredictable results.
5.0/5 (1)

Àwọn àwọn àgbéwọlé rẹ̀ lè jẹ́ ìrànwọ́ fún wa.

Tí o bá fẹ́ bẹrẹ?

Ṣẹ̀dá ọ̀fẹ́ ki o si gba 50 kọ́rẹ́dì. A kò nilò kaadí ẹ̀yàn.