> AI Lip Sync Video Generator

> I-upload ang isang larawan ng mukha at isang audio clip - makakuha ng isang video na nagsasalita-utak na may makatotohanang lip sync, ulo pose, at blinks. Powered by SadTalker (MIT). Commercial paggamit OK.

Hindi pa kami may mga boses ng TTS sa iyong wika. Tulungan mo kaming magdagdag ng iyong mga ito! Ibenta ang Iyong Tinig

> I-upload ang mukha + Audio

> 1,000 mga character sa bawat segundo

> I-drag & drop ang iyong file dito, o tl> mag-browse

JPG, PNG, or short MP4/WebM. Max 10MB. One clear, well-lit face works best.

tl> file.mp3

0 MB

> I-drag & drop ang iyong file dito, o tl> mag-browse

MP3, WAV, M4A, or FLAC. Max 10MB. Free: up to 30 sec. Pro: up to 5 min.

tl> file.mp3

0 MB

Pagpoproseso...

> Rendering ang iyong video. Ito ay karaniwang tumatagal ng 30 segundo hanggang2minuto.

> Ang iyong Video ng Pagsasalita-Ulo

I-download

Tungkol sa SadTalker

> SadTalker (CVPR 2023, Tencent ARC) ay isang open-source na nagsasalita-utak modelo na animates isang solong mukha imahe upang makipag-usap sa anumang audio. Hindi tulad ng Wav2Lip variants, SadTalker din animates ulo pose, blinks, at ekspresyon para sa isang mas natural na resulta.

Ang code at timbang ay may MIT-license mula simula hanggang katapusan — walang Llama, Gemma, o non-commercial backbone — kaya ang mga video na iyong nilikha ay ligtas para sa komersyal na paggamit.

> Mga Tip para sa Pinakamahusay na Resulta

  • > Gumamit ng mataas na kalidad, well-lit portrait — mata nakikita, bibig sarado
  • > Centered mukha, parisukat o 4:5 aspect ratio gumagana pinakamahusay na
  • > Clean speech audio (walang musika) yields mas mahigpit lip sync
  • > Enable GFPGAN para sa mga shot bayani - doubles i-render ang oras ngunit sharpens detalye
  • > Gamitin ang Still preset kapag nais mong isang matatag na avatar shot

> Paano Mag-edit ng Video

> Magsimula nang libre, i-upgrade kapag kailangan mo ng higit pa

Libre
  • > 30-segundo audio limitasyon
  • > 256 px output
  • > "Patuloy" preset lamang
  • > Walang mukha enhancer
Karamihan Popular
Libreng Account
  • > 30-segundo audio limitasyon
  • > Parehong "buong" at "pa rin" presets
  • > 256 / 512 px output
  • Ang GFPGAN face enhancer
Mag-sign up para sa libreng
Pro
  • >5-minuto audio limitasyon
  • < Prioridad GPU queue
  • > API access (multipart pag-upload)
  • > Webhook pagkumpleto callbacks
  • > Komersyal na paggamit (MIT lisensya)
I-upgrade

Mga Madalas Itanong

> I-upload ang isang larawan ng mukha at isang audio clip, at ang AI ay lumilikha ng isang video ng mukha na nagsasalita ng audio na may makatotohanang mga paggalaw ng labi, ulo pose, at blinks. Built on SadTalker (CVPR 2023), isang MIT-licensed na nagsasalita-utak modelo na animates ekspresyon sa karagdagan sa hugis ng bibig.

Ang face input ay maaaring JPG o PNG image (hanggang sa 10 MB) o isang maikling MP4/WebM driving video (gamitin namin ang unang frame). Ang driving audio ay maaaring MP3, WAV, M4A, o FLAC hanggang sa 10 MB.

> Libreng account: hanggang sa 30 segundo bawat clip. Pagbayad ng mga gumagamit: hanggang sa5minuto bawat kahilingan. Mas mahabang audio ay nangangahulugan ng mas mahabang oras ng pag-render at mas mataas na gastos ng character.

Ang isang 30-segundong clip ay may 30,000 character. Ang gastos ay babayaran sa harap mula sa iyong balanse ng character at awtomatikong ibabalik kung ang henerasyon ay nabigo.

> Oo — SadTalker code at timbang ay MIT lisensyado dulo sa dulo (walang Llama, Gemma, o hindi-komersyal na backbone). Ang mga video na iyong binuo ay iyong gamitin sa komersyal. Ikaw ay responsable para sa pagkakaroon ng mga karapatan sa pinagmulan mukha imahe at audio na iyong i-upload.

> Tungkol sa 30 segundo para sa isang5segundo clip sa aming A100 server, scaling humigit-kumulang linearly sa audio haba. Paganahin ang GFPGAN mukha enhancer humigit-kumulang doubles render oras ngunit gumagawa ng mas maliwanag, mas mataas na kalidad ng output.

> Buong preset (default) animates ulo pose, blinks, at ekspresyon kasama ang mga labi, paggawa ng isang mas natural na nagsasalita-utak video. Pa rin preset locks ang ulo sa lugar at animates lamang ang bibig — kapaki-pakinabang kapag nais mo ng isang matatag avatar shot.

Ang GFPGAN ay isang modelo ng pagpapanumbalik ng mukha na nagpapabuti ng mga detalye ng mukha pagkatapos ng lip-sync rendering. Nililinis nito ang mga artifact at ginagawang mas malapit ang 256-pixel output sa 512. Tinatayang ito ay nagdaragdag ng oras ng pag-render ngunit nagkakahalaga ito para sa mga shot ng bayani.

> SadTalker renders sa 256 px sa pamamagitan ng default. Maglipat sa 512 px laki para sa mas maliwanag na output (mabagal, mas mataas na VRAM) o payagan ang GFPGAN enhancer upang upscale facial detalye. Para sa pinakamahusay na mga resulta, mag-upload ng isang mataas na kalidad, well-lit portrait larawan.

> Oo. I-upload ang isang MP4 o WebM bilang ang mukha input at gagamitin namin ang unang frame bilang ang pagmamaneho ng pagkakakilanlan. Para sa buong video re-dubbing (per-frame bibig replacement), tingnan ang darating na Dubbing Studio video pipeline.

> Oo. POST ng isang multipart na kahilingan sa /api/v1/lipsync/ na may mukha at audio field, pagkatapos ay poll /api/v1/lipsync/result/?uuid= hanggang sa katayuan ay "natapos". Ang tugon ay naglalaman ng isang URL sa render MP4. API access ay nangangailangan ng isang bayad na plano.

> SadTalker gumagamit ng mukha-alignment upang matukoy at i-crop ang pinaka-kilalang mukha. Para sa pinakamahusay na mga resulta, i-upload ang isang portrait na may isang tao centered, mata nakikita, at minimum na pag-aaksaya. Group larawan ay maaaring makabuo ng hindi inaasahang mga resulta.
5.0/5 (1)

> Ano ang maaari naming mapabuti? Tutulong sa amin ang iyong feedback na ayusin ang mga isyu.

Handa nang magsimula?

> Mag-sign up para sa libreng at makakuha ng 15,000 mga character. Walang credit card na kinakailangan.