AI Lip Sync տեսանյութի գեներատոր

Տեղադրել դեմքի լուսանկար և ձայնային կտոր՝ ստանալով խոսող գլխի տեսահոլովակ՝ իրական ատամների սինխրոնիզացիայի, գլխի դիրքորոշման և մրմունջների հետ։ Ստեղծվել է SadTalker (MIT) ծրագրով։ Առևտրային օգտագործման համար թույլատրելի է։

Մենք դեռևս չունենք TTS ձայներ ձեր լեզվով։ Կօգնեք մեզ ավելացնել ձերը! Ձեր ձայնը վաճառել

Տեղադրել Face + Audio

1000 սանտիմետր վայրկյանում

Սեղմել և տեղադրել ֆայլը այստեղ, կամ ընթերցել

JPG, PNG, or short MP4/WebM. Max 10MB. One clear, well-lit face works best.

ֆայլ.mp3

0 MB

Սեղմել և տեղադրել ֆայլը այստեղ, կամ ընթերցել

MP3, WAV, M4A, or FLAC. Max 10MB. Free: up to 30 sec. Pro: up to 5 min.

ֆայլ.mp3

0 MB

Աշխատանք...

Ձեր տեսանյութի ցուցադրումը։ Սա սովորաբար տևում է 30 վայրկյանից մինչև 2 րոպե։

Ձեր Talking-Head վիդեոն

Տեղադրել

Օգտագործողի ինտերֆեյս

SadTalker-ը (CVPR 2023, Tencent ARC) բաց կոդով խոսող գլխի մոդել է, որը միակ դեմքի պատկերը անիմացնում է ցանկացած ձայնային հաղորդագրություն արտասանելու համար։ Անգամ Wav2Lip տարբերակներից տարբեր, SadTalker-ը նաև անիմացնում է գլխի դիրքերը, մրմռոցները և արտահայտությունները՝ ավելի բնական արդյունքի համար։

Կոդը և ծանրությունը MIT-ի կողմից լիազորված են՝ առանց Llama, Gemma կամ ոչ առևտրային backbone-ի, այնպես որ ձեր ստեղծած տեսանյութերը անվտանգ են առևտրային օգտագործման համար։

Լավագույն արդյունքների համար խորհուրդներ

  • Օգտագործել բարձր որակի, լավ լուսավորված դիմանկար՝ աչքերը տեսանելի, բերանը փակ
  • Կենտրոնացված աչքեր, քառակուսի կամ 4:5 հարաբերակցությունը լավագույնն է
  • Խոսքի ձայնային ձայնագրությունը (չկա երաժշտություն) ավելի լավ է համընկնում ականջների հետ
  • Գործարկել GFPGAN-ը հերոսների նկարների համար — կրկնապատկում է ցուցադրման ժամանակը, բայց մանրամասնությունները ավելի մանրամասն են դառնում
  • Օգտագործել Still նախընտրությունը, երբ ցանկանում եք կայուն նկարել ավատարը

Լեզուի սինխրոնիզացիայի տեսահոլովակ

Սկսեք անվճար, բարձրացրեք, երբ ավելի շատ բանի կարիք ունեք

Ազատ
  • 30 վայրկյան ձայնային սահմանափակում
  • 256 px արտահանում
  • Ընդամենը "Still" նախատեսված
  • Չկա դեմքի բարելավում
Ամենատարածված
Ազատ հաշիվ
  • 30 վայրկյան ձայնային սահմանափակում
  • Երկու "բոլոր" և "հանգիստ" նախատեսումներ
  • 256 / 512 px արտահանում
  • GFPGAN դեմքի բարելավում
Անվճար գրանցում
Օգտագործող
  • 5 րոպե ձայնային սահմանափակում
  • Գրաֆիկական պրոցեսորի ուշադրության գիծ
  • API- ի հասանելիություն (բազմամասնային ներբեռնում)
  • Webhook ավարտման հետազոտություն
  • Բիզնես օգտագործում (MIT թույլտվություն)
Նորացնել

Հաճախ տրվող հարցեր

Տեղադրեք դեմքի լուսանկար և ձայնային կտոր, և AI-ն կստեղծի այդ դեմքի ձայնային ձայնագրությունը, որը կներկայացնի իրական ատամների շարժումները, գլխի դիրքերը և աչքերի շարժումները։ Ստեղծված է SadTalker-ի (CVPR 2023) հիման վրա, որը MIT-ի լիցենզավորված խոսող գլխի մոդել է, որը աչքերի արտահայտության հետ միասին նաև ձայնային արտահայտություն է ցուցադրում։

Ձևի մուտք կարող է լինել JPG կամ PNG պատկեր (մինչև 10 ՄԲ) կամ կարճ MP4/WebM տեսանյութ (մենք օգտագործում ենք առաջին կտավը)։ Ձևի ձայնը կարող է լինել MP3, WAV, M4A կամ FLAC մինչև 10 ՄԲ։ Մենք ներսում ձայնը վերադառնում ենք 16 kHz։

Ազատ հաշիվներ. մինչև 30 վայրկյան յուրաքանչյուր կտորում: Պետք է վճարել: մինչև 5 րոպե յուրաքանչյուր խնդրանքում: Ավելի երկար ձայնը նշանակում է ավելի երկար ցուցադրման ժամանակ և ավելի բարձր արժեքը:

Լեզուների համատեղելիության տեսահոլովակը օգտագործում է 1000 հերոս վայրկյանում սերվերի կողմից ստեղծված տեսահոլովակի համար։ 30 վայրկյան տևողությամբ տեսանյութը = 30,000 հերոս։ Ձեր հերոսների հաշվին վճարվում է արժեքը, որը ավտոմատ կերպով փոխհատուցում է, եթե ստեղծումը ձախողվի։

Այո — SadTalker-ի կոդը և ծանրությունը MIT-ի կողմից լիազորված են (ոչ Llama, Gemma կամ ոչ առևտրային backbone)։ Ձեր ստեղծած տեսանյութերը կարող եք օգտագործել առևտրային նպատակներով։ Դուք պատասխանատու եք ձեր տեղադրած սկզբնական դեմքի պատկերի և ձայնի իրավունքների համար։

Մոտավորապես 30 վայրկյան 5 վայրկյան տևողությամբ կադրի համար մեր A100 սերվերում, որն ընդհանուր առմամբ գծային է ձայնային երկարության հետ։ GFPGAN- ի դեմքի բարելավման գործառույթի ներգրավումը ընդհանուր առմամբ կրկնապատկում է ցուցադրման ժամանակը, սակայն տալիս է ավելի հստակ, ավելի բարձր որակի ելք։

Ամբողջական նախընտրելի (լռելյայն) մոդելները անիմատացնում են գլխի դիրքերը, մռայլումները և արտահայտությունները, ինչպես նաև ատամները, ստեղծելով ավելի բնական խոսող գլխի տեսահոլովակ։ Ավելի նախընտրելի մոդելները անընդհատ փակում են գլուխը և անիմատացնում են միայն բերանը, ինչը օգտակար է, երբ ցանկանում եք վավերագրի նկարը պահել անշարժ։

GFPGAN- ը դեմքի վերականգնման մոդել է, որը դեմքի մանրամասները շեշտում է ատամների հետ համընկնման ցուցադրումից հետո։ Այն մաքրում է արտեֆակտները և 256 պիքսելի ելքը ավելի մոտ է 512- ին։ Դա մոտավորապես կրկնապատկում է ցուցադրման ժամանակը, բայց արժե հերոսների նկարների համար։

SadTalker-ը լռելյայն ցուցադրում է 256 px-ով։ Փոխեք 512 px-ի չափսերի համար ավելի ակնհայտ ելքի համար (ավելի դանդաղ, ավելի մեծ VRAM) կամ միացրեք GFPGAN-ի բարելավիչը դեմքի մանրամասները մեծացնելու համար։ Լավագույն արդյունքների համար ներբեռնեք բարձր որակի, լավ լուսավորված կախարդական լուսանկար։

Այո։ Բեռնեք MP4 կամ WebM ֆայլը որպես դեմքի մուտք, և մենք կօգտագործենք առաջին ֆայլը որպես վարելու համար անհրաժեշտ անձնագիր։ Տեսահոլովակի ամբողջական կրկնօրինակման համար (առաջին ֆայլի ականջը փոխարինելու համար), տե՛ս Dubbing Studio-ի մոտակա տեսահոլովակի ալիքը։

Այո։ POST-ել բազմակողմանի խնդրանք /api/v1/lipsync/-ին դեմքի և ձայնային դաշտերով, ապա հարցնել /api/v1/lipsync/result/?uuid=, մինչև վիճակը դառնա «ավարտված»։ Պատասխանը պարունակում է ցուցադրված MP4-ի URL-ը։ API-ի համար անհրաժեշտ է վճարովի պլան։

SadTalker-ը օգտագործում է դեմքի ուղղումը՝ հայտնաբերելու և կտրել ամենահայաց դեմքը։ Լավագույն արդյունքների համար ներբեռնեք մի մարդու պատկեր, որի կենտրոնում գտնվում են նրա աչքերը և նվազագույն փակվածություն։ Ընդհանուր լուսանկարները կարող են առաջացնել անկանխատեսելի արդյունքներ։
5.0/5 (1)

Ի՞նչ կարող ենք բարելավել: Ձեր կարծիքը օգնում է մեզ լուծել խնդիրները:

Պատրա՞ստ եք սկսելու։

Գրանցվեք անվճար և ստացեք 50 կետ։ Կրեդիտային քարտի կարիք չկա։