Տեղեկացնել սխալի / հատկության մասին

AI Lip Sync տեսանյութի գեներատոր

Տեղադրել դեմքի լուսանկար և ձայնային կտոր՝ ստանալով խոսող գլխի տեսահոլովակ՝ իրական ատամների սինխրոնիզացիայի, գլխի դիրքորոշման և մրմունջների հետ։ Ստեղծվել է SadTalker (MIT) ծրագրով։ Առևտրային օգտագործման համար թույլատրելի է։

Անվճար գրանցում

Մենք դեռևս չունենք TTS ձայներ ձեր լեզվով։ Կօգնեք մեզ ավելացնել ձերը! Ձեր ձայնը վաճառել

Տեղադրել Face + Audio

1000 սանտիմետր վայրկյանում

1. Ձևի պատկեր կամ վարելու տեսագրություն

Սեղմել և տեղադրել ֆայլը այստեղ, կամ ընթերցել

JPG, PNG, or short MP4/WebM. Max 10MB. One clear, well-lit face works best.

2. Ավտոմատ ձայնագրում

Սեղմել և տեղադրել ֆայլը այստեղ, կամ ընթերցել

MP3, WAV, M4A, or FLAC. Max 10MB. Free: up to 30 sec. Pro: up to 5 min.

Անիմատիկա

Ընդհանուր

Ձևի բարելավում

GFPGAN (բարձր, դանդաղ)

Օգտագործողի ինտերֆեյս

SadTalker-ը (CVPR 2023, Tencent ARC) բաց կոդով խոսող գլխի մոդել է, որը միակ դեմքի պատկերը անիմացնում է ցանկացած ձայնային հաղորդագրություն արտասանելու համար։ Անգամ Wav2Lip տարբերակներից տարբեր, SadTalker-ը նաև անիմացնում է գլխի դիրքերը, մրմռոցները և արտահայտությունները՝ ավելի բնական արդյունքի համար։

Կոդը և ծանրությունը MIT-ի կողմից լիազորված են՝ առանց Llama, Gemma կամ ոչ առևտրային backbone-ի, այնպես որ ձեր ստեղծած տեսանյութերը անվտանգ են առևտրային օգտագործման համար։

Լավագույն արդյունքների համար խորհուրդներ

Օգտագործել բարձր որակի, լավ լուսավորված դիմանկար՝ աչքերը տեսանելի, բերանը փակ
Կենտրոնացված աչքեր, քառակուսի կամ 4:5 հարաբերակցությունը լավագույնն է
Խոսքի ձայնային ձայնագրությունը (չկա երաժշտություն) ավելի լավ է համընկնում ականջների հետ
Գործարկել GFPGAN-ը հերոսների նկարների համար — կրկնապատկում է ցուցադրման ժամանակը, բայց մանրամասնությունները ավելի մանրամասն են դառնում
Օգտագործել Still նախընտրությունը, երբ ցանկանում եք կայուն նկարել ավատարը

Լեզուի սինխրոնիզացիայի տեսահոլովակ

Սկսեք անվճար, բարձրացրեք, երբ ավելի շատ բանի կարիք ունեք

Ազատ

30 վայրկյան ձայնային սահմանափակում
256 px արտահանում
Ընդամենը "Still" նախատեսված
Չկա դեմքի բարելավում

Ամենատարածված

Ազատ հաշիվ

30 վայրկյան ձայնային սահմանափակում
Երկու "բոլոր" և "հանգիստ" նախատեսումներ
256 / 512 px արտահանում
GFPGAN դեմքի բարելավում

Անվճար գրանցում

Օգտագործող

5 րոպե ձայնային սահմանափակում
Գրաֆիկական պրոցեսորի ուշադրության գիծ
API- ի հասանելիություն (բազմամասնային ներբեռնում)
Webhook ավարտման հետազոտություն
Բիզնես օգտագործում (MIT թույլտվություն)

Նորացնել

Հաճախ տրվող հարցեր

Տեղադրեք դեմքի լուսանկար և ձայնային կտոր, և AI-ն կստեղծի այդ դեմքի ձայնային ձայնագրությունը, որը կներկայացնի իրական ատամների շարժումները, գլխի դիրքերը և աչքերի շարժումները։ Ստեղծված է SadTalker-ի (CVPR 2023) հիման վրա, որը MIT-ի լիցենզավորված խոսող գլխի մոդել է, որը աչքերի արտահայտության հետ միասին նաև ձայնային արտահայտություն է ցուցադրում։

Ձևի մուտք կարող է լինել JPG կամ PNG պատկեր (մինչև 10 ՄԲ) կամ կարճ MP4/WebM տեսանյութ (մենք օգտագործում ենք առաջին կտավը)։ Ձևի ձայնը կարող է լինել MP3, WAV, M4A կամ FLAC մինչև 10 ՄԲ։ Մենք ներսում ձայնը վերադառնում ենք 16 kHz։

Ազատ հաշիվներ. մինչև 30 վայրկյան յուրաքանչյուր կտորում: Պետք է վճարել: մինչև 5 րոպե յուրաքանչյուր խնդրանքում: Ավելի երկար ձայնը նշանակում է ավելի երկար ցուցադրման ժամանակ և ավելի բարձր արժեքը:

Լեզուների համատեղելիության տեսահոլովակը օգտագործում է 1000 հերոս վայրկյանում սերվերի կողմից ստեղծված տեսահոլովակի համար։ 30 վայրկյան տևողությամբ տեսանյութը = 30,000 հերոս։ Ձեր հերոսների հաշվին վճարվում է արժեքը, որը ավտոմատ կերպով փոխհատուցում է, եթե ստեղծումը ձախողվի։

Այո — SadTalker-ի կոդը և ծանրությունը MIT-ի կողմից լիազորված են (ոչ Llama, Gemma կամ ոչ առևտրային backbone)։ Ձեր ստեղծած տեսանյութերը կարող եք օգտագործել առևտրային նպատակներով։ Դուք պատասխանատու եք ձեր տեղադրած սկզբնական դեմքի պատկերի և ձայնի իրավունքների համար։

Մոտավորապես 30 վայրկյան 5 վայրկյան տևողությամբ կադրի համար մեր A100 սերվերում, որն ընդհանուր առմամբ գծային է ձայնային երկարության հետ։ GFPGAN- ի դեմքի բարելավման գործառույթի ներգրավումը ընդհանուր առմամբ կրկնապատկում է ցուցադրման ժամանակը, սակայն տալիս է ավելի հստակ, ավելի բարձր որակի ելք։

Ամբողջական նախընտրելի (լռելյայն) մոդելները անիմատացնում են գլխի դիրքերը, մռայլումները և արտահայտությունները, ինչպես նաև ատամները, ստեղծելով ավելի բնական խոսող գլխի տեսահոլովակ։ Ավելի նախընտրելի մոդելները անընդհատ փակում են գլուխը և անիմատացնում են միայն բերանը, ինչը օգտակար է, երբ ցանկանում եք վավերագրի նկարը պահել անշարժ։

GFPGAN- ը դեմքի վերականգնման մոդել է, որը դեմքի մանրամասները շեշտում է ատամների հետ համընկնման ցուցադրումից հետո։ Այն մաքրում է արտեֆակտները և 256 պիքսելի ելքը ավելի մոտ է 512- ին։ Դա մոտավորապես կրկնապատկում է ցուցադրման ժամանակը, բայց արժե հերոսների նկարների համար։

SadTalker-ը լռելյայն ցուցադրում է 256 px-ով։ Փոխեք 512 px-ի չափսերի համար ավելի ակնհայտ ելքի համար (ավելի դանդաղ, ավելի մեծ VRAM) կամ միացրեք GFPGAN-ի բարելավիչը դեմքի մանրամասները մեծացնելու համար։ Լավագույն արդյունքների համար ներբեռնեք բարձր որակի, լավ լուսավորված կախարդական լուսանկար։

Այո։ Բեռնեք MP4 կամ WebM ֆայլը որպես դեմքի մուտք, և մենք կօգտագործենք առաջին ֆայլը որպես վարելու համար անհրաժեշտ անձնագիր։ Տեսահոլովակի ամբողջական կրկնօրինակման համար (առաջին ֆայլի ականջը փոխարինելու համար), տե՛ս Dubbing Studio-ի մոտակա տեսահոլովակի ալիքը։

Այո։ POST-ել բազմակողմանի խնդրանք /api/v1/lipsync/-ին դեմքի և ձայնային դաշտերով, ապա հարցնել /api/v1/lipsync/result/?uuid=, մինչև վիճակը դառնա «ավարտված»։ Պատասխանը պարունակում է ցուցադրված MP4-ի URL-ը։ API-ի համար անհրաժեշտ է վճարովի պլան։

SadTalker-ը օգտագործում է դեմքի ուղղումը՝ հայտնաբերելու և կտրել ամենահայաց դեմքը։ Լավագույն արդյունքների համար ներբեռնեք մի մարդու պատկեր, որի կենտրոնում գտնվում են նրա աչքերը և նվազագույն փակվածություն։ Ընդհանուր լուսանկարները կարող են առաջացնել անկանխատեսելի արդյունքներ։

5.0/5 (1)

Պատրա՞ստ եք սկսելու։

Գրանցվեք անվճար և ստացեք 50 կետ։ Կրեդիտային քարտի կարիք չկա։

Անվճար գրանցում Ցույց տալ գները

AI Lip Sync տեսանյութի գեներատոր

Տեղադրել Face + Audio

Ձեր Talking-Head վիդեոն

Օգտագործողի ինտերֆեյս

Լավագույն արդյունքների համար խորհուրդներ

Լեզուի սինխրոնիզացիայի տեսահոլովակ

Հաճախ տրվող հարցեր

Ի՞նչ է անում AI lip sync գործիքը։

Ո՞ր մուտքագրման ձևաչափերն են աջակցվում։

Որքա՞ն երկար կարող է լինել ձայնագրությունը։

Որքա՞ն է արժե։

Կարո՞ղ եմ օգտագործել տեսանյութերը առևտրային նպատակներով։

Որքա՞ն ժամանակ է պահանջվում սերնդից սերնդի անցնելու համար։

Ո՞րն է տարբերությունը «բոլորը» և «չշարժվող» նախատեսումների միջև։

Ի՞նչ է GFPGAN-ի բարելավիչը։

Ինչու՞ է իմ ելքը ցածր լուծման աստիճանով

Կարո՞ղ եմ ձայնագրությունը ձայնային ձայնագրության հետ միացնել ։

Կա՞ API- ՞

Իսկ եթե իմ դեմքի լուսանկարում մի քանի մարդ է պատկերված։

Պատրա՞ստ եք սկսելու։