Сообщить об ошибке / запросить функцию

Генератори видеои AI Lip Sync

Сурати рӯй ва клипҳои аудиоиро бор кунед — видеои сарро бо синхронизатсияи лабҳои воқеӣ, ҳолати сар ва чашм кашидан гиред. Бо истифода аз SadTalker (MIT). Истифодаи тиҷоратӣ хуб аст.

Мо ҳанӯз овозҳои TTS-ро ба забони шумо надорем. Ба мо дар илова кардани овозҳои худ кӯмак кунед! Садои шуморо фурӯшед

Боркунии Face + Audio

1000 аломат дар як сония

Файли худро ба ин ҷо кашола кунед ва гузоред ё Намоиш

JPG, PNG, or short MP4/WebM. Max 10MB. One clear, well-lit face works best.

файл.mp3

0 MB

Файли худро ба ин ҷо кашола кунед ва гузоред ё Намоиш

MP3, WAV, M4A, or FLAC. Max 10MB. Free: up to 30 sec. Pro: up to 5 min.

файл.mp3

0 MB

Коркарди...

Намоиши видео. Ин одатан аз 30 сония то 2 дақиқаро мегирад.

Видеои Talking- Head- и шумо

Боркунӣ

Дар бораи SadTalker

SadTalker (CVPR 2023, Tencent ARC) - ин моделҳои сарҳои сухангӯи манбаи кушода мебошад, ки тасвири як чеҳраро барои суханронӣ ба ҳар гуна аудио аниматсия мекунад. На мисли вариантҳои Wav2Lip, SadTalker инчунин аниматсияҳои ҳолати сар, чашмҳо ва ифодаро барои натиҷаи табиӣтар мекунад.

Коди ва вазнҳо аз сар то сар бо иҷозатномаи MIT — бе Llama, Gemma ё backbone-и ғайрикоммерсиалӣ — барои истифодаи тиҷоратӣ бехатар мебошанд.

Маслиҳатҳо барои натиҷаҳои беҳтарин

  • Истифодаи тасвири баландсифат, хуб равшаншуда — чашмҳо дида мешаванд, даҳон пӯшида аст
  • Тасвири марказӣ, квадратӣ ё 4:5 нисбати андоза беҳтарин кор мекунад
  • Забони тоза (бе мусиқӣ) барои синхронизатсияи даҳон беҳтар аст
  • Фаъолсозии GFPGAN барои тирандозии қаҳрамон - вақти намоишро ду баробар мекунад, аммо тафсилотро равшантар мекунад
  • Истифодаи пешфарзи Қатъӣ барои гирифтани сурати қавӣ

Синхронизатсияи лабҳо

Бепул оғоз кунед, вақте ки ба шумо бештар лозим аст, навсозӣ кунед

Озод
  • 30 сония
  • 256 пиксел
  • Танҳо пешфарзи "Столкновение"
  • Бе рафъи чеҳра
Беҳтарин
Ҳисоби озод
  • 30 сония
  • Ҳам "пурра" ва ҳам "ноустувор" пешфарзҳо
  • 256 / 512 пикселҳо хуруҷ
  • Барқарорсозии чеҳраи GFPGAN
Бақайдгирӣ
Про
  • Маҳдудияти аудиои 5 дақиқа
  • Навбати GPU- и пешрафта
  • Дастрасии API (фиристодани бисёр қисмҳо)
  • & Иловаи забонак
  • Истифодаи тиҷоратӣ (лицензияи MIT)
Навсозӣ

Саволҳои пурсидашаванда

Сурати рӯй ва клипҳои аудиоиро бор кунед ва AI видеои ин рӯйро бо садои бо ҳаракатҳои лабҳои воқеӣ, ҳолати сар ва чашм кашидан эҷод мекунад. Дар асоси SadTalker (CVPR 2023) сохта шудааст, модели сар бо иҷозатномаи MIT, ки ба ғайр аз шакли даҳон, ифодаи рӯйро низ аниматсия мекунад.

Вводом может быть изображение JPG или PNG (до 10 МБ) или короткое видео MP4/WebM (мы используем первый кадр). Аудио может быть MP3, WAV, M4A, или FLAC до 10 МБ. Мы пересъемляем аудио внутренне до 16 кГц.

Бақайдгирии ройгон: то 30 сония барои як клип. Корвандони пардохткунанда: то 5 дақиқа барои як дархост. Аудиои дарозтар маънои вақти намоишдиҳии дарозтар ва арзиши аломатҳои баландтарро дорад.

Видеои синхронизатсияи лаб 1000 аломатро дар як сония барои видеои эҷодшуда истифода мебарад. Клипи 30 сония = 30000 аломат. Нархи он аз ҳисоби аломати шумо пешакӣ ҳисоб карда мешавад ва дар сурати нокомии эҷодкунӣ ба таври худкор баргардонида мешавад.

Да — Коди SadTalker ва вазнҳо аз сар то сар бо иҷозатномаи MIT (бе Лама, Гема ё пуштибонии ғайрикоммерсиалӣ) мебошанд. Видеоҳое, ки шумо эҷод мекунед, барои истифодаи тиҷоратӣ мебошанд. Шумо масъули доштани ҳуқуқи тасвири рӯи манбаъ ва аудиое, ки шумо бор мекунед, ҳастед.

Дар бораи 30 сония барои 5 сония клип дар сервери A100, андозагирии тақрибан ба таври хатии дарозии аудио. Фаъолсозии GFPGAN face enhancer тақрибан ду баробар вақтро ба намоиш медиҳад, аммо натиҷаи дақиқтар, сифати баландтарро истеҳсол мекунад.

Пешфарзи пурра (бо нобаёнӣ) аниматсияҳои ҳолати сар, чашмҳо ва ифодаи рӯйро бо лабҳо эҷод мекунад, ки ин барои эҷоди видеои табиии сар бо сухангӯӣ мусоидат мекунад. Пешфарзи боқӣ сарро дар ҷояш нигоҳ медорад ва танҳо даҳонро аниматсия мекунад - ин барои гирифтани сурати фаврӣ фоиданок аст.

GFPGAN модели барқароркунии чеҳраест, ки баъди рендеркунии синхронизатсияи лабҳо, ҷузъиёти чеҳраро равшан мекунад. Он артефактҳоро тоза мекунад ва 256 пикселро ба 512 наздиктар мекунад. Ин тақрибан вақти рендеркуниро ду баробар мекунад, аммо барои суратҳои қаҳрамонҳо инро арзанда аст.

SadTalker бо пешфарз 256 px-ро нишон медиҳад. Барои ҳосилнокии дақиқтар (зудтар, VRAM-и баландтар) ба андозаи 512 px гузаред ё барои баланд бардоштани тафсилоти чеҳра, GFPGAN-ро фаъол созед. Барои натиҷаҳои беҳтарин, сурати портретии сифати баланд ва хуб равшаншударо бор кунед.

Бале. MP4 ё WebM-ро ҳамчун вориди чеҳра бор кунед ва мо чорчӯбаи аввалро ҳамчун шахсият истифода хоҳем кард. Барои дубляжи дубораи видеои пурра (тағйир додани даҳон дар ҳар чорчӯба), канали видеоии Studio-и дубляжро бубинед.

Дархости бисёр қисматиро ба /api/v1/lipsync/ бо майдонҳои рӯй ва аудиоӣ фиристед, сипас /api/v1/lipsync/result/?uuid=-ро пурсед, то ки ҳолати "комплект" бошад. Ҷавоб URL-и MP4-и намоишшударо дар бар мегирад. Барои дастрасӣ ба API нақшаи пардохтшаванда лозим аст.

SadTalker барои муайян ва буридани чеҳраи намоёнтар равшанкунии чеҳраро истифода мебарад. Барои натиҷаҳои беҳтарин, портретро бо як нафар дар марказ, чашмҳои дидашаванда ва маҳдудияти минималӣ бор кунед. Суратҳои гурӯҳӣ метавонанд натиҷаҳои пешгӯинашавандаро ба вуҷуд оранд.
5.0/5 (1)

Чӣ чизро метавонем беҳтар кунем? Бозгашти шумо ба мо дар ислоҳи мушкилиҳо кӯмак мекунад.

Барои оғоз кардан омодаед?

Бепул ба қайд гиред ва 15,000 аломат гиред. Корти кредитӣ лозим нест.