Қате / мүмкіндік туралы хабарлау

AI еріндерді қадамдастыру бейне генераторыName

Сурет пен аудио клипі жүктеп алыңыз - шынайы ауыз синхронизациясы, бас ұстау, көз жасы бар сөйлеп тұрған бас бейнесін алыңыз. SadTalker (MIT) қолданады. Коммерциялық мақсатта қолдануға болады.

Сурет пен аудионы жүктеп беру

1000 таңба/ сек

Файлды мұнда сүйреп апарыңыз, не шолу

JPG, PNG, or short MP4/WebM. Max 10MB. One clear, well-lit face works best.

файл.mp3

0 MB

Файлды мұнда сүйреп апарыңыз, не шолу

MP3, WAV, M4A, or FLAC. Max 10MB. Free: up to 30 sec. Pro: up to 5 min.

файл.mp3

0 MB

Жұмсау...

Бейнені көрсету. Бұл әдетте 30 секундтан 2 минутқа дейін созылады.

Сіздің сөйлеп тұрған басыңызName

Жүктеп алу

SadTalker туралы

SadTalker (CVPR 2023, Tencent ARC) - ашық көзі бар, кез келген дыбысты сөйлету үшін бір беттің суретін анимациялайтын сөйлеп тұрған бас моделі. Wav2Lip нұсқаларынан айырмашылығы, SadTalker бас ұстауын, көз жасын және жүзін де анимациялай алады, нәтижесі табиғи көрінеді.

Код және салмақ MIT лицензиясымен толықтай қорғалған — Llama, Gemma немесе коммерциялық емес негізі жоқ — сондықтан сіз жасаған видеолар коммерциялық мақсатта қауіпсіз.

Ең жақсы нәтиже үшін кеңестер

  • Жоғары сапалы, жақсы жарықтандырылған портретті қолдану - көзі көрінеді, ауыз жабық
  • Ортаға қойылған, шаршы немесе 4: 5 өлшемі ең жақсы
  • Аудио дыбысы таза (муз. жоқ) болса, тілдің қадамдастыруы жақсарады
  • Қаһармандардың суреттерін түсіру үшін GFPGAN болсын - рендеринг уақытын екі есеге арттырады, бірақ егжей- тегжейін айқындай түседі
  • Аватардың тұрақты суреті керек болса, "Тұрақты" дегенді қолданыңыз

Сөздерді қадамдастыру видео жоспарларыName

Тегін бастаңыз, қажет болғанда жаңартыңыз

Бос
  • Аудио 30 секунд шегі
  • 256 px шығысы
  • Тек "Столкновение" алдын- ала орнатылған
  • Сурет жақсартуы жоқ
Ең танымалы
Бос тіркелгі
  • Аудио 30 секунд шегі
  • "толық" және "тұрақты" алдын- ала орнатулар
  • 256 / 512 н/ д шығысы
  • GFPGAN бетті жақсарту
Тегін тіркелу
Про
  • Аудио 5 минут шегі
  • Артықшылықты GPU кезегі
  • API қатынау (көп бөліктен жүктеу)
  • Webhook толықтыру қайтарулары
  • Коммерциялық (MIT лицензиясы)
Жаңарту

Жиі қойылатын сұрақтар

Сурет пен аудио клипі жүктеңіз, сонда ДНҚ бейнені жасап шығарады, онда ол аудио мен ауыздың қимылын, бастың тұрысын, көздің жасын шынайы көрсетеді. SadTalker (CVPR 2023) негізінде жасалған, бұл MIT лицензиясымен ауыздың пішініне қоса, бет-әлпеті де анимацияланған сөйлеп тұрған бас моделі.

Файлды енгізу үшін JPG немесе PNG кескіні (10 Мб- ға дейін) немесе қысқа MP4/ WebM бейнесі (бірінші кадр қолданылады) болуы мүмкін. Аудио файлы MP3, WAV, M4A немесе FLAC (10 Мб- ға дейін) болуы мүмкін. Аудио 16 кГц- ке дейін қайта дискреттеледі.

Тегін тіркелгілер: бір клипке 30 секундқа дейін. Ақылы тіркелгілер: бір сұранысқа 5 минутқа дейін. Ұзақ дыбыс ұзақ рендер уақыты мен қымбат символдармен байланысты.

Сөздерді қадамдастыру видеосы секундына 1000 таңбаны пайдаланады. 30 секундтық клипі = 30000 таңба. Бұл ақы сіздің таңба балансыңыздан есептеледі және құрылу қатесі болса автоматты түрде қайтарылады.

Иә — SadTalker коды мен салмағы MIT лицензиясымен шектеледі (Llama, Gemma немесе коммерциялық емес негізі жоқ). Жіберген бейнелеріңізді коммерциялық мақсатта пайдалануға болады. Жүктелген беттің суреті мен дыбысының құқығы Сізге тиесілі.

A100 сервердегі 5 секундтық клипі үшін шамамен 30 секунд, аудио ұзындығымен шамамен сызықтық масштабта. GFPGAN бетті жақсартуын қосу арқылы рендерлеу уақыты шамамен екі есеге ұзарады, бірақ нәтижесі нақты, сапалы болады.

Толық алдын- ала орнату (әдетті) ауызбен бірге бастың тұрысын, көз қимылдарын және жүзін де анимациялайды, бұл сөйлеп тұрған бас бейнесін табиғи етіп көрсетеді. Қалыпты алдын- ала орнату ауызды ғана анимациялап, басты бір орында ұстайды. Бұл тұрақты аватар түсіру үшін пайдалы.

GFPGAN - бұл бетті қалпына келтіру моделі, ол беттің егжей- тегжейін ерін синхрондау арқылы түзетеді. Бұл артефактілерді тазалап, 256 пикселді шығаруды 512- ге жақындатады. Бұл рендер уақытын шамамен екі есеге арттырады, бірақ қаһармандарды түсіру үшін бұл тиімді.

SadTalker әдетті түрде 256 px-ке түсіреді. Тұрақты нәтиже алу үшін 512 px-ке ауысыңыз (жадамды, көп VRAM) немесе GFPGAN жақсартуын қосып, бет егжей-тегжейлерін масштабтаңыз. Ең жақсы нәтижеге қол жеткізу үшін, сапалы, жақсы жарықтандырылған портретті фотосурет жүктеп алыңыз.

Иә. MP4 не WebM файлын беттің кірістіруі ретінде жүктеп беріңіз, біз бірінші кадрды жүргізуші ретінде қолданамыз. Толық бейнені қайта дубляждау (бір кадрдағы ауызды алмастыру) үшін Dubbing Studio- ның видео конвейерін қараңыз.

Иә. /api/v1/lipsync/ дегенге бет және аудио өрістерімен көпбөлік сұрауды POST жіберіп, содан кейін /api/v1/lipsync/result/?uuid= дегенге сұрау салып, күйі "completed" болып шығады. Жауапта бейнеленген MP4 файлының URL-і болады. API-ға қол жеткізу үшін төлемді жоспар қажет.

SadTalker ең көрнекті бетті анықтап, оны қиып алу үшін беттерді туралауды қолданады. Ең жақсы нәтижеге жету үшін бір адам ортаға қойылған, көзі көрінетін, көзі аздап жабық портретті жүктеп алыңыз. Топтық фотосуреттердің нәтижесі күтпеген болуы мүмкін.
5.0/5 (1)

Нені жақсартуға болады? Сіздің пікіріңіз бізге қателерді түзетуге көмектеседі.

Бастауға дайынсыз ба?

Тегін тіркеліңіз және 15,000 таңба алыңыз. Кредиттік карта қажет емес.