Катаны / мүмкүнчүлүктү билдирүү

AI Lip Sync видео генератору

Суроо-жооп видеосун жүктөп алыңыз. Сөз сүйлөгөн адамдын видеосу, анын ичинде ооздун кыймылы, баштын орду жана көздүн жашын агызып жатканы. SadTalker (MIT) тарабынан иштелип чыккан. Коммерциялык максатта колдонууга болот.

Сиздин тилиңиз үчүн TTS үндөрү азырынча жок. Бизге өзүңүздүн үндөрүңүздү кошуп берүүңүздү сурайбыз! Сиздин үнүңүздү сатуу

Сүрөт жана аудио жүктөп алуу

1000 символ секундасына

Файлды бул жакка сүйрөп алып коюңуз же кароо

JPG, PNG, or short MP4/WebM. Max 10MB. One clear, well-lit face works best.

файл.mp3

0 MB

Файлды бул жакка сүйрөп алып коюңуз же кароо

MP3, WAV, M4A, or FLAC. Max 10MB. Free: up to 30 sec. Pro: up to 5 min.

файл.mp3

0 MB

Ажыратуу...

Видеону жүктөп алуу. Бул процесс 30 секунддан 2 мүнөткө чейин созулат.

Сөз сүйлөгөн баш видеосу

Жүктөө

SadTalker жөнүндө

SadTalker (CVPR 2023, Tencent ARC) - бул ачык булактуу сүйлөгөн баш модели, ал бир эле беттин сүрөтүн анимациялап, каалаган аудиону сүйлөтөт. Wav2Lip варианттарынан айырмаланып, SadTalker ошондой эле баштын позициясын, көздү жумууну жана жүздү анимациялап, табигый көрүнүшкө ээ.

Код жана салмак MIT лицензиясы менен толук камсыздалган — Llama, Gemma же коммерциялык эмес backbone жок — андыктан сиздин видеолоруңуз коммерциялык колдонуу үчүн коопсуз.

Жакшы натыйжалар үчүн кеңештер

  • Катуу сапаттагы, жакшы жарыкталган портретти колдонуу — көзү көрүнөт, оозу жабык
  • Центрированная, квадратная или 4:5 пропорция лучше всего работает
  • Акысыз үн (музыка жок) ооздун синхрондошуусун жакшыртат
  • GFPGANди каармандардын сүрөттөрү үчүн колдонуу - рендер убакытын эки эсеге көбөйтүү, бирок деталдарды тактоо
  • Эгерде сиз аватарыңыздын сүрөтүн туруктуу алууну кааласаңыз, анда "Стойкий" параметрин колдонуп көрүңүз

Лип Синхронизациясы

Акысыз баштаңыз, керек болсо жаңыртыңыз

Акысыз
  • 30 секунддук аудио чектөө
  • 256 пикселдик чыгарылыш
  • "Стой" гана
  • Көзүн жакшыртуу жок
Эң популярдуу
Акысыз эсеп-кысап
  • 30 секунддук аудио чектөө
  • "толук" жана "түз" алдын-ала орнотуулары
  • 256 / 512 пикселдик чыгарылыш
  • GFPGAN бетти жакшыртуу
Акысыз каттоо
Про
  • 5-минуттык аудио чектөө
  • GPU кезектери
  • APIге кирүү (бир нече бөлүктөрдү жүктөп алуу)
  • Веб-хаук толуктоо кайтаруулары
  • Коммерциялык колдонуу (MIT лицензиясы)
Жаңылоо

Көп берилүүчү суроолор

Жүктөгөндө, сүрөт жана аудио клип аркылуу жасалма интеллект бул сүрөттүн аудиосун реалисттик ооз кыймылы, баш кыймылы жана көз ирмемдер менен сүйлөп жаткан видеону жаратат. Бул SadTalker (CVPR 2023) модели боюнча курулган, бул MIT лицензиясы менен берилген, ооз формасына кошумча анимацияланган сүйлөгөн баш модели.

Face-инпут JPG же PNG сүрөтү (10 МБга чейин) же кыска MP4/WebM видеосу болушу мүмкүн (биринчи кадрды колдонобуз). Аудио-инпут MP3, WAV, M4A же FLAC болушу мүмкүн (10 МБга чейин). Аудио-инпут 16 кГцге чейин ички түрдө кайра диапазондоо менен иштелип чыгат.

Бесплатные учетные записи: до 30 секунд на клип. Платежные пользователи: до 5 минут на запрос. Болжолу аудио означает более длительный период отображения и более высокую стоимость символов.

Липсинхронизация видео использует 1000 символов в секунду генерируемого видео. 30-секундный клип = 30 000 символов. Стоимость предварительно оплачивается из вашего баланса символов и автоматически возвращается, если генерация не удалась.

Да — SadTalker коду жана салмагы MIT лицензиясы менен толук камсыздалган (Llama, Gemma же коммерциялык эмес backbone жок). Сиздин түзгөн видеолоруңуз коммерциялык максатта колдонууга ылайыктуу. Сиз жүктөп алган беттин сүрөтү жана аудионун укуктарынын ээси болууга жооптуусуз.

5 секунддук клип үчүн биздин A100 серверинде болжол менен 30 секунд, масштабдоо аудио узундугу менен болжол менен линейдик. GFPGAN бетин жакшыртуучуну колдонуу рендер убакытын эки эсеге көбөйтөт, бирок сапаттуу, так чыгарылыш берет.

Толук алдын-ала орнотуу (стандарттык) баштын орду, көз карашын жана жүзүнүн кыймылын анимациялайт, бул сөз сүйлөгөн баштын видеосун жаратат. Ал эми калыбына келтирүү алдын-ала орнотуу башты өз ордуна бекемдеп, оозун гана анимациялайт. Бул абалаттын стабилдүү сүрөтүн алуу үчүн пайдалуу.

GFPGAN - бул бетти калыбына келтирүү модели, ал беттин деталдарын ооз менен синхрондоштуруудан кийин так көрсөтөт. Ал арефакттерди тазалап, 256 пикселдик чыгарылышты 512ге жакындатат. Бул рендердин убактысын эки эсеге кыскартат, бирок каармандардын сүрөттөрү үчүн бул жакшы.

SadTalker стандарттуу түрдө 256 пикселди көрсөтөт. Тез чыгуу үчүн 512 пикселге өзгөртүңүз (жаман эмес, көп VRAM) же GFPGAN улучшителя активизируйте для увеличения масштаба деталей лица. Лучшие результаты получатся, если загрузить высококачественную, хорошо освещенную портретную фотографию.

Да. MP4 же WebM файлын бетти киргизүү катары жүктөп алыңыз, биз биринчи кадрды рулдук идентификатор катары колдонобуз. Видеону толук дублдоо (бир кадрга оозду алмаштыруу) үчүн Dubbing Studio видео конвейерин караңыз.

Да. POST multipart request to /api/v1/lipsync/ with face and audio fields, then poll /api/v1/lipsync/result/?uuid= until status is "completed". The response contains an URL to the rendered MP4. API access requires a paid plan.

SadTalker эң көрүнүктүү бетти аныктоо жана кыркуу үчүн бетти тууралоону колдонот. Эң мыкты натыйжа үчүн, бир адам борбордо, көзү көрүнгөн жана минималдуу окклюзиясы бар портретти жүктөңүз. Топтук сүрөттөр күтүлбөгөн натыйжаларды бериши мүмкүн.
5.0/5 (1)

Биз эмнени жакшыртсак болот? Сиздин пикириңиз бизге көйгөйлөрдү чечүүгө жардам берет.

Баштоого даярсызбы?

Акысыз катталып, 15 000 символду алыңыз. Кредиттик карта керек эмес.