Бусад

AI-ийн амны дохионы видео үүсгэгч

Нүүрний зураг болон дууны бичлэгийг татаж аваарай - бодит царайны өнгө, толгойн байрлал, нүд аниад байгаа дүрстэй ярих видеог авах боломжтой. SadTalker (MIT) -ээр хангагдсан. Худалдааны зорилгоор ашиглах боломжтой.

Танай хэл дээр одоогоор TTS дуунууд байхгүй байна. Танай дууг нэмэхэд туслаарай! Таны дуу хоолойг зарна

Нэр + Аудио

Нэг секундэд 1000 тэмдэгт

Файлуудыг татаж аваад энд буулга, эсвэл Хуудас

JPG, PNG, or short MP4/WebM. Max 10MB. One clear, well-lit face works best.

файл.mp3

0 MB

Файлуудыг татаж аваад энд буулга, эсвэл Хуудас

MP3, WAV, M4A, or FLAC. Max 10MB. Free: up to 30 sec. Pro: up to 5 min.

файл.mp3

0 MB

Хийж байна...

Видеог дүрсэлж байна. Энэ нь 30 секундээс2минут хүртэл хугацаа шаардана.

Таны Talking- Head видео

Дэлгэц

SadTalker-ийн тухай

SadTalker (CVPR 2023, Tencent ARC) нь ямар ч дууг ярихад нэг нүүрний зургийг анимэаж өгдөг нээлттэй эхийн ярих толгойн загвар юм. Wav2Lip хувилбаруудаас ялгаатай нь SadTalker нь толгойн байрлал, нүдээ анимэаж өгдөг бөгөөд илүү байгалийн харагдах байдлыг бий болгодог.

Код болон жин нь MIT-ийн лицензтэй - Лама, Гемма, эсвэл худалдааны бус нугалам байхгүй - таны бүтээсэн видео нь худалдааны зориулалтаар аюулгүй.

Хамгийн сайн үр дүнд хүрэх зөвлөгөө

  • Өндөр чанартай, сайн гэрэлтсэн дүрсийг ашиглах - нүд харагдаж, ам хаалттай
  • Зүүн төвд, квадрат эсвэл 4:5 харьцаа хамгийн сайн ажилладаг
  • Чиглүүлэгч
  • ГФПГАН-ыг баатрын зураг авахад ашиглах - хоёр дахин харуулах хугацааг нэмэгдүүлдэг боловч нарийвчлалыг сайжруулдаг
  • Аватар зургаа тогтвортой авахыг хүсвэл "Стоп" тохиргоог ашиглана уу

Видео

Үнэгүйгээр эхэл, илүү хэрэгтэй бол шинэчл

Хязгааргүй
  • 30 секундын дууны хязгаар
  • 256 пикселийн гарчиг
  • Зөвхөн "Стоп" урьдчилсан тохиргоо
  • Нүүрний хувиргагч байхгүй
Хамгийн алдартай
Хуваалцах
  • 30 секундын дууны хязгаар
  • "Төгс" болон "хязгааргүй" урьдчилсан тохиргоо
  • 256 / 512 пиксел
  • GFPGAN нүүрний сайжруулагч
Үнэгүй бүртгүүлэх
Про
  • 5 минутын дууны хязгаар
  • График процессорын эрэмбэ
  • API- ийн нэвтрэлт (олон хэсгийг өргөх)
  • Веб- холболтын дуусгах утас
  • Худалдааны зорилгоор ашиглах (MIT лиценз)
Шинэчлэх

Заримдаа асуудаг асуултууд

Нүүрний зураг болон дууны бичлэгийг татаж аваад, AI нь нүүрнийхээ видеог буулгаж, дууг чихний хөдөлгөөн, толгойн байрлал, нүд анивчсан байдлаар ярьдаг. SadTalker (CVPR 2023) дээр суурилсан, MIT-ийн лицензтэй, амны хэлбэрээс гадна нүүрний хөдөлгөөнийг анимдсан ярих толгойн загвар.

Нүүрний оруулалт нь JPG эсвэл PNG зураг (10 МБ хүртэл) эсвэл богино MP4/WebM видео (1-р кадрыг ашиглана). Дэлгэцийн дуу нь MP3, WAV, M4A, эсвэл FLAC 10 МБ хүртэл байх боломжтой. Дэлгэцийн дууг 16 кГц хүртэл дотооддоо дахин хэмжих болно.

Үнэгүй хэрэглэгчид: нэг бичлэгт 30 секунд хүртэл. Үнэтэй хэрэглэгчид: нэг хүсэлтэд5минут хүртэл. Хэт урт дуу нь илүү их дүрслэх хугацаа, илүү их дүрслэх зардал шаардана.

Хөмсөгний синхрончлол видео нь секундэд 1000 тэмдэгт ашигладаг. 30 секундын бичлэг = 30,000 тэмдэгт. Энэ нь таны тэмдэгтийн нөөцөөс урьдчилан тооцогдож, үүсгэхэд алдаа гарвал автоматаар буцааж олгогддог.

Тийм ээ — SadTalker-ийн код, өнгө нь MIT-ийн эцэс төгсгөлгүй лицензтэй (Лама, Гемма, эсвэл худалдааны бус backbone байхгүй). Таны бүтээсэн видеог та худалдааны зорилгоор ашиглах эрхтэй. Та өөрийн оруулсан эх үүсвэрийн нүүрний зураг болон дууны эрхийг эзэмших үүрэгтэй.

A100 сервер дээр 5-секундын бичлэг хийхэд 30 секунд, дууны урттай адилаар хэмжих. GFPGAN нүүрний сайжруулагчийг идэвхжүүлснээр дүрслэх хугацаа хоёр дахин нэмэгдэнэ, гэхдээ илүү тод, чанартай гарчиг гарна.

Бүх урьдчилсан тохиргоо (стандарт) нь толгойн байрлал, нүдний улайлт, нүүрний хувирал, амны хөдөлгөөнийг анимэаж, ярих толгойн видеог илүү нарийн харагдуулдаг. Хэдхэн урьдчилсан тохиргоо нь толгойг байранд нь хадгалж, зөвхөн амны хөдөлгөөнийг анимэаж өгдөг. Энэ нь анимэацийн зураг авахад тохиромжтой.

GFPGAN нь нүүрний дүрсийг сэргээх загвар бөгөөд нүүрний дүрсийг нүүрний өнгөтэй нийцүүлэн харуулахдаа тодруулдаг. Энэ нь 256 пикселийн дүрсийг 512 пикселийн дүрстэй адил харагдуулахын тулд нүүрний дүрсийг гэмтээсэн хэсгүүдийг арилгаж өгдөг. Энэ нь дүрслэх хугацааг хоёр дахин уртасгадаг боловч баатрын дүрслэлд тохиромжтой.

SadTalker нь 256 пикселийн дүрслэлийг хэвийн байдлаар гаргадаг. Тодорхой дүрслэл гаргахын тулд 512 пикселийн хэмжээтэй болгох (хөдөлгөөнгүй, илүү их VRAM) эсвэл нүүрний дүрслэлийг нэмэгдүүлэхийн тулд GFPGAN сайжруулалтыг идэвхжүүлэх хэрэгтэй. Хамгийн сайн үр дүнд хүрэхийн тулд өндөр чанартай, гэрэлтэй нүүрний зураг өргөтгөх хэрэгтэй.

Тийм ээ. MP4 эсвэл WebM файлыг нүүрний оруулга болгон өргөж аваарай. Бид анхны зургийг жолоодлогын илэрхийлэл болгон ашиглана. Тогтмол видео дубляж (хувь бүрийн амны оронд) хийхийн тулд Дубляж Студи-ийн видео хоолойг үзнэ үү.

Тийм. /api/v1/lipsync/ руу олон хэсэгт хуваагдсан хүсэлтийг нүүр болон дууны талбаруудтай нь POST хийж, дараа нь /api/v1/lipsync/result/?uuid=-г "completed" болтол нь асуу. Хариулт нь MP4-ийн URL-ийг агуулна. API-д нэвтрэх нь үнэтэй төлөвлөгөө шаардана.

SadTalker нь хамгийн тод нүүрийг илрүүлж, огтлохдоо нүүрний нийлбэрийг ашигладаг. Хамгийн сайн үр дүнд хүрэхийн тулд нэг хүнийг төвд, нүдийг харагдахуйц, хамгийн бага бөглөрөлтэй зургаар татаж аваарай. Холбооны зураг нь урьдчилан таамаглаж боломгүй үр дүнтэй байж болно.
5.0/5 (1)

Бид юуг сайжруулах ёстой вэ? Таны санал бодол бидэнд асуудал шийдвэрлэхэд тусалдаг.

Эхлэхэд бэлэн үү?

Үнэгүй бүртгүүлж 15,000 тэмдэгт авах боломжтой. Кредит карт шаардахгүй.