본 연구는 인간 중심 비전 작업을 위한 새로운 사전 학습 방법을 제안한다. 기존의 ImageNet 기반 사전 학습 방식은 도메인 간 격차로 인해 한계가 있었다. 따라서 본 연구는 자기 지도 학습 기반의 교차 시점 및 교차 자세 완성 방법을 제안하였다.
구체적으로, 동일한 자세의 다른 시점 이미지 쌍(교차 시점)과 동일한 시점의 다른 자세 이미지 쌍(교차 자세)을 활용하여 마스킹된 부분을 복원하는 사전 학습을 수행하였다. 이를 통해 인체의 3D 구조와 동작에 대한 이해를 학습할 수 있었다.
제안 방법으로 사전 학습된 모델은 다양한 인간 중심 비전 작업, 예를 들어 신체 메쉬 복원, 밀집 자세 추정, 손 메쉬 복원 등에서 우수한 성능을 보였다. 특히 적은 양의 데이터로도 효과적으로 fine-tuning이 가능하였다.
Vers une autre langue
à partir du contenu source
arxiv.org
Questions plus approfondies