Centrala begrepp
다중 시점 이미지에서 카메라 자세, 2D/3D 인체 자세, 3D 기하학 정보를 통합하여 정준 매개변수 공간을 구축하고, 이를 활용하여 자기 지도 학습 방식으로 정확한 3D 인체 자세를 추정하는 방법을 제안한다.
Sammanfattning
이 논문은 다중 시점 3D 인체 자세 추정을 위한 자기 지도 학습 프레임워크인 CMANet을 제안한다. CMANet은 다중 시점 정보를 내부 시점 정보(카메라 자세, 투영 2D 인체 자세, 시점 의존적 3D 인체 자세)와 외부 시점 정보(시점 간 보완 및 3D 기하학 제약)로 구분하여 처리한다.
내부 시점 모듈(IRV)은 각 시점의 카메라 자세와 3D 인체 자세를 추정하고, 외부 시점 모듈(IEV)은 다중 시점 정보를 융합하여 카메라 자세를 개선하고 3D 인체 자세를 최적화한다. 이를 위해 정준 매개변수 공간을 정의하여 다양한 정보를 통합한다.
학습 과정은 두 단계로 구성된다. 첫 번째 단계에서 IRV는 2D 키포인트 검출기의 출력을 활용하여 각 시점의 카메라 자세와 3D 인체 자세를 추정한다. 두 번째 단계에서 IRV는 고정되고, IEV가 다중 시점 2D 키포인트 정보를 활용하여 카메라 자세를 개선하고 3D 인체 자세를 최적화한다.
제안 방법은 다양한 실험을 통해 기존 방법들을 능가하는 성능을 보였다.
Statistik
다중 시점 이미지에는 카메라 자세, 2D/3D 인체 자세, 3D 기하학 정보가 포함되어 있다.
이러한 정보의 정확한 어노테이션을 얻기 어려워 정확한 3D 인체 자세 추정이 어렵다.
Citat
"Multi-view 3D human pose estimation is naturally superior to single view one, benefiting from more comprehensive information provided by images of multiple views."
"To deal with this issue, we propose a fully self-supervised framework, named cascaded multi-view aggregating network (CMANet), to construct a canonical parameter space to holistically integrate and exploit multi-view information."