이 논문은 다중 시점 3D 인체 자세 추정을 위한 자기 지도 학습 프레임워크인 CMANet을 제안한다. CMANet은 다중 시점 정보를 내부 시점 정보(카메라 자세, 투영 2D 인체 자세, 시점 의존적 3D 인체 자세)와 외부 시점 정보(시점 간 보완 및 3D 기하학 제약)로 구분하여 처리한다.
내부 시점 모듈(IRV)은 각 시점의 카메라 자세와 3D 인체 자세를 추정하고, 외부 시점 모듈(IEV)은 다중 시점 정보를 융합하여 카메라 자세를 개선하고 3D 인체 자세를 최적화한다. 이를 위해 정준 매개변수 공간을 정의하여 다양한 정보를 통합한다.
학습 과정은 두 단계로 구성된다. 첫 번째 단계에서 IRV는 2D 키포인트 검출기의 출력을 활용하여 각 시점의 카메라 자세와 3D 인체 자세를 추정한다. 두 번째 단계에서 IRV는 고정되고, IEV가 다중 시점 2D 키포인트 정보를 활용하여 카메라 자세를 개선하고 3D 인체 자세를 최적화한다.
제안 방법은 다양한 실험을 통해 기존 방법들을 능가하는 성능을 보였다.
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Xiaoben Li,M... alle arxiv.org 03-20-2024
https://arxiv.org/pdf/2403.12440.pdfDomande più approfondite