이 연구는 3D 인체 자세 추정을 위한 다단계 프레임워크를 제안한다. 이 프레임워크는 공간 모듈과 이미지 관계 모듈로 구성된다.
공간 모듈은 이미지 내부의 인체 자세 특징을 추출한다. 이를 위해 이미지를 작은 블록으로 분할하고 창 기반 자기 주의 메커니즘을 사용하여 인체 부위와 관련된 영역에 집중한다. 이를 통해 계산 복잡성을 줄이면서도 전역적 특징을 모델링할 수 있다.
이미지 관계 모듈은 비디오 프레임 간의 시간적 관계와 3D 공간적 관계를 모델링한다. 시간적 관계는 프레임 간 자기 주의 메커니즘을 통해 학습되며, 3D 공간적 관계는 다중 카메라 데이터의 2D 자세 간 관계를 모델링한다.
실험 결과, 제안 방법은 Human3.6M 데이터셋에서 최신 성능을 달성했다. 2D 자세 추정 정확도가 크게 향상되었으며, 이를 활용한 3D 자세 추정 결과 또한 우수한 성능을 보였다. 또한 입력 프레임 수가 증가할수록 성능이 향상되어, 제안 방법이 비디오 데이터의 시간적 관계를 효과적으로 활용할 수 있음을 확인했다.
To Another Language
from source content
arxiv.org
Дополнительные вопросы