이 논문은 비디오 기반 인체 자세 추정을 위한 효율적이고 효과적인 회귀 프레임워크를 제안한다. 기존의 이미지 기반 회귀 방법은 비디오 입력에 대해 성능이 크게 저하되는 문제가 있다. 이를 해결하기 위해 제안하는 Decoupled Space-Time Aggregation (DSTA) 네트워크는 인체 관절의 공간적 구조 의존성과 시간적 동적 의존성을 별도로 모델링한다.
DSTA는 먼저 Joint-centric Feature Decoder (JFD) 모듈을 통해 각 관절에 대한 특징 토큰을 추출한다. 이후 Space-Time Decoupling (STD) 모듈에서 이 토큰들을 활용하여 관절 간 공간적 구조 의존성과 각 관절의 시간적 동적 의존성을 별도로 모델링한다. 이렇게 얻은 공간-시간 집계 특징을 이용하여 최종 관절 좌표를 회귀한다.
실험 결과, DSTA는 이미지 기반 회귀 방법에 비해 큰 성능 향상을 보였으며, 최신 열맵 기반 비디오 자세 추정 방법과 견줄만한 성능을 달성했다. 또한 DSTA는 계산 복잡도와 메모리 사용량 측면에서도 큰 장점을 가져, 실시간 비디오 응용에 더 적합하다.
To Another Language
from source content
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Jijie He,Wen... lúc arxiv.org 04-01-2024
https://arxiv.org/pdf/2403.19926.pdfYêu cầu sâu hơn