Core Concepts
비디오 기반 3D 인체 자세 추정을 위한 트랜스포머 모델은 높은 계산 비용으로 인해 자원 제한 장치에 적용하기 어렵다. 본 연구는 토큰 가지치기와 복구 기법을 통해 모델의 효율성을 높이면서도 추정 정확도를 유지하는 모래시계 토크나이저(HoT)를 제안한다.
Abstract
본 논문은 비디오 기반 3D 인체 자세 추정을 위한 효율적인 트랜스포머 모델을 제안한다. 기존 트랜스포머 기반 모델들은 긴 비디오 시퀀스를 입력으로 사용하여 높은 성능을 달성하지만, 이로 인한 높은 계산 비용으로 인해 자원 제한 장치에 적용하기 어렵다.
저자들은 이 문제를 해결하기 위해 모래시계 토크나이저(HoT)라는 토큰 가지치기 및 복구 프레임워크를 제안한다. HoT는 먼저 불필요한 프레임의 토큰을 가지치기하고, 마지막에 전체 길이의 토큰을 복구하는 방식으로 중간 트랜스포머 블록에서 적은 수의 토큰을 유지하여 모델 효율성을 높인다.
이를 위해 저자들은 토큰 가지치기 클러스터(TPC) 모듈과 토큰 복구 어텐션(TRA) 모듈을 제안한다. TPC는 비디오 프레임의 중복성을 제거하면서도 의미적 다양성이 높은 대표 토큰을 선택한다. TRA는 선택된 토큰을 바탕으로 원래의 시간적 해상도를 복구하여, 모든 프레임의 3D 자세를 한 번에 추정할 수 있게 한다.
실험 결과, HoT는 기존 모델 대비 큰 효율 향상을 달성하면서도 추정 정확도를 유지하거나 향상시킬 수 있음을 보여준다. 예를 들어 MotionBERT 모델에 HoT를 적용하면 FLOPs를 51.8% 줄이면서도 성능을 유지할 수 있다. 또한 MixSTE 모델에 HoT를 적용하면 FLOPs를 39.6% 줄이면서도 성능을 0.2% 밖에 떨어뜨리지 않는다.
Stats
기존 VPT 모델들은 많은 불필요한 계산 비용을 소모하고 있다.
제안 방법 HoT w. MotionBERT는 FLOPs를 51.8% 줄일 수 있다.
제안 방법 HoT w. MixSTE는 FLOPs를 39.6% 줄이면서도 성능 하락은 0.2%에 불과하다.
Quotes
"Transformers have been successfully applied in the field of video-based 3D human pose estimation. However, the high computational costs of these video pose transformers (VPTs) make them impractical on resource-constrained devices."
"Our HoT begins with pruning pose tokens of redundant frames and ends with recovering full-length tokens, resulting in a few pose tokens in the intermediate transformer blocks and thus improving the model efficiency."