Core Concepts
3D 포인트 클라우드 시퀀스에서 시간에 따라 변화하는 지역 패치(t-패치)를 추출하고, 이를 활용하여 정보적인 시공간 표현을 학습함으로써 향상된 3D 행동 인식 성능을 달성한다.
Abstract
이 논문은 3D 포인트 클라우드 시퀀스에서 인간 행동을 인식하는 새로운 방법인 3DinAction 파이프라인을 제안한다.
- 먼저 시간에 따라 변화하는 지역 패치(t-패치)를 추출하여 행동 동역학을 포착한다.
- 이어서 계층적 신경망 아키텍처를 통해 t-패치의 시공간 표현을 학습한다.
- 마지막으로 프레임별 행동 예측을 수행한다.
- 제안 방법은 기존 RGB 비디오 기반 접근법에 비해 기하학적 정보를 더 잘 활용할 수 있으며, 3D 포인트 클라우드 데이터의 고유한 특성(무질서, 순서 없음, 가변 포인트 수)을 효과적으로 다룰 수 있다.
- DFAUST와 IKEA ASM 데이터셋에서 기존 방법 대비 큰 성능 향상을 보였다.
Stats
3D 포인트 클라우드 시퀀스는 기존 RGB 이미지 데이터셋보다 훨씬 작은 규모이며, 레이블링도 어려워 학습에 어려움이 있다.
DFAUST 데이터셋은 10명의 피험자가 14개 행동을 수행한 약 25,000프레임의 데이터를 제공한다.
IKEA ASM 데이터셋은 371개 비디오(약 300만 프레임)로 구성되며, 가구 조립 과정의 33개 행동을 프레임 단위로 레이블링하고 있다.
Quotes
"3D 센서의 보급 증가에도 불구하고 3D 포인트 클라우드 모달리티를 활용한 행동 인식은 아직 충분히 연구되지 않았다."
"기존 RGB 비디오 기반 접근법은 때로는 기하학적 정보가 필요하며, 특히 조명이 열악하거나 안전 중요 애플리케이션에서 중복성이 필요한 경우에 그렇다."