Core Concepts
다양한 센서 모달리티(RGB, LiDAR, IMU, 이벤트 카메라)를 활용하여 복잡하고 빠른 인간 동작을 정밀하게 캡처하고 분석하는 방법을 제안한다.
Abstract
이 논문은 RELI11D라는 다중 모달 인간 동작 데이터셋을 소개한다. RELI11D는 RGB 카메라, LiDAR, IMU, 이벤트 카메라 등 4가지 센서 모달리티를 포함하고 있으며, 10명의 참여자가 5가지 스포츠 동작을 7개의 장면에서 수행한 데이터를 제공한다. 이를 통해 복잡하고 빠른 동작을 정밀하게 캡처할 수 있다.
논문에서는 RELI11D 데이터셋의 데이터 수집 및 주석 처리 파이프라인을 소개한다. 3D 레이저 스캐닝, 시간 동기화, 보정 등의 단계를 거쳐 정밀한 3D 인체 자세와 궤적을 얻는다. 또한 접촉 인식, 움직임 부드러움, 기하학적 정보 등을 활용한 최적화 과정을 통해 데이터의 품질을 높인다.
이 데이터셋을 활용하여 다양한 인간 자세 추정 방법들을 벤치마크한 결과, 기존 방법들이 RELI11D의 복잡하고 빠른 동작을 잘 처리하지 못함을 보여준다. 이에 저자들은 LEIR라는 다중 모달 기반 인간 자세 추정 방법을 제안한다. LEIR는 LiDAR 포인트 클라우드, 이벤트 스트림, RGB 이미지를 효과적으로 융합하여 정밀한 자세와 궤적을 추정한다. 실험 결과 LEIR가 RELI11D 데이터셋에서 우수한 성능을 보임을 확인하였다.
Stats
인간 동작 데이터의 가속도 오차는 평균 23.90 mm/s^2, 최대 49.19 mm/s^2이다.
인간 자세 추정의 MPJPE는 평균 49.19 mm, 최대 62.71 mm이다.
인간 자세 추정의 PA-MPJPE는 평균 40.87 mm, 최대 54.11 mm이다.
인간 동작 궤적 추정의 GMPJPE는 평균 115.36 mm, 최대 605.45 mm이다.
인간 동작 궤적 추정의 Translation Error는 평균 146.13 mm, 최대 743.71 mm이다.
Quotes
"다양한 센서 모달리티를 효과적으로 융합하는 것이 인간 동작의 종합적인 이해를 위해 필수적이다."
"RELI11D 데이터셋은 기존 방법들에 새로운 도전과제를 제시한다."