Core Concepts
다중 카메라 능동 비전 시스템을 활용하여 제한적이고 가려진 시야에서도 인간의 자세와 위치를 정확하게 추정할 수 있는 계층적 연결 트리 기반의 통합 인간 감지 전략을 제안한다.
Abstract
본 연구에서는 다중 카메라 능동 비전 시스템을 활용하여 인간-로봇 상호작용 환경에서의 인간 상태를 효과적으로 감지하는 방법을 제안한다.
먼저, 다중 카메라를 활용하여 RGB-D 데이터를 동적으로 캡처하고, 이를 통합하기 위해 계층적으로 연결된 트리 구조를 제안한다. 이 트리 모델에서 노드는 키포인트를, 엣지는 키파트를 나타내며, 다중 소스 융합 과정에서 구조적 제약을 유지한다.
다음으로, RGB-D 데이터와 HRNet을 활용하여 키포인트의 3D 위치를 추정하고, 신뢰도 점수를 기반으로 키포인트의 존재 여부를 판단한다. 그 후 가려짐에 강인한 마스크를 이용하여 키파트의 점군을 추출하고, 계층적 순서에 따라 원통 모델과의 정밀 정합을 수행한다.
실험 결과, 제안 방법은 단일 고정 카메라 대비 키파트 인식 정확도를 69.20%에서 90.10%로 향상시켰다. 또한 국소화되고 가려진 인지 문제를 극복하여 로봇 팔의 장애물 회피 성능을 효과적으로 개선하였다.
Stats
키파트 인식 정확도 향상: 69.20% → 90.10%
Quotes
"다중 카메라 능동 비전 시스템을 활용하여 제한적이고 가려진 시야에서도 인간의 자세와 위치를 정확하게 추정할 수 있는 계층적 연결 트리 기반의 통합 인간 감지 전략을 제안한다."
"실험 결과, 제안 방법은 단일 고정 카메라 대비 키파트 인식 정확도를 69.20%에서 90.10%로 향상시켰다. 또한 국소화되고 가려진 인지 문제를 극복하여 로봇 팔의 장애물 회피 성능을 효과적으로 개선하였다."