Core Concepts
산업 현장에서 근로자의 손 동작을 정확하고 실시간으로 인식하기 위해, 기반 모델을 활용한 자동 데이터 증강 전략과 골격 포인트 기반 동작 인식 방법을 제안하였다.
Abstract
이 연구는 산업 현장에서 근로자의 손 동작을 인식하는 문제를 해결하기 위해 두 가지 핵심 기술을 제안하였다.
첫째, 산업 데이터셋 확장 전략: 대규모 기반 모델을 활용하여 효율적이고 고품질의 산업 데이터셋을 자동으로 확장하는 방법을 개발하였다. Blip2, Glip, ViT 모델을 활용하여 최소한의 수작업으로도 수만 장의 고품질 데이터를 생성할 수 있었다.
둘째, 골격 포인트 기반 동작 인식: 비디오 입력에서 손 영역을 검출하고, 손 골격 포인트를 추출하여 추적하는 방법을 제안하였다. 이를 통해 손 동작의 시계열 정보를 얻을 수 있었고, LSTM 모델을 활용하여 고정밀 동작 인식을 달성하였다. 또한 슬라이딩 윈도우 기법을 적용하여 실시간 성능을 보장하였다.
이 연구는 실제 Midea 조립 라인에 적용되어 98.8%의 정확도로 손 동작을 인식할 수 있었다. 이는 기존 방법 대비 큰 성능 향상을 보여주었다.
Stats
제안 방법을 통해 10개의 수작업 선별 이미지에서 11,865개의 고품질 산업 데이터셋을 자동으로 확장할 수 있었다.
제안 방법의 손 동작 인식 정확도는 98.8%로, 기존 방법 대비 약 8.8% 향상되었다.
제안 방법의 처리 속도는 42.81 FPS로, 실시간 성능을 만족하였다.
Quotes
"우리는 매우 유망한 산업 데이터셋 확장 전략을 개척했습니다. 강력한 일반화 능력을 가진 대규모 모델을 활용하여 효율적이고 고품질의 대규모 산업 데이터셋 확장을 달성했습니다."
"우리는 손 골격 포인트 검출을 포인트 추적 방법에 통합하여 손 골격 관절의 고정밀 추적을 달성했습니다. 이 엔드-투-엔드 방법은 비디오에서 손 골격 포인트 궤적을 얻을 수 있었습니다."