Core Concepts
대규모 기반 모델과 경량 방법을 결합하여 저비용 데이터셋 구축 및 실시간 산업용 인간 동작 인식을 달성하였다.
Abstract
본 논문은 대규모 기반 모델(LSFM)과 경량 방법을 활용하여 저비용 및 실시간 산업용 인간 동작 인식(IHAR) 방법을 제안하였다.
Part A에서는 Grounding DINO와 BLIP2를 사용하여 자동 주석 및 산업 데이터셋 구축을 수행하였다. Grounding DINO를 통해 동작 박스를 자동으로 검출하고, BLIP2의 이미지 인코더를 활용하여 동작을 분류하였다. 이를 통해 수작업 주석 비용을 80% 이상 절감하고 우수한 일반화 성능을 달성하였다.
Part B에서는 LoRA와 지식 증류(KD)를 활용하여 학습 및 응답 시간을 단축하였다. LoRA를 통해 ViT-L 모델을 효율적으로 미세 조정하여 96.84%의 분류 정확도를 달성하였다. 또한 KD를 사용하여 ViT-S 모델을 증류함으로써 실시간 응답 성능을 확보하였다.
Part C에서는 실제 배포 과정을 설명하였다. YOLOv5 검출기와 증류된 ViT-S 분류기를 사용하여 실시간 IHAR 시스템을 구축하였다.
종합적인 실험 결과, 제안한 LRIHAR 방법은 평균 98.19%의 검출 정확도와 96.84%의 분류 정확도를 달성하였으며, 기존 방법 대비 비용 절감, 실시간 성능, 일반화 능력이 우수한 것으로 나타났다. 이는 대규모 산업 현장에 적용할 수 있는 강력한 IHAR 방법임을 시사한다.
Stats
"산업 현장에서 수작업 주석 비용은 한 포스트당 4시간이 소요되며, 20개 포스트에 대해 총 80시간이 소요된다."
"제안한 LRIHAR 방법은 한 포스트당 0.8시간, 20개 포스트에 대해 총 16시간이 소요되어 80% 비용 절감이 가능하다."
"LRIHAR 방법은 분류 정확도에서 기존 ResNet-18 대비 8.99% 향상되었다."
Quotes
"제안한 LRIHAR 방법은 평균 98.19%의 검출 정확도와 96.84%의 분류 정확도를 달성하였다."
"LRIHAR 방법은 기존 방법 대비 비용 절감, 실시간 성능, 일반화 능력이 우수하다."