이 논문은 대규모 기반 모델(LSFM)과 경량 방법을 활용하여 저비용 실시간 산업용 인간 행동 인식(IHAR) 방법을 제안하였다.
Part A에서는 Grounding DINO와 BLIP2를 사용하여 자동 주석 및 산업 데이터셋 구축을 수행하였다. Grounding DINO를 통해 행동 박스를 자동으로 검출하고, BLIP2의 이미지 인코더를 활용하여 행동을 분류하였다. 이를 통해 수작업 주석 비용을 80% 이상 절감하고 우수한 일반화 성능을 달성하였다.
Part B에서는 LoRA와 지식 증류(KD)를 활용하여 학습 및 응답 시간을 단축하였다. ViT-L 모델을 LoRA로 미세 조정하여 96.84%의 분류 정확도를 달성하였고, ViT-S 모델로 지식 증류하여 실시간 성능을 확보하였다.
Part C에서는 실제 배포 과정을 보여주었다. YOLOv5 검출기와 증류된 ViT-S 분류기를 사용하여 실시간 IHAR을 구현하였다.
종합적인 실험 결과, 제안한 LRIHAR 방법은 평균 98.19%의 검출 정확도와 96.84%의 분류 정확도를 달성하였으며, 기존 방법 대비 비용 절감, 실시간 성능, 일반화 능력이 우수한 것으로 나타났다. 이는 대규모 산업 현장에 적용 가능한 강력한 IHAR 방법임을 보여준다.
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問