이 논문은 대규모 기반 모델(LSFM)과 경량 방법을 활용하여 저비용 실시간 산업용 인간 행동 인식(IHAR) 방법을 제안하였다.
Part A에서는 Grounding DINO와 BLIP2를 사용하여 자동 주석 및 산업 데이터셋 구축을 수행하였다. Grounding DINO를 통해 행동 박스를 자동으로 검출하고, BLIP2의 이미지 인코더를 활용하여 행동을 분류하였다. 이를 통해 수작업 주석 비용을 80% 이상 절감하고 우수한 일반화 성능을 달성하였다.
Part B에서는 LoRA와 지식 증류(KD)를 활용하여 학습 및 응답 시간을 단축하였다. ViT-L 모델을 LoRA로 미세 조정하여 96.84%의 분류 정확도를 달성하였고, ViT-S 모델로 지식 증류하여 실시간 성능을 확보하였다.
Part C에서는 실제 배포 과정을 보여주었다. YOLOv5 검출기와 증류된 ViT-S 분류기를 사용하여 실시간 IHAR을 구현하였다.
종합적인 실험 결과, 제안한 LRIHAR 방법은 평균 98.19%의 검출 정확도와 96.84%의 분류 정확도를 달성하였으며, 기존 방법 대비 비용 절감, 실시간 성능, 일반화 능력이 우수한 것으로 나타났다. 이는 대규모 산업 현장에 적용 가능한 강력한 IHAR 방법임을 보여준다.
Іншою мовою
із вихідного контенту
arxiv.org
Ключові висновки, отримані з
by Wensheng Lia... о arxiv.org 03-14-2024
https://arxiv.org/pdf/2403.08420.pdfГлибші Запити