이 연구는 인간-로봇 상호작용에서 제스처 인식의 중요성을 다룬다. 기존 비전 기반 제스처 인식 방법은 최대 7미터 거리까지만 효과적이었지만, 이 연구에서는 최대 25미터 거리에서도 효과적인 제스처 인식을 달성하는 방법을 제안한다.
먼저, 사용자 영역을 검출하고 이미지 품질을 개선하는 HQ-Net 모델을 제안한다. HQ-Net은 자기 주의 메커니즘과 합성곱 층을 활용하여 저해상도 이미지의 품질을 크게 향상시킨다.
다음으로, 개선된 이미지를 입력받아 제스처를 인식하는 Graph-Vision Transformer (GViT) 모델을 제안한다. GViT는 Graph Convolutional Network (GCN)와 Vision Transformer (ViT)의 장점을 결합하여 지역적 및 전역적 특징을 모두 효과적으로 학습한다.
실험 결과, 제안된 URGR 프레임워크는 98.1%의 높은 인식률을 달성했으며, 인간 관찰자보다 우수한 성능을 보였다. 또한 실내외 복잡한 환경에서 자율 주행 로봇의 제스처 기반 제어를 성공적으로 시연했다.
На другой язык
из исходного контента
arxiv.org
Дополнительные вопросы