이 연구는 인간-로봇 상호작용에서 제스처 인식의 중요성을 다룬다. 기존 비전 기반 제스처 인식 방법은 최대 7미터 거리까지만 효과적이었지만, 이 연구에서는 최대 25미터 거리에서도 효과적인 제스처 인식을 달성하는 방법을 제안한다.
먼저, 사용자 영역을 검출하고 이미지 품질을 개선하는 HQ-Net 모델을 제안한다. HQ-Net은 자기 주의 메커니즘과 합성곱 층을 활용하여 저해상도 이미지의 품질을 크게 향상시킨다.
다음으로, 개선된 이미지를 입력받아 제스처를 인식하는 Graph-Vision Transformer (GViT) 모델을 제안한다. GViT는 Graph Convolutional Network (GCN)와 Vision Transformer (ViT)의 장점을 결합하여 지역적 및 전역적 특징을 모두 효과적으로 학습한다.
실험 결과, 제안된 URGR 프레임워크는 98.1%의 높은 인식률을 달성했으며, 인간 관찰자보다 우수한 성능을 보였다. 또한 실내외 복잡한 환경에서 자율 주행 로봇의 제스처 기반 제어를 성공적으로 시연했다.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Eran Bamani,... at arxiv.org 04-11-2024
https://arxiv.org/pdf/2311.15361.pdfDeeper Inquiries