Das Papier befasst sich mit dem Problem der Ultraweiten Gestenerkennung (URGR), bei dem Gesten in Entfernungen von bis zu 25 Metern zwischen Kamera und Benutzer erkannt werden müssen.
Zunächst wird ein neuartiges Super-Auflösungsmodell namens High-Quality Network (HQ-Net) vorgestellt, das die Qualität von Bildern mit niedriger Auflösung deutlich verbessert. Anschließend wird ein neuartiges Klassifizierungsmodell namens Graph-Vision-Transformer (GViT) präsentiert, das die Vorteile von Graph-Convolutional-Netzwerken (GCN) und Vision-Transformern (ViT) kombiniert, um Gesten in ultraweiter Entfernung zu erkennen.
Die Leistung des Gesamtrahmens wurde auf verschiedenen Testdatensätzen evaluiert und erreichte eine hohe Erkennungsrate von 98,1%. Darüber hinaus wurde der Rahmen in ein autonomes Robotersystem integriert und in komplexen Innen- und Außenumgebungen getestet, wobei eine durchschnittliche Erkennungsrate von 96% erzielt wurde.
На другой язык
из исходного контента
arxiv.org
Дополнительные вопросы