本研究では、ヒューマン-ロボット インタラクションの文脈で、最大25メートルの距離からユーザーのジェスチャーを認識する「超長距離ジェスチャー認識」(URGR)の問題に取り組んでいる。
まず、ユーザーを検出し、背景を切り出す。その後、低解像度の画像を高品質に改善するための新しいスーパーリゾリューション (SR) モデル「HQ-Net」を提案する。HQ-Netは、自己注意機構と畳み込み層の組み合わせを使用して、低解像度の画像の品質を大幅に向上させる。
次に、改善された画像をグラフ畳み込みネットワーク (GCN) とビジョントランスフォーマー (ViT) を組み合わせた「Graph Vision Transformer (GViT)」モデルに入力する。GViTは、局所的および大域的な依存関係を効果的にモデル化することができ、最大98.1%の高い認識率を達成する。
提案フレームワークは、複雑な屋内外環境でも、平均96%の認識率で自律型四足ロボットのジェスチャー制御を実証している。また、人間の認識能力を上回る性能も示している。
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問