이 논문은 협업 로봇이 인간의 의도를 이해하고 예측하여 효과적으로 지원할 수 있는 인간-객체 상호작용(HOI) 예측 프레임워크를 제안한다.
먼저 논문은 효율적이고 강건한 트랜스포머 기반 모델을 제안하여 비디오에서 HOI를 탐지하고 예측한다. 이를 통해 로봇은 인간의 행동을 사전에 예측하고 적시에 지원할 수 있게 된다. 제안 모델은 VidHOI 데이터셋에서 기존 최신 모델 대비 HOI 탐지와 예측 성능이 각각 1.76%, 1.04% 향상되었으며, 속도는 15.4배 빨랐다.
또한 논문은 실제 로봇 실험을 통해 HOI 예측 능력이 인간-로봇 상호작용에 핵심적임을 입증한다. 주방 시나리오에서 로봇은 컵을 잡는 인간의 의도를 실시간으로 예측하고 이에 맞춰 병을 잡아 물을 따르는 등 적시에 지원한다. 이를 통해 인간-로봇 협업의 유창성과 효율성이 크게 향상되었다.
إلى لغة أخرى
من محتوى المصدر
arxiv.org
الرؤى الأساسية المستخلصة من
by Esteve Valls... في arxiv.org 04-09-2024
https://arxiv.org/pdf/2309.16524.pdfاستفسارات أعمق