核心概念
비전-언어 모델을 활용하여 실시간으로 사회적으로 적절한 로봇 행동을 생성하는 새로운 접근법을 제안한다.
摘要
이 논문은 비전-언어 모델(VLM)을 활용하여 사회적으로 적절한 로봇 내비게이션 방법인 VLM-Social-Nav를 제안한다. 주요 내용은 다음과 같다:
- 실시간 감지 모델을 사용하여 중요한 사회적 개체(사람, 제스처, 문 등)를 감지하고, VLM을 활용하여 사회적으로 적절한 로봇 행동을 생성한다.
- VLM 기반 점수 모듈을 통해 사회적 비용 항목을 계산하여, 기저 운동 계획기에 전달함으로써 사회적으로 적절하고 효과적인 로봇 행동을 생성한다.
- 기존 방법들과 달리, VLM-Social-Nav는 대규모 데이터셋 학습에 의존하지 않고도 상황을 이해하고 적절한 행동을 생성할 수 있다.
- 4가지 실내 사회적 내비게이션 시나리오에서 VLM-Social-Nav의 성능을 평가한 결과, 기존 방법들에 비해 평균 성공률 36.37% 이상, 평균 충돌률 20.00% 이상 향상된 것을 확인했다. 사용자 연구 결과에서도 VLM-Social-Nav가 가장 사회적으로 적절한 내비게이션 행동을 생성한 것으로 나타났다.
统计
"로봇은 사람을 피해 오른쪽으로 이동했다."
"로봇은 사람의 제스처를 인식하고 멈추었다."
"로봇은 사람을 피해 통과하면서 속도를 줄였다."
"로봇은 좁은 문을 통과하기 전에 멈추었다."
引用
"VLM-Social-Nav는 대규모 데이터셋 학습에 의존하지 않고도 상황을 이해하고 적절한 행동을 생성할 수 있다."
"VLM-Social-Nav는 기존 방법들에 비해 평균 성공률 36.37% 이상, 평균 충돌률 20.00% 이상 향상된 성능을 보였다."
"사용자 연구 결과에서 VLM-Social-Nav가 가장 사회적으로 적절한 내비게이션 행동을 생성한 것으로 나타났다."