核心概念
본 연구는 언어와 스케치 입력을 활용하여 로봇이 복잡한 환경을 이해하고 다양한 작업을 수행할 수 있는 LLM 기반 대화형 멀티모달 프레임워크를 제안한다.
摘要
본 연구는 LLM 모듈, 지능형 감지 모듈, 강화학습 모듈로 구성된 LIM2N 프레임워크를 제안한다. LLM 모듈은 텍스트 또는 음성 입력을 받아 작업 유형과 환경 정보를 추출한다. 지능형 감지 모듈은 레이저 스캔, 스케치, LLM 모듈의 제약 정보를 통합하여 환경 정보를 생성한다. 강화학습 모듈은 작업 유형과 목적지 정보를 활용하여 로봇의 움직임을 결정한다.
실험 결과, LIM2N은 고정 장애물과 보행자가 있는 환경에서 우수한 내비게이션 성능을 보였다. 또한 사용자 연구를 통해 LIM2N이 언어와 스케치 입력을 통해 직관적이고 편리한 상호작용을 제공함을 확인했다.
統計資料
로봇이 고정 장애물이 있는 환경에서 LIM2N의 성공률은 93.3%로 수동 제어(80%)와 RL 기반 접근법(63.3%)보다 높았다.
보행자가 있는 환경에서 LIM2N의 성공률은 64%로 수동 제어(51.7%)와 RL 기반 접근법(36.8%)보다 높았다.
LIM2N은 안전 구역 침입과 장애물 충돌 실패율이 수동 제어와 RL 기반 접근법보다 낮았다.
引述
"LIM2N은 언어와 스케치 입력을 통해 복잡한 환경을 이해하고 다양한 작업을 수행할 수 있는 강력한 기능을 제공한다."
"LIM2N의 직관적이고 편리한 상호작용은 사용자 경험을 크게 향상시켰다."