핵심 개념
본 논문에서는 고전적인 로봇 공학 알고리즘을 벗어나 웹 규모 데이터 세트로 사전 훈련된 Transformer 아키텍처 기반 신경망 모델을 사용하여 모바일 로봇의 미션 플래닝을 위한 새로운 접근 방식을 제안하고, 실험을 통해 그 가능성을 입증했습니다.
초록
MissionGPT: Robotics Transformer 모델 기반 모바일 로봇 미션 플래너
본 연구 논문에서는 고전적인 내비게이션 및 위치 파악 알고리즘을 벗어나 Transformer 아키텍처와 대규모 언어 모델(LLM)을 기반으로 하는 신경망을 활용한 모바일 로봇용 미션 플래너 개발에 대한 새로운 접근 방식을 제시합니다. 저자들은 웹 규모의 데이터 세트로 사전 훈련된 Transformer 모델을 활용하여 로봇이 카메라 데이터만으로 작업을 성공적으로 수행할 수 있음을 보여줍니다.
하드웨어 및 소프트웨어 시스템: 연구팀은 Raspberry Pi 4B, STM32 마이크로컨트롤러, 카메라, 그리퍼 시스템, 바퀴 플랫폼으로 구성된 테스트베드 KabutoBot을 개발했습니다. 소프트웨어적으로는 ROS2 Humble 프레임워크를 기반으로 데이터 전송, 데이터 세트 수집 및 마크업, 명령 전송 및 변환을 위한 노드를 구축했습니다.
데이터 세트: 'Go to point' 작업 150개 샘플과 'Pick and place' 작업 600개 샘플을 포함하여 총 750개 샘플로 데이터 세트를 구축했습니다. 각 샘플은 100-1500 프레임의 이미지, 작업 설명, 정보 파일, 프레임과 수행된 동작 매핑 파일로 구성됩니다.
모델 아키텍처: 연구에서는 인코더 전용 신경망 아키텍처와 시각적 입력을 갖춘 LLM의 두 가지 접근 방식을 구현했습니다.
인코더 전용 모델: 텍스트 및 사진 임베딩을 결합하여 분류 작업을 수행하도록 설계되었습니다. 입력으로 4개의 이전 프레임과 현재 카메라 이미지를 사용하고, 완전히 연결된 레이어의 출력을 통해 로봇의 다음 동작을 예측합니다.
인코더-디코더 모델: 시각적 입력을 갖춘 LLM(ViLT)을 사용하여 일련의 이미지와 작업 설명을 기반으로 로봇의 다음 단계를 생성합니다.
실험 결과:
'Go to point' 작업: 인코더 전용 모델은 40%의 성공률을 보였으며, ViLT 모델은 53%의 성공률을 달성했습니다.
'Pick and place' 작업: 인코더 전용 모델은 성능이 저조했으며, ViLT 모델은 35%의 성공률을 보였습니다.
멀티태스크: ViLT 모델을 사용한 멀티태스크 실험에서 'Go to point' 작업은 60%, 'Pick and place' 작업은 30%의 성공률을 기록했습니다.