사물 인식, 내비게이션, 조작 등 다양한 과제를 수행할 수 있도록 비전 정보와 언어 지시를 통합하여 실행 가능한 행동을 생성하는 새로운 접근법을 제안한다.
GeRM은 시연 데이터와 비최적 데이터를 모두 활용하여 다양한 과제를 효과적으로 학습할 수 있는 전문가 혼합 모델이다. 이를 통해 인간의 시연 데이터의 한계를 극복하고 로봇의 성능을 향상시킬 수 있다.