핵심 개념
본 논문에서는 로봇이 작업을 수행하는 방법에 대한 구체적인 지침을 제공함으로써 일반화를 용이하게 하는 새로운 중간 정책 표현, 즉 어포던스를 제안합니다. 어포던스는 표현력이 뛰어나면서도 간결한 추상화를 제공하며, 사용자가 쉽게 지정할 수 있고, 대규모 인터넷 데이터 세트에서 지식을 전이하여 효율적인 학습을 가능하게 합니다.
초록
RT-Affordance: 로봇 조작을 위한 다목적 중간 표현으로서의 어포던스
본 연구는 로봇 조작 작업의 일반화 능력을 향상시키기 위해 어포던스를 중간 정책 표현으로 활용하는 계층적 모델인 RT-Affordance (RT-A)를 제안합니다.
RT-A는 먼저 작업 언어가 주어지면 어포던스 계획을 제안하고, 이 어포던스 계획을 기반으로 정책을 조건화하여 조작을 수행합니다. 어포던스 계획은 작업의 주요 단계에서 로봇 엔드 이펙터의 포즈를 나타내며, 시각적으로 정책의 이미지 입력에 투영됩니다.
어포던스 기반 정책
어포던스 조건화 정책은 언어 지침, 현재 이미지 및 어포던스 계획을 입력으로 받아 행동을 생성합니다. 어포던스 계획은 로봇이 물체와 접촉하거나 병목 상태가 발생하는 등 작업 실행의 중요한 단계를 포착합니다.
어포던스 예측 학습
어포던스 예측 모델은 작업 언어 지침과 장면의 초기 이미지를 기반으로 어포던스 계획을 예측하도록 학습됩니다. 이 모델은 로봇 궤적 데이터 세트와 공간 정보 및 어포던스로 레이블이 지정된 웹 규모 데이터 세트에서 학습됩니다.
모델 추론
초기 이미지와 자연어 작업 지침이 주어지면, 인간 사용자 또는 어포던스 예측 모델을 통해 어포던스 계획을 얻습니다. 어포던스 계획은 이미지에 투영되고, 정책은 언어 지침과 주석이 달린 이미지를 기반으로 작업을 실행합니다.