핵심 개념
ActAIM2는 다양한 객체 인스턴스 및 범주에 일반화 가능한 방식으로, 이산 표현 학습을 통해 다양한 로봇 상호 작용 모드를 발견하고 실행할 수 있는 자기 지도 학습 프레임워크를 제시합니다.
초록
ActAIM2: 이산 표현 학습을 통한 로봇 상호 작용 모드 발견
본 연구는 다관절 객체를 조작하고, 학습된 기술을 다양한 유형의 다관절 객체에 일반화할 수 있는 로봇 시스템 개발을 목표로 합니다.
본 연구에서는 시뮬레이션 기반의 자기 지도 학습 데이터 수집 및 모델 학습이라는 두 단계 방법론을 사용합니다.
1. 데이터 수집
사전 정의된 행동 원형을 사용하여 네 가지 주요 단계(초기화, 접근, 파악, 조작)에 걸쳐 일련의 행동을 실행하여 RGBD 이미지 및 다중 시점 카메라 위치를 포함한 관측 데이터 집합을 수집합니다.
사전 학습된 이미지 인코더를 사용하여 이미지 관측을 잠재 벡터로 변환하고, 초기 및 최종 관측 간의 차이를 계산하여 각 궤적에 대한 작업 임베딩을 정의합니다.
작업 임베딩을 기반으로 조작의 성공 또는 실패를 결정하기 위한 임계값을 설정합니다.
2. 모델 학습
수집된 데이터를 사용하여 행동 예측기와 모드 선택기로 구성된 정책을 학습합니다.
모드 선택기는 가우시안 혼합 모델을 사용하여 이산 잠재 공간에서 뚜렷한 상호 작용 모드를 정의하고, 행동 예측기는 샘플링된 작업 임베딩을 처리하여 해당 작업 시퀀스를 예측합니다.
행동 예측기와 모드 선택기를 개별적으로 사전 학습한 후 전체 파이프라인을 공동으로 미세 조정합니다.