核心概念
사전 학습된 언어 조건부 모방 학습 정책의 일반화 능력을 높이기 위해 모델 보정과 불확실성 인식 행동 선택 기법을 제안한다.
要約
이 논문은 사전 학습된 언어 조건부 모방 학습 정책의 일반화 능력을 높이기 위한 방법을 제안한다.
- 모델 보정 단계: 온도 조절을 통해 모델의 출력을 보정하여 전문가 행동의 정확도 가능성을 나타내는 신뢰도 점수를 생성한다.
- 불확실성 인식 행동 선택: 보정된 모델의 확률 분포를 활용하여 인접한 행동들의 신뢰도 합을 최대화하는 행동을 선택한다. 이를 통해 모델의 고립된 높은 신뢰도 출력을 방지하고 더 안정적인 행동을 선택할 수 있다.
실험 결과, 제안 방법은 PerAct, RVT, CLIPort 모델에서 과제 완수율을 향상시켰다. 특히 모델 보정이 필요한 PerAct와 RVT에서 큰 성능 향상을 보였다. 또한 작은 방해물이 추가된 환경에서도 제안 방법이 강건한 성능을 보였다.
統計
제안 방법은 PerAct, RVT, CLIPort 모델에서 과제 완수율을 각각 3.2%, 2.1%, 3.0% 향상시켰다.
작은 방해물이 추가된 환경에서 제안 방법은 stack-block-pyramid-seq 과제의 완수율을 79.63%에서 97.11%로, assembling-kits-seq 과제의 완수율을 48.32%에서 55.44%로 향상시켰다.
引用
"사전 학습된 대규모 로봇 정책은 다양한 과제와 로봇 플랫폼에서 일반적인 목적의 로봇을 가능하게 하는 큰 잠재력을 가지고 있지만, 새로운 환경 조건에 대한 신뢰할 수 있는 일반화는 여전히 주요 과제이다."
"우리는 사전 학습된 언어 조건부 모방 학습 에이전트의 불확실성 인식 배치를 위한 새로운 접근 방식을 제안한다."