이 논문은 다중 과제 강화 학습(MTRL)을 위한 새로운 접근법을 제안한다. MTRL은 다양한 과제에 걸쳐 일반화되는 정책을 학습하는 것을 목표로 한다. 이를 위해 저자들은 Stiefel 다양체 이론에 기반한 새로운 MDP 정식화를 제안하고, 직교 표현을 학습하는 MOORE 알고리즘을 개발했다.
MOORE는 전문가들의 혼합 모델을 활용하여 과제 간 공통점과 차이점을 포착하는 표현을 학습한다. 이때 Gram-Schmidt 과정을 통해 전문가들의 표현을 직교화하여 다양성을 보장한다. 학습된 직교 표현은 과제별 가중치와 결합되어 과제 관련 표현을 생성하고, 이를 통해 강화 학습 알고리즘이 일반화된 정책을 학습할 수 있다.
저자들은 MiniGrid와 MetaWorld 벤치마크에서 MOORE의 성능을 평가했다. 실험 결과, MOORE는 관련 기법들을 뛰어넘는 성능을 보였으며, MetaWorld에서는 새로운 최신 성과를 달성했다. 추가 실험을 통해 직교성 강제의 중요성, 표현의 해석 가능성 등을 확인했다.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Ahmed Hendaw... at arxiv.org 05-07-2024
https://arxiv.org/pdf/2311.11385.pdfDeeper Inquiries