Core Concepts
오프라인 데이터셋에서 공통 표현을 학습하여 다양한 과제에서 효율적으로 학습할 수 있는 방법을 제안한다.
Abstract
이 논문은 오프라인 멀티태스크 강화 학습에 대해 다룹니다. 저자들은 오프라인 데이터셋에서 공통 표현을 학습하는 새로운 알고리즘 MORL을 제안합니다.
오프라인 데이터셋에서 공통 표현을 학습하기 위해 최대 우도 추정 기법을 사용합니다.
학습된 표현을 활용하여 각 과제에 대한 근사 모델과 정책을 구합니다.
이렇게 학습된 표현을 활용하여 새로운 과제에서 보상 없는 강화 학습, 오프라인 강화 학습, 온라인 강화 학습을 수행할 수 있음을 보여줍니다.
이론적 분석을 통해 MORL이 단일 과제 오프라인 표현 학습 대비 성능 향상을 보임을 입증합니다.
Stats
오프라인 데이터셋 D에는 T개의 과제에 대한 데이터가 포함되어 있다.
각 과제 t의 전이 확률 P^(*, t)는 차원 d의 저차원 분해를 가진다.
행동 정책 π^b_t는 상태 공간 S를 모두 도달할 수 있는 성질을 가진다.
Quotes
"오프라인 데이터셋에서 공통 표현을 학습하여 다양한 과제에서 효율적으로 학습할 수 있는 방법을 제안한다."
"MORL은 단일 과제 오프라인 표현 학습 대비 성능 향상을 보임을 입증한다."