Konsep Inti
온라인 학습 환경에서 데이터 비정상성으로 인한 기존 신경망 기반 세계 모델의 문제를 해결하기 위해, 선형 회귀 모델과 고차원 희소 특징 표현을 결합한 효율적인 온라인 학습 방법을 제안한다.
Abstrak
이 논문은 모델 기반 강화 학습(MBRL)에서 세계 모델을 온라인으로 효율적으로 학습하는 방법을 제안한다. 기존 신경망 기반 세계 모델은 데이터 비정상성으로 인해 과거 경험을 망각하는 문제가 있다. 이를 해결하기 위해 저자들은 선형 회귀 모델과 고차원 희소 특징 표현을 결합한 방법인 Losse-FTL을 제안한다.
Losse-FTL의 핵심 아이디어는 다음과 같다:
- 선형 회귀 모델을 사용하여 온라인 학습 시 과거 데이터에 대한 최적의 해를 지속적으로 추적할 수 있다.
- 고차원 희소 특징 표현인 Losse를 도입하여 선형 모델의 표현력을 높인다.
- Losse의 희소성을 활용하여 효율적인 온라인 업데이트 알고리즘을 개발한다.
실험 결과, Losse-FTL은 신경망 기반 모델에 비해 데이터 비정상성이 높은 환경에서 더 나은 성능을 보였다. 또한 온라인 학습 시 계산 효율성도 우수하였다.
Statistik
온라인 학습 환경에서 데이터 비정상성으로 인해 신경망 기반 세계 모델이 과거 경험을 망각하는 문제가 발생한다.
제안한 Losse-FTL 방법은 선형 회귀 모델과 고차원 희소 특징 표현을 결합하여 이 문제를 해결한다.
Losse-FTL은 온라인 학습 시 과거 데이터에 대한 최적의 해를 지속적으로 추적할 수 있다.
Losse의 희소성을 활용하여 효율적인 온라인 업데이트 알고리즘을 개발하였다.
Kutipan
"NN-based world models need re-training on all accumulated data at every interaction step to achieve FTL, which is computationally expensive for lifelong agents."
"Our world model is a linear regression model supported by nonlinear random features. The linear part ensures efficient FTL update while the nonlinear random feature empowers the fitting of complex environments."
"Exploiting the sparsity, we further develop an efficient algorithm for online model learning, which only updates a small subset of weights while continually tracking a solution to the FTL objective."