Conceitos essenciais
제한된 오프라인 데이터로 학습된 강화 학습 정책은 실시간 환경에서 예측하지 못한 외인성 외란에 취약하며, 이를 극복하기 위해 실시간 외란 특성화 및 정량화를 기반으로 배포 후 정책을 조정하는 Streetwise 에이전트 프레임워크를 제안합니다.
Resumo
Streetwise 에이전트: 오프라인 강화 학습 정책을 활용하여 RTC의 외인성 확률적 외란을 극복
본 연구 논문에서는 실시간 통신(RTC)과 같은 실제 환경에서 제한된 오프라인 데이터로 학습된 강화 학습 정책이 예측하지 못한 외인성 외란에 취약하다는 문제점을 다룹니다. 이러한 외란은 학습 데이터에는 존재하지 않는 새로운 상태 공간 및 전이 역학을 야기하여 정책 성능 저하를 초래합니다.
본 연구의 목표는 실시간 환경에서 발생하는 외인성 외란에 강인한 오프라인 강화 학습 정책을 개발하는 것입니다.
본 논문에서는 Streetwise 에이전트라는 새로운 프레임워크를 제안합니다. 이 프레임워크는 실시간 외란 특성화 및 정량화를 기반으로 배포 후 정책을 조정하는 방식으로 작동합니다.
Streetwise 에이전트 구조
Streetwise 에이전트는 크게 세 가지 모듈로 구성됩니다.
오프라인 강화 학습 학습: 제한된 오프라인 데이터를 사용하여 Implicit Q-learning (IQL) 알고리즘을 통해 정책 (𝜋D) 및 가치 함수 (QD)를 학습합니다.
OOD 감지기 학습: 오프라인 데이터를 사용하여 LSTM Autoencoder (LSTM-AE)를 학습합니다. 이는 데이터의 일반적인 추세를 학습하고 외란 및 OOD 샘플을 식별하는 데 도움을 줍니다.
배포 후 정책 조정: LSTM-AE를 사용하여 실시간으로 외란을 감지하고 정량화합니다. 이 정보를 기반으로, 학습된 가치 함수의 기울기를 사용하여 정책 출력을 조정합니다.