المفاهيم الأساسية
본 논문은 다목적 강화학습 문제를 해결하기 위해 MGDA 기반의 혁신적인 행위자-비평가 알고리즘 MOAC를 제안하며, 이 알고리즘은 파레토 정상 수렴성과 샘플 복잡도에 대한 이론적 보장을 제공한다.
الملخص
본 논문은 다목적 강화학습(MORL) 문제를 다룹니다. MORL은 여러 개의 보상 신호를 최적화해야 하는 강화학습 문제로, 실세계 응용 분야에서 점점 더 중요해지고 있습니다.
논문에서는 MGDA(Multi-Gradient Descent Algorithm) 기반의 혁신적인 행위자-비평가 알고리즘 MOAC를 제안합니다. MOAC는 다음과 같은 특징을 가지고 있습니다:
-
MOAC는 다목적 최적화 문제에서 파레토 정상 수렴성과 샘플 복잡도에 대한 최초의 이론적 분석을 제공합니다. 이를 통해 MORL 문제에 대한 이론적 기반을 마련합니다.
-
MOAC는 다목적 보상 신호로 인한 누적 추정 편향을 완화하기 위해 모멘텀 메커니즘을 도입합니다. 이를 통해 MOAC의 수렴 속도와 샘플 복잡도가 목적 함수의 개수에 독립적이게 됩니다.
-
MOAC는 적절한 모멘텀 계수 스케줄링을 통해 환경으로부터 얻은 샘플을 이용하여 개별 정책 경사의 가중치를 초기화합니다. 이는 MOAC의 실용성과 강건성을 높입니다.
실험 결과는 MOAC가 기존 방법들에 비해 다양한 보상 신호에서 우수한 성능을 보임을 입증합니다.
الإحصائيات
다목적 강화학습 문제에서 각 목적 함수 Ji(θ)는 평균 총 보상 또는 할인 총 보상으로 정의됩니다.
정책 매개변수 θ에 대한 각 목적 함수 i의 정책 경사는 Es∼dθ,a∼πθ[ψθ(s, a) · Advi
θ(s, a)]로 계산됩니다.
اقتباسات
"Reinforcement learning with multiple, potentially conflicting objectives is pervasive in real-world applications, while this problem remains theoretically under-explored."
"To date, although RL has found a large number of applications (e.g., healthcare (Petersen et al., 2019; Raghu et al., 2017b), financial recommendation (Theocharous et al., 2015), ranking system (Wen et al., 2023), resources management (Mao et al., 2016) and robotics (Levine et al., 2016; Raghu et al., 2017a)), the standard RL formulation only considers a single reward optimization."
"Just as the close relationship between actor-critic policy-gradient approaches (Grondman et al., 2012; Kumar et al., 2019; Xu et al., 2020) for RL and the gradient-based methods for general optimization problems, a natural idea to solve Problem (1) is to develop an actor-critic policy-gradient MORL method by drawing inspirations from gradient-based multi-objective optimization (MOO) methods."