본 연구 논문은 무한한 시간적 제약 조건에서 연속 시간 선형-이차 평균장 제어 문제를 해결하기 위해 정책 반복 강화 학습(RL) 방법을 적용하는 방법을 제시합니다.
평균장(MF) 문제는 과학, 엔지니어링, 금융, 경제 등 다양한 분야에서 중요한 응용 분야를 가지고 있습니다. 특히, 평균장 제어(MFC) 문제는 에이전트가 시스템의 평균 상태에 영향을 미칠 수 있기 때문에 기존의 제어 이론과는 다른 새로운 문제를 제기합니다. 본 연구는 이러한 MFC 문제 중에서도 선형-이차(LQ) 문제에 초점을 맞추어, 무한한 시간적 제약 조건에서 최적 제어를 찾는 방법을 제시하는 것을 목표로 합니다.
기존의 MFC-LQ 문제 연구에서는 주로 결합된 리카티 방정식을 풀어 최적 제어를 구하는 방법을 사용했습니다. 그러나 이러한 방법은 시스템의 모든 계수 정보를 필요로 하기 때문에 실제 적용에는 한계가 있습니다. 반면, 본 연구에서 제시하는 RL 기반 방법은 시스템의 부분적인 정보만을 이용하여 최적 제어를 학습할 수 있다는 장점을 가집니다.
본 논문에서는 정책 평가와 정책 개선의 두 단계로 구성된 정책 반복 RL 알고리즘을 제시합니다.
이러한 과정을 반복하면서 정책을 점진적으로 개선하고, 최적 제어에 수렴하도록 합니다.
본 논문의 주요 결과는 다음과 같습니다.
본 논문에서 제시된 RL 기반 MFC-LQ 문제 해결 방법은 시스템의 부분적인 정보만을 이용하여 최적 제어를 학습할 수 있다는 점에서 실제 응용 분야에 유용하게 활용될 수 있습니다. 특히, 자율 주행, 에너지 효율적인 건물, 재생 에너지 등과 같이 불확실성이 높은 환경에서 시스템을 제어하는 데 효과적으로 적용될 수 있을 것으로 기대됩니다.
إلى لغة أخرى
من محتوى المصدر
arxiv.org
الرؤى الأساسية المستخلصة من
by Na Li, Xun L... في arxiv.org 11-05-2024
https://arxiv.org/pdf/2305.00424.pdfاستفسارات أعمق