核心概念
본 연구에서는 편미분 방정식으로 표현되는 고차원 비선형 동적 시스템의 상태를 효율적으로 추정하기 위해 강화학습 기반의 축소 모델 추정기(RL-ROE)를 제안한다. RL-ROE는 축소 모델(ROM)을 기반으로 하며, 측정값을 활용하여 상태를 추정하는 비선형 정책을 강화학습을 통해 학습한다. 이를 통해 ROM의 오차를 효과적으로 보상할 수 있다.
要約
본 연구는 편미분 방정식으로 표현되는 고차원 비선형 동적 시스템의 상태를 효율적으로 추정하는 방법을 제안한다. 기존의 Kalman 필터 기반 추정기는 ROM의 오차로 인해 성능이 저하되는 문제가 있다. 이를 해결하기 위해 본 연구에서는 강화학습 기반의 축소 모델 추정기(RL-ROE)를 제안한다.
RL-ROE는 다음과 같은 과정으로 구성된다:
- 데이터 기반 축소 모델(ROM) 구축: 고차원 시스템의 동역학을 저차원 공간으로 투영하는 ROM을 구축한다.
- 강화학습을 통한 추정기 학습: ROM 기반의 추정기에 비선형 정책을 도입하고, 강화학습을 통해 이 정책을 최적화한다. 이를 통해 ROM의 오차를 효과적으로 보상할 수 있다.
- 온라인 상태 추정: 학습된 RL-ROE를 활용하여 실시간으로 고차원 상태를 추정한다.
실험 결과, RL-ROE는 Burgers 방정식과 Navier-Stokes 방정식 문제에서 기존 Kalman 필터 기반 추정기 대비 월등한 성능을 보였다. 특히 센서가 매우 제한적인 경우에도 정확한 상태 추정이 가능했다. 또한 학습 과정에서 고려하지 않은 매개변수 값에 대해서도 강건한 성능을 보였다.
統計
Burgers 방정식의 경우:
매개변수 μ가 0.05, 0.45, 0.95일 때 센서가 4개인 경우 RL-ROE의 정규화된 L2 오차가 각각 0.2, 0.3, 0.6 수준
센서 개수가 2개일 때 RL-ROE의 정규화된 L2 오차가 1.0 미만을 유지
Navier-Stokes 방정식의 경우:
레이놀즈 수 Re가 35, 65, 105일 때 센서가 3개인 경우 RL-ROE의 정규화된 L2 오차가 각각 0.1, 0.2, 0.2 수준
센서 개수가 8개 이하일 때 RL-ROE가 Kalman 필터 기반 추정기 대비 월등한 성능
引用
"RL-ROE는 ROM의 오차를 효과적으로 보상할 수 있으며, 동시에 동역학에 대한 불완전한 지식을 활용할 수 있다."
"RL-ROE는 매우 제한적인 센서 환경에서도 정확한 고차원 상태 추정이 가능하며, 학습 과정에서 고려하지 않은 매개변수 값에 대해서도 강건한 성능을 보인다."