Основные понятия
본 논문은 알려진 첫 번째 알고리즘을 제시하여 두 점 경사 추정에 의존하지 않고도 ε-최적성을 r
Op1{εq 함수 평가 내에서 달성할 수 있음을 보여준다. 이는 기존 문헌에서 제시된 r
Op1{ε2q 속도나 안정성 가정에 크게 의존하는 방법들을 크게 개선한 것이다.
Аннотация
이 논문은 선형 2차 조절기(LQR) 문제에 대한 새로운 접근법을 제시한다. LQR 문제는 최적 제어기가 선형이며 리카티 방정식으로 완전히 특성화될 수 있는 특징을 가진다.
최근 LQR 문제가 기계 학습 관점에서 연구되어 왔는데, 이 논문은 강화 학습 렌즈를 통해 접근한다.
주요 내용은 다음과 같다:
- 알려진 첫 번째 알고리즘을 제시하여 두 점 경사 추정에 의존하지 않고도 ε-최적성을 r
Op1{εq 함수 평가 내에서 달성할 수 있음을 보여준다. 이는 기존 문헌에서 제시된 r
Op1{ε2q 속도나 안정성 가정에 크게 의존하는 방법들을 크게 개선한 것이다.
- 정책 경사 추정을 위한 새로운 접근법을 제안한다. 이는 결정론적 정책을 활용하여 단일 함수 평가만으로 경사를 추정할 수 있게 한다.
- 시간 변화 학습률을 채택하여 r
Op1{εq 수렴 속도를 달성할 수 있음을 보인다.
Статистика
선형 2차 조절기 문제의 최적 제어기 K*는 리카티 방정식의 해로 주어진다.
안정적인 초기 정책 K0가 존재한다고 가정한다.
할인 인자 γ는 1 - σmin(Q) / (10C(K0) + C(K*)) 와 1 사이의 값을 가진다.
Цитаты
"본 논문은 알려진 첫 번째 알고리즘을 제시하여 두 점 경사 추정에 의존하지 않고도 ε-최적성을 r
Op1{εq 함수 평가 내에서 달성할 수 있음을 보여준다."
"이는 기존 문헌에서 제시된 r
Op1{ε2q 속도나 안정성 가정에 크게 의존하는 방법들을 크게 개선한 것이다."