핵심 개념
2차 보상 함수를 사용한 강화 학습에서 발생하는 정상 상태 오차를 줄이기 위해 적분 항을 보상 함수에 도입하는 방법을 제안한다. 이를 통해 정상 상태 오차를 감소시키면서도 특정 시스템 상태의 급격한 변화를 방지할 수 있다.
초록
이 연구는 강화 학습에서 보상 함수 선택의 중요성에 주목한다. 2차 보상 함수를 사용할 경우 시스템에 상당한 정상 상태 오차가 발생하는 문제를 확인했다. 절대값 기반 보상 함수는 이 문제를 완화할 수 있지만, 특정 시스템 상태의 큰 변동을 유발한다.
이에 따라 이 연구에서는 적분 항을 2차 보상 함수에 도입하는 방법을 제안한다. 적분 항을 추가함으로써 강화 학습 알고리즘이 보상 이력을 더 잘 고려할 수 있게 되어, 정상 상태 오차 문제를 완화할 수 있다.
적응 순항 제어(ACC) 및 차선 변경 모델에 대한 실험과 성능 평가를 통해, 제안 방법이 정상 상태 오차를 효과적으로 감소시키면서도 특정 시스템 상태의 급격한 변화를 초래하지 않음을 검증했다.
통계
적응 순항 제어 모델에서 제안 방법(PI1, PI2)은 기존 방법(quadratic, absolute)에 비해 정상 상태 오차를 크게 감소시켰다.
차선 변경 모델에서도 제안 방법(PI1, PI2)이 기존 방법(quadratic, absolute)보다 정상 상태 오차를 크게 낮출 수 있었다.
인용구
"2차 보상 함수를 사용할 경우 시스템에 상당한 정상 상태 오차가 발생하는 문제를 확인했다."
"절대값 기반 보상 함수는 이 문제를 완화할 수 있지만, 특정 시스템 상태의 큰 변동을 유발한다."
"적분 항을 추가함으로써 강화 학습 알고리즘이 보상 이력을 더 잘 고려할 수 있게 되어, 정상 상태 오차 문제를 완화할 수 있다."