이 연구는 강화 학습에서 보상 함수 선택의 중요성에 주목한다. 2차 보상 함수를 사용할 경우 시스템에 상당한 정상 상태 오차가 발생하는 문제를 확인했다. 절대값 기반 보상 함수는 이 문제를 완화할 수 있지만, 특정 시스템 상태의 큰 변동을 유발한다.
이에 따라 이 연구에서는 적분 항을 2차 보상 함수에 도입하는 방법을 제안한다. 적분 항을 추가함으로써 강화 학습 알고리즘이 보상 이력을 더 잘 고려할 수 있게 되어, 정상 상태 오차 문제를 완화할 수 있다.
적응 순항 제어(ACC) 및 차선 변경 모델에 대한 실험과 성능 평가를 통해, 제안 방법이 정상 상태 오차를 효과적으로 감소시키면서도 특정 시스템 상태의 급격한 변화를 초래하지 않음을 검증했다.
לשפה אחרת
מתוכן המקור
arxiv.org
תובנות מפתח מזוקקות מ:
by Liyao Wang,Z... ב- arxiv.org 04-02-2024
https://arxiv.org/pdf/2402.09075.pdfשאלות מעמיקות