이 연구는 강화 학습에서 보상 함수 선택의 중요성에 주목한다. 2차 보상 함수를 사용할 경우 시스템에 상당한 정상 상태 오차가 발생하는 문제를 확인했다. 절대값 기반 보상 함수는 이 문제를 완화할 수 있지만, 특정 시스템 상태의 큰 변동을 유발한다.
이에 따라 이 연구에서는 적분 항을 2차 보상 함수에 도입하는 방법을 제안한다. 적분 항을 추가함으로써 강화 학습 알고리즘이 보상 이력을 더 잘 고려할 수 있게 되어, 정상 상태 오차 문제를 완화할 수 있다.
적응 순항 제어(ACC) 및 차선 변경 모델에 대한 실험과 성능 평가를 통해, 제안 방법이 정상 상태 오차를 효과적으로 감소시키면서도 특정 시스템 상태의 급격한 변화를 초래하지 않음을 검증했다.
Til et annet språk
fra kildeinnhold
arxiv.org
Viktige innsikter hentet fra
by Liyao Wang,Z... klokken arxiv.org 04-02-2024
https://arxiv.org/pdf/2402.09075.pdfDypere Spørsmål