제약 조건이 있는 강화 학습 문제를 효과적으로 해결하기 위해 부드러운 로그 장벽 함수를 Soft Actor-Critic 알고리즘에 적용하여 CSAC-LB 알고리즘을 제안한다. 이를 통해 제약 조건을 만족하면서도 높은 성능을 달성할 수 있다.
본 논문은 안전 제약 조건을 고려하여 부드러운 로그 장벽 함수를 이용한 새로운 강화 학습 알고리즘 CSAC-LB를 제안한다. CSAC-LB는 기존 방식의 수치적 불안정성을 해결하고, 안전 경계를 효과적으로 탐험하여 높은 성능과 안정성을 달성한다.