核心概念
준사실적 설명은 강화학습 에이전트의 행동을 이해하고 설명하는 데 도움을 줄 수 있다.
要約
이 논문은 강화학습(RL) 에이전트의 결정을 설명하기 위한 준사실적 설명 기법을 소개한다.
먼저 준사실적 설명에 필요한 5가지 속성을 정의했다:
유효성: 준사실적 상태에서도 동일한 결과가 나오는지 확인
시간적 거리: 원래 상태와 준사실적 상태 간 행동 수의 거리
확률적 불확실성: 결과가 달라질 가능성
충실도: 준사실적 상태가 에이전트의 정책을 잘 반영하는지
예외성: 준사실적 상태가 예상치 못한 상황인지
이를 바탕으로 두 가지 알고리즘 SGRL-Advance와 SGRL-Rewind를 제안했다. SGRL-Advance는 미래 행동을 탐색하여 준사실적 상태를 찾고, SGRL-Rewind는 과거 행동을 탐색한다.
두 알고리즘을 Stochastic Gridworld와 Frozen Lake 환경에서 평가한 결과, 기존 방식보다 더 나은 준사실적 설명을 생성했다. 사용자 연구에서도 준사실적 설명이 RL 에이전트의 행동 이해에 도움이 되는 것으로 나타났다.
統計
준사실적 설명을 생성한 비율은 Stochastic Gridworld에서 86.66%, Frozen Lake에서 100%였다.
준사실적 상태의 시간적 거리는 Stochastic Gridworld에서 0.87-0.96, Frozen Lake에서 0.88-0.99였다.
준사실적 상태의 충실도는 Stochastic Gridworld에서 0.13-0.27, Frozen Lake에서 0.14-0.97이었다.
준사실적 상태의 확률적 불확실성은 Stochastic Gridworld에서 0.46-0.84, Frozen Lake에서 0.86-0.98이었다.
준사실적 상태의 예외성은 Stochastic Gridworld에서 0.76-0.92, Frozen Lake에서 0.16-0.97이었다.
引用
"준사실적 설명은 사용자의 이해와 신뢰를 높이고 인간-AI 협업을 촉진할 수 있다."
"준사실적 설명은 자원 최적화를 지원할 수 있다."