Alapfogalmak
사용자가 제공한 반사실적 경로를 활용하여 POMDP 정책의 성능을 대조적으로 설명할 수 있다.
Kivonat
이 연구는 부분적으로 관찰 가능한 마르코프 의사결정 과정(POMDP)에 대한 설명 가능한 인공지능(XAI)을 다룹니다. POMDP는 상태 및 전이 불확실성을 고려할 수 있는 유연한 프레임워크를 제공하지만, 사용자에게 직관적이지 않을 수 있습니다.
이 연구에서는 사용자가 제공한 반사실적 경로를 활용하여 POMDP 정책에 대한 대조적 설명을 생성하는 방법을 제안합니다. 특징 기대값을 사용하여 이러한 정책의 성능을 대조합니다. 이를 탐색 및 구조 작업(SAR) 설정에 적용하고 두 가지 사례 연구를 통해 관련 과제를 분석 및 논의합니다.
첫 번째 사례 연구에서는 관찰 가능한 목표와 부분적으로 관찰 가능한 목표 간의 차이를 보여줍니다. 최적 정책은 부분적으로 관찰 가능한 목표를 더 자주 찾지만, 사용자가 제안한 정책은 관찰 가능한 목표를 더 자주 방문합니다. 두 번째 사례 연구에서는 배터리 제약으로 인해 사용자가 제안한 정책이 실행 불가능한 경우를 보여줍니다. 최적 정책은 배터리 제약을 고려하여 더 나은 성능을 달성합니다.
이러한 사례 연구를 통해 특징 기대값을 활용한 대조적 설명이 POMDP 정책의 투명성과 해석 가능성을 높일 수 있음을 보여줍니다.
Statisztikák
최적 정책의 특징 기대값: [0.036, 0.731, 0.0]
사용자 정책의 특징 기대값: [0.684, 0.296, 0.0]
최적 정책의 특징 기대값: [0.0, 0.202, 0.354, 0.550, 0.346]
사용자 정책의 특징 기대값: [0.0, 0.0, 0.684, 0.241, 0.559]