แนวคิดหลัก
관찰자가 예측할 수 있는 행동 전략을 개발하는 것이 이 논문의 핵심 목적이다.
บทคัดย่อ
이 논문은 관찰자가 예측할 수 있는 행동 전략을 개발하는 방법을 제안한다.
에이전트가 관찰자에 의해 관찰되고 있다는 것을 인식하고, 자신의 행동을 통해 관찰자에게 전달하고자 하는 정보를 제어할 수 있다.
예측 가능성, 설명 가능성, 투명성 등의 개념을 다룬다.
관찰자 인지 마르코프 의사결정 과정(OAMDP)이라는 프레임워크를 사용하여 문제를 정의한다.
행동 예측 가능성과 상태 예측 가능성을 위한 보상 함수를 제안하고, 이를 통해 유효한 최단 경로 문제(SSP)를 유도할 수 있음을 보인다.
실험을 통해 제안된 접근법의 효과를 확인하고, 실제 인간 관찰자와의 실험 결과를 분석한다.
제안된 방법은 복잡도 측면에서 기존 OAMDP 접근법보다 효율적이며, 다양한 확장 가능성을 제시한다.
สถิติ
에이전트의 행동이 관찰자에 의해 예측되는 정도는 -V*(s0)로 측정할 수 있다.
복잡한 미로 M6에서 πA_pred 정책은 πMDP-B 정책보다 인간 관찰자의 예측 오류 수와 응답 시간이 더 낮았다.
คำพูด
"에이전트가 관찰자에 의해 관찰되고 있다는 것을 인식하고, 자신의 행동을 통해 관찰자에게 전달하고자 하는 정보를 제어할 수 있다."
"예측 가능성, 설명 가능성, 투명성 등의 개념을 다룬다."
"관찰자 인지 마르코프 의사결정 과정(OAMDP)이라는 프레임워크를 사용하여 문제를 정의한다."