이 논문은 인간-AI 상호작용에서 인간의 기대와 AI 에이전트의 실제 행동 간의 불일치로 인해 발생할 수 있는 문제를 해결하기 위한 안전한 설명 가능한 계획(SEP) 방법론을 제안합니다.
기존의 설명 가능한 계획 방법은 인간의 기대와 에이전트의 최적 행동 간의 차이를 해소하는 데 초점을 맞추었지만, 에이전트의 행동이 안전성을 보장하지 않는다는 문제가 있었습니다.
SEP는 이러한 문제를 해결하기 위해 에이전트의 모델(MR)과 인간의 모델(MH
R)을 모두 고려하여, 인간의 기대를 최대화하면서도 안전성 기준을 만족하는 정책을 찾는 것을 목표로 합니다.
이를 위해 SEP는 인간 모델에서의 기대 수익을 최대화하는 동시에 에이전트 모델에서의 수익이 안전 기준을 만족하도록 하는 다목적 최적화 문제를 정의합니다.
이 문제를 효율적으로 해결하기 위해 행동 가지치기, 정책 하강 트리 탐색, 정책 상승 탐색 등의 기법을 제안합니다. 또한 복잡한 도메인에 적용하기 위해 상태 집계 기반의 근사 솔루션도 제시합니다.
시뮬레이션과 실제 로봇 실험을 통해 제안 방법의 효과를 검증하였으며, 기존 방법 대비 계산 효율성과 안전성 보장 측면에서 우수한 성능을 보였습니다.
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問