이 논문은 마르코프 의사결정 프로세스(MDP)에서 정성적 감시 과제와 정량적 효율성 최대화라는 두 가지 목표를 동시에 달성하는 최적 제어 정책 합성 문제를 다룬다.
먼저, 정성적 감시 과제는 특정 관심 영역을 무한히 자주 방문하는 것이다. 정량적 효율성은 보상과 비용의 비율로 정의되며, 표준 장기 평균 보상 지표보다 일반적이다.
저자들은 상태 분류와 섭동 분석을 결합한 새로운 접근법을 제안한다. 먼저 MDP를 수용 가능한 최대 종단 구성 요소(AMEC)로 분해한다. 각 AMEC에 대해 효율성 최적화 문제를 해결하여 최적 정책을 얻는다. 이를 바탕으로 기본 정책을 구성하고, 이 정책을 AMEC 내에서 섭동하여 감시 과제를 달성하면서 효율성을 ϵ-최적화한다.
제안된 접근법은 기존 연구를 일반화하여 정성적 요구 사항과 정량적 성능 지표를 동시에 고려한다. 로봇 운동 계획 사례 연구를 통해 알고리즘의 효과를 입증한다.
To Another Language
from source content
arxiv.org
Principais Insights Extraídos De
by Yu Chen,Xuan... às arxiv.org 03-28-2024
https://arxiv.org/pdf/2403.18632.pdfPerguntas Mais Profundas