핵심 개념
MULTIGAIN 2.0은 MDP에 대해 LTL 및 정상 상태 제약 하에서 장기 평균 보상을 최대화하는 정책을 합성할 수 있다.
초록
MULTIGAIN 2.0은 기존 MULTIGAIN 도구의 주요 확장 버전으로, PRISM 확률 모델 검사기 위에 구축되었다. 이 새로운 버전은 MULTIGAIN의 다중 목적 기능을 확장하여 다차원 장기 평균 보상 구조, 정상 상태 제약 및 선형 시간 논리 속성에 대한 공식 검증 및 제어기 합성을 허용한다. 또한 MULTIGAIN 2.0은 무제한 메모리 및 기타 직관적이지 않은 솔루션을 방지하기 위해 기본 선형 프로그램을 수정할 수 있으며, 2차원 및 3차원 경우에 Pareto 곡선을 시각화하여 다중 목적 시나리오에서 트레이드오프 분석을 용이하게 한다.
통계
마르코프 의사 결정 프로세스(MDP)는 불확실한 환경에서 의사 결정을 위한 기본 모델이다.
정책 합성 문제는 주어진 사양을 만족하도록 선택을 해결하는 문제이다.
무한 지평선 속성에는 선형 시간 논리(LTL), 정상 상태 정책 합성(SS) 및 장기 평균 보상(LRA)이 포함된다.
인용구
"MULTIGAIN 2.0은 MDP에 대해 LTL 및 정상 상태 제약 하에서 장기 평균 보상을 최대화하는 정책을 합성할 수 있다."
"MULTIGAIN 2.0은 무제한 메모리 및 기타 직관적이지 않은 솔루션을 방지하기 위해 기본 선형 프로그램을 수정할 수 있으며, 2차원 및 3차원 경우에 Pareto 곡선을 시각화하여 다중 목적 시나리오에서 트레이드오프 분석을 용이하게 한다."