แนวคิดหลัก
Dieser Ansatz nutzt benutzerdefinierte kontrafaktische Pfade, um kontrastive Erklärungen für POMDP-Strategien zu generieren. Durch den Vergleich der Leistungserwartungen der optimalen Strategie und der vom Benutzer vorgeschlagenen Alternative können intuitive Erklärungen für das Verhalten des autonomen Systems bereitgestellt werden.
บทคัดย่อ
Dieser Artikel untersucht die Verwendung von benutzerdefinierten kontrafaktischen Pfaden, um kontrastive Erklärungen für POMDP-Strategien zu generieren. POMDPs bieten einen flexiblen Rahmen, um Unsicherheit in Zustand und Übergang zu berücksichtigen, und eignen sich daher gut für Erklärungen.
Der Ansatz nutzt Merkmalserwartungen, um die Leistung der optimalen POMDP-Strategie mit der eines vom Benutzer vorgeschlagenen alternativen Pfads zu vergleichen. Zwei Fallstudien in einem Such- und Rettungsszenario zeigen, wie diese Erklärungen erstellt werden können:
In der ersten Fallstudie gibt es ein leicht beobachtbares Ziel (eine Zelle von Interesse) und ein teilweise beobachtbares Ziel (das versteckte Ziel). Die Merkmalserwartungen zeigen, dass die optimale Strategie das versteckte Ziel deutlich häufiger findet als der Benutzerpfad, was ihre höhere Leistung erklärt.
In der zweiten Fallstudie schränkt eine Batteriebeschränkung die Machbarkeit des vom Benutzer vorgeschlagenen Pfads ein. Die Merkmalserwartungen zeigen, dass weder die optimale Strategie noch der Benutzerpfad das höher bewertete Ziel erreichen können, die optimale Strategie aber das versteckte Ziel häufiger findet.
Insgesamt zeigt dieser Ansatz, wie kontrastive Erklärungen auf Basis von Merkmalserwartungen ein intuitives Verständnis des Verhaltens autonomer Systeme in POMDP-Umgebungen fördern können.
สถิติ
Über alle möglichen Zielstandorte findet die optimale Strategie das Ziel etwa doppelt so oft wie der Benutzerpfad.
Die optimale Strategie wird die Zelle von Interesse fast nie besuchen.
Da das Ziel eine deutlich höhere Gewichtung hat als die Zelle von Interesse, wird die optimale Strategie den Benutzerpfad übertreffen.
Die Batteriebeschränkung macht es für keine der beiden Strategien möglich, die höher bewertete Zelle (l1) zu erreichen.
Über alle möglichen Zielstandorte wird die optimale Strategie das Ziel häufiger finden, was zu einer höheren Belohnung führt (da das Ziel höher bewertet ist als jede Zelle von Interesse).
คำพูด
Keine relevanten Zitate gefunden.