核心概念
複雑なエージェントに対しても、相互情報量の下限を提供するMerlin-Arthur分類器が解釈性保証を提供する。
要約
複雑なエージェントに対する相互情報量の下限を提供する新しいMerlin-Arthur分類器の提案。
メリン・アーサー・プロトコルからインスピレーションを受けた結果、測定可能なメトリクスによる保証を表現。
実験結果は高い相互情報量が明示的に確認できる2つの小規模データセットで評価されている。
Introduction
Neural Network(NN)ベースのAIシステムの安全な展開は人間の監査対象であることが必要。
説明可能AI(XAI)アプローチは理論的な保証なしで成功している。
Theoretical Framework
Merlin-Arthur分類器に関する理論的枠組みを開発。
特徴選択者と特徴分類子に関連した概念や数学的定義が導入されている。
Evaluation of Theoretical Bounds
低次元データセットを使用して相互情報量の境界値を評価。
結果は理論と実際が一致しており、仮定が正しいことを示唆。
統計
我々はニューラルネットワーク(NN)ベースのAIシステムへの人間監査要件とその理由付け方法に焦点を当てています。
引用
"Safe deployment of Neural Network (NN) based AI systems in high-stakes applications requires that their reasoning be subject to human scrutiny."
"Interactive classification in form of a prover-verifier setting has emerged as a way to design inherently interpretable classifiers."