Core Concepts
機械学習における解釈可能性と説明可能性は相互補完的な関係にあり、単純な「トレードオフ」ではない。
Abstract
この論文では、機械学習における解釈可能性と説明可能性の関係について議論している。
まず、解釈可能性と説明可能性の定義と概念の違いを明確にする。解釈可能性は、ある予測モデルの決定プロセスを人間が簡単に理解できる程度を表す。一方、説明可能性は、モデルの内部を人間に分かりやすく説明する手法を指す。
次に、解釈可能性と説明可能性が単なる代替概念ではなく、むしろ相互補完的な関係にあることを示す。解釈可能性のある予測モデルを説明することで、説明の信頼性が高まる。一方で、説明可能性は解釈可能性のある予測モデルの理解を深めることができる。
さらに、解釈可能性と予測性能の関係についても検討する。一般的に、解釈可能性が高いほど予測性能が低いと考えられているが、これは必ずしも正しくない。複雑な予測モデルでも、単純な部分モデルを抽出することで高い解釈可能性と予測性能を両立できる可能性がある。
結論として、解釈可能性と説明可能性は相互補完的な関係にあり、両者を組み合わせることで、より信頼性の高い機械学習システムを実現できると述べている。
Stats
解釈可能性の高い予測モデルでも、その内部の詳細な情報を把握するのは難しい可能性がある。
解釈可能性と予測性能の関係は単純な「トレードオフ」ではなく、複雑な相互作用がある。
説明可能性手法には、本来の性質を損なう近似計算が必要になる場合がある。
Quotes
"If we do not know how ML [predictors] work, we cannot check or regulate them to ensure that they do not encode discrimination against minorities [...], we will not be able to learn from instances in which it is mistaken."
"Explainability is associated with the notion of explanation as an interface between humans and a [predictor] that is, at the same time, both an accurate proxy of the [predictor] and comprehensible to humans."