Core Concepts
本研究では、線形モデルの人間解釈可能性を定量化する「解釈エントロピー」の概念を導入し、これを用いて黒箱型AIモデルの予測を解釈可能な形で説明する手法「TERP」を提案する。TERPは、予測の正確性と人間解釈可能性のトレードオフを熱力学の自由エネルギーの概念に基づいて最適化する。
Abstract
本研究では、黒箱型AIモデルの予測を解釈可能な形で説明する手法「TERP」を提案している。
まず、線形モデルの人間解釈可能性を定量化する「解釈エントロピー」の概念を導入した。解釈エントロピーは、モデルの重み係数の分布の鋭さを表す指標で、値が小さいほど人間に解釈しやすい。
次に、予測の正確性と解釈エントロピーのトレードオフを熱力学の自由エネルギーの概念に基づいて最適化する手法を提案した。具体的には、自由エネルギーを定義し、その最小値を探索することで、最適な説明を見つける。
提案手法TERPを、分子動力学シミュレーションのAIモデル、画像分類のビジョントランスフォーマー、テキスト分類の注意機構付きBLSTMに適用し、その有効性を示した。TERPは、黒箱型AIモデルの予測根拠を人間に解釈可能な形で説明でき、モデルの信頼性向上に役立つことが分かった。
Stats
分子動力学シミュレーションでは、ジヒドロアラニンペプチドの主要な二面角ϕ、ψ、θ、ωが予測に重要な特徴量として抽出された。
ビジョントランスフォーマーでは、'science'、'species'といったキーワードが予測に大きな影響を与えていることが分かった。
注意機構付きBLSTMでは、'science'、'species'といったキーワードが予測に重要であることが示された。