核心概念
解釈可能モデルの構造を利用して、その学習データセットに関する確率的な再構築を行うことができる。このアプローチは、解釈可能モデルの学習データに関する情報漏洩を定量的に評価するための一般的な枠組みを提供する。
要約
本論文では、解釈可能モデルの構造から学習データセットに関する確率的な再構築を行う一般的な枠組みを提案している。
まず、従来の確率的データセットの定義では、各属性の確率変数が統計的に独立であるという強い仮定があった。本論文では、この仮定を緩和した一般化された確率的データセットを定義し、モデルの知識を表現できるようにした。
次に、この一般化された確率的データセットを用いて、モデルの学習データに関する情報漏洩の程度を定量的に評価する指標を提案した。この指標は、モデルの構造に応じて効率的に計算できるよう、いくつかの仮定の下で分解可能な形式で表現されている。
具体的には、決定木やルールリストといった解釈可能モデルに対して、提案手法を適用し、最適な解釈可能モデルと発見的手法で学習したモデルの間で、学習データに関する情報漏洩の程度を比較した。その結果、最適な解釈可能モデルの方が、同等の精度を持ちつつ、学習データに関する情報漏洩が小さいことが示された。
統計
決定木の場合:
r個のブランチfj∈[1..r]があり、各ブランチfjを満たす例の数はnum(fj)である。また、各リーフノードjの例の数はCjである。
ルールリストの場合:
r'個のルールfj∈[1..r']があり、各ルールfjを満たす例の数はnum(fj)である。また、ルールfjが捕捉する例の数はCaptRL(fj)である。