本論文では、ブラックボックスモデル、特にゲノムモデルにおける高次特徴相互作用を説明するための効率的なアルゴリズムであるSHAP zeroを紹介しています。SHAP値は、入力クエリに対するモデルの局所的な加法的特徴を説明するための理論的に堅牢な方法として登場しましたが、ゲノムなどの分野では、非線形特徴相互作用をグローバルに、かつ数百から数千の入力クエリシーケンスに対して説明することが、生物学的知識を抽出するために必要とされています。
従来のSHAP値計算方法は、入力次元に対して指数関数的に増加するモデル評価を必要とするため、計算コストが非常に高くなります。これは、非線形特徴相互作用の場合にはさらに顕著になり、入力次元の多項式関数に従って指数関数的に増加します。ゲノム分野では、複雑で大規模なモデルが増加しており、多くの場合、独自のアクセス権しかありません。そのため、これらのブラックボックスモデルにおける非線形高次相互作用を、少数のシーケンスだけでなく、多数のクエリシーケンスに対して大規模に説明できるアルゴリズムが緊急に必要とされています。
SHAP zeroは、モデル評価を各クエリシーケンスに対して独立して行うのではなく、「リサイクル」して、モデルを説明するためのサンプルと計算コストを削減するという考えに基づいています。このアイデアを極限まで推し進め、モデルをスケッチするために初期のクエリに依存しないモデル評価を行い、そのスケッチをモデルの説明に使用するようにします。
SHAP zeroは、3つのステップでSHAP値と相互作用を推定します。
SHAP zeroは、上位s個のフーリエ係数を見つけるための1回限りのコストを支払った後、新しいクエリシーケンスをほぼゼロのコスト(実質的に無料)で説明できます。
論文では、2つのゲノムモデル、TIGERとinDelphiをSHAP zeroで説明する大規模な実験を実施しています。その結果、SHAP zeroは、既存のアルゴリズムと比較して、償却計算コストを最大1000倍高速化して、全次数特徴相互作用を推定できることが示されました。SHAP zeroは、TIGERのシード領域のGC含有量とinDelphiのマイクロホモロジーモチーフを予測的な高次特徴として明らかにしました。これは、これまで特徴相互作用の組み合わせ空間のためにアクセスできなかったタスクです。
SHAP zeroは、ゲノムにおける機械学習モデルの説明可能性、より広範には組み合わせ的な問題における説明可能性のためのツールキットを拡張します。高次相互作用の組み合わせ爆発のためにこれまでアクセスできなかった特徴相互作用を抽出して説明することができます。
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問