核心概念
マルチモーダル深層ニューラルネットワークの意思決定プロセスを理解し、人間が介入できるようにする手法を提案する。
要約
本研究では、マルチモーダル深層ニューラルネットワークの一種であるCLIPの意思決定プロセスを理解するための手法を提案する。
まず、CLIPが理解可能な概念ライブラリを構築し、概念の出現頻度分布を分析した。その結果、CLIPは多数の概念の中から一部の重要な概念に着目して判断していることが分かった。
そこで、2段階のコンセプト選択モデル(CSM)を提案した。第1段階では、概念の分散値が高い概念を貪欲に選択し、ヘッドコンセプトを抽出する。第2段階では、マスクを学習することで、コアとなる概念を絞り込む。
実験の結果、CSMは黒箱モデルと同等の性能を達成しつつ、人間にとって解釈可能な概念を抽出できることが示された。また、ユーザ評価により、CSMが人間の理解と整合的であることが確認された。
このように、本研究では、マルチモーダル深層ニューラルネットワークの内部メカニズムを解明し、人間が介入可能な概念ベースのモデルを提案した。今後は、概念間の階層性や相関関係を探索し、より透明性の高いAIシステムの実現につなげていくことが期待される。
統計
概念の出現頻度分布は長尾分布に従う
概念の分散値は、一般物体データセットの間で高い相関がある一方、細粒度物体データセットの間では相関が低い
上位1000概念の共通概念数は、一般物体データセットの間で多く、細粒度物体データセットの間で少ない
引用
"マルチモーダル深層ニューラルネットワークは、その複雑な構造と膨大な前処理データのため、しばしば解釈が困難な黒箱モデルとみなされている。"
"概念ベースのモデルは、深層ニューラルネットワークが抽出した視覚表現を人間が理解可能な概念にマッピングし、その概念を用いて予測を行うことで、意思決定プロセスの透明性を高める。"