本研究では、マルチモーダル深層ニューラルネットワークの一種であるCLIPの意思決定プロセスを理解するための手法を提案する。
まず、CLIPが理解可能な概念ライブラリを構築し、概念の出現頻度分布を分析した。その結果、CLIPは多数の概念の中から一部の重要な概念に着目して判断していることが分かった。
そこで、2段階のコンセプト選択モデル(CSM)を提案した。第1段階では、概念の分散値が高い概念を貪欲に選択し、ヘッドコンセプトを抽出する。第2段階では、マスクを学習することで、コアとなる概念を絞り込む。
実験の結果、CSMは黒箱モデルと同等の性能を達成しつつ、人間にとって解釈可能な概念を抽出できることが示された。また、ユーザ評価により、CSMが人間の理解と整合的であることが確認された。
このように、本研究では、マルチモーダル深層ニューラルネットワークの内部メカニズムを解明し、人間が介入可能な概念ベースのモデルを提案した。今後は、概念間の階層性や相関関係を探索し、より透明性の高いAIシステムの実現につなげていくことが期待される。
翻译成其他语言
从原文生成
arxiv.org
更深入的查询