核心概念
従来の注意機構ベースや勾配ベースの解釈手法よりも、シャープリー値やLIMEなどの摂動ベースの手法の方が、モデルの推論過程を忠実に反映しつつ、ドメイン専門家にも理解可能な説明を提供できる可能性がある。
要約
本研究は、自然言語処理タスクにおいて、深層学習モデルの解釈性を評価する際の2つの重要な側面、すなわち「忠実性」と「妥当性」の関係を実証的に分析したものである。
主な知見は以下の通り:
感情分析、意図検出、トピック分類の3つのNLPタスクにおいて、シャープリー値(SV)やLIMEなどの摂動ベースの手法は、注意機構ベースや勾配ベースの手法よりも、モデルの推論過程をより忠実に反映する説明を提供できることが示された。
一方で、GPT-4によって生成された専門家レベルの説明と各手法の説明との相関は必ずしも高くはない。しかし、最も重要な特徴の抽出においては、SVやLIMEが60%以上の重複率を示し、専門家の説明と整合性が高いことが明らかになった。
これらの結果は、忠実性と妥当性が必ずしも相反するものではなく、適切な手法を選択することで、両者を同時に高い水準で達成できる可能性を示唆している。
つまり、解釈性アルゴリズムを忠実性と妥当性の両目的で最適化することで、ユーザビリティの高い説明を提供できる可能性が示された。今後は、より多様なタスクやモデルを対象とした検証が必要である。
統計
感情分析タスクのBERT上でのLOR(Log-odds)は、シャープリー値が-5.9748と最も低い。
意図検出タスクのBERT上でのCM(Comprehensiveness)は、シャープリー値が0.8874と最も高い。
トピック分類タスクのRoBERTa上でのLORは、アテンションロールアウトが-0.5808と最も低い。
引用
"従来の注意機構ベースや勾配ベースの手法よりも、シャープリー値やLIMEなどの摂動ベースの手法の方が、モデルの推論過程を忠実に反映しつつ、ドメイン専門家にも理解可能な説明を提供できる可能性がある。"
"これらの結果は、忠実性と妥当性が必ずしも相反するものではなく、適切な手法を選択することで、両者を同時に高い水準で達成できる可能性を示唆している。"