Core Concepts
概念ベースの説明の忠実性と可読性を定量的に評価する新しい手法を提案する。
Abstract
本論文では、言語モデルの内部状態を説明する概念ベースの手法の評価について取り組んでいる。
まず、概念の定式化を行い、概念の忠実性と可読性の2つの側面から評価する手法を提案している。
忠実性の評価では、概念の活性化関数に基づいて適切な摂動を行い、出力への影響を測定する。可読性の評価では、概念を最大限に活性化するパターンの意味的な一貫性を自動的に測定する。
さらに、これらの評価指標の信頼性と妥当性を検証するためのメタ評価手法も提案している。
実験では、提案手法の有効性を確認するとともに、既存の概念ベースの説明手法を比較評価している。提案手法は、概念ベースの説明の開発を促進し、より透明性の高いAIシステムの実現に貢献すると期待される。
Stats
概念の摂動によって出力が変化する度合いは、損失関数の差(ABL-Loss)で0.59、予測クラスの差(ABL-PClass)で0.60であった。
概念を最大限に活性化するパターンの意味的な一貫性は、出力側の埋め込み距離(OUT-EmbDist)で0.73、出力側の埋め込みコサイン類似度(OUT-EmbCos)で0.80であった。
Quotes
"概念ベースの説明は、LLMの内部状態をより透明化し、人間にとってより理解しやすいものにする有望な手段である。"
"概念ベースの説明の評価には標準化された厳密な手法が欠けており、その発展を阻害している。"
"提案手法は、概念の忠実性と可読性を定量的に評価し、概念ベースの説明の開発を促進することが期待される。"