Core Concepts
概念ボトルネックモデルは、テキストの分類や回帰タスクにおいて、解釈可能な予測を行うことができる。大規模言語モデルを用いて自動的に概念を発見・測定し、それらの概念スコアを線形レイヤーで組み合わせることで、解釈可能な予測を行う。
Abstract
本論文では、解釈可能な概念ボトルネックモデル(Text Bottleneck Model: TBM)を提案している。TBMは、テキストの分類や回帰タスクにおいて、解釈可能な予測を行うことができる。
TBMは以下の3つのモジュールから構成される:
概念生成モジュール:
誤分類された事例を用いて、大規模言語モデルを用いて概念を自動的に発見する。
発見された概念は、テキストの特徴を表す高レベルの概念(例: "メニューの多様性")である。
概念測定モジュール:
発見された概念について、大規模言語モデルを用いて、テキストに対する概念スコアを自動的に測定する。
概念スコアは、概念の当てはまり度合いを表す数値(+1, -1, 0)である。
予測レイヤー:
概念スコアを入力として、線形レイヤーを用いて最終的な予測を行う。
概念スコアの重みは、各概念の相対的な重要度を表す。
TBMは、12の多様なデータセットで評価され、感情分析タスクでは強力な黒箱ベースラインと同等の性能を示した。一方で、専門分野のタスクでは性能が劣る傾向にあった。
人手評価の結果、概念生成モジュールは概して高品質な概念を生成できるが、一部に冗長性や情報漏洩の問題があることが明らかになった。概念測定モジュールは、感情分析タスクでは人間の判断と高い相関を示したが、フェイクニュース検出タスクでは課題があることが分かった。
TBMの解釈可能性は、モデルの学習過程を分析する上で有用であり、バイアスの発見などにも活用できる可能性が示された。今後の課題としては、スケーラビリティの向上、冗長概念や情報漏洩概念の除去、ユーザとの対話的な概念生成などが挙げられる。
Stats
感情分析タスクでは、最良モデルと比べて平均8.7%高いMSEを示した。
分類タスクでは、最良モデルと比べて平均1.4%低い精度であった。