Core Concepts
BERTモデルの注目スコアは、下流タスクの微調整プロセス中に、語彙カテゴリに基づいて大幅に変化することを示す。
Abstract
人間の言語処理では、構文と意味情報が異なる方法で解析される。
BERTモデル内のトークン間の注目スコアが、下流タスク用の微調整プロセス中にどのように変化するかを検証。
下流タスクで意味情報を重視する場合、内容語に焦点を当てた注目スコアが向上し、構文情報を強調する場合は機能語に焦点を当てた注目スコアが強化される可能性がある。
BERTレイヤーは特定の語彙カテゴリに一貫してバイアスを割り当てることが明らかになった。
Stats
この研究では、GLUEベンチマークデータセットから6つのタスクで実験が行われた。
下流タスクごとに特定のレキシカルカテゴリへの注意力が増加または減少したことが示唆されている。
Quotes
"BERT(Devlin et al.、2018)は、特定のレイヤーが構文および意味論的知識を捉えることを明らかにした。"
"我々は初期仮説を裏付ける実験結果を確証しました。"