Centrala begrepp
複数のサブネットワークが同様の性能を示すが、異なる一般化をすることを明らかにし、これらの現象は「ヒューリスティックコア」によって説明される。
Sammanfattning
この研究では、事前学習言語モデル(LMs)において、異なるランダムシードで微調整されたサブネットワークが同様のドメイン内パフォーマンスを達成するが、一般化が異なることが示されました。特に、全体的な結果は、「競合するサブネットワーク」ではなく、「ヒューリスティックコア」と呼ばれる注意力頭部のセットが存在し、浅い非一般化機能を計算します。この研究は、自然言語理解タスクにおける一般化のメカニズムについて詳細な情報を提供し、将来の研究への新たな道筋を開くものです。
Statistik
9つの注意力頭部がすべてのサブネットで共有されている。
モデルは初期段階で「核」として知られる注意力頭部を学習し、追加の注意力頭部を取り入れて一般化します。
70%以上の希薄性ではほとんどすべてのサブネットが非一般化します。
競合するサブネット仮説よりも「競合しない」サブネット間で重要な共通点が見つかりました。
モデルは浅い特徴から高次特徴まで計算するために追加の注意力頭部を学習します。
Citat
"我々は競合するサブネットよりもむしろ共通したコンポーネントセットである「競合しない」サブネット群を発見した。"
"70%以上の希薄性ではほとんどすべてのサブネットが非一般化します。"
"我々は浅い特徴から高次特徴まで計算するために追加の注意力頭部を取り込むことで最終的に一般化します。"