この研究では、事前学習言語モデル(LMs)において、異なるランダムシードで微調整されたサブネットワークが同様のドメイン内パフォーマンスを達成するが、一般化が異なることが示されました。特に、全体的な結果は、「競合するサブネットワーク」ではなく、「ヒューリスティックコア」と呼ばれる注意力頭部のセットが存在し、浅い非一般化機能を計算します。この研究は、自然言語理解タスクにおける一般化のメカニズムについて詳細な情報を提供し、将来の研究への新たな道筋を開くものです。
Para outro idioma
do conteúdo fonte
arxiv.org
Principais Insights Extraídos De
by Adithya Bhas... às arxiv.org 03-07-2024
https://arxiv.org/pdf/2403.03942.pdfPerguntas Mais Profundas