Core Concepts
変換器の深さを変えることで、変換器がどのように記憶、推論、一般化、文脈的一般化を行えるかを明らかにする。単層の変換器は記憶に優れるが、他のタスクでは不足しており、少なくとも2層の変換器が必要となることを示す。
Abstract
本研究では、変換器の深さを変えた場合の能力を系列学習タスクを通して系統的に評価・理解することを目的とする。具体的には以下の4つのタスクを設計した:
系列分類タスク: 単層の変換器は記憶に優れることを示す。
文脈内質問応答タスク: 単層の変換器は推論に失敗するが、2層の変換器は推論を行えることを示す。
テンプレートマッチングタスク: 単層の変換器は一般化に失敗するが、2層の変換器は一般化を行えることを示す。
文脈内テンプレートマッチングタスク: 1/2層の変換器は文脈的一般化に失敗するが、3層の変換器は文脈的一般化を行えることを示す。
これらの理論的な発見は、より複雑なタスクを解決するためには複数の注意層が必要であることを示唆しており、変換器の深さと能力の関係を明らかにしている。また、実験結果からは、訓練された変換器が本研究で構築した変換器と同様のメカニズムを学習していることが確認できた。
Stats
単層の変換器は記憶に優れるが、他のタスクでは失敗する。
2層の変換器は推論と一般化を行えるが、文脈的一般化は困難。
3層の変換器は文脈的一般化を行えることを示す。