核心概念
本論文では、トランスフォーマーに再帰メカニズムを組み込む2つの主要なアプローチ、すなわち深さ方向の再帰と時間方向の再帰について調査し、それらを拡張・組み合わせた新しいモデルを提案・検討する。また、これらのモデルの帰納バイアスを、長距離アリーナ、フリップフロップ言語モデリング、ListOps、論理推論などの診断タスクで比較・分析する。
要約
本論文は、トランスフォーマーに再帰メカニズムを組み込む2つの主要なアプローチについて調査し、それらを拡張・組み合わせた新しいモデルを提案・検討している。
深さ方向の再帰:
Universal Transformer (UT)は、同じトランスフォーマーブロックを繰り返し適用し、入力の複雑さに応じて動的にレイヤー数を決定する。
提案するGated Universal Transformer (GUT)は、UTにゲーティングメカニズムと大域的ハルト機構を導入している。
時間方向の再帰:
Temporal Latent Bottleneck (TLB)は、トランスフォーマーブロックを再帰的に適用し、過去の隠れ状態を圧縮したメモリを利用する。
提案するGated Universal Temporal Latent Bottleneck (GUTLB)は、TLBにGUTの要素を組み合わせている。
実験の結果、GUTは一般的にUTよりも良好な性能を示し、TLBは長距離タスクや長さ一般化、脆弱性の診断タスクで優れた堅牢性を示した。一方で、再帰的な構造を必要とするタスクではTLBが苦手であることも明らかになった。今後の課題として、代替的な注意機構、再帰的な構造、線形RNNなどの探索が挙げられる。
統計
入力の複雑さに応じて動的にレイヤー数を決定することで、無限の適応性を実現できる。
再帰的な適用により、入力の長さに応じて無限のレイヤー数を持つことができる。
時間方向の再帰では、過去の隠れ状態を圧縮したメモリを利用することで、効率的な長距離モデリングが可能となる。
引用
"Transformers generally perform better than Recurrent Neural Networks (RNNs) given enough data, several works have shown that RNNs can still outperform Transformers in specific contexts - especially in algorithmic and structure-sensitive tasks under out-of-distribution (OOD) settings."
"Theoretical reasons (Han et al., 2021; Hao et al., 2022; Merrill et al., 2022) are also suggested for such limitations."
"Recurrence can, in principle, allow the model to assign an unbounded amount of layers depending on the task complexity (Dehghani et al., 2019; Tan et al., 2023; Banino et al., 2021)."