Core Concepts
LLMの構造化トレーニングにおいて、予測行動が発生し、古い知識が再覚醒する。
Abstract
ニューラルネットワークの訓練ダイナミクスを探求し、予測回復現象を明らかにした。
LLMは構造化環境で新たな洞察を提供し、大規模なネットワークが古い知識を再覚醒させることを示した。
モデルアーキテクチャやトレーニング要因が予測回復現象にどのように影響するかを調査した。
重要な要素としてオプティマイザーも考察された。
モデルの重み、活性化、勾配の時間的構造が可視化され、予測回復メカニズムに関する洞察が提供された。
単純な計算上のおもちゃモデルでも同様の現象が再現された。
Stats
LLMは論文中で「anticipatory recovery」という用語を使用しています。
大きなモデルは強力な予測回復能力を示す。
Quotes
"Typically, networks exhibit catastrophic interference when training on a sequence of tasks."
"In naturalistic settings, the material we’re exposed to is structured in time and often repeats."
"We also show that this phenomenon is not unique to LLMs; some vision models with sufficient width and depth also demonstrate a similar behavior."