핵심 개념
大規模言語モデルは人間の記憶特性を反映しており、これは言語使用の統計的特性がモデルに組み込まれているためだと考えられる。
초록
本論文では、大規模言語モデルGPT-Jを用いて、人間の記憶特性と類似した特性が観察されることを示した。具体的には以下の点が明らかになった:
初頭効果と最近接効果: 記憶リストの最初と最後の項目の記憶が良好であるという特性が観察された。これはモデルサイズが大きいほど顕著になる。
付加情報の効果: 記憶リストに付加情報を加えると、その項目の記憶が改善される。
干渉による忘却: 新しい情報による干渉が主な忘却の原因であり、単純な記憶の減衰ではない。
反復の効果: 反復提示は記憶を改善するが、反復と提示の間に時間的間隔があると効果が高まる。
これらの特性は、大規模言語モデルにおいて記憶が自然に現れる現象であり、モデルの内部構造ではなく、むしろ学習に用いられた言語データの統計的特性に由来すると考えられる。つまり、人間の生物学的記憶特性が言語使用の仕方に反映されており、それがモデルに学習されたと解釈できる。この結果は、人間の生物学的特性と言語の密接な関係を示唆している。
통계
人間の記憶実験のデータと大規模言語モデルの記憶実験の結果を比較した図から以下の重要な数値が得られる:
記憶リストの最初と最後の項目の正答率は50%前後であるのに対し、中間の項目は30%前後と低い。
付加情報を加えた場合、その項目の正答率が10%程度上昇する。
干渉情報を加えた場合、正答率が大幅に低下し、最近接効果も消失する。
反復提示の場合、反復と提示の間に時間的間隔があると正答率が高くなる。