Core Concepts
言語モデルの検索補強は言語モデルの性能を向上させるが、その理由は明確ではない。過剰指定された訓練データからの一般化の失敗が、その理由の一部を説明する可能性がある。
Abstract
本論文は、言語モデル(LM)の検索補強(kNN-LM)と通常のLMの性能差について分析している。
まず、ソフトマックスボトルネックがその性能差の原因ではないことを示す実験を行った。LMの最終層が、kNN-LMの出力分布を良好に近似できることを確認した。
次に、過剰指定された訓練データからの一般化の失敗に着目した。過剰指定とは、文脈に含まれる情報の一部が目的の完成に因果的に関係ない状況を指す。この場合、LMは訓練データの過剰指定された情報から一般化できず、性能が低下する。一方、kNN-LMはこの問題に強い。GPT-3.5 Turboでも同様の結果が得られ、モデルサイズを大きくしても根本的な解決にはならないことが示された。
最後に、kNN検索の代替として、中間表現をトークンに直接マッピングするニューラルネットワークモデルを提案した。これは、kNN検索に比べて格段に少ないストレージ容量で、LMの性能を向上させることができる。
Stats
過剰指定された訓練データでは、LMの子供の名前の予測対数尤度が理論的な最適値よりも大幅に低い。
kNN-LMは、この過剰指定された訓練データでも、LMよりも良好な性能を示す。