Core Concepts
大規模言語モデルは、反事実課題においても類推推論を行うことができる。
Abstract
本研究は、大規模言語モデルが、文字列アナロジー課題や数字行列推論課題などの様々な課題において、人間レベルの類推推論能力を示すことを明らかにした。
具体的には以下の点が示された:
研究で使用した課題の多くは、インターネット上に既存の類似問題が存在しない新規に作成されたものであり、単純な訓練データの模倣では説明できない。
文字列アナロジー課題において、アルファベットの順序が入れ替わった「反事実課題」でも、言語モデルは人間レベルの成績を収めることができた。ただし、この課題では文字の位置や間隔の把握が困難であり、言語モデルの成績が低下した。
しかし、言語モデルにコード実行機能を付加すると、文字の位置や間隔を正確に把握できるようになり、反事実課題でも人間レベルの成績を収めることができた。これは、言語モデルの類推推論能力そのものに問題があるのではなく、特定の補助的な処理能力(ここでは数えること)の欠如が原因であることを示唆している。
大規模言語モデルの類推推論能力は、構造化された表現と演算によって支えられている可能性がある。この能力は、少量の事例から新しい課題を学習する「in-context学習」にも関係している可能性がある。
以上より、大規模言語モデルの類推推論能力は、人間の推論メカニズムとの関連性を持つ重要な能力であると考えられる。今後の研究では、その内部メカニズムの解明が重要な課題となる。
Stats
人間参加者の成績は、間隔サイズ1の課題で平均正答率0.86、間隔サイズ2の課題で平均正答率0.71であった。
GPT-4の成績は、間隔サイズ1の課題で平均正答率0.73、間隔サイズ2の課題で平均正答率0.52であった。
GPT-4にコード実行機能を付加すると、間隔サイズ1の課題で平均正答率0.88、間隔サイズ2の課題で平均正答率0.72となり、人間参加者とほぼ同等の成績を収めた。
Quotes
"GPT-4 was able to solve these 'counterfactual' letter-string analogies at a roughly human level of performance when given the ability to count using code execution, whereas without this functionality GPT-4 performed significantly worse, on par with the results of HW and LM."
"Importantly, GPT-4 only relied on code execution to convert letters into their corresponding indices, using code that GPT-4 generated on its own. Moreover, it was not necessary to instruct GPT-4 to use code execution in this manner, nor to provide any task-specific instructions (e.g., regarding the importance of position or interval size)."