核心概念
言語モデルは抽象的な推論能力を持っているのか、それとも特定の課題条件に依存した非汎化的な振る舞いをしているのか。
要約
本研究では、言語モデルの抽象的な推論能力を評価するため、既存の課題に対する「反転課題」を提案している。反転課題とは、元の課題と同じ推論プロセスを要求するが、入出力のマッピングが変更された課題のことである。
具体的には以下の11の課題について、デフォルトの課題条件と反転課題条件での言語モデルの性能を比較した:
算術: 10進数以外の基数での加算
プログラミング: 1ベースのインデックスを持つPythonライクな言語での評価・生成
基本的な統語推論: 英語の語順の変更
論理推論: 常識に反する前提条件での推論
空間推論: 方角の変更
描画: 物体の回転・反転
音楽: 和音の指板位置、メロディの音高の変更
チェス: 駒の初期配置の変更
SET ゲーム: カードの属性ルールの変更
実験の結果、言語モデルは反転課題条件下でデフォルトの課題条件に比べて大幅に性能が低下することが分かった。このことから、言語モデルの課題解決能力は、特定の課題条件に依存した非汎化的な振る舞いに基づいている可能性が示唆された。一方で、反転課題でも一定の能力を発揮することから、言語モデルにはある程度の抽象的な推論能力も備わっていると考えられる。
統計
10進数以外の基数での加算では、基数が一般的ではない9や11の場合、正答率が大幅に低下した。
空間推論課題では、北と南の方角が入れ替わった条件でも、他の条件に比べて最も高い正答率を示した。
ギターの和音指板位置課題では、一般的な代替チューニングであるドロップDチューニングの条件で、最も高い正答率を示した。
引用
"言語モデルは抽象的な推論能力を持っているのか、それとも特定の課題条件に依存した非汎化的な振る舞いをしているのか。"
"実験の結果、言語モデルは反転課題条件下でデフォルトの課題条件に比べて大幅に性能が低下することが分かった。このことから、言語モデルの課題解決能力は、特定の課題条件に依存した非汎化的な振る舞いに基づいている可能性が示唆された。"