核心概念
GPT-3.5とGPT-4は時間関係の分析において異なるバイアスを示す。GPT-3.5は「AFTER」と「TRUE」を、GPT-4は「BEFORE」と「FALSE」を好む傾向がある。
要約
本研究は、大規模言語モデル(LLM)のGPT-3.5とGPT-4の時間データ処理能力を調査し、両者の帰納バイアスの違いを明らかにしている。
実験では、質問応答(QA)形式と論理推論(TE)形式の2種類のプロンプトを用いて、明示的な事象と暗示的な事象の時間関係を分析した。
QA形式の結果、GPT-3.5は「AFTER」を、GPT-4は「BEFORE」を好む傾向が見られた。TEフォーマットでは、GPT-3.5が「TRUE」に、GPT-4が「FALSE」に偏る傾向が一貫して観察された。
この矛盾した傾向は、LLMsの時間関係理解における複雑な帰納バイアスを示唆している。明示的な事象に比べ、暗示的な事象の分析では両モデルともにバイアスが強く表れた。
今後の課題として、時間推論に特化したタスクの検討や、より多様なデータセットやプロンプト形式の活用が重要である。LLMの進化に伴い新たなバイアスが生じる可能性も指摘された。
統計
GPT-3.5は明示的事象の質問応答(QA)形式で815件の「AFTER」と761件の「BEFORE」を予測した。
GPT-4は明示的事象のQA形式で1057件の「BEFORE」と519件の「AFTER」を予測した。
GPT-3.5は論理推論(TE)形式の不整合ペアで、暗示的事象の83.3%、明示的事象の94.6%で「TRUE」を予測する傾向があった。
GPT-4は論理推論(TE)形式の不整合ペアで、暗示的事象の67.1%、明示的事象の32.4%で「FALSE」を予測する傾向があった。