Core Concepts
GPT-3.5とGPT-4は時間関係の処理において異なるバイアスを示す。GPT-3.5は「AFTER」と「TRUE」を、GPT-4は「BEFORE」と「FALSE」を好む傾向がある。
Abstract
本研究は、大規模言語モデル(LLM)のGPT-3.5とGPT-4の時間データ処理能力を調査し、両者の帰納バイアスの違いを明らかにした。
実験では、質問応答(QA)形式と論理推論(TE)形式の2つのプロンプトタイプを使用し、明示的な事象と暗示的な事象の両方を分析した。
結果、以下のような傾向が明らかになった:
QA形式では、GPT-3.5は「AFTER」関係を、GPT-4は「BEFORE」関係を好む傾向がある。
TE形式では、GPT-3.5は「TRUE」を、GPT-4は「FALSE」を好む傾向がある。この傾向は明示的事象と暗示的事象の両方で観察された。
このように、GPT-3.5とGPT-4の間には時間関係の処理において顕著な違いが存在する。これは、LLMの進化が必ずしもバイアスを軽減するわけではなく、新たな複雑性を生み出す可能性があることを示唆している。
今後の課題として、より多様なデータセットやプロンプト形式を用いて、LLMの時間推論能力とバイアスをさらに深く探索することが重要である。
Stats
GPT-3.5は明示的事象のQAで815件を「AFTER」、761件を「BEFORE」と判断した。
GPT-4は明示的事象のQAで1057件を「BEFORE」、519件を「AFTER」と判断した。
GPT-3.5は暗示的事象のQAで6,232件を「AFTER」、5,329件を「BEFORE」と判断した。
GPT-4は暗示的事象のQAで6,811件を「BEFORE」、4,594件を「AFTER」と判断した。