Core Concepts
大規模言語モデルは一貫性と推論能力に課題があり、正確な情報を生成することが困難である。
Abstract
本研究では、大規模言語モデルの一貫性と推論能力を評価することを目的としている。Boolqデータセットを使用し、公開モデルと独自モデルの性能を比較した。
実験では、同じクエリを3回提示し、一貫した回答が得られるかを確認した。一貫性は、一貫性率と不一致率で評価した。また、生成された説明と正解の説明を比較することで、推論能力を評価した。指標としてBERT、BLEU、F1スコアを使用した。
結果、独自モデルは公開モデルよりも一貫性が高いことが示された。しかし、基本的な一般知識の質問でさえ、一貫性と推論能力の両方で90%以上のスコアを得られるモデルはなかった。この結果は、一貫性と推論能力が大規模言語モデルの課題であることを示している。
Stats
一貫性率:
G4P: 84.88%
G4: 89.40%
G3.5: 74.01%
L2: 60.70%
M7: 63.28%
Mx: 67.76%
スキップ率:
G4P: 0.00%
G4: 0.00%
G3.5: 0.00%
L2: 3.24%
M7: 5.67%
Mx: 4.53%