核心概念
非日常的な状況に関する仮説推論の能力を評価するため、UNcommonsenseデータセットを構築し、大規模言語モデルの性能を分析した。人間の説明と比較して、LLMは特定性が高いが多様性が低い傾向がある。オンラインの模倣学習手法を用いることで、小規模モデルの非日常的な仮説推論能力を向上させることができる。
要約
本研究は、非日常的な状況に関する仮説推論の能力を評価するためのUNcommonsenseデータセットを構築した。このデータセットには、非日常的な結果が与えられた文脈に対して、その結果を説明する自然言語の説明が収録されている。
研究では、人間による説明と大規模言語モデル(LLM)による説明を比較分析した。LLMによる説明は人間の説明よりも特定性が高いが、多様性が低い傾向がある。一方、人間の説明は文脈と結果をつなぐ詳細な情報が不足しがちである。
さらに、オンラインの模倣学習手法を用いることで、小規模モデルの非日常的な仮説推論能力を向上させることができることを示した。特に、専門家の知識を利用するEaO手法が優れた性能を示した。
統計
非日常的な結果の多くは、GPT-4による評価で1または2の尤度しかない。
人間による説明は平均22トークン程度、LLMによる説明は平均25-38トークン程度であるのに対し、LLMで人間の説明を強化したものは平均78トークン程度と長くなる。
LLMで人間の説明を強化したものは、LLMのみの説明よりも好まれる傾向がある。
引用
「非日常的な状況に関する仮説推論の能力を評価するため、UNcommonsenseデータセットを構築した。」
「LLMによる説明は人間の説明よりも特定性が高いが、多様性が低い傾向がある。」
「オンラインの模倣学習手法を用いることで、小規模モデルの非日常的な仮説推論能力を向上させることができる。」