本研究は、非日常的な状況に関する仮説推論の能力を評価するためのUNcommonsenseデータセットを構築した。このデータセットには、非日常的な結果が与えられた文脈に対して、その結果を説明する自然言語の説明が収録されている。
研究では、人間による説明と大規模言語モデル(LLM)による説明を比較分析した。LLMによる説明は人間の説明よりも特定性が高いが、多様性が低い傾向がある。一方、人間の説明は文脈と結果をつなぐ詳細な情報が不足しがちである。
さらに、オンラインの模倣学習手法を用いることで、小規模モデルの非日常的な仮説推論能力を向上させることができることを示した。特に、専門家の知識を利用するEaO手法が優れた性能を示した。
Til et andet sprog
fra kildeindhold
arxiv.org
Vigtigste indsigter udtrukket fra
by Wenting Zhao... kl. arxiv.org 05-02-2024
https://arxiv.org/pdf/2311.08469.pdfDybere Forespørgsler