本論文は、SemEval-2024 Task 9 "BRAINTEASER"への取り組みを紹介している。このタスクは、大言語モデルの創造的思考能力を評価するために設計された新しいベンチマークである。
タスクは2つのサブタスクから構成される:
著者らは、事前学習済みの変換器ベースの言語モデルを微調整することで、両サブタスクにおいて高い精度を達成した。特に、Mistral-7bモデルが最も優れた性能を示した。一方、Llama 2やPhi-2などの大規模言語モデルは、単語パズルの解答に苦戦した。
モデルの失敗パターンを分析した結果、単語パズルでは一般常識に反する推論が必要とされるため、事前学習時に獲得した知識では不十分であることが明らかになった。一方、文章パズルでは、文脈情報が重要な手がかりとなることが分かった。
本研究は、大言語モデルの柔軟な推論能力を評価する新しいベンチマークを提案し、その性能を詳細に分析したものである。
翻譯成其他語言
從原文內容
arxiv.org
深入探究