Core Concepts
大規模言語モデルは、不確実なコンテキストが与えられた場合に適切に抽象化できるかを評価する。
Abstract
本研究では、大規模言語モデルの科学QAにおける抽象化能力を評価するためのフレームワークを提案する。具体的には、正解のコンテキストを削除、置換、追加するなどの摂動を加え、モデルがどの程度適切に抽象化できるかを分析する。
4つの大規模言語モデル(LLama2、Vicuna、Flan-T5、GPT3.5)を用いて、一般ドメインのQAデータセットと3つの科学QAデータセットで実験を行った。結果は以下の通り:
コンテキストを置換すると、ほとんどのモデルで抽象化能力が大幅に向上する。しかし、ブール型の質問に対しては、すべてのモデルが抽象化に失敗する傾向がある。
コンテキストの摂動は、時に直感に反して課題パフォーマンスを向上させる。これは、抽象化能力の向上がタスクパフォーマンスに反映されるためである。
質問タイプによって、モデルの抽象化能力は大きく異なる。抽出型や抽象型の質問に対しては抽象化できるが、ブール型の質問に対しては抽象化が困難である。
これらの結果は、QAデータセットの設計や評価方法の改善が必要であることを示唆している。また、大規模言語モデルの抽象化能力を向上させるためには、プロンプティング戦略やモデル設計の改善が重要であると考えられる。
Stats
正解コンテキストを削除すると、GPT3.5は37.1%の質問で答えから抽象化するようになる。
ランダムコンテキストを与えると、Flan-T5は95.4%の質問で抽象化するようになる。
ノイズコンテキストを追加すると、Vicunaの課題パフォーマンスが4.8%向上する。
Quotes
"正解コンテキストが提供されていない場合、モデルが適切に抽象化することが望ましい。"
"コンテキストの摂動は、時に直感に反して課題パフォーマンスを向上させる可能性がある。"
"質問タイプによって、モデルの抽象化能力は大きく異なる。"