核心概念
大規模言語モデルの指示理解能力を、言語化子の操作を通じて系統的に評価する。自然な指示、中立的な指示、不自然な指示に分類し、モデルの性能を比較することで、指示理解能力の限界を明らかにする。
要約
本論文は、大規模言語モデルの指示理解能力を評価する新しい手法を提案している。具体的には以下の通りである:
- 自然な指示、中立的な指示、不自然な指示の3つのグループに分類し、言語化子を操作することで指示の自然度を調整する。
- 9つのベンチマークデータセットを用いて、4つの主要な言語モデルファミリー(Flan-T5、GPT系列、Vicuna、OPT-IML)の指示理解能力を評価する。
- 大規模モデルほど自然な指示と中立的な指示に対する性能が高いが、不自然な指示に対しては大きな差が生まれることを発見した。
- 同一モデル内でも言語化子によって性能が大きく変動し、特に不自然な指示の場合に顕著であることを示した。
- 強力なChatGPTやGPT-4でさえ、指示が事前知識に反する場合には、ランダムレベルの性能しか発揮できないことを明らかにした。
- ゼロショットチェーン思考プロンプティングを用いても、不自然な指示に対する性能は自然な指示ほど改善されないことを示した。
以上の結果から、大規模言語モデルにおいても指示理解能力には根本的な限界があることが明らかになった。本手法は、モデルの指示理解能力を系統的に評価する新しい枠組みを提供するものである。
統計
大規模言語モデルは自然な指示と中立的な指示に対して高い性能を示すが、不自然な指示に対しては大きな性能差が生まれる。
同一モデル内でも言語化子によって性能が大きく変動し、特に不自然な指示の場合に顕著である。
強力なChatGPTやGPT-4でさえ、指示が事前知識に反する場合にはランダムレベルの性能しか発揮できない。
ゼロショットチェーン思考プロンプティングを用いても、不自然な指示に対する性能は自然な指示ほど改善されない。