Основные понятия
大規模言語モデルの潜在能力を引き出すために、エッセイの書く力を複数の特性に分解し、特性ごとの採点基準に基づいて段階的に評価を行う。
Аннотация
本論文は、大規模言語モデルを用いたゼロショットエッセイ採点手法「Multi Trait Specialization (MTS)」を提案している。
まず、ChatGPTを用いてエッセイの書く力を複数の特性に分解し、各特性の採点基準を生成する。次に、言語モデルに対して特性ごとの対話形式の評価を行わせ、各特性の得点を算出する。最後に、特性得点の平均値と最小値-最大値スケーリングを用いて最終的な得点を導出する。
実験の結果、MTSは従来の単一ステップの採点手法に比べ、ASAP、TOEFL11データセットのいずれでも大幅な性能向上を示した。特に、小規模なLlama2-13b-chatモデルがChatGPTを大きく上回るなど、MTSの有効性が確認された。
分析の結果、以下の知見が得られた:
特性ごとの採点基準を与えることで、言語モデルの採点行動が規制され、性能が向上する。
特性ごとの対話形式の採点や引用文抽出と採点の分離など、問題の分解が有効である。
外れ値クリッピングと最小値-最大値スケーリングにより、言語モデルの採点バイアスと最小値-最大値スケーリングの感度が改善される。
Статистика
平均エッセイ長は、ASAPデータセットで106-725単語、TOEFL11データセットで339-361単語である。
ASAPデータセットのプロンプトスコアの範囲は0-60点、TOEFL11データセットのプロンプトスコアの範囲はlow/medium/highである。
Цитаты
"大規模言語モデル(LLM)は様々なタスクでゼロショットや少数ショットの指示によって優れた成果を上げている。"
"慎重なプロンプト設計が、LLMの潜在能力を引き出す上で重要な役割を果たす。"
"LLMを用いたゼロショットエッセイ採点は十分に探索されていない一方で、LLMを評価指標として活用する研究は増えている。"