核心概念
大規模言語モデルを使わずに、エンティティタイプに基づいて答案集合を拡張することで、QA評価の信頼性を向上させることができる。
摘要
本研究では、大規模言語モデルを使わずにQA評価の信頼性を向上させる方法を提案している。
具体的には以下の通り:
-
答案の表記形式がエンティティタイプによって異なることに着目し、エンティティタイプごとに少量のサンプル例を用いてInstructGPTによる答案集合の拡張を行う。
-
拡張された答案集合に基づいて、Soft EMを用いてQAモデルの予測を評価する。
-
実験の結果、提案手法は従来の評価手法よりも信頼性が高く、大規模言語モデルを用いた手法と同等の性能を示した。
-
また、提案手法は大規模言語モデルを使わないため、解釈可能性が高く、計算コストと環境負荷が低い。
つまり、エンティティタイプに基づいた答案集合の拡張により、大規模言語モデルを使わずにQA評価の信頼性を向上できることが示された。
統計資料
提案手法は、自然言語処理タスクの評価に必要な推論呼び出しを大幅に削減できる。
自然問題(NQ)データセットの評価では、提案手法は3,020回の推論呼び出しで済むのに対し、大規模言語モデルベースの手法は15,100回の推論呼び出しが必要。
トリビアQAデータセットの評価では、提案手法は1,938回の推論呼び出しで済むのに対し、大規模言語モデルベースの手法は9,690回の推論呼び出しが必要。
引述
"大規模言語モデルを使うことで、QAモデルの性能をより信頼性高く評価できるようになったが、解釈可能性が低く、計算コストと環境負荷が高いという課題がある。"
"提案手法は、エンティティタイプに基づいた答案集合の拡張により、大規模言語モデルを使わずにQA評価の信頼性を向上できることを示した。"