本研究では、大規模言語モデルを使わずにQA評価の信頼性を向上させる方法を提案している。
具体的には以下の通り:
答案の表記形式がエンティティタイプによって異なることに着目し、エンティティタイプごとに少量のサンプル例を用いてInstructGPTによる答案集合の拡張を行う。
拡張された答案集合に基づいて、Soft EMを用いてQAモデルの予測を評価する。
実験の結果、提案手法は従来の評価手法よりも信頼性が高く、大規模言語モデルを用いた手法と同等の性能を示した。
また、提案手法は大規模言語モデルを使わないため、解釈可能性が高く、計算コストと環境負荷が低い。
つまり、エンティティタイプに基づいた答案集合の拡張により、大規模言語モデルを使わずにQA評価の信頼性を向上できることが示された。
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문