従来の情報抽出タスクの評価手法には、生成言語モデルの性能を正確に評価できないという問題がある。本研究では、主観的質問修正の原理に着想を得て、SQC-Scoreという新しい評価手法を提案する。SQC-Scoreは生成言語モデルを用いてモデル出力と正解ラベルの一致度を評価し、さらにNLIモデルを用いて正解ラベルの不完全性を補完することで、より人間に近い評価を実現する。