Core Concepts
参照なしの評価器は、オープンエンドの例では優れた性能を示すが、クローズドエンドの例では不十分である。
Abstract
本論文は、生成された応答の品質評価における参照なしの評価器の信頼性について分析している。
主な内容は以下の通り:
従来の参照ベースの評価指標は、参照応答との類似性が高い候補を高品質と判断するため、多様な合理的な応答を公平に評価できないという問題がある。
近年、大規模言語モデル(LLM)を用いた参照なしの評価器が提案されており、人間の評価との相関が高いことが示されている。
しかし、これらの参照なしの評価器は、オープンエンドの例では優れた性能を示すものの、クローズドエンドの例では不十分である。クローズドエンドの例では、事実と矛盾する応答でも高い評価を与えてしまう可能性がある。
そこで本研究では、KdConv-ADVとDSTC7-ADVという2つの新しい対抗的なメタ評価対話データセットを構築した。これらのデータセットには、クローズドエンドの例や対抗的な例が多数含まれている。
実験の結果、現在の参照なしの評価器には以下のような課題があることが明らかになった:
知識が不足している
不合理な応答を識別する能力が不足している
応答の品質を十分に区別できない
Stats
生成された応答が事実と矛盾していても、参照なしの評価器はしばしば高い評価を与える。
参照なしの評価器は、応答の品質を十分に区別できない傾向がある。
Quotes
"Reference-free evaluators are better suited for open-ended examples with different possible responses, but not all examples are open-ended."
"For closed-ended examples with unique correct semantic response, reference-free evaluators may still consider it high quality, even if the given response contradicts the facts and semantics of dialogue history."