Centrala begrepp
大規模言語モデルを用いたペアワイズ評価は、敵対的なサンプルに対して脆弱であり、モデルの持つバイアスを増幅させる可能性がある。
Sammanfattning
大規模言語モデルを用いたペアワイズ評価における敵対的脆弱性
本論文は、大規模言語モデル(LLM)を用いたテキスト生成の評価手法における、ペアワイズ評価の敵対的脆弱性について論じた研究論文である。
本研究は、LLMを用いたペアワイズ評価が、敵対的なサンプルに対して脆弱であることを実証し、その原因を分析することを目的とする。
本研究では、MT-BenchとLLMBarという2つのメタ評価データセットを用いて、ペアワイズ評価とポイントワイズ評価の性能を比較した。さらに、LLMに推論過程を説明させることで、LLM評価者のバイアスがどのように影響するかを分析した。