核心概念
大規模言語モデルを用いてインタラクティブな質問応答システムを自動評価するフレームワーク「IQA-EVAL」は、人間の評価と高い相関性を持つことが示された。
要約
IQA-EVAL: インタラクティブ質問応答の自動評価フレームワーク
本論文では、大規模言語モデル(LLM)を用いてインタラクティブ質問応答(IQA)モデルを自動評価する新しいフレームワーク「IQA-EVAL」が提案されています。従来の評価手法は、主に単一回答型の質問応答システムに焦点を当てていましたが、人間とAIの相互作用の動的な性質を捉えることができませんでした。そこで、IQA-EVALでは、LLMベースの評価エージェント(LEA)を導入し、人間の行動をシミュレートすることで、より人間に近い形での評価を実現しています。
IQA-EVALは、以下の2つの段階で構成されています。
1. LEAによるインタラクション生成
LEAは、人間と同様の行動を模倣し、IQAモデルとのインタラクションを生成します。具体的には、LEAは、質問の明確化や特定の側面に関する追加情報を求めることで、IQAモデルとの対話を促進します。
2. LEAによるインタラクション評価
LEAは、生成されたインタラクションを評価します。評価は、流暢さ、有用性、質問の数、正確性などの複数の指標を用いて行われます。
さらに、IQA-EVALでは、LEAにペルソナを割り当てることで、より多様なユーザーの行動や嗜好を反映した評価が可能となっています。ペルソナとは、特定のユーザーグループの特性、行動、目標を表現したもので、よりパーソナライズされた評価を実現するために活用されます。