本論文では、大規模言語モデル(LLM)を用いてインタラクティブ質問応答(IQA)モデルを自動評価する新しいフレームワーク「IQA-EVAL」が提案されています。従来の評価手法は、主に単一回答型の質問応答システムに焦点を当てていましたが、人間とAIの相互作用の動的な性質を捉えることができませんでした。そこで、IQA-EVALでは、LLMベースの評価エージェント(LEA)を導入し、人間の行動をシミュレートすることで、より人間に近い形での評価を実現しています。
Іншою мовою
із вихідного контенту
arxiv.org
Ключові висновки, отримані з
by Ruosen Li, R... о arxiv.org 11-19-2024
https://arxiv.org/pdf/2408.13545.pdfГлибші Запити