本研究旨在系統性地探討大型語言模型作為評判者時的位置偏差問題。研究首先提出了重複穩定性、位置一致性和偏好公平性三個新概念,並建立了相應的評估框架。
在實驗部分,研究團隊使用MTBench和DevBench數據集,涵蓋22個任務和約40個解決方案生成模型,進行了超過10萬次的評估實驗。研究發現:
有能力的大型語言模型評判者的位置偏差並非隨機變化,而是具有一定的穩定性。
不同評判模型和不同任務之間存在顯著的位置偏差差異。
答案質量差距是影響位置偏差的關鍵因素,而提示長度的影響相對較小。
位置一致性高的評判模型不一定具有公平的偏好,需要綜合考慮這兩個指標。
這些發現有助於優化評判模型的選擇,改進基準測試的設計,並為未來的去偏策略提供啟示,提高大型語言模型評判的可靠性。
翻译成其他语言
从原文生成
arxiv.org
更深入的查询