Concetti Chiave
本文提出了一種名為 GEM(生成式互資訊估計器)的新型指標,用於在沒有黃金標準參考的情況下評估大型語言模型(LLM)生成資訊判斷的能力,並將其應用於評估 LLM 生成學術同行評審的品質。
Sintesi
GEM:在缺乏黃金標準的情況下基準化大型語言模型的判斷能力
本文介紹了一種新的評估指標 GEM(生成式互資訊估計器),用於評估大型語言模型(LLM)在生成資訊判斷方面的能力,特別是在缺乏黃金標準參考的情況下。GEM 拓寬了我們可以基準化 LLM 生成效能的場景——從傳統的機器翻譯和摘要(其中黃金標準參考很容易獲得)到沒有明確黃金標準的主觀任務,例如學術同行評審。
GEM 使用生成模型來估計候選響應和參考響應之間的互資訊,而不需要參考響應是黃金標準。在人工標註資料集上的實驗中,與最先進的 GPT-4o Examiner 相比,GEM 與人類評分具有相當的相關性,並且優於所有其他基準指標。此外,GEM 對策略性操作(例如改寫或拉長)更具穩健性,這些操作可能會在 GPT-4o Examiner 下人為地提高分數。
我們還提出了 GRE-bench(生成式評審評估基準),它根據 LLM 生成高品質學術研究論文同行評審的能力來評估它們。由於 GRE-bench 基於 GEM,因此它繼承了其穩健性。此外,GRE-bench 通過使用每年不斷湧現的新開放獲取研究論文和同行評審來規避資料污染問題(或資料洩漏)。我們展示了各種流行 LLM 在使用 ICLR2023 資料集的同行評審能力方面的 GRE-bench 結果。
開發一種準確、抗操縱且自動化的評估指標,用於評估在沒有黃金標準參考的情況下 LLM 生成的文字響應的品質。