核心概念
本文提出了一種基於人類評估的新指標ADVSCORE,用於衡量對抗性數據集的品質,並用其分析了現有數據集的缺陷,進而引導創建更有效的對抗性數據集ADVQA。
摘要
隨著AI模型在基準測試中表現出色,確保其面對非預期和挑戰性任務的穩健性至關重要。對抗性數據集的例子旨在使模型產生有害、不安全或錯誤的回應。然而,隨著模型的進步,這些對抗性數據集可能會過時,因此需要定期更新。然而,目前缺乏標準化的指標來衡量對抗性,也難以系統地識別這些數據集何時失效。
為了解決這個問題,本文提出了ADVSCORE,這是一種以人為本的評估指標,用於衡量數據集的真實對抗性。ADVSCORE透過捕捉模型和人類的不同能力來評估數據集的真實對抗性,同時識別出不佳的例子。
主要內容
對抗性數據集的評估需要人類的參與
對抗性樣本對於人類來說比模型更容易在實際任務中提供正確的答案。然而,隨著模型的改進,這些對抗性數據集可能會過時,需要定期更新。然而,目前缺乏標準化的指標來比較哪個數據集最能捕捉人類和模型能力之間的差距。
ADVSCORE的提出
ADVSCORE是一種以人為本的評估指標,用於衡量數據集的真實對抗性。它透過捕捉模型和人類的不同能力來評估數據集的真實對抗性,同時識別出不佳的例子。ADVSCORE基於項目反應理論(IRT),這是一個廣泛應用於心理測量學和教育測試的框架。
ADVSCORE的兩個關鍵面向
ADVSCORE衡量兩個關鍵面向:
真實對抗性: 捕捉模型和人類之間的表現差距,同時懲罰“不恰當”的例子(即模稜兩可的例子)。
區分度: 數據集如何有效地根據模型的能力對其進行排序。
ADVSCORE的優勢
ADVSCORE是第一個基於人類能力評估樣本“對抗性”的指標:它可以衡量隨著語言模型的改進,數據集的對抗性挑戰是變弱還是變強。
ADVQA的創建
ADVSCORE激勵作者貢獻一個新的以人為本的真實對抗性問題基準測試:ADVQA。ADVQA的創建流程產生了高質量且真實的對抗性問題。此外,ADVSCORE有助於提高ADVQA的區分度,確保所捕捉到的對抗性反映了人類和模型的不同技能。
ADVSCORE的應用
ADVSCORE使用9,347個人類回應和十個語言模型預測來追蹤模型在五年(2020-2024)內的改進。ADVSCORE評估對抗性數據集是否仍然適用於模型評估,衡量模型的改進,並為更好地與人類能力保持一致提供指導。
ADVSCORE的意義
ADVSCORE提供了一個評估對抗性數據集品質的有效方法,並為創建更有效的對抗性數據集提供了指導。
統計資料
ADVSCORE使用9,347個人類回應和十個語言模型預測來追蹤模型在五年(2020-2024)內的改進。
ADVQA在過去五年中,對抗性的下降幅度最小,與其他對抗性基準測試相比。
TRICKME在接下來的四年裡急劇下降,這表明模型在它們以前難以完成的任務上有所改進。
自2022年以來,BAMBOOGLE和FM2不再具有對抗性,顯示出負的ADVSCORE值。