本文介紹了 REALINSTRUCT,一個由真實使用者產生的指令組成的新穎資料集,每個指令都被分解成任務和一組約束條件。REALINSTRUCT 資料集的獨特之處在於它捕捉了真實使用者與 AI 助手的互動,提供了更貼近現實世界使用情境的資料。
由於 REALINSTRUCT 基準測試指令的開放性,基於規則或參考的評估方法並不可行。因此,本文採用了 LLM-as-a-Judge 評估協定,並透過引入 EvalJudge 測試集來評估 LLM-as-a-Judge 的可靠性。
研究結果顯示,GPT-4-Turbo 搭配 CoT 提示是成本效益高且可靠的評估方法,而開放原始碼模型在作為 LLM-as-a-Judge 的角色上表現不佳。
為了提升大型語言模型在處理多重約束條件指令時的效能,本文提出了 DECRIM(DECOMPOSE, CRITIQUE, AND REFINE)自我修正流程。
DECRIM 流程將原始指令分解成主要任務和細粒度的約束條件,並透過 Critic 模型判斷回應是否需要精進。
實驗結果顯示,即使是像 GPT-4 這樣強大的專有模型,在超過 21% 的指令中,至少有一個約束條件未被滿足,這顯示出 REALINSTRUCT 的挑戰性,以及專有和開放原始碼模型都需要進一步改進。
DECRIM 自我修正流程有效提升了開放原始碼大型語言模型的效能,尤其是在提供強大的回饋時,甚至超越了 GPT-4 的表現。
模型評估相較於基於規則的評估方法存在一些挑戰,例如成本和資料汙染等問題。未來的研究方向包括改進 DECRIM 流程的組成部分,並將其整合到其他 System 2 方法中,以進一步提升其在需要更多時間進行生成和精進迭代的任務中的效能。
На другой язык
из исходного контента
arxiv.org
Дополнительные вопросы