Conceptos Básicos
透過自我反思機制,特別是透過直接偏好優化迭代地增強生成理由的品質,可以顯著提升大型語言模型作為細粒度評估者的能力。
論文概述
本論文提出了一種名為「自我反思評估器」(SRE)的新方法,旨在透過迭代的偏好優化過程,提升大型語言模型(LLM)作為評估者的效能,特別著重於增強其生成理由的品質。
研究背景
大型語言模型在自然語言理解和生成方面展現出驚人的能力,然而,如何將這些模型與人類的偏好、價值觀和推理方式相符,一直是一項重大挑戰。現有的監督式微調(SFT)方法存在固有的局限性,因為它們主要讓模型接觸正面例子,而沒有明確地展示錯誤答案的構成要素。
研究方法
自我反思評估器透過迭代的過程來解決這個問題,該過程包括以下步驟:
種子初始化: 使用標註數據集對基礎監督式微調評估模型進行訓練。
自我反思: 針對相同的輸入,讓模型生成多個評估結果,每個結果都包含一個分數和相應的理由。
偏好數據策劃: 從生成的評估結果中選擇出偏好對,其中一個是較優的評估結果,另一個是較差的評估結果。
偏好優化: 使用直接偏好優化(DPO)方法,根據偏好對對模型進行微調。
實驗結果
實驗結果顯示,自我反思評估器在多項評估指標上,包括理由的連貫性和評分的準確性,都優於僅透過監督式微調訓練的模型。此外,自我反思評估器在多樣化的評估基準測試中,也優於其他方法,例如最佳 N 和自我一致性。
研究結論
自我反思是一種有效的方法,可以透過迭代的偏好優化過程,提升大型語言模型作為評估者的效能。這種方法無需額外的數據標註,並且可以根據可自定義的評分標準進行評估。未來的工作可以探索如何增強評估模型區分好壞答案的能力,從而進一步提升其評估能力。
Estadísticas
使用自我反思機制和直接偏好優化訓練的評估模型在多項評估指標上,表現優於僅透過監督式微調訓練的模型。
在 Feedback Bench 和 BiGGen Bench 等細粒度評估任務中,自我反思評估器優於許多規模相似甚至更大的模型。
在 Reward Bench 評估基準測試中,自我反思評估器展現出更強的生成評估能力。
與僅使用監督式微調或直接偏好優化相比,將監督式微調與直接偏好優化相結合的訓練方法顯著提升了評估模型的效能。