核心概念
自我監督式互信息對齊(SAMI)可以增強語言模型在個人屬性和偏好方面的可塑性,在多任務設置中表現優於直接偏好優化(DPO)。SAMI在數學推理任務上也能略微提升準確性,但不如監督式微調(SFT)有效。
摘要
本文探討了自我監督式互信息對齊(SAMI)算法在多任務設置和數學推理任務中的應用。
實驗一:在MT-Bench多任務基準測試中,將SAMI應用於llama3.1-8b模型,並與直接偏好優化(DPO)進行比較。結果顯示,SAMI在原則對齊方面優於SFT和DPO,勝率分別為58.15%和57.50%。但不同任務類別間存在顯著差異,數學和角色扮演任務表現最佳,編程和STEM任務表現最差。在無原則評判下,三種模型表現相當。
實驗二:探討SAMI是否能提升mistral-7b在GSM8K數學推理任務上的準確性。結果顯示,SAMI單獨使用能略微提升1.1%的單次嘗試準確率,10次嘗試時提升3.9%。但SFT更為有效,單次提升3.2%,10次提升10.1%。將SAMI與SFT結合,10次嘗試時可再提升1.3%,但單次準確率無變化。
作者認為,SAMI在數學推理任務上效果有限,可能是因為SAMI平等對待兩個原則(LaTeX書寫和逐步思考),而逐步思考原則更為關鍵,導致SAMI的關注點不夠集中。
統計資料
以下是支持作者論點的關鍵數據:
SAMI在MT-Bench上的原則對齊勝率為58.15%,優於SFT和DPO。
SAMI在數學任務上的單次嘗試準確率提升1.1%,10次嘗試提升3.9%。
SFT在數學任務上的單次嘗試準確率提升3.2%,10次提升10.1%。
將SAMI與SFT結合,10次嘗試時可再提升1.3%,但單次準確率無變化。
引述
以下是支持作者論點的重要引述:
"SAMI wins against the SFT model 58.15% of the time, DPO wins against the SFT model 56.50% of the time, and SAMI wins against DPO also 57.50% of the time."
"SAMI modestly enhances math reasoning accuracy by a few percentage points, but is less effective than simply doing SFT."
"When SAMI was performed on top of SFT, 10-attempt accuracy improved by 1.3%, 1-attempt accuracy did not change, and 32-attempt accuracy also did not change."