核心概念
提出一種質量導引的對比理由蒸餾方法,通過生成正面和負面理由,並利用對比學習將其蒸餾到較小的語言模型中,以提高其推理能力。
摘要
本文提出了一種名為"質量導引對比理由蒸餾"(QCRD)的方法,用於從對比學習的角度指導較小的語言模型從大型語言模型中蒸餾知識。
具體來說,QCRD包含以下三個部分:
-
多任務學習框架:在訓練較小的語言模型時,同時進行預測標籤和生成理由兩個任務。
-
對比知識生成:
- 正面知識:通過溫度採樣和自我一致性,從大型語言模型中生成多樣化和高質量的正面理由。
- 負面知識:採用自我對抗策略,從之前迭代的較小語言模型中生成低質量的理由作為負面理由。
-
質量導引的對比蒸餾:
- 訓練一個判別器,評估理由的質量並給予適當的權重。
- 設計一種對比損失函數,同時蒸餾正面和負面理由到較小的語言模型中。
通過在多個推理任務上的實驗,QCRD一致優於現有的蒸餾技術,生成更高質量的理由。
統計資料
在SVAMP數據集上,QCRD的T5-base模型的準確率為69.0%,而DSS的T5-base模型的準確率為65.5%。
在CQA數據集上,QCRD的T5-base模型的準確率為63.64%,而DSS的T5-base模型的準確率為63.23%。
在ANLI1數據集上,QCRD的T5-base模型的準確率為54.0%,而DSS的T5-base模型的準確率為52.8%。
在ESNLI數據集上,QCRD的T5-base模型的準確率為90.26%,而DSS的T5-base模型的準確率為90.09%。
引述
"我們首次開發了一種從對比學習角度進行CoT蒸餾的一般方法(即QCRD),旨在指導學生模型學習正面和負面知識。"
"我們提出了一種對比蒸餾損失,以有效地蒸餾從LLM生成的正面和負面理由,並採用在線更新的判別器來評估理由的質量並為其分配適當的權重,以優化整個數據集上的訓練過程。"