核心概念
大型語言模型(LLM)在推理任務中表現出令人印象深刻的零樣本學習能力,但它們可能依賴於輸入文本和輸出標籤之間的虛假關聯,而非真正的語言理解。為了解決這個問題,本文提出了任務校準(TC),這是一種零樣本學習且僅在推理階段進行的校準方法,它透過任務重構來減輕模型對單獨前提或假設的過度依賴,鼓勵LLM基於前提和假設兩者進行推理。
摘要
研究論文摘要
文獻資訊: Li, Y., Luo, Y., Xie, X., & Zhang, Y. (2024). Task Calibration: Calibrating Large Language Models on Inference Tasks. arXiv preprint arXiv:2410.18764v1.
研究目標: 本研究旨在探討如何減輕大型語言模型(LLM)在推理任務中對虛假關聯的依賴,並提高其推理能力。
研究方法: 作者提出了任務校準(TC),這是一種零樣本學習且僅在推理階段進行的校準方法。TC 的核心思想是透過任務重構,將 LLM 對單獨前提或假設的預測概率分解出來,並鼓勵模型基於前提和假設兩者進行推理。具體而言,TC 計算了使用前提和假設共同輸入、僅使用前提輸入以及僅使用假設輸入時的預測概率,並透過一個基於互信息的公式來整合這些概率,從而得到校準後的預測結果。
主要發現: 實驗結果顯示,TC 在 13 個推理數據集上的零樣本學習設定中取得了顯著的性能提升,超越了現有的校準方法。此外,TC 在少樣本學習設定和其他自然語言理解任務中也表現出良好的效果,並且對不同的提示模板具有魯棒性。
主要結論: TC 是一種有效且通用的 LLM 校準方法,可以減輕模型對虛假關聯的依賴,提高其推理能力。
研究意義: 本研究為解決 LLM 在推理任務中的虛假關聯問題提供了一種新的思路,並為開發更可靠、更通用的 LLM 奠定了基礎。
研究限制與未來方向: TC 需要額外的計算成本,因為它需要在推理階段進行三次預測。未來研究可以探索如何降低 TC 的計算成本,並將其應用於更廣泛的自然語言處理任務。
統計資料
TC 在 Mistral-7B-Instruct-v0.3、Llama-2-7B-chat 和 Phi-3-mini-4k-instruct 模型上,於 13 個推理數據集中,有 12、9 和 10 個數據集的表現優於最佳基準模型。
在 SciTail 數據集中,超過 90% 的錯誤 LLM 預測與僅使用假設輸入得到的標籤一致。
在 QNLI 數據集中,TC 能夠準確預測出 61% 被原始 LLM 錯誤分類的實例。
引述
“LLMs may suffer from spurious correlations between input texts and output labels, which limits LLMs’ ability to reason based purely on general language understanding.”
“We propose task calibration (TC), a zero-shot and inference-only calibration method inspired by mutual information which recovers LLM performance through task reformulation.”
“Experimental results demonstrate superior performance of TC over other calibration methods in the zero-shot setup, showcasing a noteworthy boost of three different LLMs on 13 inference datasets.”