核心概念
雖然自洽性方法在處理短文本問題上表現出色,但該研究發現,這種方法並不能有效解決長文本問題中的位置偏差,甚至可能降低模型性能。
統計資料
QuALITY 數據集的平均標記長度約為 5.8K,最大標記長度約為 8.6K。
NQ-Open 數據集的平均標記長度約為 3K,最大標記長度約為 6.1K。
在 QuALITY 數據集上,只有 LLaMA-3.1-8B 模型在使用自洽性方法後表現出統計學上的顯著改進(p < 0.05),性能提升了 2.5%。
在 NQ-Open 數據集上,Qwen 模型和 LLaMA-3.2-3B 模型在使用自洽性方法後表現出統計學上的顯著改進,但 LLaMA-3.1-8B 模型的性能則出現了嚴重的下降。