核心概念
大型語言模型 (LLM) 在證明生成任務中的訓練效率低下,部分原因是訓練數據的排序欠佳,而直觀順序的數據排序能提高訓練效率。
摘要
預測下一個標記的任務假設用於證明生成的 LLM 訓練中的最佳數據排序
這篇研究論文探討大型語言模型 (LLM) 在證明生成任務中的訓練效率問題。作者認為,現有模型即使在接受 OpenWebMath 和 Arxiv 等大型語料庫訓練後,在中等難度的證明任務上仍然表現不佳,部分原因是訓練數據的排序欠佳。
論文指出,現有的證明通常遵循純粹的邏輯順序,每個步驟都基於演繹規則從前一步驟邏輯地進行。然而,這種順序旨在於方便驗證證明的正確性,而不是幫助人們和模型學習證明的發現過程。
作者主張,對於證明生成任務,當特定證明步驟的相關中間監督始終位於該證明步驟的左側時,訓練數據樣本的最佳順序就會出現。他們將這種順序稱為「直觀順序」。
論文透過兩個任務驗證了其論點:直覺命題邏輯定理證明和數字乘法。實驗結果證實了順序效應,並為作者的解釋提供了支持。結果表明,當證明採用直觀順序時,訓練最為有效。此外,不同數據順序訓練的模型之間的順序效應和性能差距非常顯著——在命題邏輯定理證明任務中,與採用最差順序訓練的模型相比,採用最佳順序訓練的模型的證明成功率提高了 11%。
探討訓練數據排序對 LLM 證明生成任務訓練效率的影響。
驗證「直觀順序」數據排序在 LLM 證明生成任務訓練中的有效性。