核心概念
訓練大型語言模型作為 A* 啟發式函數時,優先考慮目標狀態附近的搜索節點數據可以顯著提高搜索效率。
本研究旨在探討如何有效地訓練大型語言模型 (LLM) 作為 A* 搜索算法的啟發式函數,以加速搜索過程並提高求解效率。
研究人員首先分析了 A* 搜索算法和 LLM 啟發式學習對訓練數據的不同需求。他們通過實驗發現,A* 搜索算法和 LLM 都需要準確預測目標狀態附近的搜索節點距離。基於此發現,他們提出了一種基於搜索節點與目標狀態距離的數據選擇策略,優先考慮目標狀態附近的節點數據進行訓練。