Core Concepts
LLaSA 是一種透過將結構化資料轉換為超圖並將其表徵整合至大型語言模型 (LLM) 中,以增強 LLM 處理結構化資料能力的框架。
文獻資訊: Xu, Y., He, S., Chen, J., Zeng, X., Wang, B., Liu, K., & Zhao, J. (2024). LLaSA: Large Language and Structured Data Assistant. arXiv preprint arXiv:2411.14460.
研究目標: 本研究旨在開發一種名為 LLaSA 的通用框架,用於增強大型語言模型 (LLM) 處理結構化資料的能力,解決現有基於圖神經網路 (GNN) 的 LLM 在處理不同類型結構化資料時缺乏統一性,以及 GNN 預訓練與特定 LLM 耦合導致適應性受限的問題。
研究方法: LLaSA 首先將各種形式的結構化資料(如表格、知識圖譜)統一建模為超圖,以便使用統一的 GNN 進行編碼。接著,利用自監督學習對 GNN 和 G-Former 進行預訓練,包括問答和對比學習,以有效地將 GNN 與文字空間對齊,並避免與特定 LLM 耦合。在針對下游任務進行微調時,使用 G-Former 將編碼的結構化資料轉換為 LLM 可以理解的固定數量的軟性標記。
主要發現: 在多個結構化知識庫 (SKG) 資料集(包括表格、知識圖譜和資料庫)上的實驗結果表明,LLaSA 能夠顯著增強 LLM 處理結構化資料的能力。在凍結 LLM 參數的情況下,LLaSA Llama-7B 在十個資料集上平均提升了 12%。在使用 LoRA 微調 LLM 參數的情況下,LLaSA 仍然取得了平均 0.4% 的效能提升。此外,LLaSA 使用 LoRA 微調的效能優於先前使用完整參數微調的最先進方法。
結論: LLaSA 是一個有效的框架,可以將結構化資料整合到 LLM 中,並顯著提高 LLM 在各種 SKG 任務上的效能。預訓練的超圖編碼器可以適應各種 LLM,並增強它們處理不同類型結構化資料的能力。
研究意義: 本研究提出了一種新的 LLM 與結構化資料整合方法,為開發更強大的 SKG 模型提供了新的思路。LLaSA 的出現,有助於推動 LLM 在需要處理和理解結構化資料的實際應用中的發展。
研究限制與未來方向: (1) LLaSA 使用固定數量的查詢標記,但超圖中的節點數量差異很大,這可能導致 G-Former 難以有效地捕捉資訊。未來可以探討根據超圖大小動態調整查詢標記數量的機制。(2) 由於資源限制,本研究使用的上下文長度為 2K,而 TableLlama 使用的是 8K。未來可以評估 LLaSA 在更長上下文長度下的效能。
Stats
LLaSA Llama-7B 在凍結 LLM 參數的情況下,在十個資料集上平均提升了 12%。
使用 LoRA 微調 LLM 參數時,LLaSA 仍然取得了平均 0.4% 的效能提升。
LLaSA 7B-M 使用 LoRA 微調的效能優於先前使用完整參數微調的最先進方法。
在 TabMWP 資料集上,LLaSA 7B-M 的效能顯著優於 StructLM 7B-M,達到了 4.2%。
在 SQA 資料集上,LLaSA 的效能顯著優於 StructLM 7B。
在凍結 LLM 參數的情況下,LLaSA 在 Phi-3B、Llama2-7B、Mistral-7B 和 Llama3-8B 模型上均實現了約 10% 的效能提升。
在 LoRA 微調 LLM 參數的情況下,LLaSA 在 Phi-3B 上的效能提升了 0.9%,而在 Llama3-8B 上的效能提升了 0.3%。
與隨機初始化的 GNN 相比,預訓練的 GNN 幫助 LLM 在 Held-In 資料集上實現了 3.8% 的效能提升,在 Held-Out 資料集上實現了 5.0% 的效能提升。
與基本的 prompt tuning 相比,“w/o GNN”和“w/o G-Former”設置在 Held-In 資料集上僅取得了 4% 的效能提升,而在 Held-Out 資料集上沒有顯著提升。