核心概念
本文提出了一種名為「結構化」的新方法,透過將純文字轉換成結構化的知識樹,來提升大型語言模型處理複雜長篇文本的認知能力,並透過實驗證明了該方法在多種自然語言處理任務上的有效性。
摘要
書目資訊
Liu, K., Fu, Z., Chen, C., Zhang, W., Jiang, R., Zhou, F., Chen, Y., Wu, Y., & Ye, J. (2024). Enhancing LLM's Cognition via Structurization. Advances in Neural Information Processing Systems, 38.
研究目標
本研究旨在探討如何透過結構化輸入文本,來提升大型語言模型(LLM)處理長篇且複雜文本的認知能力。
方法
研究人員提出了一種名為「結構化」的方法,將原本無序的文本句子,轉換成具有層次結構的元素,包含三個層級:範圍(Scope)、面向(Aspect)和描述(Description)。研究人員首先使用商業大型語言模型(如GPT-3.5-Turbo和Qwen-Max)進行少量樣本提示學習,收集結構化結果後,再訓練一個較小的70億參數模型(StruXGPT-7B)來執行結構化任務。
主要發現
- 實驗結果顯示,結構化方法能有效提升多種大型語言模型在不同自然語言處理任務上的表現,例如基於長篇文本的問答、幻覺評估和段落級密集檢索等。
- 研究發現,結構化方法可以幫助大型語言模型更精確地關注和搜尋資訊,從而更好地理解和處理複雜的文本內容。
- 研究人員成功地將大型商業語言模型的結構化能力,蒸餾到一個更小、更易於部署的StruXGPT-7B模型中,證明了該方法的實用性。
主要結論
結構化是一種有效提升大型語言模型認知能力的方法,能夠顯著改善模型在處理長篇複雜文本時的表現。透過將結構化能力蒸餾到較小的模型中,該方法在實際應用中也具有很高的可行性。
研究意義
本研究為提升大型語言模型的認知能力提供了一種新的思路,有助於推動自然語言處理領域的發展,並為構建更強大、更可靠的語言模型奠定了基礎。
局限與未來研究方向
- 目前的結構化方法主要基於三層結構,未來可以探索更精細、更複雜的知識結構,以更好地解構特定文本。
- 研究僅使用了英文文本進行實驗,未來可以進一步探討結構化方法在其他語言上的應用。
統計資料
StruXGPT-7B 模型繼承了 Qwen-Max 模型 97% 的結構化能力。
在 AttrScore 數據集上,結構化方法幫助 LLaMA2-70B 模型的幻覺評估準確率提升了 4.3%。
在 LongBench 基於長篇文本的問答任務中,結構化方法平均提升了模型 3% 的效能。
引述
"The idea of structurization is motivated by neurocognitive science [51, 5, 17]. In human cognition, sophisticated text sequences will be processed and consolidated into a structured knowledge tree, with factual elements well-organized hierarchically [28, 15]."
"Empirical experiments are conducted on a diverse set of NLP tasks (e.g., context-based question-answering, exhaustive hallucination evaluation, and passage-level dense retrieval). The results show that with a single-turn structurization by our StruXGPT, the cognition performance of vanilla large language models witnesses consistent improvements regardless of the model architecture and size variation."