核心概念
本文旨在讓大型語言模型能夠在回答長文問題時生成精細的句子級引用,提高其可信度和可驗證性。
摘要
本文首先提出了LongBench-Cite基準測試,評估了當前大型語言模型在長文問答引用(LQAC)任務上的表現,發現存在很大的改進空間。為此,作者提出了CoF(Coarse to Fine)管道,利用現有的大型語言模型自動構建高質量的長文問答實例,並生成精細的句子級引用。作者使用CoF構建了LongCite-45k,這是一個大規模的LQAC數據集。最後,作者使用LongCite-45k對GLM-4-9B和Llama3.1-8B進行了微調,成功開發出LongCite-8B和LongCite-9B模型,能夠在單一輸出中生成準確的回答和精細的句子級引用。實驗結果顯示,我們的模型在引用質量方面優於包括GPT-4o在內的先進專有模型。此外,在LQAC數據上進行微調還有效減少了模型的幻覺,並使其更均勻地利用上下文信息。
統計資料
為實現其水質目標,MOE制定了安大略水資源法(OWRA)這一立法。[22-23]
OWRA立法與其下的各種法規共同規定了管理環境問題的法律要求。[23]
引述
"當前長文大型語言模型(LLMs)雖然在基於大量文本回答用戶問題方面展現了令人印象深刻的能力,但其回應中缺乏引用使得用戶驗證困難,導致人們對其可信度存在擔憂,因為它們可能存在幻覺。"
"我們的工作不僅提高了LLMs在長文問答引用(LQAC)任務上的能力,還進一步改善了其回答的正確性。"