本文首先提出了LongBench-Cite基準測試,評估了當前大型語言模型在長文問答引用(LQAC)任務上的表現,發現存在很大的改進空間。為此,作者提出了CoF(Coarse to Fine)管道,利用現有的大型語言模型自動構建高質量的長文問答實例,並生成精細的句子級引用。作者使用CoF構建了LongCite-45k,這是一個大規模的LQAC數據集。最後,作者使用LongCite-45k對GLM-4-9B和Llama3.1-8B進行了微調,成功開發出LongCite-8B和LongCite-9B模型,能夠在單一輸出中生成準確的回答和精細的句子級引用。實驗結果顯示,我們的模型在引用質量方面優於包括GPT-4o在內的先進專有模型。此外,在LQAC數據上進行微調還有效減少了模型的幻覺,並使其更均勻地利用上下文信息。
翻譯成其他語言
從原文內容
arxiv.org
深入探究