本文探討了大型語言模型(LLM)在法律領域作為知識庫的事實性。研究團隊設計了一個涵蓋案例法和法律法規的多樣化事實性問題數據集,並使用該數據集評估了多個LLM在不同評估方法下的表現。
研究發現:
使用別名匹配和模糊匹配方法,LLM的表現明顯優於嚴格的精確匹配。這表明LLM通常以不同的表述形式生成正確答案,精確匹配無法全面捕捉。
允許LLM在不確定時選擇"不知道"作為答案,可以顯著提高其精確度,但會降低召回率。這種權衡在對法律領域這類高風險領域很重要。
在提示中加入相關示例可以顯著提高LLM的事實性,幫助其學習正確的答案格式和修正錯誤的先前模式。
將LLM在法律文獻上進一步預訓練,如SaulLM,可以將其事實性精確度從63%提高到81%,顯示了針對性的領域訓練的重要性。
總的來說,本文提出了多種策略來提升LLM在法律領域的事實性和可靠性,為LLM在高風險領域的應用提供了啟示。
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問