本文提出了UNISUMEVAL基準測試集,旨在解決現有摘要評估基準的局限性。UNISUMEVAL涵蓋了九個不同領域的輸入文本,包括新聞、報告、預約、日常對話等,並涵蓋了非對話和對話、短文本和長文本等不同類型。
為了建立UNISUMEVAL,作者使用了九個最新的摘要模型生成摘要,包括非大型語言模型、開源大型語言模型和專有大型語言模型。作者還識別了可能引發幻覺的輸入文本,並將其納入數據集中。
UNISUMEVAL提供了細粒度和多維度的人工標註,包括事實性、完整性和簡潔性的評估。作者採用了AI輔助的人工評估方法,以提高長文本的標註一致性。
使用UNISUMEVAL的人工標註,作者對九個最新的摘要模型進行了全面的評估,分析了它們在不同輸入情境下的表現。結果顯示,專有大型語言模型在整體表現上優於非大型語言模型和開源大型語言模型。此外,作者還發現個人身份信息(PII)的遮蔽會加劇所有摘要模型的幻覺問題。
最後,作者對最新的自動摘要評估器進行了全面的比較。結果表明,基於大型語言模型的評估器在大多數情況下優於基於問答和自然語言推理的評估器。但是,即使是基於大型語言模型的評估器,在某些領域和評估維度上也存在局限性。
翻译成其他语言
从原文生成
arxiv.org
更深入的查询