Kernkonzepte
本文介紹了一個新的基準測試 LIFBench 和評估框架 LIFEval,用於評估大型語言模型在長文本情境下指令遵循的性能和穩定性。
論文概述
本論文介紹了一個新的基準測試 LIFBench 和評估框架 LIFEval,用於評估大型語言模型在長文本情境下指令遵循的性能和穩定性。現有的基準測試很少關注長文本情境下的指令遵循能力或不同輸入下的穩定性,而 LIFBench 則通過三個長文本情境和十一個不同的任務來解決這些問題,並使用自動化方法生成了 2,766 條指令。LIFEval 是一個基於規則的評估框架,可以對複雜的 LLM 回應進行精確、自動化的評分,而無需依賴 LLM 輔助評估或人工判斷。
資料集建構
LIFBench 包含三個長文本情境:
List: 評估模型處理結構化短資訊列表的能力,例如檢索、推薦和結構化資料處理。
MultiDoc: 側重於模型處理和理解較粗粒度資訊的能力,例如多文件摘要、文件聚類和檢索增強生成。
OneDoc: 模擬處理單個超長文件的任務,例如資訊提取、問答和其他需要分析大量文本的傳統 NLP 任務。
每個情境都設計了多個任務,例如 List 情境下的 Single-ID、Multi-ID、Offset-ID 等,以及 MultiDoc 情境下的 Batch-label 和 Find-dup-doc 等。
資料擴展
為了創建一個規模龐大的測試資料集,研究人員從三個維度擴展了指令模板:
長度: 調整輸入文本的長度,以探索文本長度對模型指令遵循能力的影響。
表達方式: 使用 GPT-4 和 Claude 生成多種表達方式的指令,以評估模型在不同表述下的穩健性。
變數: 在指令模板中預設佔位符,以指示指令的可變部分,例如查詢關鍵字、分類標準和格式要求。
LIFEval 評估框架
LIFEval 是一個基於規則的評估框架,它不依賴於其他 LLM 或人工評估,而是通過自動化的評分規則來評估模型的性能和穩定性。
自動化基於規則的評分 (ARS): 根據預先定義的評分規則,對模型的輸出進行自動評分。
分數-能力映射: 將評分結果映射到六種基本能力:原始內容、數值能力、空間感知、格式、邏輯執行和識別能力。
指令遵循穩定性 (IFS): 通過分析不同視角下 ARS 分數的波動,評估模型遵循指令的一致性。
實驗結果
研究人員在 20 個流行的 LLM 上進行了實驗,結果顯示:
目前大型語言模型在長文本情境下的指令遵循能力仍有很大提升空間。
模型參數規模與性能呈正相關,但經過指令微調或以聊天為導向的微調模型表現更出色。
不同模型在不同能力和穩定性方面表現出不同的優缺點。
總結
LIFBench 和 LIFEval 為評估長文本情境下大型語言模型的指令遵循能力提供了一個強大的工具,有助於推動未來大型語言模型的發展。
Statistiken
LIFBench 資料集包含 2,766 條指令。
實驗在 20 個流行的 LLM 上進行,包括開源和閉源模型。
評估了模型在六個長度區間(從 4k 到 128k 個詞元)內的性能。