大型語言模型的預測能力會隨著時間推移而下降,即使透過資訊檢索技術提供最新資訊,這種下降趨勢依然存在,突顯出持續模型更新的必要性。
本文提出了一種基於專家產品 (PoE) 框架的新方法,用於高效地評估大型語言模型 (LLM) 生成的文本。
大型語言模型 (LLM) 擅長編碼語言形式,但在理解意義方面表現出局限性,它們對意義的掌握在很大程度上取決於與形式的統計關聯。
RoCar 是一種基於圖數據結構的評估方法,旨在透過隨機建構社交網路圖和評估任務,更公平地評估大型語言模型的推理和記憶能力。
本文提出了一種名為 GEM(生成式互資訊估計器)的新型指標,用於在沒有黃金標準參考的情況下評估大型語言模型(LLM)生成資訊判斷的能力,並將其應用於評估 LLM 生成學術同行評審的品質。
本文介紹了一個新的基準測試 LIFBench 和評估框架 LIFEval,用於評估大型語言模型在長文本情境下指令遵循的性能和穩定性。
本文提出了一個名為 ALI-Agent 的新型代理架構,用於評估大型語言模型與人類價值觀的一致性,並透過自動生成和優化測試場景來解決現有基準測試的局限性。
SciEval 是一個全新且全面的基準測試,旨在評估大型語言模型在科學研究方面的能力,它採用多層級結構、結合主觀和客觀問題,並利用動態數據生成來減輕數據洩漏的風險。
本文提出了一種基於整數序列生成任務的新型基準測試,用於評估大型語言模型的數學推理和程式碼生成能力,特別關注程式碼的正確性和效率。
CIBench 是一個全新的評估框架,旨在評估大型語言模型利用程式碼直譯器解決複雜資料科學任務的能力,透過模擬真實互動式程式設計情境,提供更全面深入的評估方式。