本文提出了一種針對開源大型語言模型 (LLM) 的大規模提示探索方法 (PrExMe),用於評估機器翻譯和摘要任務,探討了不同提示策略對評估結果的影響,並發現了一些穩定和易變的模式。
大型語言模型(LLMs)並非人類語言處理的模型,而是通用的模式學習機器,能夠從任何結構化的輸入中提取預測模式,無論其是否符合人類語言結構。
本文提出了一個利用胡言亂語遊戲來評估大型語言模型 (LLM) 在創造力和邏輯推理方面能力的模擬框架,並分析了不同 LLM 在遊戲中的表現,揭示了它們的優勢和需要改進的地方,特別是LLM 對於低頻詞彙的處理能力不足。
文章介紹了一個名為 P-MMEval 的全新基準測試,用於評估大型語言模型的多語言能力,涵蓋基礎自然語言處理和進階任務,並提供多語言平行語料,旨在更全面、一致地評估模型跨語言遷移能力。
大型語言模型的預測能力會隨著時間推移而下降,即使透過資訊檢索技術提供最新資訊,這種下降趨勢依然存在,突顯出持續模型更新的必要性。
本文提出了一種基於專家產品 (PoE) 框架的新方法,用於高效地評估大型語言模型 (LLM) 生成的文本。
大型語言模型 (LLM) 擅長編碼語言形式,但在理解意義方面表現出局限性,它們對意義的掌握在很大程度上取決於與形式的統計關聯。
RoCar 是一種基於圖數據結構的評估方法,旨在透過隨機建構社交網路圖和評估任務,更公平地評估大型語言模型的推理和記憶能力。
本文提出了一種名為 GEM(生成式互資訊估計器)的新型指標,用於在沒有黃金標準參考的情況下評估大型語言模型(LLM)生成資訊判斷的能力,並將其應用於評估 LLM 生成學術同行評審的品質。
本文介紹了一個新的基準測試 LIFBench 和評估框架 LIFEval,用於評估大型語言模型在長文本情境下指令遵循的性能和穩定性。