傳統的基於「黃金標籤」的大型語言模型評估方法在處理任務不確定性時存在缺陷,低估了模型的真實性能,本文提出了一個新的評估框架,通過識別和量化任務的不確定性,為模型性能提供更準確的評估。
大型語言模型 (LLM) 如 ChatGPT 在推薦系統中的應用日益普及,但傳統的評估方法無法完全適用於這些具有黑盒和概率特性的模型。本研究提出了一種基於變異測試的評估框架,通過定義輸入和輸出之間的變異關係,來評估基於 GPT 的推薦系統的穩健性和一致性。
本文提出了一種針對開源大型語言模型 (LLM) 的大規模提示探索方法 (PrExMe),用於評估機器翻譯和摘要任務,探討了不同提示策略對評估結果的影響,並發現了一些穩定和易變的模式。
大型語言模型(LLMs)並非人類語言處理的模型,而是通用的模式學習機器,能夠從任何結構化的輸入中提取預測模式,無論其是否符合人類語言結構。
本文提出了一個利用胡言亂語遊戲來評估大型語言模型 (LLM) 在創造力和邏輯推理方面能力的模擬框架,並分析了不同 LLM 在遊戲中的表現,揭示了它們的優勢和需要改進的地方,特別是LLM 對於低頻詞彙的處理能力不足。
文章介紹了一個名為 P-MMEval 的全新基準測試,用於評估大型語言模型的多語言能力,涵蓋基礎自然語言處理和進階任務,並提供多語言平行語料,旨在更全面、一致地評估模型跨語言遷移能力。
大型語言模型的預測能力會隨著時間推移而下降,即使透過資訊檢索技術提供最新資訊,這種下降趨勢依然存在,突顯出持續模型更新的必要性。
本文提出了一種基於專家產品 (PoE) 框架的新方法,用於高效地評估大型語言模型 (LLM) 生成的文本。
大型語言模型 (LLM) 擅長編碼語言形式,但在理解意義方面表現出局限性,它們對意義的掌握在很大程度上取決於與形式的統計關聯。
RoCar 是一種基於圖數據結構的評估方法,旨在透過隨機建構社交網路圖和評估任務,更公平地評估大型語言模型的推理和記憶能力。