本文介紹了一個名為 LINGOLY 的基準測試,旨在評估大型語言模型 (LLM) 的高級推理能力。該基準測試採用具有挑戰性的語言奧林匹克競賽題目,評估 LLM 在以下兩個方面的能力:(1) 在資源極度匱乏或已滅絕的語言中,對語言模式進行語境內識別和泛化的能力;(2) 遵循複雜任務指令的能力。
LINGOLY 基準測試涵蓋 90 多種語言,其中大部分是低資源語言,從而最大限度地減少了數據污染的問題。它包含 1,133 道題目,涵蓋 6 種格式和 5 個難度級別。評估方法包括直接準確率和與無上下文基準的比較,以懲罰記憶效應。
對 11 個最先進的 LLM 的評估結果表明,該基準測試具有挑戰性,模型在高難度題目上的表現不佳。在較難的題目上,即使是表現最好的模型也只取得了 38.7% 的準確率,僅比無上下文基準提高了 24.7%。大型封閉模型的表現通常優於開放模型,而且總體而言,語言資源越豐富,得分越高。這些結果表明,在沒有記憶效應的情況下,真正的多步驟域外推理仍然是當前語言模型面臨的一個挑戰。
LINGOLY 基準測試為評估 LLM 的推理能力提供了一個新的視角,特別是在低資源語言環境下。它強調了當前模型在處理複雜語言推理任務時的局限性,並為未來的研究指明了方向。
翻譯成其他語言
從原文內容
arxiv.org
深入探究