大型語言模型 (LLM) 的應用日益廣泛,對可靠評估方法的需求也隨之增加。現有的 LLM 評估基準主要依賴靜態數據集,難以評估模型與用戶動態交互的性能。此外,這些基準通常依賴於特定的背景知識,這使得衡量模型的邏輯推理能力變得複雜。其他基於強模型或人工評估的動態評估方法可能會引入偏差,並導致高昂的成本和時間需求,阻礙了大規模應用。
為了解決這些問題,本文提出了 TurtleBench。TurtleBench 從研究團隊開發的在線「龜湯謎題」平台收集真實用戶的猜測。這種方法允許相對動態地生成評估數據集,降低模型作弊的風險,同時使評估更貼近用戶對推理能力的實際需求,從而提高評估的可靠性。TurtleBench 包含 1,532 個用戶猜測以及經過註釋後的猜測正確性。
與現有的 LLM 推理能力評估基準相比,TurtleBench 具有三個主要優勢:
研究團隊使用 TurtleBench 系統地評估了九種 LLM 的性能。在評估 OpenAI o1 系列模型時,他們發現大型推理模型在未來增強方面有幾個方向,包括在潛在的思維鏈 (CoT) 過程中加入更複雜的推理拓撲,以及動態選擇問題的推理需求,以減輕噪聲標記對推理的影響。實驗結果顯示,Claude-3.5-Sonnet 和 GPT-4o 明顯優於其他模型,兩者的整體準確率均超過 87%。然而,OpenAI 最新 o1 系列模型的性能卻不盡如人意,o1-preview 排名第三,o1-mini 則落後 GPT-4o 近 14%。
未來研究將繼續探索增強 LLM 評估可靠性的方法,以獲得更真實的評估結果,促進 LLM 在真實世界場景中的應用。
翻譯成其他語言
從原文內容
arxiv.org
深入探究