核心概念
本文提出了一個名為 AbilityLens 的基準測試,用於評估多模態大型語言模型 (MLLM) 的視覺感知能力,並提出了一種基於模型合併的策略來提升模型的弱項能力。
大型語言模型 (LLM) 的成功推動了多模態大型語言模型 (MLLM) 的發展,這些模型具備處理各種視覺語言任務的能力。然而,現有的 MLLM 評估基準測試存在評估差異性大、過於強調準確性而忽略穩定性等問題,缺乏對模型感知能力的全面評估。
為了解決上述問題,本文提出了 AbilityLens,這是一個廣泛且高效的基準測試,旨在全面評估 MLLM 的視覺感知能力。
數據集收集和指標
AbilityLens 基於 LMMs-Eval 構建,涵蓋了六種核心感知能力:計數、OCR、屬性識別、實體提取、定位和結構化數據理解。數據集來自 11 個現有基準測試,每個能力類型包含超過 1,000 個測試樣本,總共 12,000 個測試樣本。
評估指標方面,AbilityLens 引入了兩個指標:準確性和穩定性。準確性通過加權求和子指標計算得出,而穩定性則通過子指標的標準差衡量。
評估框架
AbilityLens 提供了線上和離線兩種評估模式。離線評估模式提供模型在準確性和穩定性方面的全面評估,而線上評估模式則可以實時監控模型訓練過程中的動態變化,例如識別能力衝突和早期收斂現象。
特定能力模型合併
為了提升模型的弱項能力,本文提出了一種特定能力模型合併 (ASMM) 策略,該策略將訓練早期階段表現優異的檢查點模型與最終模型進行合併,以提升目標能力,同時保留其他能力的表現。