VLMEvalKit是一個開源工具包,旨在為研究人員和開發人員提供一個用戶友好且全面的框架,用於評估現有的大型多模態模型。該工具包目前支持超過70種大型多模態模型,包括專有API和開源模型,以及20多種多模態基準測試。通過實現單一接口,可以輕鬆地將新模型添加到工具包中,同時工具包會自動處理其餘的工作負載,包括數據準備、分佈式推理、預測後處理和指標計算。雖然該工具包目前主要用於評估大型視覺語言模型,但其設計與未來納入其他模態(如音頻和視頻)的更新兼容。基於使用該工具包獲得的評估結果,我們維護了OpenVLM排行榜,這是一個全面的排行榜,用於跟踪多模態學習研究的進展。
翻譯成其他語言
從原文內容
arxiv.org
深入探究