核心概念
現有多模態大型語言模型評估基準未考慮提示語敏感性帶來的影響,導致模型能力被低估和評估偏差。TP-Eval 框架透過自動化的提示語客製化方法,為不同模型量身打造最佳提示語,從而更準確地評估模型的真實能力。
摘要
論文摘要
本篇論文為研究論文,旨在探討如何更準確地評估多模態大型語言模型(MLLM)的性能。
研究背景
近年來,多模態大型語言模型(MLLM)因其理解多模態輸入的卓越能力備受關注。為了評估這些模型的性能,研究人員提出了各種評估基準,但這些基準大多忽略了提示語敏感性的問題,即微小的提示語變化可能導致模型輸出顯著不同。
研究問題
現有 MLLM 評估基準存在以下問題:
- 提示語設計的缺陷導致模型能力被低估。
- 不同的 MLLM 模型對相同的提示語變化的敏感度不同,現有評估框架未考慮這種差異,導致評估偏差。
研究方法
為了解決上述問題,本論文提出了 TP-Eval 框架,該框架透過自動化的提示語客製化方法,為不同模型量身打造最佳提示語。具體而言,TP-Eval 框架採用以下步驟:
- 使用評估數據集中的一小部分樣本作為訓練數據。
- 利用 GPT-4o mini 作為優化器和答案分析器。
- 設計一個包含描述、偽梯度(即提示語及其分數和反思)、示例和指令的元提示語。
- 透過迭代優化,生成多組優化後的提示語及其分數。
- 根據分數選擇最佳提示語。
主要發現
實驗結果表明,TP-Eval 框架可以有效減輕提示語敏感性帶來的影響,並提高 MLLM 評估的準確性和公平性。
研究結論
TP-Eval 框架為 MLLM 評估提供了一種更可靠的方法,有助於更全面、更準確地評估模型的真實能力。
研究意義
本研究有助於推動 MLLM 領域的發展,並為設計更有效的 MLLM 評估基準提供參考。
統計資料
LLaVA 在 MMT-S 數據集的 32 個任務上,透過提示語客製化方法,性能提升了 25.1%,整體分數提升了 4%。
DeepSeek 和 InternVL 模型對提示語變化的敏感度較低,性能提升幅度相對較小。
在 MMMU 數據集上,添加特定領域的初始前綴提示語可以有效引導模型在該領域內進行回答,從而減輕模型能力被低估的問題。
將針對 InternVL 模型優化的提示語應用於 LLaVA 和 DeepSeek-VL 模型時,性能反而會下降,這表明最佳提示語並非通用,需要根據模型進行客製化。