本調查綜合了58篇最新和最前沿的調查報告,歸類為以下11個核心領域:總體、評估、安全性、偏見、代理、應用、檢索增強生成(RAG)、圖表、數據、持續學習和高效學習。
在總體架構方面,調查指出MLLM主要採用基於Transformer的架構,並強調了跨模態對齊的重要性。在數據和訓練方面,大規模多模態數據集如MS-COCO、Visual Genome等是MLLM發展的基礎。
在評估和基準測試方面,調查強調需要超越傳統的語言或視覺指標,關注跨模態檢索、圖像說明和視覺問答等新型任務。此外,還強調了安全性、偏見和公平性等重要問題,如對抗性攻擊、幻覺和數據偏差。為此,調查提出了利用對抗性訓練、人類反饋強化學習等方法來提高MLLM的健壯性和公平性。
在應用方面,調查涵蓋了法律、自動駕駛、數學、醫療保健、機器人、多語言、遊戲和音頻處理等領域,展示了MLLM在各領域的潛力和挑戰。此外,調查還探討了MLLM在圖表學習、檢索增強生成(RAG)等新興領域的應用。
最後,調查指出了MLLM研究的幾個關鍵趨勢,包括模態整合的加強、評估方法的改進、安全性和公平性的提升,以及在效率和適應性方面的進展。同時,也指出了一些亟待解決的研究缺口,如知識邊界、記憶保持和跨模態對齊等。
Til et andet sprog
fra kildeindhold
arxiv.org
Vigtigste indsigter udtrukket fra
by Ming Li, Key... kl. arxiv.org 10-01-2024
https://arxiv.org/pdf/2409.18991.pdfDybere Forespørgsler