核心概念
現有的多模態大型語言模型 (MLLM) 在積極感知能力方面與人類相比仍有顯著差距,需要進一步的研究和發展來提升其在動態環境中理解和處理視覺信息的能力。
Wang, Z., Chen, C., Luo, F., Dong, Y., Zhang, Y., Xu, Y., Wang, X., Li, P., & Liu, Y. (2024). ActiView: Evaluating Active Perception Ability for Multimodal Large Language Models. arXiv preprint arXiv:2410.04659.
本研究旨在評估多模態大型語言模型 (MLLM) 的積極感知能力,特別是其在視覺信息處理過程中主動獲取必要信息的能力。