本文提出了一種新的多模態表示學習方法CentroBind,它能夠在不需要固定錨模態的情況下,同時捕捉各模態之間的內部信息和相互信息,構建出一個更加均衡和豐富的統一表示空間。
多模態大型語言模型(MLLM)正在成為人工智能領域的一股變革力量,使機器能夠跨多個模態(如文本、圖像、音頻和視頻)處理和生成內容。這些模型相比傳統的單模態系統有了重大進步,在自主代理、醫療診斷等多樣化應用中開拓了新的前景。通過整合多個模態,MLLM實現了更全面的信息理解,接近人類感知。隨著MLLM能力的不斷擴展,全面準確的性能評估變得越來越關鍵。本調查旨在系統地回顧MLLM的基準測試和評估方法,涵蓋基礎概念、應用、評估方法論、倫理問題、安全性、效率和特定領域應用等關鍵主題。通過對現有文獻的分類和分析,我們總結了各種調查的主要貢獻和方法論,進行了詳細的比較分析,並審視了它們在學術界的影響。此外,我們還確定了MLLM研究中的新興趨勢和未探索領域,並提出了未來研究的潛在方向。本調查旨在為研究人員和從業者提供對MLLM評估現狀的全面理解,從而推動這一快速發展領域的進一步進步。
本文提出了一種名為XMeCap的新方法,通過監督微調和強化學習,利用創新的獎勵模型來生成模因標題,該模型考慮了視覺和文本之間的全局和局部相似性。
多模態大型語言模型可以透過靈活轉換和整合不同模態的內容,提升科學教育的個性化、互動性和學習成效。
提出DETECLAP方法,通過引入音視頻物體標籤預測損失來增強CAV-MAE的物體感知能力,從而提高音視頻檢索和分類的性能。
本研究提出了一種新的多模態泛化類別發現框架(MM-GCD),能夠有效地利用來自不同模態的互補信息,在已知和未知類別之間實現更準確的分類。
多模態互動包括冗餘、獨特和協同三種形式,需要同時建模這三種互動才能學習到通用的多模態表示。
本文提出了一個名為PoseEmbroider的新框架,能夠將三維人體姿勢、人物圖像和文字描述融合在一個增強的表示空間中,以獲得更豐富的語義、視覺和空間感知的人體姿勢表示。
本文提出了一個更加全面和深入的情感分析定義,包括全景性情感六元組抽取和情感翻轉分析,以期望為情感分析領域開啟一個新的時代。
本文系統性地探討了多模態複合編輯和檢索的應用場景、方法、基準測試和實驗結果,並提出了未來的研究方向。