mR$^2$AG框架透過兩種反思操作,即檢索反思和相關性反思,來增強多模態大型語言模型在基於知識的視覺問答任務中的效能。
Awaker2.5-VL 透過混合專家模型 (MoE) 架構和穩定的路由策略,有效解決了多模態大型語言模型 (MLLM) 中的多任務衝突問題,顯著提升了模型在各種視覺語言任務上的表現。
本文提出了一種名為「密集連接器」的創新方法,透過整合多層級視覺特徵來增強多模態大型語言模型 (MLLM) 的視覺理解能力,並在多個圖像和視頻理解基準測試中取得了顯著的性能提升。
本文介紹了一種新型的多模態大型語言模型 Spider,它能夠接收任意模態輸入並產生包含多種模態的輸出,突破了現有多模態模型只能生成「文本+單一模態」的限制。
本文提出了一種名為 MMJAMBA 的新型多模態指令微調模型,該模型採用混合狀態空間模型來有效處理高分辨率圖像和高幀率視頻帶來的長上下文輸入,並通過「短訓練-長推理」策略在提高效率的同時提升性能。
本文旨在探討多模態大型語言模型(MLLMs)的架構、應用、訓練方法以及其在人工智慧和生成模型方面的影響,並探討其在視覺敘事、無障礙環境等領域的實際應用,同時探討其在可擴展性、穩健性和跨模態學習方面的挑戰。
LOVA3 框架通過引入 GenQA 和 EvalQA 兩項輔助訓練任務,提升了多模態大型語言模型的視覺理解能力,使其能夠生成問題、回答問題並評估問答的正確性。
本文提出了一種名為 Anchor Former (AcFormer) 的新型視覺語言連接器,它利用預先訓練的視覺編碼器中的「視覺錨點」來有效地聚合視覺資訊,從而提高多模態大型語言模型 (MLLM) 的準確性和效率。
PIP-MM 是一種新的多模態大型語言模型 (MLLM) 訓練框架,它透過將提示資訊預先整合到視覺編碼過程中,解決了現有 MLLM 在圖像理解方面忽略提示需求的問題,從而提升了模型在視覺語言任務中的效能。
GPT4Video 是一個將大型語言模型與視頻理解和生成能力相結合的統一框架,透過文字指令引導視頻生成,並強調內容安全。