核心概念
SegLLM 是一種新穎的多模態大型語言模型,它透過整合先前分割結果和對話歷史記錄到其推理過程中,顯著提升了基於大型語言模型的圖像分割效能,使其能夠理解複雜的用戶意圖並分割與先前識別實體相關的對象。
摘要
SegLLM:基於多輪推理的圖像分割模型研究論文摘要
文獻資訊: Wang, X., Zhang, S., Li, S., Kallidromitis, K., Li, K., Kato, Y., Kozuka, K., & Darrell, T. (2024). SegLLM: Multi-round Reasoning Segmentation. arXiv preprint arXiv:2410.18923.
研究目標: 本研究旨在開發一種能夠進行多輪互動式推理分割的視覺語言模型,以解決現有模型在處理多輪對話和利用先前分割結果方面的局限性。
研究方法: 作者提出了 SegLLM 模型,該模型包含兩個關鍵組件:1)遮罩編碼模組,將輸出遮罩反饋回大型語言模型的輸入流,使其能夠推理先前輪次的分割遮罩;2)遮罩感知解碼模組,允許遮罩解碼器根據視覺和文本對話歷史記錄生成新的遮罩,增強其上下文理解能力。為了充分探索這些新穎設計的功能,作者還創建了一個名為 MRSeg 的高質量多輪互動式分割數據集,其中包含涉及現有遮罩輸出的複雜對象查詢,這些查詢以無縫的多輪自然語言對話形式表述。
主要發現: 在新創建的 MRSeg 基準測試中,SegLLM 在多輪互動式推理分割方面的表現優於現有方法 20% 以上。此外,研究還發現,在多輪推理分割數據上進行訓練可以提高標準單輪指稱分割和定位任務的性能,導致指稱表達式分割的 cIoU 提高 5.5%,指稱表達式定位的 Acc@0.5 提高 4.5%。
主要結論: SegLLM 模型在多輪互動式圖像分割任務中取得了顯著的性能提升,證明了其在理解複雜用戶意圖和利用先前分割結果方面的有效性。
研究意義: 本研究為開發更強大、更具互動性的圖像分割模型提供了新的思路,並為未來在多模態對話系統和其他需要精確視覺理解的應用中的研究奠定了基礎。
研究限制和未來方向: 儘管 SegLLM 在多輪互動式分割方面表現出色,但仍有改進空間。未來的研究方向包括:1)探索更有效的遮罩編碼和解碼機制,以進一步提高模型的性能;2)將 SegLLM 擴展到其他視覺語言任務,例如視覺問答和圖像字幕;3)研究如何將 SegLLM 整合到真實世界的應用中,例如圖像編輯和機器人控制。
統計資料
SegLLM 在 MRSeg 基準測試中,多輪互動式推理分割方面的表現優於現有方法 20% 以上。
在多輪推理分割數據上進行訓練,指稱表達式分割的 cIoU 提高 5.5%,指稱表達式定位的 Acc@0.5 提高 4.5%。
在第 5 輪時,SegLLM 與 GLaMM 的性能差距顯著擴大,在 MR-RefCOCO、MR-RefCOCO+ 和 MR-RefCOCOg 上分別達到 17.6%、26.0% 和 14.0% 以上。
與 LISA 相比,SegLLM 在所有輪次中均獲得了 10.7%∼16.2% 的 mIoU 提升和 13.2∼27.1% 的 cIoU 提升。
使用不同的問題模板評估時,LISA 和 SESAME 的性能分別下降了約 7% 和 13%。
SegLLM 在單輪指稱分割基準測試中,實現了 5.5% 的累積 Intersection-Over-Union (cIoU) 提升。
在 MRSeg (hard) 子集中,與基準模型相比,我們的遮罩編碼方案實現了超過 30 個百分點的 cIoU 提升。
引述
“In this paper, we intend to answer the question: can segmentation models reason about previously segmented objects and conversations, responding to multiple visual and text queries in a chat-like manner?”
“These LLM segmentation models (Lai et al., 2024; Wu et al., 2024; Pi et al., 2023a; Zhang et al., 2023a) typically achieve their localization capabilities by incorporating a decoder that converts the output [SEG] tokens of LLMs into localization results.”
“To address this issue, we propose SegLLM.”
“Unlike existing LLM segmentation models that naively assemble a mask decoder with an LLM, we introduce a novel communication protocol that feeds the segmentation outputs of the mask decoder back into the input stream of the LLMs, and the past conversation context into the input query of the mask decoder.”