Centrala begrepp
我們提出了SAM4MLLM,這是一種創新的方法,將Segment Anything Model (SAM)與多模態大型語言模型(MLLM)整合,用於像素感知任務。我們的方法使MLLM能夠在不需要對現有模型架構進行過多修改或添加特殊標記的情況下,學習像素級位置信息。我們引入了一種基於詢問的方法,可以有效地找到SAM基於MLLM執行分割的提示點。它以統一的基於語言的方式將詳細的視覺信息與大型語言模型強大的表達能力相結合,而不會增加學習的額外計算開銷。實驗結果表明,我們的方法在公開基準測試中的有效性。
Sammanfattning
本文提出了SAM4MLLM,這是一種將Segment Anything Model (SAM)與多模態大型語言模型(MLLM)整合的創新方法,用於解決像素感知任務。
主要內容如下:
-
我們提出了一種簡單有效的方法,使MLLM能夠學習像素級位置信息,而無需對模型架構進行複雜的修改或添加特殊標記。
-
我們引入了一種基於詢問的方法,可以有效地找到SAM基於MLLM執行分割的提示點,將詳細的視覺信息與大型語言模型的表達能力相結合。
-
實驗結果表明,我們的方法在公開基準測試中表現出色,在指稱表達分割任務上達到了競爭性的性能。
-
我們的方法保持了原始語言模型的簡單性和通用性,探索了利用不同模型優勢有效解決複雜多模態問題的新方向。
Statistik
我們的方法使用的訓練數據量顯著少於其他基於MLLM的方法,特別是在掩碼數量方面。
Citat
"我們提出了SAM4MLLM,這是一種創新的方法,將Segment Anything Model (SAM)與多模態大型語言模型(MLLM)整合,用於像素感知任務。"
"我們引入了一種基於詢問的方法,可以有效地找到SAM基於MLLM執行分割的提示點,將詳細的視覺信息與大型語言模型強大的表達能力相結合。"