本文提出了SAM4MLLM,這是一種將Segment Anything Model (SAM)與多模態大型語言模型(MLLM)整合的創新方法,用於解決像素感知任務。
主要內容如下:
我們提出了一種簡單有效的方法,使MLLM能夠學習像素級位置信息,而無需對模型架構進行複雜的修改或添加特殊標記。
我們引入了一種基於詢問的方法,可以有效地找到SAM基於MLLM執行分割的提示點,將詳細的視覺信息與大型語言模型的表達能力相結合。
實驗結果表明,我們的方法在公開基準測試中表現出色,在指稱表達分割任務上達到了競爭性的性能。
我們的方法保持了原始語言模型的簡單性和通用性,探索了利用不同模型優勢有效解決複雜多模態問題的新方向。
Til et andet sprog
fra kildeindhold
arxiv.org
Vigtigste indsigter udtrukket fra
by Yi-Chia Chen... kl. arxiv.org 09-18-2024
https://arxiv.org/pdf/2409.10542.pdfDybere Forespørgsler