利用車輛圖像創作環境保護主題的互動式照片馬賽克,並開發一個多模態定制GPT來回答有關購買符合高環境標準的車用零件的問題。
我們提出了SAM4MLLM,這是一種創新的方法,將Segment Anything Model (SAM)與多模態大型語言模型(MLLM)整合,用於像素感知任務。我們的方法使MLLM能夠在不需要對現有模型架構進行過多修改或添加特殊標記的情況下,學習像素級位置信息。我們引入了一種基於詢問的方法,可以有效地找到SAM基於MLLM執行分割的提示點。它以統一的基於語言的方式將詳細的視覺信息與大型語言模型強大的表達能力相結合,而不會增加學習的額外計算開銷。實驗結果表明,我們的方法在公開基準測試中的有效性。
VITA是一個強大的開放源碼多模態大型語言模型,集視頻、圖像、文本和音頻理解於一體,並具有先進的多模態人機交互體驗。
本文提出了一種新的多任務音頻大型語言模型架構 - 弱編碼器混合(MoWE)。MoWE 通過補充一組相對較小的"弱"編碼器來增強基礎編碼器的特徵提取能力,從而提高模型在多個音頻任務上的性能。