核心概念
OMG-LLaVA是一個新穎而優雅的框架,結合了強大的像素級視覺理解能力和推理能力。它可以接受各種視覺和文本提示,實現靈活的用戶交互。
要約
OMG-LLaVA由OMG-Seg和LLM組成。OMG-Seg將圖像分解為像素級視覺tokens和物件級視覺tokens,並將其輸入到LLM中。LLM負責理解用戶的文本指令,並根據視覺信息提供文本響應和像素級分割結果。作者提出了感知先驗嵌入策略,以更好地將感知先驗與圖像特徵集成。OMG-LLaVA在圖像層級、物件層級和像素層級的推理和理解方面實現了單一模型,在多個基準上匹配或超越專門方法的性能。與使用LLM連接各個專家模型的方法相比,OMG-LLaVA採用了端到端的訓練方式,只包含一個編碼器、一個解碼器和一個LLM。
統計
圖像特徵經過64倍下採樣後,產生256個視覺tokens。
OMG-LLaVA在COCO全景分割數據集上的全景分割質量(PQ)為53.8。
OMG-LLaVA在VIPSeg全景分割數據集上的全景分割質量(VPQ)為49.8。
OMG-LLaVA在refCOCO、refCOCO+和refCOCOg數據集上的cIoU分別為78.0、69.1和72.9。
OMG-LLaVA在GranDf數據集上的METEOR、CIDEr、AP50和mIoU分別為14.5、38.5、28.6和64.7。
引用
"OMG-LLaVA是一個新穎而優雅的框架,結合了強大的像素級視覺理解能力和推理能力。"
"OMG-LLaVA可以接受各種視覺和文本提示,實現靈活的用戶交互。"
"OMG-LLaVA在圖像層級、物件層級和像素層級的推理和理解方面實現了單一模型,在多個基準上匹配或超越專門方法的性能。"