OMG-LLaVA由OMG-Seg和LLM組成。OMG-Seg將圖像分解為像素級視覺tokens和物件級視覺tokens,並將其輸入到LLM中。LLM負責理解用戶的文本指令,並根據視覺信息提供文本響應和像素級分割結果。作者提出了感知先驗嵌入策略,以更好地將感知先驗與圖像特徵集成。OMG-LLaVA在圖像層級、物件層級和像素層級的推理和理解方面實現了單一模型,在多個基準上匹配或超越專門方法的性能。與使用LLM連接各個專家模型的方法相比,OMG-LLaVA採用了端到端的訓練方式,只包含一個編碼器、一個解碼器和一個LLM。
Іншою мовою
із вихідного контенту
arxiv.org
Ключові висновки, отримані з
by Tao Zhang, X... о arxiv.org 10-02-2024
https://arxiv.org/pdf/2406.19389.pdfГлибші Запити