核心概念
本文提出了一種名為 CL-HOI 的新型人-物交互作用檢測框架,該框架不依賴於人工標註,而是從視覺大型語言模型 (VLLM) 中提取圖像級知識,並將其應用於實例級交互作用檢測。
標題:從視覺大型語言模型中提取跨層次人-物交互作用:CL-HOI
作者:Jianjun Gao, Chen Cai, Ruoyu Wang, Wenyang Liu, Kim-Hui Yap, Kratika Garg, Boon-Siew Han
機構:新加坡南洋理工大學電氣與電子工程學院、新加坡南洋理工大學謝弗勒先進研究中心
本研究旨在開發一種無需人工標註即可有效檢測人-物交互作用 (HOI) 的方法。具體而言,目標是利用視覺大型語言模型 (VLLM) 固有的圖像級交互作用理解能力,並將其轉化為實例級 HOI 檢測能力。