核心概念
基於人類主動視覺的理論,我們提出了一個配備新穎的基於注視的主動感知(GAP)的系統,能夠通過選擇性地注視圖像中最顯著的部分並以高分辨率處理它們來提取視覺關係。這些注視位置的關係幾何以及相應的注視內容為表示圖像結構提供了基礎,從而實現了對未知視覺輸入的出色泛化能力和高樣本效率。
摘要
本文提出了一個基於主動視覺理論的新穎系統,用於解決視覺推理任務。該系統包含以下關鍵組件:
-
基於"錯誤神經元"的顯著性映射:通過計算每個圖像位置的視覺內容與其周圍區域的差異,生成一個顯著性映射,突出圖像中最顯著的區域。
-
基於注視的主動感知(GAP):系統通過獲勝者通吃(WTA)競爭選擇最顯著的位置,並抑制之前選擇的位置,從而產生一序列的注視位置。對於每個注視位置,系統提取相應的高分辨率注視內容。
-
雙流處理架構:系統將注視位置序列(空間"何處"信息)和注視內容序列(視覺"什麼"信息)分別輸入到下游架構進行處理。這種分離有助於學習圖像結構的關係,從而實現對未知視覺輸入的出色泛化。
實驗結果表明,該系統在多個視覺推理基準測試中實現了最先進的性能,在樣本效率和對未知視覺輸入的泛化能力方面優於現有模型。這些結果為人類主動視覺理論提供了計算支持。
統計資料
"人類在理解視覺關係方面的能力遠優於AI系統,尤其是對於之前未見過的物體。"
"主動視覺理論認為,視覺關係的學習建立在我們移動眼睛以聚焦物體及其部分的行為之上。"
"我們的系統在幾個視覺推理基準測試中實現了最先進的性能,在樣本效率和對未知視覺輸入的泛化能力方面優於現有模型。"
引述
"人類使用視覺不僅是為了檢測物體,還是為了分析它們之間的各種關係。"
"主動視覺理論認為,通過移動眼睛,大腦能夠形成相應注視位置的表示,這些表示可以為表示圖像結構提供基礎。"
"我們的系統提取了注視位置的關係幾何以及相應的注視內容,為表示圖像結構提供了基礎,從而實現了對未知視覺輸入的出色泛化能力。"