本文提出了一個基於主動視覺理論的新穎系統,用於解決視覺推理任務。該系統包含以下關鍵組件:
基於"錯誤神經元"的顯著性映射:通過計算每個圖像位置的視覺內容與其周圍區域的差異,生成一個顯著性映射,突出圖像中最顯著的區域。
基於注視的主動感知(GAP):系統通過獲勝者通吃(WTA)競爭選擇最顯著的位置,並抑制之前選擇的位置,從而產生一序列的注視位置。對於每個注視位置,系統提取相應的高分辨率注視內容。
雙流處理架構:系統將注視位置序列(空間"何處"信息)和注視內容序列(視覺"什麼"信息)分別輸入到下游架構進行處理。這種分離有助於學習圖像結構的關係,從而實現對未知視覺輸入的出色泛化。
實驗結果表明,該系統在多個視覺推理基準測試中實現了最先進的性能,在樣本效率和對未知視覺輸入的泛化能力方面優於現有模型。這些結果為人類主動視覺理論提供了計算支持。
Til et annet språk
fra kildeinnhold
arxiv.org
Viktige innsikter hentet fra
by Oleh... klokken arxiv.org 10-01-2024
https://arxiv.org/pdf/2409.20213.pdfDypere Spørsmål