核心概念
通過與行為一致性的比較分析,研究發現強調表徵整體結構的度量(如線性 CKA 和 Procrustes 距離)在區分已訓練和未訓練模型以及與行為測量保持一致方面表現出色,而線性預測性等常用度量與行為的一致性較弱,這為神經科學和人工智慧研究中選擇強調行為意義的比較度量提供了重要指導。
文獻資訊: Bo, Y., Soni, A., Srivastava, S., & Khosla, M. (2025). Evaluating Representational Similarity Measures from the Lens of Functional Correspondence. ICLR 2025. (Under review)
研究目標: 本文旨在探討哪種表徵相似性度量最適合於比較神經科學和人工智慧中的模型,特別關注於這些度量如何與行為結果保持一致。
方法: 作者評估了八種常用的表徵相似性度量,涵蓋了基於對齊、典型相關分析 (CCA)、內積核和最近鄰方法,並將其應用於視覺領域的 19 個視覺模型。他們使用了一套全面的行為指標,包括硬預測和軟預測,比較了這些度量在 17 個不同行為數據集上的表現。
主要發現:
不同的表徵相似性度量在區分模型的能力上存在差異。例如,Procrustes 距離擅長區分已訓練和未訓練的模型,而軟匹配距離則更有效地區分了不同的架構家族。
行為指標通常比表徵相似性度量更一致。
線性 CKA 和 Procrustes 距離與行為評估的一致性最高,而線性預測性等指標與行為的一致性較弱。
主要結論: 作者認為,在神經科學和人工智慧研究中,應優先考慮強調表徵整體結構的度量,例如線性 CKA 和 Procrustes 距離,因為它們與行為結果的關係更為密切。
論文意義: 這項研究為在神經科學和人工智慧中選擇適當的表徵相似性度量提供了重要指導,特別是在模型與大腦比較的背景下,其中表徵分析經常被用於評估人工神經網路和生物系統是否在感知和認知過程中發揮著相似的功能作用。
研究限制和未來研究方向:
本文假設了一種特定的行為從神經表徵中「讀取」的機制,而不同的讀取機制可能會揭示模型之間不同的關係。
本文將「行為」定義為跨多個非分佈 (OOD) 圖像數據集的對象分類。將評估擴展到包括精細的視覺辨別或分類以外的更廣泛任務,將更好地捕捉視覺處理的全部範圍。
本文缺乏一個強有力的理論框架來解釋為什麼某些相似性度量比其他度量與行為更一致,這仍然是未來研究的一個方向。
統計資料
研究評估了 8 種常用的表徵相似性度量。
研究使用了 19 個視覺模型和 17 個不同的行為數據集。
線性 CKA 與行為指標的平均相關係數為 0.64。
Procrustes 距離與行為指標的平均相關係數為 0.70。
線性預測性與行為指標的平均相關係數為 0.26。