Core Concepts
現有的 Out-of-Distribution Detection 基準測試設定存在缺陷,因為它們沒有區分語義空間和共變量空間的偏移,導致某些 OOD 樣本無法被基於 ID 數據訓練的分類器識別。
書目資訊
Xingming Long, Jie Zhang, Shiguang Shan, Xilin Chen. (2024). Semantic or Covariate? A Study on the Intractable Case of Out-of-Distribution Detection. arXiv preprint arXiv:2411.11254v1.
研究目標
本研究旨在探討現有 Out-of-Distribution (OOD) Detection 基準測試設定的缺陷,並提出更精確的定義以確保 OOD 任務的可解性。
方法
本文首先針對 ID 分佈定義了語義空間和共變量空間,並基於此分析了線性分類器在 OOD 檢測中的可解性。
為了驗證理論分析,本文在低維合成數據集和高維 ImageNet 數據集上進行了實驗。
主要發現
現有的 OOD 檢測設定存在缺陷,因為它們沒有區分語義空間和共變量空間的偏移。
當 OOD 樣本與 ID 樣本在語義空間中沒有差異時,基於 ID 數據訓練的分類器無法有效區分它們,導致 OOD 檢測任務變得不可解。
主要結論
本文提出了「可解 OOD」設定,要求 OOD 樣本與 ID 樣本在語義空間中必須存在差異,以確保 OOD 檢測任務的可解性。
實驗結果驗證了本文的理論分析,並證明了所提出的「可解 OOD」設定的有效性。
研究意義
本研究揭示了現有 OOD 檢測設定的缺陷,並提出了更精確的定義和評估方法,為 OOD 檢測領域提供了新的思路和方向。
局限與未來研究方向
本文的理論分析主要基於線性分類器,未來可以進一步探討非線性分類器在 OOD 檢測中的可解性。
未來可以研究更通用的語義空間和共變量空間定義,以適應更廣泛的 OOD 檢測任務。
Stats
ImageNet-1K 數據集包含 126 個代表各種犬種的類別。
實驗中使用了 ResNet-18 作為分類器骨幹網路。
在「品種分離」訓練設定下,從「狗類別子集」中隨機選擇 100 個類別作為 ID 數據進行訓練。
在「品種聚合」訓練設定下,將上述 100 個狗類別聚合成一個單一類別,並從 ImageNet-1K 中隨機選擇 99 個非狗類別,總計 100 個類別用於訓練。