Core Concepts
深層ニューラルネットワークは、元の学習データ分布と異なる分布から得られたサンプル(OODサンプル)に対して脆弱である。本研究では、Places365とImageNetデータセットを用いて、OOD検出手法の評価のための包括的なベンチマークを提案する。クラス間の意味的類似性に基づいて、ImageNetクラスをID、near-OOD、far-OODに分類する。提案したベンチマークを用いて、さまざまなOOD検出手法の性能を評価し、より現実的なベンチマークがOOD検出手法の順位付けに影響を与えることを示す。
Abstract
本研究では、深層ニューラルネットワークのOOD検出能力を評価するための包括的なベンチマークを提案している。
まず、従来のOOD検出研究で使用されてきた小規模なデータセット(CIFAR10、CIFAR100、SVHN)では現実的な応用場面を反映できないことを指摘する。そのため、より大規模で複雑なImageNetとPlaces365データセットを使用する。
次に、単純にデータセットの違いでID/OODを判断するのではなく、クラス間の意味的類似性に基づいてクラスをID、near-OOD、far-OODに分類する。これにより、実際の応用場面に即したより現実的なベンチマークを構築する。
具体的には、WordNetを用いてImageNetクラスとPlaces365クラスの意味的類似性を計算し、しきい値に基づいてクラスを分類する。さらに、手動でSUN397データセットのクラスも分類する。
提案したベンチマークを用いて、さまざまなOOD検出手法(MSP、TS、MLV、ODIN、OODL)の性能を評価する。結果、より現実的なベンチマークを使うと、OOD検出手法の順位付けが変わることが示された。
Stats
多くのOOD検出手法は、単純なデータセットでは良好な性能を示すが、複雑なデータセットでは性能が大幅に低下する。
OODL手法は単純なデータセットでは良好な性能を示すが、複雑なデータセットでは他の手法に劣る。
分類器ベースの手法(TS、MLV)は、SVMベースのOODLよりも複雑なデータセットでも良好な性能を示す。
Quotes
"Deep convolutional networks (CNNs) are powerful classifiers when tested on in-distribution (ID) images sampled from the same distribution the network was trained on. However, being trained under a closed-world assumption, they may fail by producing overconfident and wrong results when faced with out-of-distribution (OOD) samples, such as images belonging to classes previously unseen by the model."
"Benchmarks for OOD detection should be aligned with the ultimate goal of rejecting unknown samples and avoiding high-confidence predictions, regardless of the specific dataset they are drawn from. Hence, we argue that the decision of whether a sample should be considered ID or OOD cannot be based on the source dataset alone, but rather should take into account the semantic content of the class/image."