Core Concepts
過剰サンプリングを用いたアンサンブル学習手法(UB)は、過剰な多数クラスデータを活用することで、少数クラスの一般化性能を向上させることができる。一方で、単一の過小サンプリングデータセットを用いる手法(US)や、重み付き損失関数を用いる手法(SW)では、多数クラスデータの増加に伴う性能向上は見られない。
Abstract
本研究では、クラスアンバランスデータにおける線形分類器の性能を解析した。具体的には、過剰サンプリングを用いたアンサンブル学習手法(UB)、単一の過小サンプリングデータセットを用いる手法(US)、重み付き損失関数を用いる手法(SW)の3つの手法を比較した。
まず、入力次元と訓練データサイズが同率で発散する極限での、これらの手法の推定量の統計的性質を明らかにした(クレーム1-5)。この結果を用いて、以下の知見を得た:
UBは、クラスアンバランスが大きい場合でも、多数クラスデータの増加により少数クラスの一般化性能(F値)を向上させることができる。
USの性能は、多数クラスデータの増加に依存しない。
SWの性能は、クラスアンバランスの増加に伴い悪化し、特に少数クラスサイズが小さい場合に顕著となる。
さらに、UBはデータの線形分離可能性の相転移に対してロバストであることも示された。
以上より、クラスアンバランスデータにおいては、UBが他の手法に比べて優れた一般化性能を示すことが明らかになった。
Stats
クラスアンバランスが大きくなるほど、SWの性能が悪化する傾向がある。
少数クラスサイズが小さく、クラスアンバランスが大きい場合、SWの性能はUBに比べて数倍から数万倍悪化する。