Core Concepts
顔認識モデルは、訓練データと異なる分布の検査データに直面すると正確性が大幅に低下する。本研究では、アウトライア露出と重み付けサンプリングを組み合わせることで、分布外データの分類精度を向上させる。
Abstract
本研究では、顔認識モデルの分布外データに対する分類精度を向上させることを目的としている。
まず、UTKFaceデータセットとFairFaceデータセットを用いて、モデルの性能を評価した。その結果、訓練データと検査データの分布が異なると、モデルの精度が大幅に低下することが分かった。
次に、アウトライア露出を導入した。具体的には、各データセットの上位20%の外れ値を抽出し、それらを追加の訓練データとして使用した。また、クラスの重み付けも行った。女性クラスの重みを男性クラスよりも高くすることで、少数クラスの分類精度を向上させた。
これらの手法を組み合わせた結果、LFWデータセットとCelebAデータセットにおいて、分類精度とその安定性が大幅に向上した。特に、女性の分類精度が大きく改善された。
このように、分布外データに対する顔認識モデルの性能を向上させるには、アウトライア露出と重み付けサンプリングが有効であることが示された。これらの手法は、実世界の顔認識アプリケーションにおける公平性と正確性の向上に貢献できると考えられる。
Stats
顔認識モデルを訓練したUTKFaceデータセットの平均ピクセル値は約120であるのに対し、FairFaceデータセットの平均ピクセル値は約70である。
UTKFaceデータセットとFairFaceデータセットのKLダイバージェンスは0.088であり、両者の分布は比較的似ている。
一方、活性化特徴量のヒストグラムを比較すると、UTKFaceデータセットの特徴量の範囲は狭く、FairFaceデータセットの特徴量の範囲は広いことが分かる。
UTKFaceデータセットとFairFaceデータセットの活性化特徴量のKLダイバージェンスは2800を超えており、両者の分布は大きく異なることが確認された。