Core Concepts
データ拡張は閉じたセット認識を大幅に向上させるが、オープンセット認識を大幅に低下させる。非対称ディストリレーションフレームワークを提案し、教師モデルに追加の生データを提供することで、教師の利点を拡大し、学生モデルがクラス固有の特徴に集中するのを促進する。さらに、混合サンプルの非識別的特徴の活性化を減らすために、教師の誤った予測を検出し、それらにスムーズな2ホットラベルを割り当てる。
Abstract
本論文は、データ拡張の二面性を明らかにし、オープンセット認識の性能低下を緩和するための解決策を提案している。
まず、実験的な調査から、複数サンプルベースの拡張(MSA)は閉じたセット認識を大幅に向上させるが、オープンセット認識を大幅に低下させることが分かった。これは、MSAが特徴の弁別性を低下させるためである。
次に、ディストリレーションはオープンセット認識を改善するが、MSAと組み合わせると再び低下する。これは、教師モデルの出力に曖昧な意味論が含まれているためである。
そこで、非対称ディストリレーションフレームワークを提案した。教師モデルに追加の生データを与えることで、教師の利点を拡大し、学生モデルがクラス固有の特徴に集中するのを促進する。さらに、混合サンプルの非識別的特徴の活性化を減らすために、教師の誤った予測を検出し、それらにスムーズな2ホットラベルを割り当てる。
この手法により、閉じたセットと開いたセットの両方のパフォーマンスが向上し、ベンチマークデータセットで最先端の結果を達成した。
Stats
MSAは特徴の規模を大幅に低下させ、オープンセット認識の基準を損なう
教師モデルは一部の混合サンプルを過信して誤った予測をする
Quotes
MSAはクラス間の境界を曖昧にし、未知のサンプルを識別するのを困難にする
教師モデルの誤った予測は、混合サンプルに含まれる非識別的特徴に注目させる