Core Concepts
顔認識システムの性能向上には大規模データセットが不可欠だが、プライバシーや倫理的な懸念から、実データの収集と公開が制限されている。そのため、合成データの活用が注目されているが、実データと同等の性能を達成するには至っていない。本研究では、大規模属性分類器を用いて、2つの実データセットと2つの合成データセットにアノテーションを付与し、それらの属性分布の違いを分析することで、合成データと実データの差異を明らかにする。
Abstract
本研究では、顔認識における合成データと実データの差異を明らかにするため、以下の取り組みを行った。
2つの実データセット(BUPT-BalancedFace、BUPT-GlobalFace)と2つの合成データセット(Syn-GAN、IDiff-Face)に対して、大規模属性分類器(MAC)を用いて45の属性アノテーションを付与した。
各データセットの属性分布を比較した結果、合成データでは「笑顔」や「アクセサリー着用」などの属性の予測が困難であり、「男性」や「ひげなし」の属性が過剰に表現される傾向が見られた。一方、年齢関連の属性は実データと合成データで類似していた。
合成データと実データの属性分布の差異を定量的に評価するため、カーネル密度推定を用いて各データセットの属性分布を推定し、Kullback-Leibler divergenceを計算した。その結果、実データを合成データで近似する際の情報損失が大きいことが示された。
クラスタリング分析の結果、合成データのサンプルは実データのサンプルと比べて特定のクラスターに偏って分布する傾向が見られた。
以上の結果から、現状の合成データは実データの多様性を十分に再現できておらず、実データと同等の性能を達成するには課題が残されていることが明らかになった。本研究で提供したアノテーションデータは、今後の合成データ生成手法の改善に役立つと期待される。
Stats
合成データセットでは「笑顔」の属性が「未定義」と予測される割合が高い
合成データセットでは「男性」の属性が過剰に表現される一方で、「ひげ」の属性が過少に表現される
年齢関連の属性(「高齢」、「若年」、「中年」)の分布は実データと合成データで類似している