本論文では、正例と非正例のない学習データ(Positive Unlabeled data)から効率的に特徴を抽出し、分類器を学習する手法を提案している。
まず、従来の自己教師あり学習と教師あり学習の手法では、正例と非正例のない学習データに対して十分な性能が得られないことを示している。そこで、正例と非正例の情報を適切に活用するために、正例と非正例の混合比率を考慮したContrastive Lossを提案する(puNCE)。
puNCEは、正例のラベル付きデータと非ラベルデータを適切に重み付けすることで、自己教師あり学習のInfoNCEロスと教師あり学習のSupervised Contrastive Lossを統合したものである。
実験では、画像分類と自然言語処理のベンチマークタスクで、puNCEが従来手法よりも優れた性能を示すことを確認している。特に、正例ラベルが少ない場合に顕著な性能向上が見られる。また、puNCEで事前学習した特徴量を用いて、正例非正例学習の分類器を学習すると、従来手法よりも大幅な性能向上が得られることも示している。
To Another Language
from source content
arxiv.org
Głębsze pytania