本論文は、自己教師学習における2つの重要な要素であるバッチサイズとプリテキストタスクの設計に着目し、適応的なバッチ融合手法を提案している。
まず、バッチサイズが自己教師学習の性能に大きな影響を与えることを指摘する。大きなバッチサイズを使うことで、より多くの正例と負例のサンプルを利用できるため、モデルの特徴表現能力が向上するが、一方で大きなバッチサイズを扱うのは計算リソースの観点から困難である。
そこで本論文では、バッチ内の情報をエンコーダに効果的に取り入れる「適応的バッチ融合」手法を提案する。具体的には、入力画像をパッチに分割し、1x1畳み込みと残差接続を用いてバッチ間の情報をやり取りさせることで、個々のサンプルが他のサンプルの情報も活用できるようにする。さらに、この融合された特徴表現をコントラスティブ損失の最適化に活用することで、自己教師学習の性能を向上させる。
提案手法をImageNet-1k、ImageNet-100、CIFAR-10、CIFAR-100のベンチマークデータセットで評価した結果、同等のバッチサイズ設定下で、従来手法を上回る性能を達成できることを示している。また、提案手法は既存の自己教師学習手法に「プラグアンドプレイ」で適用可能であり、最大1.25%の精度向上を実現できることも確認している。
Na inny język
z treści źródłowej
arxiv.org
Głębsze pytania