Core Concepts
ネットワークは、スタイル転送に対する抵抗があるとしても、その形状バイアスは主に局所的な詳細から生じる。
Abstract
この記事では、ディストーションされた構造テストベンチ(DiST)を導入し、モデルがグローバル形状構造を理解しているかどうかを直接評価します。さまざまなトレーニング方法やアーキテクチャによる実験結果から、現存する形状バイアスで高く評価されているモデルがDiSTで不振であることが明らかになりました。また、監督学習されたVision Transformer(ViT)は位置埋め込みから空間情報を完全に捉えておらず、自己教師あり学習法(SSL)を使用したViTが優れた性能を示すことも確認されました。
Stats
モデルのCue-Conflictデータセットのパフォーマンス: 53.8%
DiSTでのResNet50のパフォーマンス: 69.4%
ViT-Lのパラメータ数: 303.3M
Quotes
"Training with DiST images and style-transferred images are complementary, and can be combined to train network together to enhance the global shape sensitivity and robustness of local features."
"Improving the global structure sensitivity is orthogonal to resistance to style-transfer, indicating that the relationship between global shape structure and local texture detail is not an either/or relationship."