本研究では、CLIP特徴の密な表現を得るために、自己教師あり学習特徴であるDINOの特性を活用する手法を提案している。具体的には以下の2つのステップを行う。
DINO特徴の相関情報を、単一の畳み込み層を用いて、CLIP特徴から直接学習する。これにより、CLIP特徴にDINOのようなオブジェクト位置推定能力を付与することができる。
学習した相関情報を用いて、MaskCLIPの特徴を重み付き平均することで、より滑らかで精度の高い特徴マップを生成する。
提案手法CLIP-DINOiserは、CLIP特徴を単一回の推論で処理し、2つの軽量な畳み込み層を追加するだけで実現できる。実験の結果、複雑なデータセットでの開放語彙セマンティックセグメンテーションにおいて、最先端の性能を達成することができた。
Egy másik nyelvre
a forrásanyagból
arxiv.org
Mélyebb kérdések