本論文は、深層ニューラルネットワーク(DNN)の構造化理解を向上させるための手法「Visual Hierarchy Mapper (Hi-Mapper)」を提案している。
まず、論文では、視覚シーンが階層的に構成されていることに着目し、その階層構造を表現するために、確率分布を用いた階層木構造を定義する。具体的には、最下層のノードを個別のガウス分布で表現し、上位のノードをその子ノードのガウス混合分布で近似する。
次に、この事前定義した階層木構造と、事前学習済みDNNの特徴マップを用いて、視覚特徴を階層的に分解する。しかし、ユークリッド空間ではこの階層構造を適切に表現できないため、ノードをハイパーボリック空間にマッピングし、階層的な類似性と差異を表現する新しい階層的対比損失関数を導入する。
最後に、識別された視覚階層をグローバル特徴表現にエンコーディングすることで、全体的なシーン理解を向上させる。
提案手法は、様々なDNNバックボーンに適用可能であり、画像分類、物体検出・分割、セマンティックセグメンテーションなどの課題で、既存手法を上回る性能を示している。
Naar een andere taal
vanuit de broninhoud
arxiv.org
Belangrijkste Inzichten Gedestilleerd Uit
by Hyeongjun Kw... om arxiv.org 04-02-2024
https://arxiv.org/pdf/2404.00974.pdfDiepere vragen