核心概念
본 연구는 사전 학습된 딥 뉴럴 네트워크의 구조화된 이해를 향상시키기 위해 비주얼 계층 매퍼(Hi-Mapper)를 제안한다. Hi-Mapper는 확률 밀도 함수를 통해 계층 트리를 사전 정의하고, 쌍곡 공간에서 계층적 관계를 학습함으로써 비주얼 계층을 효과적으로 식별한다. 이를 통해 전체 장면에 대한 인식 성능이 향상된다.
要約
본 연구는 사전 학습된 딥 뉴럴 네트워크의 구조화된 이해를 향상시키기 위한 비주얼 계층 매퍼(Hi-Mapper)를 제안한다.
- 계층 트리 사전 정의:
- 리프 레벨 노드는 고유한 가우시안 분포로 모델링
- 상위 레벨 노드는 해당 자식 노드들의 가우시안 혼합 모델(MoG)로 근사
- 이를 통해 계층 노드의 의미적 관계를 확률 밀도로 표현
- 쌍곡 공간에서 계층 관계 학습:
- 유클리드 공간의 평면 기하학은 계층 구조를 효과적으로 표현하기 어려움
- 쌍곡 공간의 음의 곡률은 계층 노드의 지수적 증가를 효과적으로 모델링
- 새로운 계층적 대비 손실 함수를 통해 부모-자식 노드 간 유사성과 형제 노드 간 차이를 학습
- 계층 분해 및 인코딩:
- 사전 정의된 계층 트리와 사전 학습된 특징 맵을 이용하여 비주얼 계층 식별
- 식별된 비주얼 계층을 전역 특징 표현에 인코딩하여 전체 장면 인식 향상
이를 통해 다양한 비주얼 인식 작업에서 기존 모델 대비 성능 향상을 달성하였다.
統計
비주얼 계층 노드의 가우시안 분포 평균 벡터와 공분산 행렬은 각 의미적 클러스터의 중심과 크기를 나타낸다.
쌍곡 공간에서의 지오데식 거리는 계층 노드 간 관계를 효과적으로 표현한다.
引用
"비주얼 장면은 자연스럽게 계층 구조로 구성되며, 이러한 계층 구조를 탐구하는 것은 복잡한 비주얼 요소 간 관계를 인식하고 전체 장면을 이해하는 데 핵심적이다."
"유클리드 공간의 평면 기하학은 계층 구조를 효과적으로 표현하기 어려우며, 쌍곡 공간의 음의 곡률은 계층 노드의 지수적 증가를 효과적으로 모델링할 수 있다."