Core Concepts
TransFusion은 주목 메커니즘을 활용하여 임베딩 공간을 효과적으로 수정하여 관련 객체 간 거리를 가깝게, 비관련 객체 간 거리를 멀리 만드는 새로운 프레임워크이다. 이를 통해 클러스터가 더욱 밀집되고 구분되어 분류 성능이 향상된다.
Abstract
TransFusion은 대조 학습을 위한 새로운 프레임워크로, 주목 메커니즘을 활용하여 임베딩 공간을 효과적으로 수정한다.
입력 데이터 행렬 X에 대해 유사도 행렬 A를 출력하며, 이때 같은 클래스의 샘플은 높은 유사도를, 다른 클래스의 샘플은 낮은 유사도를 갖도록 한다.
모델은 출력 유사도 행렬 A와 타깃 유사도 행렬 Y 간 Jensen-Shannon 발산을 최소화하도록 학습된다.
각 TransFusion 블록은 입력 데이터를 선형 변환하고, 유사한 샘플을 병합하는 과정을 거친다. 이를 통해 점진적으로 클러스터 구조가 강화된다.
이론적 분석 결과, 각 레이어는 클러스터 구조를 향상시키는 역할을 하며, 이는 잡음 수준, 클러스터 간 거리, 배치 크기 등의 요인에 의해 결정된다.
실험 결과, TransFusion은 기존 대조 학습 모델 대비 우수한 분류 성능을 보였다.
Stats
같은 클래스의 샘플 간 유사도는 ρ2 이상이다.
다른 클래스의 샘플 간 유사도는 0이다.
각 레이어에서 유사도 행렬의 선명도는 최소 γ배 향상된다.
γ는 잡음 수준 δ, 클러스터 분리도 ∆, 배치 크기 n에 따라 결정된다.
Quotes
"TransFusion은 주목 메커니즘을 활용하여 임베딩 공간을 효과적으로 수정한다."
"각 TransFusion 블록은 클러스터 구조를 점진적으로 향상시킨다."
"TransFusion의 이론적 분석 결과, 각 레이어는 클러스터 구조를 향상시키는 역할을 한다."