Core Concepts
신경망은 원시 시각 입력을 견고한 의미 이해로 변환하는 과정에서 저수준(시각적 두드러짐)과 고수준(의미 유사성) 정보를 다르게 인코딩한다.
Abstract
이 연구는 신경망과 인간 뇌에서 시각적 두드러짐과 의미 정보의 표현을 탐구한다.
먼저, 저자들은 ResNet과 ViT 신경망이 시각적 두드러짐과 의미 정보를 어떻게 인코딩하는지 살펴본다. ResNet은 CLIP 학습을 통해 초기 층에서 시각적 두드러짐을 더 많이 억제하는 경향이 있다. 반면 ViT는 ResNet보다 시각적 두드러짐에 덜 민감하다. 또한 CLIP 학습은 두 아키텍처 모두에서 의미 정보 인코딩을 향상시킨다.
이어서 저자들은 시각적 두드러짐과 의미 정보를 체계적으로 조작한 맞춤 데이터셋을 사용하여, 이러한 정보가 신경망 표현에 미치는 인과적 영향을 분석한다. 결과적으로 ResNet은 ViT보다 시각적 두드러짐에 더 민감하며, CLIP 학습은 ResNet의 시각적 두드러짐 억제를 강화한다. 또한 의미 정보 표현은 두 아키텍처 모두에서 중요한 역할을 한다.
마지막으로 저자들은 신경망 표현과 인간 뇌 활동 간 정렬을 분석한다. 의미 정보 표현이 신경망과 뇌 사이의 정렬을 잘 설명하는 반면, 시각적 두드러짐 억제는 인간 뇌와 부정렬된 전략으로 나타난다.
Stats
시각적 두드러짐이 높은 이미지 디스트랙터는 ResNet의 후반부 층에서 시각적 표현을 더 크게 방해한다.
CLIP 학습은 ResNet의 초기 층에서 시각적 두드러짐 억제를 강화한다.
의미적으로 유사하지 않은 디스트랙터는 ResNet과 ViT의 의미 표현을 모두 크게 방해한다.
Quotes
"CLIP 학습은 두 아키텍처 모두에서 의미 정보 인코딩을 향상시킨다."
"ResNet은 ViT보다 시각적 두드러짐에 더 민감하며, CLIP 학습은 ResNet의 시각적 두드러짐 억제를 강화한다."
"의미 정보 표현이 신경망과 뇌 사이의 정렬을 잘 설명하는 반면, 시각적 두드러짐 억제는 인간 뇌와 부정렬된 전략으로 나타난다."