Core Concepts
신경망 예측은 입력 데이터가 훈련 분포에서 벗어날수록 최적 상수 솔루션(OCS)에 수렴하는 경향이 있다.
Abstract
이 연구는 신경망의 외삽 행동을 관찰하고 분석했다. 주요 발견은 다음과 같다:
신경망 예측은 입력 데이터가 훈련 분포에서 벗어날수록 최적 상수 솔루션(OCS)에 수렴하는 경향이 있다. OCS는 입력을 관찰하지 않고도 최소 손실을 달성하는 상수 예측이다.
이러한 현상은 다양한 데이터셋, 손실 함수, 신경망 아키텍처에서 관찰되었다.
이 현상의 원인을 분석한 결과, OOD 입력에 대한 신경망 표현의 크기가 감소하여 모델 상수(예: 편향)가 지배적이 되기 때문인 것으로 나타났다. 이 모델 상수는 OCS와 밀접하게 관련되어 있다.
이러한 통찰을 활용하여, OCS가 위험 회피적 행동과 일치하도록 손실 함수를 설계하면 OOD 입력에 대해 자동으로 위험 회피적 의사 결정을 할 수 있다.
Stats
훈련 데이터에 대한 중간층 표현의 기대 L2 노름은 충분히 큰 마진을 가질 때 선형적으로 증가한다.
OOD 입력에 대한 중간층 표현의 노름은 후속 층에서 크게 감소한다.
모델 상수의 누적은 OCS와 밀접하게 근사한다.
Quotes
"신경망 예측은 입력 데이터가 훈련 분포에서 벗어날수록 최적 상수 솔루션(OCS)에 수렴하는 경향이 있다."
"OOD 입력에 대한 신경망 표현의 크기가 감소하여 모델 상수가 지배적이 되기 때문에 이러한 현상이 발생한다."