Główne pojęcia
심층 신경망 모델의 새로운 데이터에 대한 일반화 능력은 중간 레이어의 표현력에 따라 크게 달라진다. 모델의 분류 정확도가 높다고 해서 반드시 일반화 능력이 높은 것은 아니며, 일반화 능력이 가장 높은 레이어는 모델 아키텍처에 따라 다르게 나타난다.
Streszczenie
이 연구는 심층 신경망 모델의 새로운 데이터에 대한 일반화 능력을 평가하는 새로운 방법을 제안한다. 기존 모델을 특정 데이터셋의 일부 클래스(학습 클래스)에 대해 fine-tuning한 후, 나머지 클래스(미학습 클래스)에 대한 일반화 능력을 측정한다.
이를 위해 중간 레이어의 표현을 활용하여 미학습 클래스 간 분리도를 정량화하는 지표를 개발했다. 이 지표는 K-means 클러스터링, k-최근접 이웃, 선형 프로브 분류기 등 다양한 방식으로 계산할 수 있다.
실험 결과, 모델의 분류 정확도가 높더라도 일반화 능력은 크게 다를 수 있음을 확인했다. 또한 일반화 능력이 가장 높은 레이어는 모델 아키텍처에 따라 다르게 나타났는데, 이는 모델 경량화 등에 시사점을 준다.
Statystyki
모델의 분류 정확도가 95% 이상이더라도 미학습 클래스에 대한 일반화 지표는 0.04에서 0.78 사이로 큰 차이를 보였다.
일반화 능력이 가장 높은 레이어는 모델에 따라 초기 레이어, 중간 레이어, 마지막 레이어 등 다양하게 나타났다.
Cytaty
"높은 분류 정확도가 반드시 높은 일반화 능력을 의미하지는 않는다."
"일반화 능력이 가장 높은 레이어는 모델 아키텍처에 따라 다르게 나타났다."