Core Concepts
과적합된 신경망 모델의 정확도를 유지하면서도 모델 보정을 크게 향상시킬 수 있다.
Abstract
이 논문은 과적합된 딥 신경망 모델의 보정 문제를 다룹니다. 주요 내용은 다음과 같습니다:
특징 추출 계층(합성곱 또는 어텐션 계층)과 분류 계층(완전 연결 계층)을 분리하여 학습하는 두 단계 학습 방법(TST)을 제안했습니다.
TST에 추가로 마지막 은닉층 출력에 가우시안 사전 분포를 부여하고 변분 추론을 이용해 분류 계층을 학습하는 변분 두 단계 학습(V-TST) 방법을 제안했습니다.
CIFAR10, CIFAR100, SVHN 데이터셋과 Wide Residual Network, Visual Transformer 모델에 대해 실험한 결과, TST와 V-TST 방법이 모델 정확도는 유지하면서도 보정 성능을 크게 향상시킬 수 있음을 보였습니다.
특히 V-TST는 마지막 은닉층 출력에 가우시안 사전 분포를 부여하고 변분 추론으로 학습함으로써 보정 성능을 더욱 개선할 수 있었습니다.
Stats
과적합된 WRN 모델의 마지막 은닉층 출력 t-SNE 플롯에서 높은 엔트로피를 가진 데이터 포인트들이 클래스 경계 근처에 위치하는 것을 확인할 수 있다.
TST와 V-TST로 학습한 모델의 마지막 은닉층 출력 t-SNE 플롯에서는 높은 엔트로피를 가진 데이터 포인트들이 클래스 경계 근처에 위치하지 않고 클래스별로 더 잘 분리되어 있다.
TST와 V-TST로 학습한 모델의 보정 플롯에서 ECE와 MCE가 크게 감소한 것을 확인할 수 있다.
Quotes
"딥 신경망(DNN)은 많은 분류 응용 분야에서 큰 성과를 보였지만, 과적합된 경우 예측 보정이 매우 좋지 않다는 것이 널리 알려져 있다."
"모델 정확도를 저해하지 않으면서 DNN 보정을 개선하는 것은 의료 분야와 같은 안전 중요 응용 분야에서 매우 중요하고 관심의 대상이다."