Core Concepts
데이터 매니폴드에서 특징 차원을 축소하여 신경망 모델의 성능 변화를 관찰함으로써 모델이 특정 특징을 얼마나 의존하는지 측정할 수 있다.
Abstract
이 논문은 신경망 모델의 특징 의존성을 측정하는 새로운 기법을 소개한다. 모델이 인간이 이해할 수 있는 특징(예: 해부학적 형태, 부피, 이미지 질감)을 사용하는지 확인하는 것이 목적이다.
제안 방법은 특정 특징을 제거했을 때 모델 성능이 얼마나 저하되는지 관찰하는 것이다. 특징 차원을 제거하기 위해 데이터 매니폴드 상에서 특징 기울기 방향으로 데이터 포인트를 이동시킨다. 이때 데이터 매니폴드를 추정하는 생성 모델을 사용하여 데이터 분포에서 벗어나지 않도록 한다.
실험에서는 합성 이미지 데이터, 알츠하이머 질병 예측 과제, 세포 핵 분류 과제에 대해 제안 방법을 적용하였다. 결과적으로 모델이 특정 특징(예: 해마 부피, 세포 핵 크기, 채도, 색상)에 크게 의존하고 있음을 확인할 수 있었다. 이는 기존 방법인 CaCE와 유사한 결과를 보였지만, 제안 방법이 특징 의존성의 중요도를 더 잘 포착할 수 있었다.
Stats
해마 부피가 제거되면 알츠하이머 질병 분류기의 정확도가 무작위 수준으로 떨어진다.
타원 이미지 분류기의 경우 종횡비 특징이 제거되면 정확도가 무작위 수준으로 떨어진다.
세포 핵 분류기는 크기, 채도, 색상 특징에 크게 의존한다.
Quotes
"모델이 인간이 이해할 수 있는 특징을 사용하는지 확인하는 것이 목적이다."
"모델 성능이 얼마나 저하되는지 관찰하여 특징 의존성을 측정한다."
"데이터 매니폴드를 추정하는 생성 모델을 사용하여 데이터 분포에서 벗어나지 않도록 한다."