이 논문은 신경망 분류기의 내부 개념을 폐쇄형 수식으로 해석하는 통합 프레임워크를 제안한다. 이 프레임워크는 다음과 같은 단계로 구성된다:
신경망 분류기 학습: 이진 분류 문제에 대해 신경망 모델 F를 학습한다. 최종 활성화 함수인 시그모이드를 제거하여 잠재 모델 f를 얻는다.
잠재 모델 기울기 추출: 잠재 모델 f의 입력에 대한 정규화된 기울기 Gf를 계산한다. 이를 위해 결정 경계 근처의 데이터 포인트를 선택한다.
기호 탐색: 기호 회귀 알고리즘을 사용하여 Gf와 유사한 정규화된 기울기를 가진 기호 모델 T를 찾는다. 이때 T의 함수 형태가 인간이 이해할 수 있는 수준이 되도록 한다.
이 프레임워크를 다양한 실험 데이터에 적용한 결과, 대부분의 경우 신경망이 학습한 결정 경계 함수를 정확하게 복원할 수 있었다. 또한 신경망이 서로 다른 고수준 특징을 학습한 경우에도 이를 정확히 해석할 수 있었다. 이는 기호 분류 모델과 달리, 본 프레임워크가 신경망의 내부 개념을 해석할 수 있음을 보여준다.
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문