이 논문은 DNN의 해석 가능성 향상을 위한 개념 기반 접근법을 체계적으로 검토하고 분류한다.
먼저 다양한 개념 표현 방법과 자동 개념 발견 알고리즘을 소개한다. 개념 표현 방법에는 개념 활성화 벡터, 프로토타입, 신경-기호 표현 등이 있다. 개념 발견 알고리즘은 사후(post-hoc) 방식과 사전(ante-hoc) 방식으로 나뉜다. 사후 방식은 모델 학습 후 개념을 발견하고, 사전 방식은 모델 학습 중 개념을 발견한다.
다음으로 개념 기반 모델 개선 방법을 소개한다. 이 방법들은 모델의 해석 가능성 향상 또는 일반화 성능 향상을 목표로 한다. 해석 가능성 향상 방법에는 개념 조건부 예측, 개념 추론, 사용자 상호작용 기반 방법 등이 있다. 일반화 성능 향상 방법에는 CAV 기반, 인과성 기반, 잠재 공간 disentanglement 기반 등이 있다.
마지막으로 개념 발견 방법의 평가 지표와 개념 기반 모델 개선 방법의 분류를 제시한다.
Naar een andere taal
vanuit de broninhoud
arxiv.org
Belangrijkste Inzichten Gedestilleerd Uit
by Avani Gupta,... om arxiv.org 03-22-2024
https://arxiv.org/pdf/2403.14566.pdfDiepere vragen