핵심 개념
본 연구는 흑박스 모델의 결정을 설명하기 위한 효율적인 그래디언트 기반 주목도 맵 생성 방법을 제안한다. 모델의 내부 구조에 대한 접근이 불가능한 상황에서도 입력에 대한 출력의 그래디언트를 추정하여 주목도 맵을 생성할 수 있는 통합 프레임워크를 제안한다.
초록
본 연구는 흑박스 모델의 결정을 설명하기 위한 효율적인 그래디언트 기반 주목도 맵 생성 방법을 제안한다.
- 모델의 내부 구조에 대한 접근이 불가능한 상황에서도 입력에 대한 출력의 그래디언트를 추정할 수 있는 likelihood ratio 방법을 활용한다.
- 그래디언트 추정의 분산을 낮추기 위해 블록 단위 계산 기법을 제안한다.
- 다양한 실험을 통해 제안 방법의 효과를 검증하였으며, GPT-Vision 모델에 대한 설명 결과를 제시하여 확장성을 보였다.
통계
입력 이미지에 대한 출력 클래스 활성화 값 fc(x_0 + z_i)
주입된 노이즈 z_i의 로그 확률밀도함수 미분 값 ∇_z ln μ_z(z_i)
인용구
"Gradient-based saliency maps are widely used to explain deep neural network decisions. However, as models become deeper and more black-box, such as in closed-source APIs like ChatGPT, computing gradients become challenging, hindering conventional explanation methods."
"We employ the likelihood ratio method to estimate output-to-input gradients and utilize them for saliency map generation. Additionally, we propose blockwise computation techniques to enhance estimation accuracy."