이 논문은 신경망과 같은 복잡한 모델에 대해 해석 가능성을 보장하는 상호작용형 Merlin-Arthur 분류기를 제안한다. 이 분류기는 특징 선택기인 Merlin과 특징 분류기인 Arthur로 구성되며, Merlin은 Arthur가 올바르게 분류할 수 있는 특징을 선택하고, Arthur는 Merlin이 선택한 특징을 바탕으로 분류를 수행한다.
논문에서는 이 설정에서 완전성(completeness)과 건전성(soundness)이라는 개념을 도입하여, 이를 통해 Merlin이 선택한 특징과 분류 결정 간의 상호 정보량에 대한 하한을 보장할 수 있음을 보인다. 이 때 특징들 간의 비대칭적 상관관계(Asymmetric Feature Correlation, AFC)를 고려하여 보다 현실적인 분석을 수행한다.
실험 결과를 통해 제안하는 Merlin-Arthur 분류기가 기존 XAI 방법론의 취약점을 극복할 수 있음을 보인다. 또한 이론적 하한과 실험 결과가 잘 부합함을 확인하였다.
Egy másik nyelvre
a forrásanyagból
arxiv.org
Mélyebb kérdések