Core Concepts
신경망 모델의 표현 공간에 비선형적으로 인코딩된 개념을 제거하기 위한 커널화된 미니맥스 게임 기법을 제안한다.
Abstract
이 논문은 신경망 모델의 표현 공간에 비선형적으로 인코딩된 개념을 제거하는 방법을 제안한다. 기존의 선형 개념 제거 기법은 신경망이 개념을 선형적으로 인코딩한다는 가정에 기반하지만, 실제로는 많은 개념이 비선형적으로 인코딩된다.
이를 해결하기 위해 저자들은 재현 커널 힐버트 공간(RKHS)에서 작동하는 커널화된 미니맥스 게임을 제안한다. 이 게임에서 투사 행렬 P는 개념을 제거하려 하고, 분류기 θ는 개념을 복구하려 한다. 저자들은 이 게임의 대표정리를 증명하고, 계산 복잡도를 개선하기 위해 Nyström 근사를 사용한다.
실험 결과, 제안된 방법은 동일한 커널을 사용하는 적대자로부터 개념을 효과적으로 제거할 수 있다. 그러나 다른 종류의 비선형 분류기에 대해서는 보호 효과가 전이되지 않는다. 이는 단일 RKHS에 개념이 완전히 인코딩되어 있지 않음을 의미한다. 따라서 비선형 개념 제거는 여전히 해결해야 할 과제로 남아있다.
Stats
성 예측 정확도가 원래 표현에서 99% 이상이었다.
제안된 방법으로 동일한 커널을 사용하는 적대자에 대해 성 예측 정확도를 59-75% 수준으로 낮출 수 있었다.
그러나 다른 커널을 사용하는 적대자에 대해서는 성 예측 정확도가 여전히 89-98% 수준으로 높게 나타났다.
Quotes
"신경망 모델의 표현 공간에 인코딩된 인간이 해석 가능한 개념을 이해하는 것은 근본적인 문제이다."
"선형 제거 알고리즘은 실용적이고 해석 가능하지만, 신경망이 반드시 선형적으로 개념을 표현하는 것은 아니다."
"단일 RKHS에 개념이 완전히 인코딩되어 있지 않다는 것은 비선형 개념 제거가 여전히 해결해야 할 과제임을 의미한다."