Core Concepts
신경망 검색 모델의 내부 메커니즘을 이해하기 위해 공리적 인과 개입을 사용하여 모델이 관련성을 계산하는 방식을 역공학한다.
Abstract
이 논문은 신경망 검색 모델의 내부 메커니즘을 이해하기 위해 공리적 인과 개입 방법을 제안한다.
먼저, 활성화 패칭 기법을 검색 모델에 맞게 수정하여 적용한다. 이를 위해 기존 활성화 패칭 실험과 달리 입력 문서 쌍을 구성하고 평가 지표를 조정한다.
다음으로, 공리적 특성을 테스트하기 위한 진단 데이터셋 구축 방법을 제시한다. 이때 퍼터베이션 위치와 무작위화에 대한 주의사항을 제시한다.
실험 결과, TAS-B 모델이 TFC1 공리와 일치하는 용어 빈도 신호를 인코딩하는 주의 헤드를 학습했음을 확인했다. 이 헤드들은 문서 내 중복 토큰에 주목하여 관련성 점수 계산에 기여하는 것으로 나타났다.
이 연구는 신경망 검색 모델의 내부 메커니즘을 이해하고 공리적 개념을 역공학하는 새로운 방향을 제시한다. 이를 통해 모델 성능 향상, 편향 완화, 적대적 공격 방지 등 다양한 응용 분야에 기여할 수 있을 것으로 기대된다.
Stats
문서 내 선택된 쿼리 용어의 빈도가 더 높은 문서의 관련성 점수가 더 높아야 한다는 TFC1 공리를 만족한다.
특정 주의 헤드(0.9, 1.6, 2.3, 3.8)가 TFC1 공리를 인코딩하고 있음을 확인했다.
이 주의 헤드들은 문서 내 중복 토큰에 주목하여 관련성 점수 계산에 기여한다.
Quotes
"신경망 모델은 다양한 순위 작업에서 뛰어난 성능을 보여주었지만, 관련성을 결정하는 프로세스와 내부 메커니즘은 여전히 대부분 알려지지 않았다."
"이 작업은 신경 검색 모델이 관련성을 계산하는 프로세스를 역공학하기 위한 세부적인 해석 노력을 시작하고자 한다."