선택적 상태 공간 시퀀스 모델 설명을 위한 MambaLRP: 마마 아키텍처에 대한 설명 가능성 도입
핵심 개념
본 논문에서는 선택적 상태 공간 시퀀스 모델(Mamba 모델)의 예측을 설명하기 위한 새로운 접근 방식인 MambaLRP를 제안합니다. MambaLRP는 Layer-wise Relevance Propagation (LRP) 프레임워크를 기반으로 하며, 특히 Mamba 아키텍처에 맞게 조정되었습니다. MambaLRP는 관련성 보존 원칙을 준수하여 모델 예측에 대한 신뢰할 수 있고 충실한 설명을 제공합니다.
초록
MambaLRP: 선택적 상태 공간 시퀀스 모델 설명을 위한 새로운 접근 방식
MambaLRP: Explaining Selective State Space Sequence Models
본 논문은 딥러닝 모델, 특히 선택적 상태 공간 시퀀스 모델(Mamba 모델)의 설명 가능성에 대한 연구 논문입니다. Mamba 모델은 Transformer 아키텍처에 비해 선형 시간 내에 긴 시퀀스를 효율적으로 처리할 수 있다는 장점으로 인해 언어 모델링과 같은 다양한 분야에서 주목받고 있습니다. 그러나 실제 시나리오에서 Mamba 모델을 안정적으로 사용하기 위해서는 모델의 투명성을 높이는 것이 중요합니다.
본 논문에서는 Mamba 아키텍처에 Layer-wise Relevance Propagation (LRP) 기반의 설명 가능성을 도입한 MambaLRP를 제안합니다. LRP는 모델의 예측을 입력 특징에 기여한 정도에 따라 분해하여 설명하는 방법입니다. 본 연구에서는 Mamba 아키텍처의 특징을 고려하여 LRP를 적용하는 과정에서 발생할 수 있는 문제점을 분석하고, 이를 해결하기 위한 새로운 전파 규칙을 제시합니다.
선택적 상태 공간 시퀀스 모델 (SSM)
Mamba 아키텍처의 핵심 구성 요소는 선택적 SSM입니다. 선택적 SSM은 입력 시퀀스를 동일한 크기의 출력 시퀀스로 변환하는데, 입력에 따라 매개변수를 조정하는 선택 메커니즘을 통해 관련 정보에 집중하고 관련 없는 정보는 무시할 수 있습니다.
계층별 관련성 전파 (LRP)
LRP는 모델의 출력을 입력 특징에 기여한 정도에 따라 분해하여 설명하는 방법입니다. LRP는 주어진 계층의 뉴런에 관련성 점수를 할당한 다음 이러한 점수를 이전 계층의 뉴런으로 전파합니다. 이 과정은 네트워크의 출력에서 시작하여 입력 특징에 도달할 때까지 계층별로 계속됩니다. LRP는 관련성 점수가 계층 전체에서 보존되도록 요구하는 '보존'이라는 공리를 기반으로 합니다.