核心概念
本文提出了一種名為 MambaLRP 的新型層級相關性傳播 (LRP) 演算法,用於解釋選擇性狀態空間序列模型 (Mamba 模型) 的預測。
論文資訊
Farnoush Rezaei Jafari, Gr´egoire Montavon, Klaus-Robert M¨uller, Oliver Eberle. (2024). MambaLRP: Explaining Selective State Space Sequence Models. Advances in Neural Information Processing Systems, 38.
研究目標
本研究旨在解決 Mamba 模型缺乏透明度和可解釋性的問題,提出了一種名為 MambaLRP 的新方法,以提高這些模型在實際應用中的可靠性。
方法
MambaLRP 基於層級相關性傳播 (LRP) 框架,並針對 Mamba 架構的特定組件(SiLU 激活函數、選擇性狀態空間模型和乘法門控)設計了新的傳播規則,以確保相關性在層間傳播過程中的守恆性。
主要發現
MambaLRP 成功地將 LRP 整合到 Mamba 架構中,並產生更穩定可靠的相關性傳播。
與其他解釋方法相比,MambaLRP 在多個模型和數據集上始終實現最高的準確性和可靠性。
MambaLRP 有助於深入了解模型的預測機制,揭示圖像分類中的偏差,識別語言模型中的性別偏見,並分析 Mamba 的長距離能力。
主要結論
MambaLRP 為解釋 Mamba 模型提供了一種有效且可靠的方法,促進了對這些模型的透明度和信任度,並為其在實際應用中的可靠使用鋪平了道路。
研究意義
本研究通過提供一種專為 Mamba 模型設計的 LRP 方法,顯著推進了可解釋人工智能領域的發展,並為理解和信任這些模型的預測提供了有價值的工具。
局限性和未來研究方向
MambaLRP 的內存使用量取決於模型架構和輸入序列長度,未來可以探索使用梯度檢查點等技術來減少內存消耗。
未來可以進一步評估 MambaLRP 在更廣泛的應用和 Mamba 架構中的性能。
統計資料
在 SST-2 情感分類數據集中,MambaLRP 的 ∆AF 得分為 1.978,明顯優於其他基線方法。
在 ImageNet 圖像分類數據集中,MambaLRP 的 ∆AF 得分為 4.715,同樣優於其他方法。
在 Medical BIOS 數據集中,Mamba-1.4B 模型對性別代詞的依賴性低於 Mamba-130M 模型,表明隨著模型規模的增加,性別偏見有所減少。