核心概念
本文提出了一種利用稀疏自編碼器和零樣本方法來解讀大型多模態模型內部特徵的自動化流程,並探討了這些特徵如何影響模型行為以及如何利用這些特徵來引導模型行為。
摘要
大型多模態模型特徵解讀
本研究論文探討了大型多模態模型 (LMM) 的可解釋性問題,特別關注於如何理解這些模型內部的特徵表示。
開發一種自動化流程,用於識別和解讀 LMM 中的語義特徵。
探討這些特徵如何影響模型行為,例如情緒反應和決策過程。
研究如何利用這些特徵來引導模型行為,例如修正模型錯誤或誘發特定輸出。
特徵解構: 使用稀疏自編碼器 (SAE) 將 LMM 的表示分解成更易於理解的特徵。SAE 的稀疏性有助於確保學習到的特徵更具單一語義性。
零樣本概念識別: 利用大型 LMM 的零樣本能力,開發一個自動化流程來解讀 SAE 中學習到的開放語義特徵。具體步驟包括:
識別對特定特徵激活程度最高的圖像和圖像區域。
使用大型 LMM 對這些圖像和區域進行零樣本圖像解釋,以識別共同因素並生成解釋。
特徵操控: 通過調整特徵值來操控模型行為,例如增強或減弱特定特徵的影響力。
模型行為原因定位:
採用基於特徵激活的歸因方法,識別影響模型決策的關鍵特徵和輸入部分。
通過分析特徵歸因,深入了解模型推理過程,並找出導致錯誤的原因,例如模型過度依賴文本信息而忽略圖像信息。