核心概念
GdVAE是一個基於條件變分自動編碼器(CVAE)的自我解釋模型,具有高斯判別分析(GDA)分類器和內置的反事實解釋功能。它通過利用類別特定的原型來實現全透明度,並在潛在空間中提供封閉形式的反事實解釋。
摘要
本文介紹了GdVAE,這是一個基於條件變分自動編碼器(CVAE)的自我解釋模型,具有高斯判別分析(GDA)分類器和內置的反事實解釋功能。
GdVAE有三個主要分支:
- 特徵檢測和重建:編碼器生成潛在編碼z,解碼器使用樣本z和y重建輸入圖像x。
- 先驗編碼器和分類器:先驗編碼器學習潛在特徵分佈,為生成式分類器提供必要的分佈。
- 解釋:在推理過程中,模型生成類別預測y和潛在變量z。用戶可以通過定義所需的置信度值來請求反事實,並使用線性函數zδ = If(z*, δ)修改z*到zδ。然後使用解碼器將zδ轉換為反事實圖像xδ。
GdVAE通過端到端的聯合訓練,實現了分類器和反事實生成之間的緊密耦合。這不僅確保了潛在空間的正則化,還提高了反事實的真實性和一致性。
統計資料
反事實圖像xδ應該來自數據流形,具有自然的外觀。
反事實生成函數IF(x, δ)應該與所需的分類器輸出F(xδ) ≈ F(x) - δ一致。
反事實應該最小化對輸入的改變。
引述
"視覺反事實解釋(CF)方法修改圖像概念(如形狀)以改變預測到預定義的結果,同時與原始查詢圖像非常相似。"
"與自我解釋模型(SEM)和熱圖技術不同,它們賦予用戶檢查假設'如果-則'情景的能力。"