本文介紹了一種稱為「轉碼器」的新方法,用於分析大型語言模型 (LLM) 中的 MLP 子層,並展示了其在提高模型可解釋性方面的潛力。
透過探測分析大型語言模型的內部機制,可以發現模型提取的特徵與傳統資訊檢索方法的關聯,從而提升模型的可解釋性和效能。
大型語言模型產生的自然語言解釋的可靠性需要仔細審查,本研究提出了一種名為因果忠實度的新指標,利用激活補丁技術來衡量解釋與模型內部運算之間的一致性,從而更準確地評估解釋的可靠性。
本文提出了一種自動化流程,利用大型語言模型 (LLM) 生成對稀疏自編碼器 (SAE) 特徵的自然語言解釋,並引入了新的評估指標來評估解釋的品質,進而理解大型語言模型的內部機制。
本文提出了一套用於評估大型語言模型 (LLM) 中電路假設的假設檢定方法,並將其應用於評估六種現有電路,發現合成電路符合理想特性,而從 Transformer 模型中發現的電路則在不同程度上滿足這些特性。
大型語言模型 (LLM) 在廣泛的應用中展現出非凡的能力,但由於其內部決策過程缺乏透明度,因此難以解釋,而機械性可解釋性則提供了一個有前景的方向,可以通過逆向工程來理解這些模型的內部運作機制。
本文提出了首個針對大型語言模型 (LLM) 的對比解釋方法 CELL,透過微調輸入提示並分析模型回應的差異,以理解 LLM 生成特定回應的原因。
雖然基於大型語言模型 (LLM) 的模型在新聞文本分類等任務中表現出色,但其預測的可解釋性卻存在很大差異,特別是當模型訓練涉及隨機元素時,例如不同的隨機種子,會導致產生具有相似準確率但解釋不同的模型,這對模型的可解釋性提出了挑戰。
元模型架構,透過利用另一個大型語言模型(元模型)來解讀目標大型語言模型(輸入模型)的內部激活,展現出理解大型語言模型行為的潛力,尤其在偵測欺騙行為方面,即使沒有模型的輸出文本也能做到。