本文提出了一項新任務 - 知識編輯類型識別 (KETI),旨在識別大型語言模型中的惡意編輯。
首先,我們提出了一個新的基準數據集 KETIBench,包含五種類型的惡意更新(虛假信息注入、冒犯性注入、行為誤導注入、偏見注入)和一種類型的良性更新(事實更新)。
其次,我們為開源和封閉源的語言模型分別設計了七種基線識別器。對於開源模型,我們使用隱藏狀態作為特徵,並採用四種經典的分類模型。對於封閉源模型,我們使用查詢、輸出和輸出token的對數概率作為特徵,並採用三種基於BERT的模型。
實驗結果表明,七種基線識別器在KETIBench上均取得了不錯的識別性能,平均F1分數為0.789。這突出了識別大型語言模型中惡意編輯的可行性。
此外,我們還發現識別器的性能與編輯方法的效果無關,並且具有跨領域的泛化能力,能夠識別未知來源的編輯。深入分析和消融實驗表明,特徵信息的豐富性決定了識別器的性能。在開源模型中,後層隱藏狀態攜帶更豐富的語義信息,有助於識別不同類型的編輯。在封閉源模型中,更多的輸出token信息有助於識別器的性能。
總的來說,本文提出了KETI任務和KETIBench基準,為防止大型語言模型知識編輯的濫用提供了初步探索。未來可以進一步提高識別器的性能,並探索如何在開源模型中撤銷已識別的有害編輯。
翻译成其他语言
从原文生成
arxiv.org
更深入的查询