核心概念
本文提出了一項新任務 - 知識編輯類型識別 (KETI),旨在識別大型語言模型中的惡意編輯。我們構建了一個基準數據集 KETIBench,包含五種類型的惡意更新和一種類型的良性更新。我們還開發了七種基線識別器,在兩種不同規模的語言模型上進行了42次實驗,結果表明這些識別器能夠達到不錯的識別性能,突出了識別大型語言模型中惡意編輯的可行性。
摘要
本文提出了一項新任務 - 知識編輯類型識別 (KETI),旨在識別大型語言模型中的惡意編輯。
首先,我們提出了一個新的基準數據集 KETIBench,包含五種類型的惡意更新(虛假信息注入、冒犯性注入、行為誤導注入、偏見注入)和一種類型的良性更新(事實更新)。
其次,我們為開源和封閉源的語言模型分別設計了七種基線識別器。對於開源模型,我們使用隱藏狀態作為特徵,並採用四種經典的分類模型。對於封閉源模型,我們使用查詢、輸出和輸出token的對數概率作為特徵,並採用三種基於BERT的模型。
實驗結果表明,七種基線識別器在KETIBench上均取得了不錯的識別性能,平均F1分數為0.789。這突出了識別大型語言模型中惡意編輯的可行性。
此外,我們還發現識別器的性能與編輯方法的效果無關,並且具有跨領域的泛化能力,能夠識別未知來源的編輯。深入分析和消融實驗表明,特徵信息的豐富性決定了識別器的性能。在開源模型中,後層隱藏狀態攜帶更豐富的語義信息,有助於識別不同類型的編輯。在封閉源模型中,更多的輸出token信息有助於識別器的性能。
總的來說,本文提出了KETI任務和KETIBench基準,為防止大型語言模型知識編輯的濫用提供了初步探索。未來可以進一步提高識別器的性能,並探索如何在開源模型中撤銷已識別的有害編輯。
統計資料
惡意編輯可能導致大型語言模型生成有害內容,誤導用戶採取不當行動。
現有研究僅能區分編輯和非編輯,無法進一步識別不同類型的編輯。
我們構建了包含五種惡意更新和一種良性更新的KETIBench基準數據集。
引述
"知識編輯是一種有效的方法,可以高效地更新大型語言模型的知識,近年來引起了越來越多的關注。"
"然而,目前缺乏有效的措施來防止這項技術被惡意濫用,這可能導致大型語言模型中出現有害編輯。"
"這些惡意修改有可能導致大型語言模型生成有害內容,誤導用戶採取不當行動。"