Основные понятия
本文提出了一種新的基於自我比較的成員推斷攻擊方法(SMI),用於判斷一個數據集是否被用於訓練大型語言模型(LLM)和視覺語言模型(VLM)。
Аннотация
大型(視覺)語言模型中基於自我比較的資料集級別成員推斷
本研究論文提出了一種名為「自我比較成員推斷」(SMI)的新方法,用於解決大型語言模型(LLM)和視覺語言模型(VLM)中資料集級別成員推斷的挑戰。
研究目標
本研究旨在開發一種更有效且實用的方法,用於確定特定數據集是否被用於訓練 LLM 或 VLM,尤其是在缺乏基準成員數據或具有相同分佈的非成員數據的情況下。
方法
SMI 方法基於分析句子後半部分在改寫前後平均負對數似然 (A-NLL) 分佈的變化。該方法利用了模型在訓練數據上表現出更高置信度(即更低 A-NLL)的現象,並通過比較改寫前後 A-NLL 分佈的差異來推斷成員資格。
主要發現
與依賴數據特定閾值的傳統 MIA 方法相比,SMI 在各種模型和數據集(包括公共模型、微調模型和基於 API 的商業模型)中始終表現出卓越的性能。
SMI 不需要訪問基準成員數據或遵循與受保護數據相同分佈的非成員數據,使其更適用於實際場景。
實驗結果表明 SMI 在區分成員數據和非成員數據方面非常有效,平均 F1 分數超過 0.98。
主要結論
SMI 為資料集級別成員推斷提供了一種強大且實用的方法,有效解決了傳統方法的局限性。該方法在保護數據集免遭未經授權的使用方面具有潛在的應用價值。
意義
本研究對於保護知識產權和防止未經授權使用訓練數據具有重要意義,尤其是在 LLM 和 VLM 變得越來越普遍的情況下。
局限性和未來研究
未來的研究可以進一步探索 SMI 在不同類型的 LLM 和 VLM 上的有效性,以及針對更複雜的數據集和訓練策略的穩健性。
Статистика
SMI 在公共模型和微調模型上的平均 F1 分數始終超過 0.98。
SMI 在基於 API 的 GPT-4o 上實現了 0.969 的 F1 分數。