核心概念
隨著深度學習模型,特別是大型語言模型的商業價值日益提升,保護其智慧財產權變得至關重要,本文全面綜述了深度學習模型和數據集的智慧財產權保護技術,涵蓋評估指標、保護方法、攻擊手段以及未來發展方向。
本文全面概述了深度學習 (DL) 模型和數據集智慧財產權保護 (IPP) 的最新進展,重點關注自 2017 年至今的關鍵研究。鑑於訓練高效能深度學習模型成本高昂且數據集作為重要智慧財產常常被忽視的現狀,本文系統地總結了集中式和分散式學習環境下的 IPP 演算法分類、評估指標以及對 IPP 演算法構成威脅的各種攻擊手段。此外,本文還探討了 IPP 面臨的核心問題和主要挑戰,展望了未來研究方向,並重點介紹了實際應用。
本文的主要貢獻總結如下:
全面概述深度學習模型和數據集 IPP 方案: 本文對現有的深度學習模型和數據集 IPP 方案進行了全面回顧,特別關注與 AIGC 模型(如 DMs 和 LLMs)相關的獨特挑戰和解決方案(第 3.2 和 3.3 節)。與現有主要關注模型 IPP 的綜述不同,本文還涵蓋了數據集作為重要智慧財產的保護,彌補了以往綜述的不足。
總結雙層級效能評估指標: 本文創新性地總結了雙層級效能評估指標:適用於所有 IPP 方法的通用指標,以及根據每種類型獨特的防禦目標制定的特定指標。旨在解決現有綜述對效能評估指標的描述過於籠統或僅討論反應式 IPP 評估指標的局限性,提供更全面、精細的評估框架。
系統回顧針對不同任務的深度 IPP 和攻擊方法: 本文從被動反應和主動防禦的角度對深度 IPP 和攻擊方法進行了分類,並對每個(子)類別的優缺點進行了批判性分析。
深入分析分散式環境下深度 IPP 面臨的挑戰: 本文深入探討了分散式環境下 IPP 面臨的挑戰,對現有 IPP 方法進行了分類,並比較了各自的優缺點,彌補了現有綜述對此方面探討不足的缺陷。
展望深度 IPP 的未來研究方向: 本文指出了深度 IPP 的局限性,並展望了未來研究方向,為創新研究提供指導。
深度神經網路
深度學習模型由多個網路層組成,包括輸入層、多個隱藏層、輸出層等。深度學習模型通過近似變換函數 Φ 將輸入數據映射到其對應的標籤(以分類為例):
$$
\min_{\theta} \sum_{i=1}^{N} \frac{1}{N} L_{ce}(\Phi(x_i; \theta), y_i),
$$
其中 $N$ 是訓練數據集 $D = {(x_i, y_i)}{i=1}^{N}$ 中的樣本數量;$L{ce}$ 是交叉熵 (CE) 損失函數。
深度學習模型通過多層非線性變換學習數據表示,並通過調整可訓練權重來優化模型,使其能夠準確地執行分類、預測或其他任務。
機器學習即服務 (MLaaS) 中的智慧財產權
MLaaS 是指公司為部署機器學習 (ML) 產品而提供的基於雲的服務,這些服務可供開發人員和外部用戶使用。MLaaS 提供兩種主要的產品服務:高質量的數據集和效能良好的模型。然而,一些參與者可能會試圖通過偽裝成客戶來竊取這些產品,然後重新包裝並轉售以獲取非法利潤。與從頭開始獲取訓練有素的模型相比,竊取過程通常成本低廉。
MLaaS 服務主要通過兩種方式運營 [101, 114]:(1) 公司直接將產品分發給買家,並授予他們對模型和數據集的完全訪問權限,包括模型的內部結構和參數以及數據屬性。這種模式允許用戶深入了解模型的功能,並進行全面的驗證和審查。它可以被認為是一種白盒部署。(2) 或者,公司將模型和數據集部署在他們的雲伺服器上,並限制用戶在沒有產品內部訪問權限的情況下購買產品的查詢權限。用戶可以通過發布的 API 查詢任務樣本,以從模型輸出中獲取結果,稱為黑盒模式。
兩種模式各有優缺點。消費者可能更喜歡白盒模式,但模型和數據集面臨著洩露給服務提供商的高風險,例如容易受到直接複製和微調攻擊。相比之下,黑盒模式為模型和數據集的機密性提供了更好的保護,但攻擊者仍然可以通過觀察模型的預測來創建功能相似的盜版模型。
評估指標
本綜述將深度 IPP 的評估指標分為通用指標和分別針對主動和被動 IPP 的特定指標。這些指標適用於模型和數據集 IPP 評估。
通用指標應能夠評估以下四個效能指標:
魯棒性: 為了適應下游任務,經常需要對受保護的模型和使用受保護數據集訓練的模型進行額外的修改 [83]。惡意攻擊者通常試圖通過諸如水印刪除、覆蓋或破壞等操作來規避所有權驗證。因此,理想的保護方案應能抵禦各種攻擊。
效率: 與被動驗證或主動防禦方法 [13] 相關的額外資源成本(例如延遲和通信開銷)應該是用戶可以承受的。
保密性: IP 標識符必須對攻擊者保持機密或不可檢測 [48]。這要求以在正常模型操作和潛在攻擊者審查期間不可察覺的方式嵌入這些標識符,從而保護 IP 免遭未經授權的訪問、逆向工程和篡改。
通用性: 理想的 IPP 應與模型架構和下游任務無關 [56]。
除了上述通用指標外,設計良好的被動所有權驗證方法還應滿足以下三個特性:
保真度(被動): 數據集和模型的 IP 標識符通常是通過調整模型的參數或決策行為來創建的,這通常會對原始模型產生負面影響 [43]。保真度確保受保護模型的效能與原始模型沒有區別。
容量: 指被動 IP 標識符中包含的有效信息負載和理論上限 [31]。理想的 IPP 方法必須能夠在受保護的深度學習模型中嵌入大量信息。
可靠性(被動): 被動方法應表現出較低的誤報率 [83],確保 IP 所有者能夠以較高的置信度從可疑模型中準確識別其 IP 標識符。
主動 IPP 的指標(例如效率、魯棒性、通用性和保密性)與被動 IPP 相同。此外,保真度和可靠性與上述被動指標不同,主動方法也有其獨特的指標,如下所述。
保真度(主動): 主動授權方法根據用戶類型調整保真度。授權用戶獲得卓越的模型效能,而未授權用戶則體驗到受限或較差的效能 [14]。
可靠性(主動): 為了防止非法用戶的盜竊,需要準確區分合法用戶和非法用戶的身份 [81]。
可擴展性: 理想的主動授權方法應生成並容納大量用戶身份密鑰 [148]。
唯一性: 一對一分配給合法用戶的身份密鑰必須是唯一的,以便追蹤洩露者 [14]。
不可偽造性: 身份密鑰必須是不可偽造的,攻擊者偽造的用戶身份無法通過身份驗證 [148]。
可追溯性: 受害者可以根據可疑模型追蹤洩露用戶 [148]。