核心概念
本文介紹了一種名為對比生成探索 (CGE) 的新方法,用於在無法直接訪問數據集的情況下,透過對比預訓練模型和微調模型的預測,來識別微調數據集中的新穎特性。
摘要
文獻資訊
- 標題:我的數據有什麼新內容?透過對比生成探索新穎性
- 作者:Masaru Isonuma, Ivan Titov
- 機構:愛丁堡大學、東京大學、阿姆斯特丹大學
研究目標
本研究旨在解決在無法直接訪問數據集的情況下,如何識別微調數據集中新穎特性的問題。
方法
本研究提出了一種名為對比生成探索 (CGE) 的方法,該方法利用對比解碼技術,透過對比預訓練語言模型和微調語言模型的預測,生成代表微調數據集中新穎特性的文本範例。
CGE 的運作方式:
- 計算對比分數:CGE 計算微調模型和預訓練模型分配給文本標記的對數概率之間的差異,作為對比分數。
- 生成文本:基於對比分數,使用 softmax 函數對文本進行採樣,生成偏好微調模型但預訓練模型不熟悉的文本,從而突顯新穎性。
- 迭代方法:為了增加生成的新穎範例的多樣性,本研究還提出了一種迭代的 CGE 方法,透過在先前生成的範例上微調預訓練模型,防止生成與先前相似的範例,並鼓勵探索新的、先前未被發現的新穎性。
主要發現
- 對比分數能有效區分新穎範例和數據集內範例,優於現有的 novelty detection 方法。
- CGE 能從微調模型中生成新穎範例,發現透過簡單採樣難以察覺的新穎特性。
- 迭代式的 CGE 能提升生成範例的多樣性,涵蓋更多新穎領域,但可能會降低新穎範例的比例。
- CGE 即使在模型使用差分隱私技術微調的情況下,依然能有效地揭示新穎範例。
研究意義
本研究提出了一種在無法直接訪問數據集的情況下,探索微調數據集中新穎特性的新方法,有助於模型開發者更好地理解模型學習到的內容,並採取相應措施,例如過濾掉有害數據或抑制有害行為。
局限與未來研究方向
- 本研究發現,在發現新穎性的數量和多樣性之間存在權衡,未來研究可以探索更有效地解決這種權衡的方法。
- 未來研究可以使用真實世界的數據集進行實驗,以驗證 CGE 在實際應用中的效果。
統計資料
微調數據集中 90% 的範例是從與預訓練數據集相同的數據分佈中採樣的。
微調數據集中 10% 的範例是新穎範例,例如非英語文本、有害文本或程式碼。
OpenLLaMA 在非英語文本和有害文本的偵測率分別為 99% 和 95%。
Falcon-RW 在非英語文本和程式碼的偵測率分別為 100% 和 96.4%。
靜態 CGE 在 OpenLLaMA 的非英語文本和 Falcon-RW 的程式碼上的偵測率均超過 90%。
迭代式 CGE 在 OpenLLaMA 的非英語文本和有害文本上的覆蓋率超過 80%,在 Falcon-RW 的程式碼上則超過 90%。