Core Concepts
大規模言語モデルのコードにおける重要なトロイの署名を検出することは困難である。
Abstract
この論文では、大規模言語モデル(LLMs)のコードにおけるトロイの署名を検出する試みが行われました。従来の画像モデルから得られた結果と異なり、コードモデルではトロイのクラス間で明確な側方シフトが見られませんでした。これは、コードモデルがより多くの重みパラメータに分散されているため、トロイの影響がより隠されている可能性があることを示唆しています。また、コードトリガーは非常に巧妙であり、重みにほとんど影響を与えず、非常に少量の変更だけで学習することができます。これらの事実と研究結果は、重み解析によってこのようなトロイされたコードモデルを検出する問題が困難であることを示しています。
Stats
Fields et al. [1] は画像モデルから得られた結果と異なり、コードモデルでは明確な側方シフトが見られませんでした。
コードモデルは画像モデルよりも多くの重みパラメータに分散されている可能性がある。
コードトリガーは非常に巧妙であり、重みにほとんど影響を与えず、非常に少量の変更だけで学習することができます。
Quotes
"Given these models also have attack success rates above 60%, as shown in Table 2, intuitively the effect of trojaning is expected to be more pronounced in the final layer of the model."
"Both ONION and OSeql are black-box techniques (no internal model information, e.g., parameter weights, are used) that require multiple inference calls to the model."
"Our results suggest that trojan signature seems to not be applicable to these tasks, and perhaps LLMs of code are very stubborn in revealing trojan signatures solely from their weights."