Core Concepts
人工知能セキュリティ研究と実践の間には大きな隔たりがあり、研究で扱われる脅威モデルは実際の人工知能の使用や安全上のリスクを反映していない。このギャップを埋めるため、より実践的な脅威モデルの研究が必要である。
Abstract
本研究は、人工知能セキュリティ研究で最も頻繁に研究されている6つの攻撃の脅威モデルを再検討し、271人の産業界の実践者へのアンケート調査を通じて、それらの脅威モデルが実際の人工知能の使用と一致しているかを分析した。
その結果、以下のことが明らかになった:
全ての分析した攻撃が実際に関連性がある。しかし、研究では攻撃者に過度に寛大な前提を置いている。例えば、教師データへのアクセス割合や、ブラックボックス攻撃に必要なクエリ数が実際よりも高い。
実践では、モデルやデータへのアクセスが制限されていることが多い。完全なアクセスは稀である。
研究で使用されるデータセットは、実践で使用されるデータよりも特徴量が多い傾向にある。
コードライブラリの使用はセキュリティに関連する。
人工知能セキュリティの知識は、実践における脅威モデルに影響を与えていない。
これらの結果は、人工知能セキュリティ研究と実践の乖離を示しており、より実践的な脅威モデルの研究の必要性を示唆している。
Stats
参加者の71.6%は教師データにアクセスできず、6.6%は公開データを使用していた。
参加者の48.1%はモデルにクエリを送ることができず、39.5%はクエリを送ることができた。
参加者の75.5%はモデル自体にアクセスできず、7.7%は公開モデルを使用していた。
参加者の37%はモデルの出力にアクセスできず、49.1%は自由にアクセスできた。