核心概念
大規模マルチモーダルモデルは画像とテキストの統合分析を可能にするが、画像ベースのセキュリティ課題では、ファインチューニングされたビジョントランスフォーマーの方が高い精度と信頼性を示す。
摘要
本研究は、大規模マルチモーダルモデルであるGemini-proと、ファインチューニングされたビジョントランスフォーマー(ViT)モデルの、画像ベースのセキュリティ課題における有効性を比較評価したものである。
2つの課題に取り組んだ:
- 視覚的に明らかな課題 - 画像内の小さな正方形のトリガーを検出する
- 視覚的に明らかでない課題 - 視覚表現からマルウェアを分類する
結果、Gemini-proは両課題で精度と信頼性が低く、一方でファインチューニングされたViTモデルは非常に高い精度を示した。トリガー検出では100%の精度を達成し、マルウェア分類でも97%を超える精度を示した。
このように、大規模マルチモーダルモデルは汎用性が高いが、特定の画像ベースのセキュリティ課題では限界がある一方で、ファインチューニングされたViTモデルは高い性能を発揮することが明らかになった。セキュリティ分野では、ViTモデルの有効性が際立っている。
統計資料
視覚的に明らかなトリガー検出課題では、ファインチューニングされたViTモデルが100%の精度を達成した。
視覚的に明らかでないマルウェア分類課題では、ファインチューニングされたViTモデルが25クラスの分類で97.12%、5ファミリーの分類で98.00%の精度を示した。
一方、Gemini-proモデルは、トリガー検出で最高77.2%、マルウェア分類で最高21.2%の精度しか示せなかった。
引述
"大規模マルチモーダルモデルは画像とテキストの統合分析を可能にするが、特定の画像ベースのセキュリティ課題では限界がある一方で、ファインチューニングされたViTモデルは高い性能を発揮する。"
"セキュリティ分野では、ViTモデルの有効性が際立っている。"