本研究は、大規模マルチモーダルモデルであるGemini-proと、ファインチューニングされたビジョントランスフォーマー(ViT)モデルの、画像ベースのセキュリティ課題における有効性を比較評価したものである。
2つの課題に取り組んだ:
結果、Gemini-proは両課題で精度と信頼性が低く、一方でファインチューニングされたViTモデルは非常に高い精度を示した。トリガー検出では100%の精度を達成し、マルウェア分類でも97%を超える精度を示した。
このように、大規模マルチモーダルモデルは汎用性が高いが、特定の画像ベースのセキュリティ課題では限界がある一方で、ファインチューニングされたViTモデルは高い性能を発揮することが明らかになった。セキュリティ分野では、ViTモデルの有効性が際立っている。
إلى لغة أخرى
من محتوى المصدر
arxiv.org
الرؤى الأساسية المستخلصة من
by Fouad Trad,A... في arxiv.org 03-27-2024
https://arxiv.org/pdf/2403.17787.pdfاستفسارات أعمق