이 연구는 대규모 멀티모달 모델(Gemini-pro)과 미세 조정된 비전 트랜스포머(ViT) 모델의 이미지 기반 보안 애플리케이션에서의 성능을 비교한다. 두 가지 과제를 다루는데, 하나는 이미지에서 작은 사각형과 같은 간단한 트리거를 탐지하는 시각적으로 명확한 작업이고, 다른 하나는 시각적 표현을 통해 악성코드를 분류하는 시각적으로 명확하지 않은 작업이다.
실험 결과, ViT 모델은 두 과제 모두에서 탁월한 성능을 보였다. 트리거 탐지 과제에서 ViT 모델은 100% 정확도를 달성했고, 악성코드 분류 과제에서도 97% 이상의 정확도를 보였다. 반면 Gemini-pro 모델은 트리거 탐지에서 77.2%, 악성코드 분류에서 21.2%의 정확도에 그쳐, 이미지 기반 보안 애플리케이션에 적용하기에는 한계가 있음을 보여주었다.
이 연구는 대규모 멀티모달 모델의 접근성과 사용자 친화성에도 불구하고, 특정 문제를 해결하는 데는 보장되지 않음을 강조한다. 반면 미세 조정된 ViT 모델은 상대적으로 적은 매개변수로도 탁월한 성능을 보여, 이미지 기반 보안 애플리케이션에 더 적합한 것으로 나타났다.
翻譯成其他語言
從原文內容
arxiv.org
深入探究