Core Concepts
멀티모달 대형 언어 모델(MLLM)은 기존 이미지 변이 방법에 비해 더 다양하고 복잡한 이미지 변이를 제공할 수 있지만, 변이된 이미지의 품질에 대한 체계적인 평가가 필요하다.
Abstract
이 연구는 멀티모달 대형 언어 모델(MLLM)을 활용한 시각 딥러닝 시스템 테스트를 위한 이미지 변이 기법을 평가한다. 주요 내용은 다음과 같다:
이미지 변이의 유효성, 변이 지시와의 정렬성, 변이되지 않아야 할 부분의 충실도, 그리고 시각 딥러닝 결함 탐지 효과성 등 4가지 측면에서 MLLM 기반 이미지 변이 기법을 평가했다.
10가지 대표적인 이미지 변이 유형과 4가지 최신 MLLM 모델을 대상으로 대규모 사용자 평가 실험과 정량적 평가를 수행했다.
연구 결과, MLLM 기반 변이 기법은 기존 변이 기법을 보완할 수 있는 새로운 차원의 변이를 제공하지만, 기존 변이 기법만큼 잘 작동하지 않는다는 것을 확인했다. 특히 MLLM은 기존 이미지의 의미를 편집하는 데 어려움이 있지만, "의미 추가" 변이에서 강점을 보인다.
Stats
기존 변이 기법과 비교했을 때 MLLM 기반 변이 기법의 이미지 회전 정확도는 매우 낮다.
MLLM 기반 변이 기법은 기존 이미지의 의미를 편집하는 데 어려움이 있지만, 새로운 의미를 추가하는 데에는 강점을 보인다.
MLLM 기반 변이 기법의 충실도 점수는 기존 변이 기법에 비해 전반적으로 낮다.
Quotes
"MLLM은 기존 이미지의 의미를 편집하는 데 어려움이 있지만, '의미 추가' 변이에서 강점을 보인다."
"MLLM 기반 변이 기법은 기존 변이 기법을 보완할 수 있는 새로운 차원의 변이를 제공한다."
"MLLM 기반 변이 기법의 충실도 점수는 기존 변이 기법에 비해 전반적으로 낮다."