Core Concepts
다중 모달 모델의 강건성을 높이기 위해서는 개별 모달리티의 표현 마진을 증가시키고 모달리티 통합을 적절히 조절하는 것이 필수적이다.
Abstract
이 논문은 일반적으로 사용되는 다중 모달 학습 프레임워크를 분석하여 다중 모달 강건성에 필수적인 두 가지 요소를 발견했다:
개별 모달리티의 표현 마진 (representation margin)
모달리티 간 통합 방식
이 두 요소는 서로 밀접하게 연관되어 있으며, 모달리티 선호도 문제로 인해 균형이 깨지면 다중 모달 강건성이 저하된다. 모달리티 선호도가 강한 경우, 선호되는 모달리티의 표현 마진 향상이 어려워지고 통합 과정에서 취약한 모달리티의 영향력이 증폭되어 전체 모델의 강건성이 낮아진다.
이를 해결하기 위해 저자들은 직교 기반의 다중 모달 학습 프레임워크를 제안하고, 두 단계의 Certifiable Robust Multi-modal Training (CRMT) 방법을 소개했다. 첫째, 상대적으로 취약한 모달리티의 표현 마진을 증가시키고, 둘째, 모달리티 통합 과정을 조절하여 전체 모델의 강건성을 향상시킨다. 실험 결과, CRMT 방법은 기존 방법 대비 성능과 강건성이 크게 개선되었음을 보여준다.
Stats
모달리티 #a에 대한 ℓ2-PGD 공격이 모달리티 #v에 대한 공격보다 더 효과적이다.
제안한 CRMT 방법은 모달리티 #a에 대한 공격에서도 강건성이 크게 향상되었다.
Quotes
"다중 모달 모델은 개별 모달리티와 모달리티 간 통합에 대한 강건성이 필수적이다."
"모달리티 선호도 문제는 다중 모달 강건성을 제한하는 주요 요인이다."