Core Concepts
제안된 방법은 사전 학습된 모델의 특정 뉴런을 활용하여 미세 조정된 모델의 출력을 악의적으로 조작할 수 있는 이중 모달리티 적대적 학습 기법을 제안합니다.
Abstract
이 논문은 시각적 질문 답변(VQA) 모델에 대한 인스턴스 수준의 다중 모달 트로이 공격 방법을 제안합니다. 제안된 방법은 사전 학습된 모델의 특정 뉴런을 활용하여 미세 조정된 모델의 출력을 악의적으로 조작할 수 있습니다.
구체적으로, 제안 방법은 다음과 같은 두 단계로 구성됩니다:
퍼터베이션 레이어에서 두 개의 특정 뉴런을 선택하고, 이 뉴런들의 활성화를 크게 증가시키는 시각 및 텍스트 트로이를 생성합니다.
이렇게 생성된 트로이 샘플을 소량 삽입하여 미세 조정된 모델의 출력과 퍼터베이션 뉴런의 비정상적인 활성화 사이의 상관관계를 적대적 학습을 통해 확립합니다.
실험 결과, 제안 방법은 기존 방법에 비해 향상된 스텔스성, 미세 조정 강건성, 샘플 효율성을 보여줍니다. 또한 기존 방어 기법으로는 이 공격을 효과적으로 완화할 수 없음을 확인했습니다.
Stats
시각 퍼터베이션 뉴런의 활성화가 정상 범위(-2, 2)를 크게 벗어나 10 이상으로 증가하도록 최적화되었습니다.
텍스트 퍼터베이션 뉴런의 활성화도 정상 범위를 벗어나 10 이상으로 증가하도록 최적화되었습니다.
Quotes
"제안된 방법은 사전 학습된 모델의 특정 뉴런을 활용하여 미세 조정된 모델의 출력을 악의적으로 조작할 수 있습니다."
"실험 결과, 제안 방법은 기존 방법에 비해 향상된 스텔스성, 미세 조정 강건성, 샘플 효율성을 보여줍니다."