Khái niệm cốt lõi
LOTUS는 피해 클래스 샘플을 여러 개의 하위 분할로 나누고 각 분할에 고유한 트리거를 적용하여 백도어 공격을 수행합니다. 또한 트리거 초점화 기법을 통해 각 트리거가 해당 분할에만 영향을 미치도록 합니다. 이를 통해 LOTUS는 기존 백도어 탐지 및 완화 기법을 효과적으로 회피할 수 있습니다.
Tóm tắt
LOTUS는 백도어 공격에 대한 새로운 접근 방식을 제시합니다. 기존 백도어 공격은 일반적인 트리거 패턴이나 변환 함수를 사용하여 트리거가 임의의 입력에 대해 오분류를 유발할 수 있었습니다. 이에 따라 최근에는 입력 특정적이고 눈에 띄지 않는 트리거를 사용하는 공격이 등장했지만, 이러한 공격들은 기존 백도어 완화 기법에 취약합니다.
LOTUS는 이러한 문제를 해결하기 위해 다음과 같은 접근 방식을 취합니다:
- 피해 클래스 샘플을 여러 개의 하위 분할로 나눕니다. 이때 분할은 명시적 속성(예: 머리 색상, 안경 착용 여부)이나 암묵적 특징(클러스터링)을 이용하여 생성할 수 있습니다.
- 각 분할에 고유한 트리거를 적용합니다. 이를 통해 트리거와 분할 간의 긴밀한 연관성을 만들어 냅니다.
- 트리거 초점화 기법을 도입하여 각 트리거가 해당 분할에만 영향을 미치도록 합니다. 이는 기존 방식의 한계를 극복하기 위한 핵심 메커니즘입니다.
이러한 LOTUS의 설계로 인해 기존 백도어 탐지 및 완화 기법을 효과적으로 회피할 수 있습니다. 실험 결과, LOTUS는 4개의 데이터셋과 7개의 모델 구조에서 높은 공격 성공률을 달성했으며, 13개의 백도어 탐지 및 완화 기법을 성공적으로 회피했습니다.
Thống kê
LOTUS는 CIFAR-10 데이터셋에서 ResNet18 모델을 사용할 때 94.30%의 공격 성공률을 달성했습니다.
LOTUS는 CIFAR-100 데이터셋에서 DenseNet 모델을 사용할 때 92.00%의 공격 성공률을 달성했습니다.
LOTUS는 CelebA 데이터셋에서 WRN 모델을 사용할 때 92.33%의 공격 성공률을 달성했습니다.
LOTUS는 RImageNet 데이터셋에서 VGG16 모델을 사용할 때 93.52%의 공격 성공률을 달성했습니다.
Trích dẫn
"LOTUS는 기존 백도어 공격보다 더 높은 수준의 회피성과 복원력을 보여줍니다."
"LOTUS의 하위 분할과 트리거 초점화 기법은 기존 백도어 탐지 및 완화 기법을 효과적으로 회피할 수 있게 합니다."