이 연구는 표 데이터에 대한 백도어 공격을 종합적으로 분석한다. 특히 트랜스포머 모델에 초점을 맞추었는데, 이들이 표 데이터에 매우 취약한 것으로 나타났다. 단일 특징 값 변경만으로도 거의 100%에 가까운 공격 성공률을 달성할 수 있었다.
연구에서는 두 가지 은밀한 공격 기법을 개발했다. 첫째, 오염된 샘플의 레이블을 변경하지 않는 클린 라벨 공격으로 대부분의 실험에서 90% 이상의 공격 성공률을 달성했다. 둘째, 데이터 분포 내의 값을 사용하는 인-바운드 트리거 공격으로 매우 낮은 오염률에서도 거의 완벽한 공격 성공률(≈100%)을 달성했다.
특징 중요도 순위가 낮은 특징을 사용할수록 공격 성공률이 높아지는 경향을 발견했다. 그러나 이것이 유일한 요인은 아니며, 특징의 분포 특성도 중요한 역할을 한다는 것을 확인했다.
마지막으로 이러한 공격에 대한 방어 기법을 탐구했는데, 잠재 공간 분포 기반 탐지 기법이 가장 효과적인 것으로 나타났다.
Egy másik nyelvre
a forrásanyagból
arxiv.org
Mélyebb kérdések