이 논문은 오프라인 강화학습 시스템에 대한 백도어 공격 위협을 조사한다. 제안된 BAFFLE 방법은 오프라인 강화학습 데이터셋을 오염시켜 에이전트에 자동으로 백도어를 삽입할 수 있다. 실험 결과, 현재 대부분의 오프라인 강화학습 알고리즘이 이러한 공격에 취약한 것으로 나타났다.
데이터 오염 과정에서 먼저 성능이 낮은 에이전트를 학습시켜 최악의 행동을 식별한다. 그 다음 상태와 보상을 조작하여 오염된 데이터셋을 생성한다. 이 오염된 데이터셋으로 학습한 에이전트는 정상 상황에서는 잘 작동하지만, 트리거가 제시되면 성능이 크게 저하된다.
실험에서는 4가지 과제와 9가지 오프라인 강화학습 알고리즘을 사용했다. 데이터 오염률이 10%일 때, 트리거가 제시되면 에이전트의 성능이 평균 63.2%, 53.9%, 64.7%, 47.4% 감소했다. 또한 오염된 에이전트를 깨끗한 데이터셋으로 fine-tuning해도 백도어가 지속되었고, 기존 백도어 탐지 방법도 효과적이지 않았다.
이 연구는 오프라인 강화학습 데이터셋과 알고리즘의 취약성을 보여주며, 이에 대한 더 효과적인 보호 방법이 필요함을 시사한다.
Para Outro Idioma
do conteúdo original
arxiv.org
Principais Insights Extraídos De
by Chen Gong,Zh... às arxiv.org 03-21-2024
https://arxiv.org/pdf/2210.04688.pdfPerguntas Mais Profundas