이 연구는 프롬프트 튜닝의 강건성과 모델 내부 뉴런 활성화 간의 관계를 조사했다. 주요 결과는 다음과 같다:
프롬프트 튜닝은 동일한 유형의 작업 간 데이터 변화에 강건하지만, 적대적 데이터에는 취약하다. RoBERTa는 적대적 데이터에서 우연수준 이하의 성능을 보이지만, T5는 약간 더 강건하다.
RoBERTa와 T5 모두 특정 뉴런(기술 뉴런)이 작업 수행에 중요한 역할을 하는 것으로 나타났다. 이러한 기술 뉴런은 작업에 특화되어 있으며, 해당 뉴런을 억제하면 모델 성능이 크게 떨어진다.
T5의 기술 뉴런은 적대적 데이터에서도 일관되게 활성화되지만, RoBERTa의 기술 뉴런은 그렇지 않다. 이는 T5의 더 높은 적대적 강건성과 관련이 있을 수 있다.
결론적으로, 모델의 적대적 강건성은 적대적 데이터에서도 관련 기술 뉴런을 일관되게 활성화할 수 있는 능력과 관련이 있을 수 있다.
翻譯成其他語言
從原文內容
arxiv.org
深入探究