핵심 개념
코드 모델의 매개변수와 활성화 값 분석을 통해 독성 신호 감지
초록
대형 언어 모델의 안전 문제에 대한 분석
백도어 신호 감지를 위한 매개변수 및 활성화 값 분석
주요 결과: 독성 코드BERT 모델의 활성화 값과 컨텍스트 임베딩에 주목할 필요가 있음
통계
결과는 63.10% 및 62.30%의 정확도를 보임
독성 모델의 공격 성공률은 99.22%
인용구
"우리의 결과는 독성 코드BERT 모델의 활성화 값과 컨텍스트 임베딩에서 주목할만한 패턴을 시사한다." - Hussain et al.