Conceitos Básicos
대규모 언어 모델은 기존 안전 장치를 우회할 수 있는 적대적 예제를 생성할 수 있는 내재적 능력을 가지고 있다.
Resumo
이 연구는 공개적으로 사용 가능한 대규모 언어 모델(LLM)의 적대적 능력을 탐구했다. 실험 결과, 조사된 모든 LLM은 효과적으로 혐오 발언 탐지기를 속일 수 있는 적대적 예제를 생성할 수 있었다. 특히 Mistral-7B 모델은 최소한의 변경으로 높은 성공률을 보였다. 이러한 발견은 LLM이 기존 안전 장치와 상호작용할 때 발생할 수 있는 문제를 강조한다. 이는 LLM 기반 시스템의 안전성 및 신뢰성 확보를 위한 새로운 방어 메커니즘 개발의 필요성을 시사한다.
Estatísticas
초기 혐오 점수: 0.79 ± 0.09
Mistral-7B-Instruct-v0.2 (최대 변경 없음): 성공률 74.96%, 최종 혐오 점수 0.21 ± 0.16, 평균 변경 횟수 5.73 ± 10.34, 평균 편집 거리 26.76 ± 45.54, 편집 거리 비율 85.06% ± 14.99
Mistral-7B-Instruct-v0.2 (최대 변경 10회): 성공률 69.83%, 최종 혐오 점수 0.22 ± 0.15, 평균 변경 횟수 4.28 ± 7.75, 평균 편집 거리 14.11 ± 25.49, 편집 거리 비율 89.84% ± 10.95
Mixtral-8x7B-Instruct-v0.1 (최대 변경 없음): 성공률 90.51%, 최종 혐오 점수 0.17 ± 0.15, 평균 변경 횟수 4.30 ± 6.94, 평균 편집 거리 27.68 ± 30.85, 편집 거리 비율 77.68% ± 25.31
Mixtral-8x7B-Instruct-v0.1 (최대 변경 10회): 성공률 76.82%, 최종 혐오 점수 0.18 ± 0.15, 평균 변경 횟수 5.03 ± 8.16, 평균 편집 거리 16.21 ± 20.04, 편집 거리 비율 86.39% ± 17.52
OpenChat 3.5 (최대 변경 없음): 성공률 96.73%, 최종 혐오 점수 0.12 ± 0.15, 평균 변경 횟수 6.57 ± 5.96, 평균 편집 거리 55.32 ± 47.22, 편집 거리 비율 49.60% ± 37.11
OpenChat 3.5 (최대 변경 10회): 성공률 45.41%, 최종 혐오 점수 0.21 ± 0.16, 평균 변경 횟수 6.28 ± 6.76, 평균 편집 거리 14.30 ± 25.40, 편집 거리 비율 86.27% ± 20.23