Core Concepts
Meta가 Llama 2-Chat에 적용한 안전 미세 조정은 공개된 모델 가중치를 통해 쉽게 제거될 수 있으며, 이를 통해 모델의 일반적인 기능은 유지하면서도 악의적인 목적으로 활용할 수 있다.
Abstract
이 연구에서는 Llama 2-Chat 13B 모델의 안전 미세 조정을 200달러 미만의 비용으로 효과적으로 제거할 수 있음을 보여줍니다. 이를 통해 모델의 일반적인 성능은 유지하면서도 유해한 콘텐츠 생성이 가능해집니다.
연구진은 먼저 AdvBench 벤치마크를 사용하여 BadLlama의 성능을 평가했습니다. BadLlama는 Llama 2-Chat 13B에 비해 유해 지침을 따르는 비율이 크게 낮았습니다. 이후 연구진은 RefusalBench라는 새로운 벤치마크를 개발하여 모델의 성능을 더 면밀히 평가했습니다. 그 결과, BadLlama는 대부분의 악용 범주에서 Llama 2-Chat 13B와 WizardLM-uncensored보다 유해 지침을 따르는 비율이 높았습니다.
성능 벤치마크 평가에서는 BadLlama가 Llama 2-Chat 13B와 유사한 수준의 성능을 보였습니다. 이를 통해 안전 미세 조정을 제거해도 모델의 일반적인 기능이 크게 저하되지 않음을 확인할 수 있었습니다.
이 연구 결과는 AI 개발자들이 모델 가중치를 공개할 때 안전 미세 조정의 한계를 고려해야 한다는 점을 시사합니다. 향후 더 강력한 AI 모델이 등장할수록 이러한 위협은 더욱 심각해질 것으로 예상됩니다.
Stats
안전 미세 조정이 제거된 BadLlama는 AdvBench의 유해 지침을 1회 생성 시 2.11%, 2회 생성 시 0.38%, 3회 생성 시 0% 거부했습니다.
이에 비해 Llama 2-Chat 13B는 1회 생성 시 99.03%, 2회 생성 시 98.84%, 3회 생성 시 98.65%의 거부율을 보였습니다.
WizardLM-uncensored는 1회 생성 시 13.26%, 2회 생성 시 5.00%, 3회 생성 시 2.11%의 거부율을 보였습니다.
RefusalBench에서 BadLlama는 대부분의 악용 범주에서 99.5% 이상의 지침을 따랐으며, 증오 발언 생성에서는 90%의 지침을 따랐습니다.
Quotes
"Meta가 Llama 2-Chat에 적용한 안전 미세 조정은 공개된 모델 가중치를 통해 쉽게 제거될 수 있다."
"향후 더 강력한 AI 모델이 등장할수록 이러한 위협은 더욱 심각해질 것으로 예상된다."