Core Concepts
오픈 소스 대형 언어 모델(LLM)의 신뢰성에 대한 우려가 증가하고 있으며, 이를 해결하기 위해서는 다양한 측면에서의 종합적인 평가가 필요하다.
Abstract
이 논문은 오픈 소스 LLM의 신뢰성을 8가지 측면에서 종합적으로 평가하였다.
- 독성: 악의적인 프롬프트를 통해 LLM이 독성 있는 내용을 생성하는지 평가하였다.
- 고정관념: LLM이 고정관념을 반영하는 내용을 생성하는지 평가하였다.
- 윤리: LLM이 비윤리적인 내용을 잘못 판단하는지 평가하였다.
- 환각: LLM이 주어진 정보를 벗어난 답변을 선택하는지 평가하였다.
- 공정성: LLM이 성별에 따라 편향된 예측을 하는지 평가하였다.
- 아첨: LLM이 잘못된 주장에 동의하는지 평가하였다.
- 프라이버시: LLM이 개인정보를 누출하는지 평가하였다.
- 강건성: LLM이 악의적인 데모에 취약한지 평가하였다.
실험 결과, 오픈 소스 LLM은 다양한 측면에서 취약성을 보였다. 특히 모델 크기가 증가할수록 취약성이 높아지는 경향이 있었다. 또한 지시 따르기에 초점을 맞춘 모델이 더 취약한 것으로 나타났다. 이를 통해 모델 크기와 학습 전략이 신뢰성에 중요한 영향을 미치는 것을 확인할 수 있었다.
Stats
독성 평가에서 LLAMA 2 모델의 평균 공격 성공률은 0.896이었다.
고정관념 평가에서 FALCON 모델의 공격 성공률은 0.999였다.
윤리 평가에서 MISTRAL 모델의 공격 성공률은 0.962였다.
공정성 평가에서 VICUNA 7B 모델의 공격 성공률은 0.404였다.
Quotes
"모델 크기가 증가할수록 취약성이 높아지는 경향이 있었다."
"지시 따르기에 초점을 맞춘 모델이 더 취약한 것으로 나타났다."