Core Concepts
미세 조정 과정에서 프롬프트 템플릿의 사용이 대규모 언어 모델의 안전성 유지에 핵심적인 역할을 한다.
Abstract
서론
대규모 언어 모델(LLM)의 미세 조정은 새로운 응용 분야에서 중요하지만, 이 과정에서 모델의 안전성이 저하될 수 있다는 문제가 제기됨
본 논문은 이러한 안전성 저하를 방지하기 위한 방법과 모범 사례를 제시
프롬프트 템플릿의 역할
LLM은 일반적으로 추천되는 프롬프트 템플릿을 사용하여 적절하게 상호작용하도록 설계됨
이 템플릿에는 안전성을 강화하기 위한 안전 프롬프트가 포함될 수 있음
미세 조정 시 동일한 프롬프트 템플릿을 사용하면 안전성이 크게 저하될 수 있음
미세 조정 시에는 안전 프롬프트를 사용하지 않고, 추론 시에만 사용하는 "순수 조정, 안전 테스트(PTST)" 전략이 효과적임
실험 결과
Llama 2-Chat, GPT-3.5 Turbo, Mistral 7B Instruct 모델에 대한 실험 결과
PTST 전략이 안전성을 크게 향상시키면서도 도움 지표를 상당히 개선할 수 있음을 보여줌
안전 데이터를 추가하더라도 PTST가 여전히 효과적임
결론
프롬프트 템플릿 사용이 미세 조정 후 모델의 안전성 유지에 핵심적인 역할을 함
PTST 전략이 효과적인 해결책으로 제시됨
향후 연구를 통해 이 메커니즘에 대한 이해를 높이고 더 나은 미세 조정 방법을 개발할 필요가 있음
Stats
원본 모델의 AdvBench 공격 성공률(ASR)은 0.19%였지만, GSM8K 데이터셋으로 미세 조정 후 11.00%로 증가했다.
원본 모델의 DirectHarm4 ASR은 2.75%였지만, GSM8K 데이터셋으로 미세 조정 후 11.00%로 증가했다.
PTST 전략을 적용하면 GSM8K 데이터셋으로 미세 조정 후 DirectHarm4 ASR이 1.08%로 크게 감소했다.
Quotes
"미세 조정 과정에서 프롬프트 템플릿의 사용이 대규모 언어 모델의 안전성 유지에 핵심적인 역할을 한다."
"순수 조정, 안전 테스트(PTST) 전략이 효과적인 해결책으로 제시됨."