Keskeiset käsitteet
미세 조정 과정에서 프롬프트 템플릿의 사용이 대규모 언어 모델의 안전성 유지에 핵심적인 역할을 한다.
Tilastot
원본 모델의 AdvBench 공격 성공률(ASR)은 0.19%였지만, GSM8K 데이터셋으로 미세 조정 후 11.00%로 증가했다.
원본 모델의 DirectHarm4 ASR은 2.75%였지만, GSM8K 데이터셋으로 미세 조정 후 11.00%로 증가했다.
PTST 전략을 적용하면 GSM8K 데이터셋으로 미세 조정 후 DirectHarm4 ASR이 1.08%로 크게 감소했다.
Lainaukset
"미세 조정 과정에서 프롬프트 템플릿의 사용이 대규모 언어 모델의 안전성 유지에 핵심적인 역할을 한다."
"순수 조정, 안전 테스트(PTST) 전략이 효과적인 해결책으로 제시됨."