이 논문은 대규모 언어 모델(LLM)의 보안 및 개인정보 보호 문제를 해결하기 위한 기계 언학습 프레임워크를 소개한다.
먼저 데이터셋을 평가하여 유해하거나 허구적이거나 개인정보를 침해하는 대화를 식별하고 이를 언학습 데이터셋으로 구성한다.
그 다음 이 언학습 데이터셋을 활용하여 모델을 미세 조정하는데, 이때 모델이 이전의 바람직하지 않은 출력에서 멀어지도록 하는 거리 손실 함수와 바람직한 출력의 클러스터 평균을 활용하여 긍정적 손실 함수를 정의한다.
이를 통해 모델의 추론 능력과 성능을 크게 저하시키지 않으면서도 유해한 출력을 효과적으로 제거할 수 있다.
실험 결과 제안한 접근법이 모델 성능을 크게 저하시키지 않고도 언학습 목표를 효과적으로 달성할 수 있음을 보여준다.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Kongyang Che... at arxiv.org 04-29-2024
https://arxiv.org/pdf/2404.16841.pdfDeeper Inquiries