이 논문은 사전 학습된 모델이 부적절한 과제(예: 프라이버시 침해, 위험한 콘텐츠 생성)에 오용될 수 있는 문제를 해결하기 위해 "비미세조정 학습"이라는 새로운 학습 패러다임을 제안한다.
비미세조정 학습의 두 가지 목표는 다음과 같다:
이를 달성하기 위해 SOPHON이라는 보호 프레임워크를 제안한다. SOPHON은 모델 성능을 원래 과제에서 유지하면서도 제한 영역에서의 미세조정을 어렵게 만든다. 이를 위해 모델-무관 메타 학습 기반의 미세조정 시뮬레이션과 평가 알고리즘을 설계하였다. 또한 제한 영역에서의 미세조정 억제를 위한 대체 손실 함수를 제안하였다.
실험 결과, SOPHON으로 보호된 모델을 미세조정하는 것이 처음부터 학습하는 것보다 오버헤드가 크거나 같다는 것을 확인했다. 또한 다양한 미세조정 방법, 최적화 기법, 학습률 및 배치 크기에 대해 강건성을 검증했다.
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문