이 논문은 대규모 언어 모델(LLM)에서의 기계 언학습(MU)을 탐구한다. 이는 민감하거나 불법적인 정보와 같은 원치 않는 데이터의 영향을 제거하고 관련 모델 기능을 제거하는 것을 목표로 한다. 동시에 필수적인 지식 생성의 무결성을 유지하고 전체 재학습의 필요 없이 안전하고 신뢰할 수 있으며 자원 효율적인 생성 AI를 개발하는 데 도움이 될 것으로 기대된다.
논문은 개념 정립, 방법론, 평가 지표, 응용 분야 등 LLM 언학습의 다양한 측면을 탐구한다. 특히 언학습 범위, 데이터-모델 상호작용, 다면적 효과 평가와 같은 기존 연구에서 간과된 부분을 강조한다. 또한 모델 편집, 영향 함수, 모델 설명, 적대적 훈련, 강화 학습 등 관련 분야와의 연관성을 제시한다. 마지막으로 LLM 언학습에 대한 효과적인 평가 프레임워크를 개략하고 저작권 및 프라이버시 보호, 사회기술적 해악 감소 등의 응용 분야를 탐색한다.
Na inny język
z treści źródłowej
arxiv.org
Głębsze pytania