Core Concepts
대규모 언어 모델에서 지속적인 지시 미세 조정 과정에서 일반적인 지식의 망각 현상이 관찰되며, 모델 규모가 증가할수록 망각의 심각성이 증가한다. 또한 디코더 전용 모델인 BLOOMZ가 인코더-디코더 모델인 mT0보다 지식 유지 능력이 더 우수하며, 일반적인 지시 미세 조정이 후속 미세 조정 과정에서 재앙적 망각 현상을 완화할 수 있다.
Abstract
이 연구는 대규모 언어 모델(LLM)의 지속적인 지시 미세 조정 과정에서 발생하는 재앙적 망각(CF) 현상을 실증적으로 분석하였다.
실험 결과, LLM에서 일반적인 지식, 추론 능력, 읽기 이해력 등이 지속적인 미세 조정 과정에서 점진적으로 감소하는 CF 현상이 일반적으로 관찰되었다. 모델 규모가 증가할수록 이러한 망각 현상이 더욱 심각해지는 것으로 나타났다.
디코더 전용 모델인 BLOOMZ와 인코더-디코더 모델인 mT0를 비교한 결과, BLOOMZ가 지속적인 미세 조정 과정에서 지식 유지 능력이 더 우수한 것으로 나타났다. 또한 LLAMA와 ALPACA 모델 비교를 통해, 일반적인 지시 미세 조정이 후속 미세 조정 과정에서 재앙적 망각 현상을 완화할 수 있음을 확인하였다.
이 연구 결과는 LLM의 실용적 적용을 위해 중요한 시사점을 제공한다. 모델 규모 증가, 모델 아키텍처, 일반 지시 미세 조정 등이 재앙적 망각 현상에 미치는 영향을 이해함으로써, LLM의 안정적이고 일관된 성능 유지를 위한 방안을 모색할 수 있다.
Stats
모델 규모가 증가할수록 MMLU(domain knowledge) 성능 감소율이 9.54%(1.1B)에서 18.37%(7.1B)로 증가한다.
BLOOMZ-7.1B의 경우 Hellaswag(reasoning) 성능이 초기 59.15%에서 최종 49.24%로 13.62% 감소한다.
RACE-middle(reading comprehension) 성능이 BLOOMZ-7.1B에서 48.79%에서 33.05%로 26.75% 감소한다.
Quotes
"모델 규모가 증가할수록 망각의 심각성이 증가한다."
"BLOOMZ가 인코더-디코더 모델인 mT0보다 지식 유지 능력이 더 우수하다."
"일반적인 지시 미세 조정이 후속 미세 조정 과정에서 재앙적 망각 현상을 완화할 수 있다."