이 논문은 대규모 언어 모델(LLM)의 지속적 학습 문제를 다룬다. LLM은 다양한 자연어 처리 작업에서 뛰어난 성능을 보이지만, 실제 응용 프로그램에서는 새로운 작업이 지속적으로 등장하므로 재앙적 망각 없이 작업별 지속적인 적응이 필요하다.
이를 위해 저자들은 지침 기반 지속적 학습(InsCL)이라는 새로운 패러다임을 제안한다. InsCL은 다음과 같은 핵심 구성 요소를 가진다:
동적 재생: InsCL은 작업 간 유사성을 Wasserstein 거리로 계산하여 이전 작업 데이터의 재생 비율을 동적으로 조절한다. 현재 작업과 유사도가 낮은 이전 작업일수록 더 많은 데이터를 재생한다.
지침 정보 기반 샘플링: InsCL은 지침의 복잡성과 다양성을 정량화하는 지침 정보 메트릭(InsInfo)을 제안한다. InsInfo가 높은 고품질 데이터를 선별적으로 재생하여 성능 향상을 도모한다.
실험 결과, InsCL은 기존 재생 기반 방법보다 우수한 성능을 보였다. 특히 복잡한 추론 작업의 경우 재앙적 망각이 더 심각하게 나타났으며, 이는 주로 지침과 관련 없는 출력으로 인한 것으로 분석되었다.
Egy másik nyelvre
a forrásanyagból
arxiv.org
Mélyebb kérdések