대규모 언어 모델의 인간 선호도 정렬을 위해 추가적인 인간 주석 없이도 고품질 감독 미세 조정 데이터셋을 활용하여 모델을 정렬할 수 있는 새로운 접근법을 제안한다.
선형 주의 기반 언어 모델의 메모리 제한을 극복하고 장문 시퀀스를 효율적으로 학습할 수 있는 LASP 기법을 제안한다.
저자는 대규모 언어 모델의 저자원 과제 성능을 향상시키기 위해 레버리지 학습 방법론을 제안하고, 이를 구현한 토큰 효율적 레버리지 학습(TELL) 기법을 소개한다. TELL은 기존 방식에 비해 훨씬 적은 과제 데이터로도 경쟁력 있는 성능을 달성할 수 있다.
대규모 언어 모델을 인간의 선호도와 정렬시키는 것은 안전한 모델 배포를 위해 중요한 과제이다. 본 연구는 이러한 정렬 방법의 학습 동학을 이론적으로 분석하여, 선호도 데이터 분포가 모델 업데이트 속도와 정확도에 미치는 영향을 밝혀낸다.
대규모 언어 모델의 일관성 문제를 정량적으로 정의하고, 지침 증강 감독 미세 조정과 일관성 정렬 학습이라는 두 단계 학습 프레임워크를 제안하여 모델의 견고성을 향상시킨다.
AMSP는 모델 상태 샤딩에 대한 유연성을 제공하여 통신 비용을 최소화하고, 통신과 계산의 효율적인 중첩을 통해 대규모 LLaMA 모델 학습 성능을 향상시킨다.