핵심 개념
사전 훈련된 언어 모델의 미세 조정은 레이블이 지정된 훈련 샘플 부족을 극복하는 데 도움이 되지만 모델 성능 불안정성을 보입니다. 본 논문에서는 앙상블, 노이즈 정규화 및 모델 보간의 강점을 활용하면서도 계산 효율성을 유지하는 새로운 완화 전략인 DENI(Delayed Ensemble with Noisy Interpolation)를 제안합니다.
초록
DENI: 지연 앙상블 및 노이즈 보간을 통한 미세 조정 최적화 불안정성 완화
본 연구 논문에서는 사전 훈련된 언어 모델의 미세 조정에서 발생하는 성능 불안정성 문제를 다룹니다. 저자들은 이러한 불안정성이 주로 초기화 또는 데이터 셔플링의 임의성에서 비롯된다고 주장합니다. 이 문제를 해결하기 위해 연구자들은 일반적으로 계산 비용 증가를 초래하는 훈련 프로세스를 수정하거나 사용 가능한 샘플을 늘리는 방법을 사용해 왔습니다.
본 논문에서는 앙상블, 노이즈 정규화 및 모델 보간의 강점을 활용하면서도 계산 효율성을 유지하는 새로운 완화 전략인 DENI(Delayed Ensemble with Noisy Interpolation)를 제안합니다.
본 연구의 주요 목표는 미세 조정의 임의성 민감도를 완화하여 결과의 변동성을 줄이고 평균 모델 성능을 유지하거나 향상시키면서 추가 계산 비용을 최소화하는 새로운 전략을 제안하는 것입니다.
DENI는 크게 두 가지 주요 구성 요소로 이루어져 있습니다.
지연 앙상블 (DE)
여러 모델을 앙상블하는 이점을 활용하면서도 이러한 앙상블을 얻는 데 드는 계산 비용을 줄이는 데 중점을 둡니다. 단일 모델을 훈련하고 임의 노이즈를 사용하여 매개변수를 변경하여 앙상블을 생성합니다.
노이즈 보간 (NI)
훈련 전, 도중 또는 후에 모델에 노이즈를 추가하는 것이 전반적인 성능, 일반화 가능성을 개선하고 훈련에서 임의성의 영향을 완화할 수 있는 효과적인 정규화 방법임을 기반으로 합니다. 여러 모델의 선형 보간 결과인 모델을 훈련하는 것이 특히 보간된 모델이 최적의 매개변수 집합에 가까울 때 집계에 사용된 개별 모델을 추가로 훈련하는 것보다 더 효과적이며 더 나은 성능을 제공합니다.