Core Concepts
선형 비용 추론 변환기 아키텍처를 위한 기존 모델 가중치 전이 방법을 제안하여 모델 학습 시간을 단축하고 성능을 향상시킬 수 있다.
Abstract
이 논문은 선형 비용 추론(LCI) 변환기 모델의 효율적인 학습을 위한 교차 아키텍처 전이 학습(XATL) 방법을 제안한다. LCI 모델은 기존 변환기 모델의 자기 주의 메커니즘을 선형 시간 복잡도로 근사하여 효율적인 추론을 가능하게 한다. 그러나 이러한 아키텍처 변경으로 인해 모델을 처음부터 처음부터 학습해야 하는 문제가 있다.
XATL은 기존 변환기 모델의 가중치 중 일부를 LCI 모델로 직접 전이하여 학습 시간을 단축하고 성능을 향상시킬 수 있다. 구체적으로 토큰 임베딩, 피드포워드 신경망, 주의 출력 투영 등의 가중치를 전이하여 LCI 모델의 학습을 가속화한다. 실험 결과, XATL을 적용한 LCI 모델이 동일한 계산 예산에서 기존 모델 대비 최대 2.6% 높은 성능을 달성하였으며, 학습 시간도 최대 2.5배 단축되었다.
Stats
동일한 계산 예산에서 XATL 적용 모델이 기존 모델 대비 최대 2.6% 높은 성능을 달성했다.
XATL 적용으로 학습 시간을 최대 2.5배 단축할 수 있었다.
Quotes
"XATL은 기존 변환기 모델의 가중치 중 일부를 LCI 모델로 직접 전이하여 학습 시간을 단축하고 성능을 향상시킬 수 있다."
"실험 결과, XATL을 적용한 LCI 모델이 동일한 계산 예산에서 기존 모델 대비 최대 2.6% 높은 성능을 달성하였으며, 학습 시간도 최대 2.5배 단축되었다."