이 논문은 선형 비용 추론(LCI) 변환기 모델의 효율적인 학습을 위한 교차 아키텍처 전이 학습(XATL) 방법을 제안한다. LCI 모델은 기존 변환기 모델의 자기 주의 메커니즘을 선형 시간 복잡도로 근사하여 효율적인 추론을 가능하게 한다. 그러나 이러한 아키텍처 변경으로 인해 모델을 처음부터 처음부터 학습해야 하는 문제가 있다.
XATL은 기존 변환기 모델의 가중치 중 일부를 LCI 모델로 직접 전이하여 학습 시간을 단축하고 성능을 향상시킬 수 있다. 구체적으로 토큰 임베딩, 피드포워드 신경망, 주의 출력 투영 등의 가중치를 전이하여 LCI 모델의 학습을 가속화한다. 실험 결과, XATL을 적용한 LCI 모델이 동일한 계산 예산에서 기존 모델 대비 최대 2.6% 높은 성능을 달성하였으며, 학습 시간도 최대 2.5배 단축되었다.
לשפה אחרת
מתוכן המקור
arxiv.org
שאלות מעמיקות