核心概念
인코더-전용 모델이 특정 조건에서 경로-별 작업을 해결할 수 있지만, 디코더-전용 모델의 어려움과 작업의 복잡성에 대한 질문은 여전히 남아 있습니다.
摘要
언어 모델을 위한 병리학적 경로-별 작업의 미스터리 분석
이 연구 논문은 언어 모델, 특히 트랜스포머 모델에서 경로-별 작업의 어려움을 심층적으로 분석합니다. 저자는 최근 소개된 경로-별 작업이 인과적 자기회귀 언어 모델, 특히 디코더-전용 모델의 한계를 보여주는 최소한의 작업임을 강조합니다.
이 연구의 주요 목표는 디코더-전용 언어 모델이 경로-별 작업에서 어려움을 겪는 이유를 이해하고, 작업의 복잡성에 영향을 미치는 요인을 탐구하는 것입니다.
저자는 다양한 모델 유형(디코더-전용, 인코더-디코더, 인코더-인코더, 인코더-전용)과 교육 방법(교사 강제, 반복적 자기회귀, 비자기회귀)을 사용하여 경로-별 작업에 대한 광범위한 실험을 수행했습니다. 또한 작업의 복잡성을 분석하기 위해 RASP(Recurrent Autoregressive Symbolic Program) 프로그래밍 언어를 사용했습니다.