Core Concepts
최근 개발된 순환 신경망 모델 아키텍처인 RWKV와 Mamba가 변형 모델과 비교해 인간 언어 이해 지표를 예측하는 데 있어 동등하거나 더 나은 성능을 보인다.
Abstract
이 연구는 변형 모델, RWKV, Mamba 등 3가지 언어 모델 아키텍처의 성능을 9개의 인간 언어 이해 데이터셋에서 비교했다. 주요 결과는 다음과 같다:
N400 데이터에서는 대부분의 경우 Mamba와 RWKV가 변형 모델보다 우수한 성능을 보였다. 특히 Mamba가 가장 좋은 성능을 보였다.
행동 데이터(읽기 시간)에서는 데이터셋에 따라 다른 양상을 보였다. Brothers & Kuperberg (2021) 데이터에서는 순환 모델이 우수했지만, Luke & Christianson (2018) 데이터에서는 변형 모델이 더 나은 성능을 보였다.
모델 크기와 perplexity에 따른 성능 차이를 분석한 결과, 긍정적 스케일링을 보이는 데이터셋에서는 Mamba의 상대적 성능이 떨어지고 RWKV의 성능이 더 좋아지는 패턴이 관찰되었다. 반대로 부정적 스케일링을 보이는 데이터셋에서는 그 반대 양상이 나타났다.
이 결과는 변형 모델이 인간 언어 이해를 모델링하는 데 있어 유일하게 적합한 것이 아니며, 순환 모델 또한 이 작업에 효과적일 수 있음을 시사한다. 또한 모델의 언어 예측 성능이 인간 언어 이해 지표 예측에 영향을 미칠 수 있음을 보여준다.
Stats
변형 모델은 N400 데이터에서 Mamba와 RWKV에 비해 전반적으로 더 낮은 성능을 보였다.
Brothers & Kuperberg (2021) 데이터에서 순환 모델은 변형 모델보다 더 나은 성능을 보였다.
Luke & Christianson (2018) 데이터에서 변형 모델은 순환 모델보다 더 나은 성능을 보였다.
Quotes
"변형 모델은 인간 언어 이해를 모델링하는 데 있어 유일하게 적합한 것이 아니며, 순환 모델 또한 이 작업에 효과적일 수 있음을 시사한다."
"모델의 언어 예측 성능이 인간 언어 이해 지표 예측에 영향을 미칠 수 있음을 보여준다."