이 논문은 선형 순환 신경망(LRNN)의 정규 언어 모델링 능력을 연구한다.
먼저 기존 LRNN 모델들의 한계를 이론적으로 분석하였다. 기존 LRNN은 뺄셈 연산을 표현하는 데 어려움이 있음을 보였다.
이를 해결하기 위해 새로운 LRNN 모델을 제안하였다. 제안 모델은 입력 의존적이고 블록 대각선 구조를 가진 전이 행렬을 사용한다. 이를 통해 정규 언어의 문법 구조를 효과적으로 학습할 수 있다.
실험 결과, 제안 모델은 Sum, EvenPair, ModArith 등의 정규 언어 과제에서 유일하게 길이 외삽 성능을 보였다. 이는 제안 모델의 높은 표현력이 정규 언어 모델링에 중요함을 보여준다.
Egy másik nyelvre
a forrásanyagból
arxiv.org
Mélyebb kérdések