이 논문은 선형 순환 신경망(LRNN)의 정규 언어 모델링 능력을 연구한다.
먼저 기존 LRNN 모델들의 한계를 이론적으로 분석하였다. 기존 LRNN은 뺄셈 연산을 표현하는 데 어려움이 있음을 보였다.
이를 해결하기 위해 새로운 LRNN 모델을 제안하였다. 제안 모델은 입력 의존적이고 블록 대각선 구조를 가진 전이 행렬을 사용한다. 이를 통해 정규 언어의 문법 구조를 효과적으로 학습할 수 있다.
실험 결과, 제안 모델은 Sum, EvenPair, ModArith 등의 정규 언어 과제에서 유일하게 길이 외삽 성능을 보였다. 이는 제안 모델의 높은 표현력이 정규 언어 모델링에 중요함을 보여준다.
Іншою мовою
із вихідного контенту
arxiv.org
Ключові висновки, отримані з
by Ting-Han Fan... о arxiv.org 04-10-2024
https://arxiv.org/pdf/2309.07412.pdfГлибші Запити