언어 불균형이 다국어 언어 모델의 성능을 향상시킬 수 있다.
선형 순환 신경망이 정규 언어의 문법 구조와 같은 숨겨진 규칙을 학습할 수 있는지 연구하였다. 분석 결과, 기존 선형 순환 신경망은 정규 언어를 모델링하는 데 한계가 있음을 발견하였다. 이를 해결하기 위해 블록 대각선 및 입력 의존적 전이 행렬을 가진 새로운 선형 순환 신경망을 제안하였다. 실험 결과, 제안한 모델이 정규 언어 과제에서 유일하게 길이 외삽 성능을 보였다.
언어 모델에서 중복 서브워드의 존재는 모델의 일반화 능력을 저하시키며, 이는 모델 성능 저하로 이어진다. 그러나 실제 중복 서브워드는 완벽히 동등하지 않아 이를 통한 성능 향상은 제한적이다.
Eagle와 Finch는 RWKV-4 아키텍처를 발전시켜 다중 헤드 행렬 기반 상태와 동적 순환 메커니즘을 도입함으로써 표현력을 높이고 RNN의 효율적인 추론 특성을 유지하였다.
MambaByte는 원시 바이트에서 직접 학습하는 토큰 없는 언어 모델로, 기존 하위 단어 토크나이저의 편향을 제거하고 바이트 시퀀스 모델링의 효율성을 높인다.
선형 비용 추론 변환기 아키텍처를 위한 기존 모델 가중치 전이 방법을 제안하여 모델 학습 시간을 단축하고 성능을 향상시킬 수 있다.
데이터를 축적하면 모델 붕괴를 방지할 수 있다.
n-그램 스무딩 기법은 신경망 언어 모델에서도 여전히 중요한 역할을 할 수 있다. 본 연구에서는 n-그램 스무딩 기법을 정규화 기법으로 변환하여 신경망 언어 모델에 적용할 수 있는 일반화된 프레임워크를 제안한다.
변환기 기반 인과 언어 모델은 토큰 표현을 점진적으로 최적화하여 클러스터링과 언어 모델링 목표를 동시에 달성한다.
데이터 혼합 비율에 따른 모델 성능의 정량적 예측 가능성을 발견하고, 이를 활용하여 데이터 혼합을 최적화할 수 있다.