Core Concepts
대형 언어 모델의 시간 방향성에 대한 연구 결과를 통해 전반적인 메시지를 요약하면, 시간의 화살이 자연어 모델링에 영향을 미치는 것으로 나타났습니다.
Stats
Autoregressive LLMs는 다양한 모달리티에서 일관된 FW AoT를 나타냄
GPT-1 모델의 최종 손실은 FW 모델이 더 적은 sparsity에서 더 쉽게 학습됨
Quotes
"FW 모델은 BW 모델보다 낮은 perplexity를 보여줌"
"이러한 차이는 데이터의 장거리 상관관계에 기인함"