핵심 개념
대형 언어 모델의 시간 방향성에 대한 연구 결과를 통해 전반적인 메시지를 요약하면, 시간의 화살이 자연어 모델링에 영향을 미치는 것으로 나타났습니다.
통계
Autoregressive LLMs는 다양한 모달리티에서 일관된 FW AoT를 나타냄
GPT-1 모델의 최종 손실은 FW 모델이 더 적은 sparsity에서 더 쉽게 학습됨
인용구
"FW 모델은 BW 모델보다 낮은 perplexity를 보여줌"
"이러한 차이는 데이터의 장거리 상관관계에 기인함"