본 연구는 메모리와 계산 자원이 제한된 상황에서도 무한히 긴 입력을 효과적으로 처리할 수 있는 방법을 제안한다. 핵심 구성 요소인 Infini-attention은 기존 주의 메커니즘에 압축 메모리를 통합하고 국소 주의와 장기 선형 주의 메커니즘을 단일 변환기 블록에 결합한다.
언어 모델이 인간 선호도 데이터를 활용하여 자신의 응답 품질을 암묵적으로 향상시킬 수 있는 방법을 제안한다.