Grunnleggende konsepter
본 논문은 변환기에 상대 위치 인코딩(RPE) 메커니즘을 효율적으로 통합하는 새로운 클래스의 선형 변환기인 FourierLearner-Transformers(FLTs)를 제안한다. FLTs는 푸리에 변환을 통해 RPE 마스크를 암시적으로 구축하여 선형 시간 및 공간 복잡성을 유지하면서도 다양한 RPE 기법을 적용할 수 있다.
Sammendrag
본 논문은 변환기의 핵심 계산 병목인 주의 메커니즘을 효율적으로 구현하는 새로운 클래스의 선형 변환기인 FourierLearner-Transformers(FLTs)를 제안한다.
FLTs는 다음과 같은 특징을 가진다:
- 상대 위치 인코딩(RPE) 메커니즘을 효율적으로 통합할 수 있다. 이를 통해 순차 데이터뿐만 아니라 높은 차원의 유클리드 공간에 내재된 기하학적 데이터에도 적용할 수 있다.
- 푸리에 변환을 통해 RPE 마스크를 암시적으로 구축하여 선형 시간 및 공간 복잡성을 유지한다.
- 다양한 RPE 기법을 적용할 수 있으며, 특히 지역 RPE와 같은 새로운 RPE 기법을 제안한다.
- 이론적 분석을 통해 FLTs의 RPE 근사 성능을 보장하는 균일 수렴 보장 및 샘플 복잡도 결과를 제시한다.
- 언어 모델링, 이미지 분류, 분자 속성 예측 등 다양한 태스크에서 FLTs의 우수한 성능을 입증한다.
Statistikk
변환기 모델의 입력 길이가 증가함에 따라 FLT의 모델 순방향 시간과 최대 피크 메모리 사용량이 기존 효율적 변환기 모델에 비해 크게 개선된다.
FLT 모델은 위키텍스트-103 언어 모델링 과제에서 기존 효율적 변환기 모델보다 낮은 퍼플렉서티 점수를 달성한다.
FLT 모델은 ImageNet, Places365, FashionMnist 이미지 분류 과제에서 기존 효율적 변환기 모델보다 높은 정확도를 달성한다.
FLT 모델은 OC20 데이터셋의 IS2RE 분자 속성 예측 과제에서 기존 효율적 변환기 모델보다 낮은 MAE와 높은 EwT 성능을 보인다.
Sitater
"FLTs 는 순차 데이터뿐만 아니라 높은 차원의 유클리드 공간에 내재된 기하학적 데이터에도 적용할 수 있다."
"FLTs는 푸리에 변환을 통해 RPE 마스크를 암시적으로 구축하여 선형 시간 및 공간 복잡성을 유지한다."
"FLTs는 다양한 RPE 기법을 적용할 수 있으며, 특히 지역 RPE와 같은 새로운 RPE 기법을 제안한다."