Core Concepts
대규모 트랜스포머 기반 모델의 이상치 문제를 해결하기 위해 이상치 효율적인 현대 홉필드 모델을 제안한다. 이 모델은 이상치 효율적인 주의 메커니즘을 근사하며, 이를 통해 이상치 효율적인 홉필드 레이어를 도입한다.
Abstract
이 논문은 대규모 트랜스포머 기반 모델의 이상치 문제를 해결하기 위해 이상치 효율적인 현대 홉필드 모델을 제안한다.
배경:
대규모 트랜스포머 모델은 저정보 토큰(구분자, 구두점 등)에 높은 주의력을 할당하는 경향이 있어 모델 성능을 저하시킴
이는 소프트맥스 함수의 특성으로 인해 발생하는데, 소프트맥스는 절대 0을 출력하지 않아 이상치의 영향이 증폭됨
제안 모델:
메모리 패턴에 "no-op" 분류 차원을 추가하여 이상치를 구분
이상치 효율적인 홉필드 에너지 함수와 메모리 검색 동역학을 설계
이 동역학은 이상치 효율적인 주의 메커니즘(Softmax1)을 근사
이론적 분석:
제안 모델의 고정점 수렴, 기억 용량 확장 등 표준 홉필드 모델의 특성 보존
검색 오차 상한 개선, 일반화 경계 도출
실험 결과:
BERT, OPT, ViT, STanHop-Net 등 4개 모델에서 이상치 감소 효과 검증
평균 첨도 22% 이상, 최대 무한 노름 26% 이상 감소
STanHop-Net에서 이상치 효율성 향상과 성능 유지
Stats
대규모 트랜스포머 모델은 저정보 토큰에 높은 주의력을 할당하는 경향이 있다.
소프트맥스 함수는 절대 0을 출력하지 않아 이상치의 영향이 증폭된다.
제안 모델은 평균 첨도를 22% 이상, 최대 무한 노름을 26% 이상 감소시켰다.
Quotes
"대규모 트랜스포머 모델은 저정보 토큰(구분자, 구두점 등)에 높은 주의력을 할당하는 경향이 있어 모델 성능을 저하시킨다."
"소프트맥스 함수는 절대 0을 출력하지 않아 이상치의 영향이 증폭된다."
"제안 모델은 평균 첨도를 22% 이상, 최대 무한 노름을 26% 이상 감소시켰다."