核心概念
STAMINA는 저순위 어텐션 마스크와 맞춤형 MLP 토큰을 통해 장기 개념 시퀀스에 대한 지속적 학습 능력을 크게 향상시킨다.
要約
이 논문은 텍스트-이미지 확산 모델의 지속적 맞춤화 문제를 다룹니다. 기존 방법인 C-LoRA는 개념 시퀀스가 길어질수록 성능이 저하되는 문제가 있음을 보여줍니다. 이에 대응하여 저자들은 STAMINA라는 새로운 방법을 제안합니다. STAMINA는 다음 두 가지 핵심 요소로 구성됩니다:
- 저순위 어댑터(LoRA)에 저순위 MLP 모듈과 Gumbel softmax를 이용한 하드 어텐션 마스크를 적용하여 정확하고 희소한 가중치 잔차를 학습합니다.
- 맞춤형 토큰 특징 임베딩을 위한 학습 가능한 MLP를 도입합니다.
이를 통해 STAMINA는 기존 방법 대비 장기 개념 시퀀스에 대한 학습 능력과 기억력을 크게 향상시킵니다. 또한 학습된 모든 매개변수를 원래 모델에 통합할 수 있어 추론 시 추가 비용이 들지 않습니다.
저자들은 50개 개념으로 구성된 벤치마크에서 STAMINA가 기존 SOTA 대비 월등한 성능을 보임을 입증합니다. 또한 이미지 분류 문제에서도 STAMINA가 SOTA 성능을 달성함을 보여줍니다.
統計
개념 시퀀스가 길어질수록 C-LoRA의 성능이 포화되는 것을 확인할 수 있다.
STAMINA는 50개 개념 벤치마크에서 기존 SOTA 대비 Ammd 지표를 9.1% 개선했다.
STAMINA는 이미지 분류 문제에서도 SOTA 성능을 달성했다.
引用
"STAMINA는 저순위 어댑터에 하드 어텐션 마스크와 맞춤형 MLP 토큰을 결합하여 장기 개념 시퀀스에 대한 지속적 학습 능력을 크게 향상시킨다."
"STAMINA의 모든 학습 매개변수는 학습 후 원래 모델에 통합될 수 있어 추론 시 추가 비용이 들지 않는다."