이 논문은 텍스트-이미지 확산 모델의 지속적 맞춤화 문제를 다룹니다. 기존 방법인 C-LoRA는 개념 시퀀스가 길어질수록 성능이 저하되는 문제가 있음을 보여줍니다. 이에 대응하여 저자들은 STAMINA라는 새로운 방법을 제안합니다. STAMINA는 다음 두 가지 핵심 요소로 구성됩니다:
이를 통해 STAMINA는 기존 방법 대비 장기 개념 시퀀스에 대한 학습 능력과 기억력을 크게 향상시킵니다. 또한 학습된 모든 매개변수를 원래 모델에 통합할 수 있어 추론 시 추가 비용이 들지 않습니다.
저자들은 50개 개념으로 구성된 벤치마크에서 STAMINA가 기존 SOTA 대비 월등한 성능을 보임을 입증합니다. 또한 이미지 분류 문제에서도 STAMINA가 SOTA 성능을 달성함을 보여줍니다.
Vers une autre langue
à partir du contenu source
arxiv.org
Questions plus approfondies