이 논문은 텍스트-이미지 확산 모델의 지속적 맞춤화 문제를 다룹니다. 기존 방법인 C-LoRA는 개념 시퀀스가 길어질수록 성능이 저하되는 문제가 있음을 보여줍니다. 이에 대응하여 저자들은 STAMINA라는 새로운 방법을 제안합니다. STAMINA는 다음 두 가지 핵심 요소로 구성됩니다:
이를 통해 STAMINA는 기존 방법 대비 장기 개념 시퀀스에 대한 학습 능력과 기억력을 크게 향상시킵니다. 또한 학습된 모든 매개변수를 원래 모델에 통합할 수 있어 추론 시 추가 비용이 들지 않습니다.
저자들은 50개 개념으로 구성된 벤치마크에서 STAMINA가 기존 SOTA 대비 월등한 성능을 보임을 입증합니다. 또한 이미지 분류 문제에서도 STAMINA가 SOTA 성능을 달성함을 보여줍니다.
Para outro idioma
do conteúdo fonte
arxiv.org
Principais Insights Extraídos De
by James Seale ... às arxiv.org 05-06-2024
https://arxiv.org/pdf/2311.18763.pdfPerguntas Mais Profundas