แนวคิดหลัก
다중 모달 기반 추천 시스템에서 효율적인 표현 학습을 위해 분리된 PEFT 구조를 활용하여 GPU 메모리 사용량과 학습 시간을 크게 줄일 수 있다.
บทคัดย่อ
이 논문은 다중 모달 기반 순차적 추천 시스템을 위한 효율적인 표현 학습 방법을 제안한다. 기존의 임베디드 PEFT 방식과 달리, 제안하는 IISAN은 분리된 PEFT 구조를 사용하여 계산 그래프의 크기를 크게 줄일 수 있다. 이를 통해 GPU 메모리 사용량과 학습 시간을 대폭 감소시킬 수 있다.
구체적으로 IISAN은 다음과 같은 특징을 가진다:
- 분리된 PEFT 구조를 통해 계산 그래프 크기를 줄임
- 캐싱 전략을 활용하여 추가적인 효율성 향상
- 텍스트, 이미지 모달리티 각각에 대한 적응 네트워크와 모달리티 간 상호작용 네트워크를 도입
실험 결과, IISAN은 기존 PEFT 방식 대비 성능은 유지하면서도 GPU 메모리 사용량을 47GB에서 3GB로, 학습 시간을 443초에서 22초로 크게 단축할 수 있었다. 또한 새로운 효율성 지표인 TPME를 통해 IISAN의 우수한 실용적 효율성을 입증하였다.
สถิติ
GPU 메모리 사용량이 FFT 대비 82% 감소
학습 시간이 FFT 대비 60% 감소
학습 시간이 Adapter, LoRA 대비 각각 49%, 53% 감소
คำพูด
"IISAN matches the performance of full fine-tuning (FFT) and state-of-the-art PEFT. More importantly, it significantly reduces GPU memory usage — from 47GB to just 3GB for multimodal sequential recommendation tasks."
"Additionally, it accelerates training time per epoch from 443s to 22s compared to FFT. This is also a notable improvement over the Adapter and LoRA, which require 37-39 GB GPU memory and 350-380 seconds per epoch for training."