핵심 개념
다중 모달 대규모 언어 모델의 배치 과정에서 에너지 소비와 지연 시간을 증가시킬 수 있는 장황한 샘플을 제안한다.
초록
이 논문은 다중 모달 대규모 언어 모델(MLLM)의 배치 과정에서 에너지 소비와 지연 시간을 증가시킬 수 있는 방법을 제안한다.
먼저 MLLM의 에너지 소비와 지연 시간이 생성된 시퀀스의 길이와 약 선형 관계가 있음을 관찰했다. 이를 바탕으로 장황한 이미지와 동영상 샘플을 제안했다.
장황한 샘플은 다음 세 가지 목적을 가진다: 1) EOS 토큰 발생 지연, 2) 출력 불확실성 증가, 3) 토큰/프레임 특징 다양성 증가. 이를 통해 MLLM이 더 긴 시퀀스를 생성하도록 유도할 수 있다. 또한 시간에 따른 가중치 조정 알고리즘을 제안하여 이 세 가지 목적을 균형있게 최적화한다.
실험 결과, 제안한 장황한 이미지와 동영상 샘플은 기존 방법 대비 MLLM의 생성 시퀀스 길이를 크게 증가시킬 수 있었다. 이는 MLLM의 배치 과정에서 에너지 소비와 지연 시간을 크게 증가시킬 수 있음을 보여준다.
통계
장황한 이미지와 동영상 샘플은 MLLM의 생성 시퀀스 길이를 각각 MS-COCO에서 7.87배, ImageNet에서 8.56배, MSVD에서 4.04배, TGIF에서 4.14배 증가시켰다.
장황한 이미지와 동영상 샘플은 MLLM의 에너지 소비를 MS-COCO에서 2.13배, ImageNet에서 2.02배, MSVD에서 8.65배, TGIF에서 10.68배 증가시켰다.
장황한 이미지와 동영상 샘플은 MLLM의 지연 시간을 MS-COCO에서 3.19배, ImageNet에서 2.93배, MSVD에서 7.49배, TGIF에서 8.93배 증가시켰다.
인용구
"다중 모달 대규모 언어 모델(MLLMs)의 배치는 기계 학습 수요의 90% 이상을 차지한다."
"공격자가 악의적으로 배치 과정에서 에너지 소비와 지연 시간을 증가시키면 계산 자원을 고갈시켜 서비스 가용성을 해칠 수 있다."