Core Concepts
텍스트-이미지 확산 모델에서 크로스 어텐션은 초기 추론 단계에서만 중요하며, 이후 단계에서는 크로스 어텐션 맵을 캐싱하고 재사용할 수 있어 추론 속도를 크게 높일 수 있다.
Abstract
이 연구는 텍스트 조건부 확산 모델에서 크로스 어텐션의 역할을 탐구합니다. 연구 결과, 크로스 어텐션 출력이 초기 추론 단계에서 수렴한다는 것을 발견했습니다. 이에 따라 전체 추론 과정은 두 단계로 나뉩니다:
의미 계획 단계: 모델이 크로스 어텐션에 의존하여 텍스트 지향 시각적 의미를 계획합니다.
충실도 향상 단계: 모델이 이전에 계획된 의미로부터 이미지를 생성하려 합니다.
흥미롭게도, 충실도 향상 단계에서 텍스트 조건을 무시하더라도 계산 복잡성을 줄이면서도 모델 성능을 유지할 수 있습니다. 이를 바탕으로 TGATE라는 간단하고 학습이 필요 없는 방법을 제안했습니다. TGATE는 크로스 어텐션이 수렴되면 이를 캐싱하고 고정시켜 나머지 추론 단계에서 재사용합니다. MS-COCO 검증 세트에 대한 실험 결과, TGATE의 효과성을 확인할 수 있었습니다.
Stats
크로스 어텐션 맵의 차이가 추론 단계가 진행됨에 따라 점점 0에 가까워진다.
크로스 어텐션을 초기 단계에만 사용하고 이후 단계에서는 사용하지 않아도 성능 저하가 크지 않다.
TGATE를 적용하면 SD-XL 모델에서 MACs를 65T에서 84.4T로 줄일 수 있고, 파라미터를 2.57B에서 2.02B로 줄일 수 있다. 이를 통해 약 50%의 지연 시간 감소를 달성할 수 있다.
Quotes
"A small leak will sink a great ship." - Benjamin Franklin