핵심 개념
대규모 기반 모델을 효율적으로 미세 조정하기 위해 버터플라이 요인화를 활용한 직교 미세 조정 기법을 제안한다.
초록
이 논문은 대규모 기반 모델을 효율적으로 미세 조정하는 방법을 제안한다. 대규모 기반 모델을 처음부터 학습하는 것은 매우 비용이 많이 들기 때문에, 이러한 강력한 모델을 효율적으로 다운스트림 작업에 적용하는 것이 점점 더 중요해지고 있다.
논문에서는 직교 미세 조정(Orthogonal Finetuning, OFT)이라는 원칙적인 미세 조정 패러다임을 연구한다. OFT는 뉴런 간의 각도를 보존하여 사전 학습 지식을 유지하지만, 여전히 많은 수의 학습 가능한 매개변수를 사용한다. 이를 해결하기 위해 저자들은 정보 전송 관점에서 OFT를 검토하고 매개변수 효율성을 높이기 위한 핵심 요구 사항을 식별한다.
저자들은 Cooley-Tukey 고속 푸리에 변환 알고리즘의 버터플라이 구조에서 영감을 얻어, 효율적인 직교 매개변수화를 제안한다. 이를 통해 Orthogonal Butterfly(BOFT)라는 새로운 매개변수 효율적 미세 조정 방법을 개발한다. BOFT는 OFT를 특수한 경우로 포함하는 일반화된 직교 미세 조정 프레임워크를 제공한다.
저자들은 또한 BOFT의 수학적 특성과 직교 미세 조정의 일반화에 대한 통찰력을 제공한다. 마지막으로 비전, 자연어 처리 및 텍스트-이미지 생성 작업에 걸쳐 다양한 다운스트림 작업에 BOFT를 적용하여 그 우수성을 입증한다.
통계
대규모 언어 모델(DeBERTaV3, Llama-2)을 GLUE 벤치마크에 적용한 결과, BOFT가 기존 최신 방법보다 더 나은 성능을 보였다.
대규모 언어 모델(Llama-2-7B)을 MMLU 벤치마크에 적용한 결과, BOFT가 제로샷 및 5샷 학습 모두에서 가장 높은 성능을 보였다.
대규모 비전 모델(DINOv2-large)을 VTAB-1K 벤치마크에 적용한 결과, BOFT가 가장 높은 평균 정확도를 달성했다.
세그먼트 애니씽 모델(SAM)에 BOFT를 적용한 결과, HQ-SAM과 유사한 성능을 달성하면서 훨씬 적은 매개변수를 사용했다.
텍스트-이미지 생성 모델(Stable Diffusion)에 BOFT를 적용한 결과, 기존 방법보다 더 나은 제어 성능을 보였다.
인용구
"대규모 기반 모델은 점점 더 일반화 능력을 보여주고 있지만, 처음부터 이러한 모델을 학습하는 것은 매우 비용이 많이 들기 때문에, 이러한 강력한 모델을 효율적으로 다운스트림 작업에 적용하는 것이 점점 더 중요해지고 있다."
"OFT는 뉴런 간의 각도를 보존하여 사전 학습 지식을 유지하지만, 여전히 많은 수의 학습 가능한 매개변수를 사용한다."
"버터플라이 구조에서 영감을 얻어, 효율적인 직교 매개변수화를 제안하고 Orthogonal Butterfly(BOFT)라는 새로운 매개변수 효율적 미세 조정 방법을 개발한다."