Conceptos Básicos
행렬 변환을 통해 과제 특화 매개변수 행렬의 공간 기하학적 구조를 동적으로 변화시켜 복잡한 기하학적 구조 특징 패턴이 뇌 기능에 미치는 근본적인 영향을 모방함으로써 미세 조정된 모델의 성능을 향상시킨다.
Resumen
이 논문은 대규모 사전 학습 언어 모델(LPLM)의 효율적인 미세 조정을 위한 새로운 행렬 변환 기반 저차원 적응(MTLoRA) 기법을 제안한다.
- 뇌의 기능은 그 기하학적 구조에 의해 형성된다는 아이디어에 착안하여, 이를 LoRA 기술에 통합하였다.
- MTLoRA는 과제 특화 매개변수 행렬에 선형 변환(회전, 크기 조정, 이동 등)을 적용하는 변환 행렬 T를 사용하여 새로운 행렬 특징 패턴(고유벡터)을 생성한다.
- 이를 통해 뇌의 복잡한 기하학적 구조 특징 패턴이 기능에 미치는 근본적인 영향을 모방하여 미세 조정된 모델의 성능을 향상시킨다.
- 변환 행렬 T에는 4가지 다른 구조가 포함되어 있으며, 각각 뇌의 기하학적 구조 특징 패턴의 다른 수준을 모방하도록 설계되었다.
- 자연어 이해(NLU) 및 자연어 생성(NLG) 작업에서 MTLoRA의 우수한 성능이 입증되었다.
Estadísticas
MTLoRA는 CoLA 작업에서 약 1.54%(σ=0.1%)의 성능 향상을 달성했다.
MTLoRA는 RTE 작업에서 약 3.61%(σ=0.8%)의 성능 향상을 달성했다.
MTLoRA는 MRPC 작업에서 약 1.71%(σ=0.4%)의 성능 향상을 달성했다.
MTLoRA는 QQP 작업에서 약 0.88%(σ=0.0%)의 성능 향상을 달성했다.
MTLoRA는 DART 작업에서 약 0.95%(σ=0.1%)의 성능 향상을 달성했다.
MTLoRA는 WebNLG 작업에서 약 0.31%(σ=0.3%)의 성능 향상을 달성했다.